メタデータに含めるべき情報とは?
メタデータとは、本体であるデータに関する付帯情報が記載されたデータです。
メタデータ検索では検索の目的やシステムの利用場面をあらかじめ検討し、検索用のメタデータを整備することで、より効率よく情報を探すことができます。そのためにはメタデータの中にどのような情報が含まれるべきなのでしょうか。
本記事ではメタデータに含めるべき情報についてまとめました。
メタデータに含めるべき情報
メタデータに含めるべき情報は記述的情報と主題情報に分けられます。
記述的情報
記述的情報とは、文書のタイトル、作成者名(著者名)、作成年月日(出版年月日)など、多くの場合は文書中に明記されている情報のことです。これらのメタデータは、データベース作成時に、文書を見つつ、基本的にそのまま各フィールドに入力していくことになります。ただし、文書の性質によっては必要な情報が本文に明記されていないこともあります。業務文書であればタイトルが必ずしもはっきり記載されているとは限らず、また、作成年月日の明記がない場合もあります。古典籍や歴史的文書なども同様です。
主題情報
記述的情報があれば、「○月○日に作成したはずの文書が見たい」とか、「○○というタイトルの文書が見たい」といった検索には対応することができます。しかし、文書を検索する際には、ある業務に関係する文書をまとめて閲覧したいとか、何か現在作成中の文書の参考になりそうな文書を見つけたいなど、内容・テーマ(主題)をキーワードにして情報資源を求めることもしばしばあります。
このような主題に基づく検索を「主題検索」と呼びますが、文書の主題情報は、必ずしも記述的情報の中や文書本文の中に明示されているとは限りません。主題検索に必要な主題情報については、その情報資源が関係する主題を誰かが判断し(主題判断)、キーワードや分類(この項の「分類」参照)の形で付与することが必要になります。
キーワード
情報資源の主題を表現したキーワードを付与することで、言葉による主題検索を実現することができます。図書の検索システムを例に取れば、犬の写真集を読みたいときに、タイトルを対象に「犬 写真集」と検索してもあまり多くの検索は出てきません。実際には犬の写真集であってもタイトルにそのまま書いてある図書は少ないからです。そこで、犬を扱った写真集には「犬‐(ハイフン)写真集」といったキーワードを付与し、検索の時にキーワードフィールドから「犬‐写真集」を選択すれば、犬の写真集を探したい人にとっては便利になります。
付与するキーワードには、自然語と統制語の2種類があります。
a. 自然語
自然語によるキーワードの付与では、キーワード付与者が主題を表す言葉を自由に選択できます。自由に、と言ってももちろん、犬の写真集に「猫-写真集」というキーワードを付与することもできる、というわけではありません。これは、同義語などがある場合にどの言葉を選ぶかは自由、という意味で、例えば「本」が主題の情報資源に「本」と付与するか、「図書」と付与するか、「書物」と付与するかは付与者の自由、ということになります。実際に学術論文の検索システムでは、著者が自然語によるキーワードの付与を行っています。
b. 統制語
自然語によるキーワードの付与は、自由度が高い反面、ある主題を表現する言葉が複数ある場合(前述の本の例など)、キーワードによる検索がうまくいかない例が多数発生します。「図書」というキーワードが付与された情報資源は、「本」というキーワードで検索してもヒットしません。
この問題を克服するために考えられたのが統制語です。ある主題を表す時にはどの言葉を用いるか、あるいは逆に、ある言葉はどの主題の意味で用いるかという取り決めを作り、主題ごとに使用できる言葉を限定します。このようにあらかじめ選定された一連の語彙(ごい)を統制語といいます。キーワード付与者はその取り決めに従ってキーワード(統制語)を付与し、検索する側もその取り決めに従って検索キーワード(統制語)を選びます。統制語をまとめたものを統制語彙集と呼び、代表的な統制語彙集として、図書館などの検索システムに用いられる件名標目表や、科学技術データベースなどで用いられるシソーラスがあります。
統制語による検索は、特に、学術論文などのように検索対象文書の数が非常に多い場合には便利なもので、伝統的に情報検索の世界で重視されてきました。しかし、インターネットとサーチエンジンが普及し、誰もが気軽に情報検索を行うようになった現代において、統制語検索は、検索の都度、統制語彙集を確認する必要があるため、利用者の数は限られています。統制語の付与作業だけでなく、独自に統制語彙集を作成する場合はそのコストもかかるため、統制語検索機能を備えるか否かは、構築するシステムの目的と照らし合わせ、慎重に検討することが必要でしょう。
分類
主題情報の付与には、キーワード以外に検索対象文書の分類を付与することも含まれます。
分類とは、「異なる性質を持つものを分けること」もしくは「似たような性質を持つものをまとめること」です。分類は主に、紙媒体などの物理的な情報資源を整理・配列、つまり、並べる際の基準として利用されますが、検索システムの中で集中・識別の手がかりとして用いられることもあります。
物理的に並べる場合には、ある情報資源はどこか一箇所にしか置くことができないため、ある文書は一箇所に分類される必要があります。しかし、実際には、ある文書の分類が必ずしも一つに定まるわけではありません(代表例として、「犬」と「猫」の2つの主題を扱った文書などは非常に多いです)。検索システム上では、一つの文書に複数の分類を付与しても特に不都合はなく、実際に多くの文書が複数の分類を持つことになります。また、物理的に文書を並べる場合には、分類はファイルタイトルなどに表示するため、並べ方がひと目で判断できるある程度の長さに収まった記号*1)にする必要があります。しかし、検索システム上においては、分類を必ずしも記号とする必要はなく、分類を表す言葉を設定してもよいのです。
必ずしも分類を一つに定める必要がなく、記号に置き換えなくても良いならば、検索システムにおいて、キーワードとは別に分類のフィールドを設ける必要はないように思われます(キーワードの検索ができれば充分に思われます)。現実の文書検索システムでも、利用者が分類フィールドを対象に検索を行うことはそれほど多くはありません。
しかし、一度キーワード検索を行った上で検索結果を特定の主題に絞り込んだり、検索の最初の時点から対象とする主題をある程度限定したりする場合には、キーワードよりも分類が重要となる場合があります。例えば、“生命医学分野の論文の中で、犬について論じたものを探す”などがあります。多くの検索システムでは、図書館の蔵書分類ほど細かな主題分類を付与する必要はありませんが、ある程度の大きなくくりの分類を備えておくことは、時に統制語の付与以上に有用です。また、目的に応じて、大分類・小分類・細分類など、何段階かの分類が必要になることもあります。
*1)記号:一般的にはアラビア数字とアルファベットと「.」などいくつかの記号を使用して、分類表に従った記号体系を構成します。
典拠コントロール
図書館の検索システムなどでは「典拠コントロール」と呼ばれる、異名同人・同名異人の問題を解決するための作業が行われています。
データベースに情報資源のメタデータを収録したテーブルのほかに、著者に関する情報(生没年や経歴など)をまとめたテーブルを別途作成し、著者名(「標目」や「別名」)のフィールドを設定します。例えばイギリスの劇作家、シェークスピアであれば、標目を「Shakespeare, William」とし、情報資源に標目と異なって出現した著者名を別名として「シェイクスピア, ウィリアム」、「シェークスピア」、「シェークスピヤ」「沙士比阿」などと入力します。するとその2つのテーブルを関連付けることで、著者名から異名同人をまとめて探すことができるようになります。また、生没年のフィールドを著者テーブルに設けることで、同名異人が区別できるようになります。いわば、人名版の統制語のようなものです。
他にも、古典作品でタイトル表記が複数ある場合に、それらをまとめて検索するために用いられることもあります(「統一タイトル」と呼びます)。
典拠コントロールは、目録データベース中にすでに存在する書誌レコードの検索漏れを防ぎ、重複レコードの発生を抑えることに有効であるため、書誌ユーティリティなどにおけるデータベースの品質管理にとって不可欠な機能です。
利用者によるメタデータの付与
現在ではAmazonをはじめ、様々なインターネット上の検索システムにおいて、利用者がレビューやコメントを投稿できる機能が用意されています。このような、利用者が付与した情報をメタデータ検索の一部に取り入れている手法の一つに、フォークソノミーがあります。
フォークソノミーとは、Web上にあるデータに対して利用者自身が自由に情報(タグ)を付与し、それをメタデータとして利用して情報の分類や検索に役立てる手法です。フォークソノミーは、「人々」を表す単語“Folk”と「分類」を表す単語“Taxonomy”を結合して考えだされた造語で、インターネットの普及と利用者数の増加に伴って現れた、情報資源組織化の新たな方法です。起源の中に「分類」を表す語を含んでいますが、実際には分類記号ではなくキーワードを使用します。
フォークソノミーは、自身がブックマークしたWebサイトやそのサイトに対するコメントなどを他のユーザーと共有できる、ソーシャルブックマークと呼ばれるサービスの中で用いられています。それらのサービスでは、利用者が自身のブックマークしたサイトに、その内容を表すキーワードである「タグ」を併せて付けることができます。さらに、自分だけではなく他者の付けたタグの中身を検索・閲覧できるため、例えば、誰かが「図書館」というタグをつけたWebサイトを探す、といったことができます。ただしタグの使い方は個々の利用者に一任されており、同義語・類義語・多義語の統制はありません。フォークソノミーを活用した具体例としては「はてなブックマーク」*1) などがあります。
インターネット上に散らばるWebサイトや動画サイトなどの投稿動画のように、膨大な量の情報資源がある場合、特定の個人や組織がその内容を確認し、組織だってキーワードを付与することは困難です。そのような場合に、不特定の、非常に多くの利用者が自身のために付けたタグを活用するフォークソノミーが威力を発揮します。逆に言えば多数のサービス利用者がいないと成り立たない手法でもあり、社内文書の組織化などにはフォークソノミーは役立ちません。図書館の蔵書検索システムなどでも、フォークソノミーを導入した事例がありましたが、殆どが失敗しています。
Amazonなどで本を探すと、メタデータ中に全く検索した文字が含まれていない、関連のなさそうな図書でもたまにヒットすることがありますが、これはユーザーレビューやコメントも検索の対象に含んでいるためです。ユーザーレビューやコメントについても、厳密にはメタデータ検索というよりも次項で扱う全文検索の対象となるものですが、多数のサービス利用者がいなければ検索が成り立たない点は、フォークソノミーと同様です。社外向けに、非常に多くの利用者が見込まれるサービスを提供する場合には、利用者によって付与された情報を検索に活用するのも、一考に値するかもしれません。
*1)はてなブックマーク
まとめ
本記事では、私たちが日頃利用しているインターネットの情報検索や組織内外で利用できるデータベースシステムも含めて、情報を探すことを前提として蓄積、整理された情報であり、その検索性の向上のため様々な工夫が凝らされていることを解説しました。ご参考になりましたでしょうか。
電子文書管理についてお知りになりたい場合は、文書管理に関する様々なテーマや課題についてコンサルティングからシステム開発・運用に至るまで一貫したサービスをご提供し、500社以上の実績がある日本レコードマネジメントへお気軽にお問い合わせくださいませ。