DX時代の情報資産管理ポータルサイト

カテゴリ
タグ
  1. TOP
  2. 電子文書管理の基礎知識
  3. 知っているようで知らない? 情報検索の仕組み

知っているようで知らない? 情報検索の仕組み

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2022/10/25
知っているようで知らない? 情報検索の仕組み

情報の検索については、皆さんが必要に応じて行っている日常的な行動ではないでしょうか。例えばGoogleやYahoo!などのサーチエンジンで気になるお店を調べることも、iTunesで聞きたい音楽を探すことも、現在ではスマートフォンやパソコンで簡単に行えます。しかし、調べることが便利になっている反面、必要な情報を探し出すのは以前よりもむしろ難しくなっていると考える人もいます。

その考えの背景として、デジタライゼーションが急激に進行する社会では、適切な情報を迅速かつ効率的に入手し、十分に活用することが、より一層求められていることがあるようです。

本記事では情報検索の仕組みについて、そのアウトラインをまとめてみました。


 

情報検索とは?

「情報検索」の定義を見てみると、「あらかじめ組織化して大量に蓄積されている情報の集合から、ある特定の情報要求を満たす情報の集合を抽出する*1)」となっています。

もっとも簡単な情報検索の例は、アドレス帳で連絡先の電話番号を調べることです。この場合、情報の集合は知人などの氏名と電話番号であり、たいていは氏名の音順に並べてありますので、連絡先を氏名の音順に並んだリストから照合して、必要な情報すなわち電話番号を取り出すことができます。つまりアドレス帳では、情報が体系的に整理されていて、検索するための手段(ツール)が提供されています。

また別の例ですが、「昨年作成されたある業務に関する文書を読みたい」という場合、無作為に、適当に積んであった文書の中から目当てのものを探そうとすれば、目当ての文書が見つかるまで、全ての文書に目を通さねばなりません。このような探し方は情報検索とは呼べません。情報検索は、利用の目的をあらかじめ想定し、それに見合った形で情報を整理した上、さらに検索のための手段を提供することにより実現するものだからです。

情報検索の対象となるデータの集合体は主に、文書・テキスト文字列、画像、音声などになりますが、本記事では、主として文書をコンピューター上で検索するシステムを構築・提供することを念頭に置き、検索の基礎や検索システムを提供する上で検討すべき点についてご紹介します。

*1)日本図書館情報学会用語辞典編集委員会編. 図書館情報学用語辞典. 第4版, 丸善出版, 2013, 284p. より

 

メタデータ検索

全文検索とメタデータ検索

コンピューター上で文書検索を実現する方法は、以下の2種類に大別できます。

  • 全文検索
  • メタデータ検索

全文検索とは、GoogleやYahooなどのサーチエンジンのように文書の中身そのものを検索対象とする手法です。一方、メタデータ検索とは、図書館の蔵書検索システムにみられるように、対象文書のタイトルや著者名など、文書の内容そのものではなく、その文書の文脈や背景に関する情報を検索対象とする手法です。

文書や図書などの情報資源は、それ自体、何らかの「データ」を記録したものです。これに対し、文書のタイトルや作成者名などは、情報資源というデータに関する何らかの文脈、背景を表していると同時に、それ自体も「データ」であると言えます。このような「データに関するデータ」のことを「メタデータ」と呼びます。

全文検索とメタデータ検索にはそれぞれ利点と欠点があります。全文検索では文書の中身そのもの全てを検索することができるようにあらかじめ処理しますが、それは基本的に機械的に処理することが可能で、あまり人手をかける必要がありません(逆に人手をかけていては全文検索の実現は不可能です)。

一方で、全文検索では検索がうまくいかない場合もあります。例えば電子書籍の全文検索システムの場合、その中から夏目漱石の『こころ』を検索しようと「こころ」と入力しても、「こころ」という単語を含む大量の図書が見つかってしまいます。「夏目漱石 こころ」と検索すればある程度は数を限定できますが、『こころ』に関する批評・研究も一緒に出てきてしまうなど、意外と厄介です(GoogleやYahoo!などのサーチエンジンでは比較的簡単に検索できますが、これは後述する工夫が取り入れられているためです)。

一方、メタデータ検索では検索の目的やシステムの利用場面をあらかじめ検討し、検索用のメタデータを整備することで、より効率よく情報を探すことができます。『こころ』であれば、タイトルを対象に検索を行えば良いわけです。その反面、メタデータ検索においては人手をかけたデータの整備が必要であり、整備を怠ってしまうとメタデータ検索は実現できません。

それぞれの利点と欠点を考慮し、どちらを用いるのか、あるいは両方を構築するのかを検討する必要があります。
 

メタデータ検索に求められる要件

メタデータ検索は、従来、辞書のように特定の見出しから情報を探せるようにした冊子体の目録や、情報資源を構成する様々なデータを記述したカードをなんらかの見出し順に並べたカード目録によって実現されていました。しかし現在では、メタデータ検索は、専らコンピューター上で動作するデータベースで実現されています。

構築にあたっては、多くの場合、情報資源1件の情報を1レコードとし、タイトルや作成者などの情報資源の要素1つずつを1フィールドとするテーブルが作成される仕組みです。メタデータ検索システムの目的は、当然、情報資源を検索できるようにすることですが、細かく分けると「集中」と「識別」という2つの機能を満たすことが求められます。

集中

「集中」とは、利用者の検索目的に合致するものとして、どのような情報資源があるかをまとめて(集中して)見せられるようにする機能です。図書の検索を例にとれば、「村上春樹の本が読みたい」とか、「沖縄の歴史に関する本が読みたい」という場合には、その目的にかなった情報資源を検索結果の一覧にまとめて表示する必要があります。言い換えれば、利用者が「集中」して見たいと思いそうな、検索の手がかりとなる項目、上記例でいえば、作成者(村上春樹)、タイトルや主題(沖縄の歴史)を切り出して、データベースのフィールドとして設定しなければなりません。

識別

「識別」とは、検索の結果見つかった情報資源が、利用者にとって必要なものかを判断できるような情報を提示する機能です。電子文書のように本文を利用者が直接確認できる場合には、本文を見れば良いと思うかもしれませんが、検索の結果、提示された文書についていちいち本文を見て中身を確認しなければ判断できないとなれば、利用者にとって負担になります。本文まで見なくとも、できるかぎり検索結果の一覧などに提示された情報から目当てのものかを見分けられるようにするために、一覧に表示する項目もメタデータの中に含める必要があります。

 

メタデータ中に含めるべき情報

メタデータ中に含めるべき情報は記述的情報と主題情報に分けられます。

記述的情報

記述的情報とは、文書のタイトル、作成者名(著者名)、作成年月日(出版年月日)など、多くの場合は文書中に明記されている情報のことです。これらのメタデータは、データベース作成時に、文書を見つつ、基本的にそのまま各フィールドに入力していくことになります。ただし、文書の性質によっては必要な情報が本文に明記されていないこともあります。業務文書であればタイトルが必ずしもはっきり記載されているとは限らず、また、作成年月日の明記がない場合もあります。古典籍や歴史的文書なども同様です。

主題情報

記述的情報があれば、「○月○日に作成したはずの文書が見たい」とか、「○○というタイトルの文書が見たい」といった検索には対応することができます。しかし、文書を検索する際には、ある業務に関係する文書をまとめて閲覧したいとか、何か現在作成中の文書の参考になりそうな文書を見つけたいなど、内容・テーマ(主題)をキーワードにして情報資源を求めることもしばしばあります。

このような主題に基づく検索を「主題検索」と呼びますが、文書の主題情報は、必ずしも記述的情報の中や文書本文の中に明示されているとは限りません。主題検索に必要な主題情報については、その情報資源が関係する主題を誰かが判断し(主題判断)、キーワードや分類(この項の「分類」参照)の形で付与することが必要になります。

主題を表現したキーワードを付与
言葉による主題検索を実現することができます。図書の検索システムを例に取れば、犬の写真集を読みたいときに、タイトルを対象に「犬 写真集」と検索してもあまり多くの検索は出てきません。実際には犬の写真集であってもタイトルにそのまま書いてある図書は少ないからです。そこで、犬を扱った写真集には「犬‐(ハイフン)写真集」といったキーワードを付与し、検索の時にキーワードフィールドから「犬‐写真集」を選択すれば、犬の写真集を探したい人にとっては便利になります。付与するキーワードには、自然語と統制語の2種類があります。

a. 自然語によるキーワードの付与
自然語によるキーワードの付与ではキーワード付与者が主題を表す言葉を自由に選択できます。自由に、と言ってももちろん、犬の写真集に「猫-写真集」というキーワードを付与することもできる、というわけではありません。これは、同義語などがある場合にどの言葉を選ぶかは自由、という意味で、例えば「本」が主題の情報資源に「本」と付与するか、「図書」と付与するか、「書物」と付与するかは付与者の自由、ということになります。実際に学術論文の検索システムでは、著者が自然語によるキーワードの付与を行っています。

b. 統制語
統制語によるキーワードの付与は、自由度が高い反面、ある主題を表現する言葉が複数ある場合(前述の本の例など)、キーワードによる検索がうまくいかない例が多数発生します。「図書」というキーワードが付与された情報資源は、「本」というキーワードで検索してもヒットしません。

この問題を克服するために考えられたのが統制語です。ある主題を表す時にはどの言葉を用いるか、あるいは逆に、ある言葉はどの主題の意味で用いるかという取り決めを作り、主題ごとに使用できる言葉を限定します。このようにあらかじめ選定された一連の語彙(ごい)を統制語といいます。キーワード付与者はその取り決めに従ってキーワード(統制語)を付与し、検索する側もその取り決めに従って検索キーワード(統制語)を選びます。統制語をまとめたものを統制語彙集と呼び、代表的な統制語彙集として、図書館などの検索システムに用いられる件名標目表や、科学技術データベースなどで用いられるシソーラスがあります。

統制語による検索は、特に、学術論文などのように検索対象文書の数が非常に多い場合には便利なもので、伝統的に情報検索の世界で重視されてきました。しかし、インターネットとサーチエンジンが普及し(全文検索については後述しますが、基本的に自然語による検索です)、誰もが気軽に情報検索を行うようになった現代においては、統制語検索は、検索の都度、統制語彙集を確認する必要があるため、利用者の数は限られています。統制語の付与作業だけでなく、独自に統制語彙集を作成する場合はそのコストもかかるため、統制語検索機能を備えるか否かは、構築するシステムの目的と照らし合わせ、慎重に検討することが必要でしょう。

分類主題情報の付与
キーワード以外に検索対象文書の分類を付与することも含まれます。分類とは、「異なる性質を持つものを分けること」もしくは「似たような性質を持つものをまとめること」です。分類は主に、紙媒体などの物理的な情報資源を整理・配列、つまり、並べる際の基準として利用されますが、検索システムの中で集中・識別の手がかりとして用いられることもあります。

物理的に並べる場合には、ある情報資源はどこか一箇所にしか置くことができないため、ある文書は一箇所に分類される必要があります。しかし、実際には、ある文書の分類が必ずしも一つに定まるわけではありません(代表例として、「犬」と「猫」の2つの主題を扱った文書などは非常に多いです)。検索システム上では、一つの文書に複数の分類を付与しても特に不都合はなく、実際に多くの文書が複数の分類を持つことになります。また、物理的に文書を並べる場合には、分類はファイルタイトルなどに表示するため、並べ方がひと目で判断できるある程度の長さに収まった記号*1)にする必要があります。しかし、検索システム上においては、分類を必ずしも記号とする必要はなく、分類を表す言葉を設定してもよいのです。

必ずしも分類を一つに定める必要がなく、記号に置き換えなくても良いならば、検索システムにおいて、キーワードとは別に分類のフィールドを設ける必要はないように思われます(キーワードの検索ができれば充分に思われます)。現実の文書検索システムでも、利用者が分類フィールドを対象に検索を行うことはそれほど多くはありません。

しかし、一度キーワード検索を行った上で検索結果を特定の主題に絞り込んだり、検索の最初の時点から対象とする主題をある程度限定したりする場合には、キーワードよりも分類が重要となる場合があります。例えば、“生命医学分野の論文の中で、犬について論じたものを探す”などがあります。多くの検索システムでは、図書館の蔵書分類ほど細かな主題分類を付与する必要はありませんが、ある程度の大きなくくりの分類を備えておくことは、時に統制語の付与以上に有用です。また、目的に応じて、大分類・小分類・細分類など、何段階かの分類が必要になることもあります。

*1)記号:一般的にはアラビア数字とアルファベットと「.」などいくつかの記号を使用して、分類表に従った記号体系を構成します。

 

典拠コントロール

前節のメタデータ検索の要件で解説した「集中」を実現するために、図書館の検索システムなどでは「典拠コントロール」と呼ばれる、異名同人・同名異人の名寄せ作業が行われています。

名寄せとは、データベースに情報資源のメタデータを収録したテーブルのほかに、著者に関する情報(生没年や経歴など)をまとめたテーブルを別途作成し、著者名(「標目」や「別名」)のフィールドを設定します。例えばイギリスの劇作家、シェークスピアであれば、標目を「Shakespeare, William」とし、情報資源に標目と異なって出現した著者名を別名として「シェイクスピア, ウィリアム」、「シェークスピア」、「シェークスピヤ」「沙士比阿」などと入力します。するとその2つのテーブルを関連付けることで、著者名から異名同人をまとめて探すことができるようになります。また、生没年のフィールドを著者テーブルに設けることで、同名異人が区別できるようになります。いわば、人名版の統制語のようなものです。

典拠コントロールは、このほか、書誌情報の「件名」を取り扱うものとして、各種概念や主題を取り扱う主題典拠があります。

 

利用者によるメタデータの付与

現在ではAmazonをはじめ、様々なインターネット上の検索システムにおいて、利用者がレビューやコメントを投稿できる機能が用意されています。このような、利用者が付与した情報をメタデータ検索の一部に取り入れている手法の一つに、フォークソノミーがあります。

フォークソノミーとは、Web上にあるデータに対して利用者自身が自由に情報(タグ)を付与し、それをメタデータとして利用して情報の分類や検索に役立てる手法です。フォークソノミーは、「人々」を表す単語“Folk”と「分類」を表す単語“Taxonomy”を結合して考えだされた造語で、インターネットの普及と利用者数の増加に伴って現れた、情報資源組織化の新たな方法です。起源の中に「分類」を表す語を含んでいますが、実際には分類記号ではなくキーワードを使用します。

フォークソノミーは、自身がブックマークしたWebサイトやそのサイトに対するコメントなどを他のユーザーと共有できる、ソーシャルブックマークと呼ばれるサービスの中で用いられています。それらのサービスでは、利用者が自身のブックマークしたサイトに、その内容を表すキーワードである「タグ」を併せて付けることができます。さらに、自分だけではなく他者の付けたタグの中身を検索・閲覧できるため、例えば、誰かが「図書館」というタグをつけたWebサイトを探す、といったことができます。ただしタグの使い方は個々の利用者に一任されており、同義語・類義語・多義語の統制はありません。フォークソノミーを活用した具体例としては「はてなブックマーク」*1) などがあります。

インターネット上に散らばるWebサイトや動画サイトなどの投稿動画のように、膨大な量の情報資源がある場合、特定の個人や組織がその内容を確認し、組織だってキーワードを付与することは困難です。そのような場合に、不特定の、非常に多くの利用者が自身のために付けたタグを活用するフォークソノミーが威力を発揮します。逆に言えば多数のサービス利用者がいないと成り立たない手法でもあり、社内文書の組織化などにはフォークソノミーは役立ちません。図書館の蔵書検索システムなどでも、フォークソノミーを導入した事例がありましたが、殆どが失敗しています。

Amazonなどで本を探すと、メタデータ中に全く検索した文字が含まれていない、関連のなさそうな図書でもたまにヒットすることがありますが、これはユーザーレビューやコメントも検索の対象に含んでいるためです。ユーザーレビューやコメントについても、厳密にはメタデータ検索というよりも次項で扱う全文検索の対象となるものですが、多数のサービス利用者がいなければ検索が成り立たない点は、フォークソノミーと同様です。社外向けに、非常に多くの利用者が見込まれるサービスを提供する場合には、利用者によって付与された情報を検索に活用するのも、一考に値するかもしれません。

*1)はてなブックマーク

 

全文検索

電子文書については、そのメタデータを検索するのではなく、中身そのものを検索できる「全文検索」が実現され、一般化が進み主流となっています。例えば、サーチエンジンはWebページの全文検索です。

論文データベースなどでも全文検索を導入するものが出てきています。メタデータと異なり、情報資源の中身そのものを検索するのであれば、組織化などの事前準備は必要ないように思えるかも知れません。しかし、実際は全文検索においても、殆どの場合について全文検索技術としての事前準備を行っています。

 

全文検索技術

文書の全文検索技術には

  • 逐次検索型(grep型)
  • 索引型(インデックス型)

があります。

逐次検索型(grep型)

逐次検索型は、検索対象となる文書について、1件ずつ、その冒頭から、検索キーワードの出現位置を探していく手法です。文書作成ソフトであるWordや表計算ソフトExcelの中で、キーワードの検索を行った時などにこの手法が用いられます。この方法であれば特に事前準備などはいらない反面、検索を行うたびに、そのキーワードと合致するキーワードがあるか、文書を一から検索していくため、検索対象の文書数が増えると膨大な時間がかかります。

索引型(インデックス型)

サーチエンジンなどの多くの全文検索サービスでは、逐次検索型ではなく索引型が採用されています。これは、検索対象となる文書について、あらかじめその中に含まれるキーワードを切り出し、抽出した上で、どのキーワードがどの文書に出てくるかをまとめた索引ファイルを作成しておく手法です。このような索引のことを「転置索引(Inverted Index)」と呼びます。

サーチエンジンなどでは、この転置索引を用いて、入力された検索キーワードが出現する文書を特定します。文書を一から検索するのに比べて転置索引の検索は遥かに短時間で済みます。ただし、転置索引の作成自体には時間がかかります。転置索引に収録するキーワードの切り出し方にもいくつかの手法があります。

膨大な文書に出てくるキーワードを人の手で抽出するのは不可能であるため、キーワードの抽出はコンピューターにより、機械的に処理します。英語のように単語同士が区切られた言語の場合は容易に単語を切り出すことができますが、日本語のように単語を区切る習慣のない言語の場合は、キーワードを自動で切り出す方法を考える必要があります。これには、文書中に出現しうる単語の辞書データを用意し、それに従って文書を切り分けていく「形態素解析」と呼ばれる手法と、単語にこだわらず一定の文字数ずつに文書を切り分けてしまう「N-Gram」と呼ばれる手法があります。

形態素解析は、意味のある単語ごとに切り出すことができる一方、元になる辞書データに含まれていない用語は抽出できず、新語などに対応できません。

N-Gramは、例えば「東京都音楽祭」という文であれば、2文字ずつ区切った「東京」、「京都」、「都音」、「音楽」、「楽祭」という文字列を全て転置索引に入れてしまう手法です(何文字で区切るかは任意)。この方法は、辞書が不要な代わりに、「都音」など意味をなさない語も転置索引に含まれてしまうため索引データが大きくなってしまうだけでなく、「東京都」の「京都」が切り出されてしまうので「京都」を検索した人にも「東京都音楽祭」の情報が表示されてしまうなど、検索結果に相応しくない情報(ノイズ)が増えるという欠点があります。

索引型の全文検索は、一般的には「全文検索エンジン」と呼ばれるソフトウェアを用いて実現します。どのソフトウェアを採用するかによって、キーワードの切り出し方や検索の性能(速さなど)が異なります。

 

まとめ

本記事では、私たちが日頃利用しているインターネットの情報検索や組織内外で利用できるデータベースシステムも含めて、情報を探すことを前提として蓄積、整理された情報であり、その検索性の向上のため様々な工夫が凝らされていることを解説しました。ご参考になりましたでしょうか。

DX(デジタルトランスフォーメーション)の推進が企業の重要な経営課題として位置づけられる中、有用な情報資産を電子文書として蓄積・整理し、高度な検索性を実現すること、同時に文書の生成・活用・保管・廃棄のライフサイクルをコントロールする仕組みの構築が求められています。

電子文書管理についてお知りになりたい場合は、文書管理に関する様々なテーマや課題についてコンサルティングからシステム開発・運用に至るまで一貫したサービスをご提供し、450社以上の実績がある日本レコードマネジメントへお気軽にお問い合わせくださいませ。