情報検索とは?全文検索について解説します
全文検索とメタデータ検索。コンピューター上で文書検索を実現する方法は大きくこの2種類に分けられ、それぞれ利点と欠点があります。
メタデータ検索とは、図書館の蔵書検索システムにみられるように、対象文書のタイトルや著者名など「文書の内容そのものではなく、その文書の文脈や背景に関する情報を検索対象とする」手法です。
本記事では情報検索のもう一方の手法である全文検索について解説します。
情報検索とは?
「情報検索」の定義を見てみると、「あらかじめ組織化して大量に蓄積されている情報の集合から、ある特定の情報要求を満たす情報の集合を抽出する*1)」となっています。
ポイントは、「いずれ利用されることを想定して蓄積」された、「あらかじめ組織化」されている情報の中から目当てのものを探すことが「検索(情報検索)」である、という点です。「組織化」とは耳慣れない言葉かも知れませんが、情報やそれが掲載されている文書などの媒体(情報資源)を、体系的に整理し、検索するためのツールを作成することを指します。
例えば、「昨年作成されたある業務に関する文書を読みたい」という場合、無作為に、適当に積んであった文書の中から目当てのものを探そうと思ったら、目当ての文書が見つかるまで、全ての文書に目を通さねばなりません。こういった行動は情報の「検索」とは呼べません。情報を「検索」できるようにするためには、どのような目的で人々が情報を利用するかをあらかじめ検討し、それに見合った形で整理し、ツールを整えることが不可欠です。
情報検索の対象となるデータの集合体は主に、文書・テキスト文字列、画像、音声などになりますが、こちらでは、主として文書をコンピューター上で検索するシステムを構築・提供することを念頭に置き、全文検索について詳しくご紹介します。
*1)日本図書館情報学会用語辞典編集委員会編. 図書館情報学用語辞典. 第4版, 丸善出版, 2013, 284p. より
全文検索
電子文書については、メタデータ(本体であるデータに関する付帯情報が記載されたデータ)を検索するのではなく、中身そのものを検索できる「全文検索」が実現され、一般化が進み主流となっています。例えば、サーチエンジンはWebページの全文検索です。
論文データベースなどでも全文検索を導入するものが出てきています。メタデータと異なり、情報資源の中身そのものを検索するのであれば、組織化などの事前準備は必要ないように思えるかも知れません。しかし、実際は全文検索においても、殆どの場合について全文検索技術としての事前準備を行っています。
全文検索技術
文書の全文検索技術には
- 逐次検索型(grep型)
- 索引型(インデックス型)
があります。
逐次検索型(grep型)
逐次検索型は、検索対象となる文書について、1件ずつ、その冒頭から、検索キーワードの出現位置を探していく手法です。文書作成ソフトであるWordや表計算ソフトExcelの中で、キーワードの検索を行った時などにこの手法が用いられます。この方法であれば特に事前準備などはいらない反面、検索を行うたびに、そのキーワードと合致するキーワードがあるか、文書を一から検索していくため、検索対象の文書数が増えると膨大な時間がかかります。
索引型(インデックス型)
サーチエンジンなどの多くの全文検索サービスでは、逐次検索型ではなく索引型が採用されています。これは、検索対象となる文書について、あらかじめその中に含まれるキーワードを切り出し、抽出した上で、どのキーワードがどの文書に出てくるかをまとめた索引ファイルを作成しておく手法です。このような索引のことを「転置索引(Inverted Index)」と呼びます。
サーチエンジンなどでは、この転置索引を用いて、入力された検索キーワードが出現する文書を特定します。文書を一から検索するのに比べて転置索引の検索は遥かに短時間で済みます。ただし、転置索引の作成自体には時間がかかります。
転置索引に収録するキーワードの切り出し方にもいくつかの手法があります。
膨大な文書に出てくるキーワードを人の手で抽出するのは不可能であるため、キーワードの抽出はコンピューターにより、機械的に処理します。英語のように単語同士が区切られた言語の場合は容易に単語を切り出すことができますが、日本語のように単語を区切る習慣のない言語の場合は、キーワードを自動で切り出す方法を考える必要があります。これには、文書中に出現しうる単語の辞書データを用意し、それに従って文書を切り分けていく「形態素解析」と呼ばれる手法と、単語にこだわらず一定の文字数ずつに文書を切り分けてしまう「N-Gram」と呼ばれる手法があります。
形態素解析は、意味のある単語ごとに切り出すことができる一方、元になる辞書データに含まれていない用語は抽出できず、新語などに対応できません。
N-Gramは、例えば「東京都音楽祭」という文であれば、2文字ずつ区切った「東京」、「京都」、「都音」、「音楽」、「楽祭」という文字列を全て転置索引に入れてしまう手法です(何文字で区切るかは任意)。この方法は、辞書が不要な代わりに、「都音」など意味をなさない語も転置索引に含まれてしまうため索引データが大きくなってしまうだけでなく、「東京都」の「京都」が切り出されてしまうので「京都」を検索した人にも「東京都音楽祭」の情報が表示されてしまうなど、検索結果に相応しくない情報(ノイズ)が増えるという欠点があります。
索引型の全文検索は、一般的には「全文検索エンジン」と呼ばれるソフトウェアを用いて実現します。どのソフトウェアを採用するかによって、キーワードの切り出し方や検索の性能(速さなど)が異なります。
まとめ
本記事では、全文検索について解説しました。
DX(デジタルトランスフォーメーション)の推進が企業の重要な経営課題として位置づけられる中、有用な情報資産を電子文書として蓄積・整理し、高度な検索性を実現すること、同時に文書の生成・活用・保管・廃棄のライフサイクルをコントロールする仕組みの構築が求められています。
電子文書管理についてお知りになりたい場合は、文書管理に関する様々なテーマや課題についてコンサルティングからシステム開発・運用に至るまで一貫したサービスをご提供し、550社以上の実績がある日本レコードマネジメントへお気軽にお問い合わせくださいませ。