「よい検索」とは?検索システムの設計と評価
自社の情報資産の中から必要な情報を瞬時に取り出すことができれば、業務の効率化は実現できるでしょう。しかし何か情報を探そうとするなら、対象データを集めた「データベース」が必要になり、検索の方法も決めなければなりません。そして構築中はもちろん構築後も定期的に評価し、改善を図っていくことも欠かせません。
本記事では検索システムの設計・評価についてまとめました。
検索システムの設計
どのようなシステムを構築するのか、例えば、メタデータ検索か全文検索か、あるいは双方を実現するのか、メタデータ検索ではRDB(Relational Database:リレーショナルデータベースの略語で、表形式の複数のデータを関連付けて使えるように管理されたデータベースのこと)にどのようなフィールドを含むのか、検索入力・結果画面をどのように構築するか、といったことは、検索システムの目的や、現実的にかけられるコスト(費用・時間)と照らし合わせて検討していくことが必要です。その際には利用者のニーズを把握し、設計に反映することが不可欠です。また、検索システムは、構築中はもちろん構築後も定期的に評価し、改善を図っていくことが重要です。
実際のシステム開発は外部業者などに委託するとしても、システムの仕様や機能は提供者自身が決める必要があります。
利用者のニーズ全てに応えるべく様々な機能を検索システムに盛り込めば、検索システムは雑然とした使いづらいものになります。想定利用者の全てのニーズに応えたつもりが、どの利用者からも見向きもされないものになりかねません。画面の見やすさと使いやすさ、検索機能の有用性など、全ての条件を満たすのは容易ではありません。ユーザーインターフェースのデザインに関しては既に多くの知見の蓄積があるので、それらを参考にすることも必要です。
検索システムの評価
検索システムの評価は、まず「検索結果そのものの評価」(「検索結果の適切性」や「表示順序の適切性」)と、「検索画面の評価」(画面の見やすさや利用者満足度など)に大別できます。
さらに、「検索結果の適切性」は、「適合性(利用者の意図した検索ニーズに合致したものだったか)」と「有用性(利用者にとって役に立ったか)」などの観点によって評価することができます。
このうち「検索画面の評価」や「検索結果の有用性」の評価は、利用者の主観で判断されるものであって、客観的に指標化することは困難です。しかし「検索結果の適合性」については、客観的な評価指標が考え出されています。
検索結果の適合性の評価
精度、再現率、F値
- 精度(precision ratio)実際に表示された検索結果のうち、どれだけ検索ニーズに合致したかを示す指標です。
- 再現率(recall ratio)検索システム中に存在する検索ニーズに合致する情報資源のうち、どれだけ検索結果として表示されたかを示す指標です。
- F値(F-measure)精度と再現率の調和平均(精度と再現率を掛け、さらに2を掛けた値を、精度と再現率の和で割った値)です。
上の図は、ある検索を行った結果を模式化したものです。濃くなった部分(A、B)の情報資源が、検索結果として表示されたとします。Aは検索結果に含まれ且つ検索のニーズに合致した情報資源、Bは検索結果に含まれたものの検索ニーズには合致しない余計な情報資源、Cは検索ニーズには合致していたものの検索結果に含まれなかった情報資源、Dはその他の情報資源です。このとき精度は、検索結果全体(A+B)のうち検索ニーズに合致するもの(A)の割合なので、「A÷(A+B)」という式で表現されます(最大1、最小0をとります)。余計な情報資源(B)の値が小さいほど精度は高くなるため、どれだけ検索ニーズにあったものだけを選び出すことができたかを示す指標になります。
一方、再現率は、本来、検索ニーズに合致したもの全体(A+C)のうち実際に検索にヒットしたもの(A)の割合なので、「A÷(A+C)」という式で表現されます(こちらも最大1、最小0をとります)。検索から漏れてしまった情報資源(C)の値が小さいほど再現率は高くなり、検索ニーズに合った文献を漏れなく探し出せたかを示す指標になります。
精度と再現率はどちらも重要ですが、余計なものをなるべく減らして精度を上げようとすると必要なものまで漏れて再現率が下がり、できるだけ漏れを減らして再現率を上げようとすると余計なものまで拾い上げて精度が下がる、というトレードオフの関係になりがちです。どちらを重視するかは、検索のニーズに即して決めることになります。多少手間が増えても間違いなく網羅的な情報収集が必要であれば再現率を(特許情報・法情報検索など)、漏れはあっても手早い情報収集が重要であれば精度を(トレンド検索など)重視することになるでしょう。
どちらも重視したい場合には、F値を評価に用います。F値は「(2×精度×再現率)÷(精度+再現率)」という式で表現され、精度・再現率とも最大(1)であればF値も最大(1)をとります。ここでポイントとなるのは、分子が掛け算になっていることです。単純な平均(相加平均)で計算した場合、例えば、精度1・再現率0.1の検索Aの評価は0.55、精度0.3・再現率0.5の検索Bの評価は0.4となり、検索Aの方が評価は高くなります。しかし、検索Aは検索ニーズに合致した情報資源の9割を漏らしており、再現率5割の検索Bより評価が高いというのは違和感が残ります。F値であれば、分子に掛け算が含まれているために、精度・再現率の一方の値が小さい場合の影響が大きくなり、検索AはF値が約0.18、検索Bは0.375と、検索Aの方が評価は低くなります。このように、F値は精度・再現率の両立が求められる評価指標で、検索システムの評価にしばしば用いられています。
なお、精度については検索の都度、評価することができますが、再現率は「検索ニーズに合致する情報資源全体の数」がわからないと算出できないため、日常的に評価することは不可能です。検索システムの評価に再現率やF値を用いる際には、あらかじめ人間の目で検索ニーズに合致する情報資源を判断して、実験用のデータを作成する必要があります。
その他の適合性評価指標
精度や再現率は、情報検索システムの評価で伝統的に用いられてきた指標ですが、これらを用いた評価には限界があることも知られています。サーチエンジンを使った情報検索では、検索結果の上位しか見ないことが殆どのため、検索結果全体や適合文書数を評価に用いる精度や再現率にはあまり意味がありません。
そこで、精度や再現率に代わる評価指標として、適合情報が検索結果上位に表示されているかを判定する指標が提案されています。
R制度 検索結果の上位R件に限った場合の精度を判定する
逆数順位 検索結果の中で最初に現れる適合文書の順位の逆数をとる
例えば、R精度は、検索結果上位10位のうち9件が検索ニーズに合致する文書であれば、11位以下の結果に関わらず、0.9になります。逆数順位はさらに極端で、検索結果表示の1位が適合文書であれば1で最大になり、1位は不適合で2位が適合文書であれば1/2=0.5に、また、1、2位とも不適合で3位が適合文書であれば1/3=約0.3となります。“検索結果1位にさえ適合情報が表示されていれば他は関係ない”というサーチエンジンに慣れた世代を前提においた指標と言えます。
検索結果の有用性、検索画面の評価
検索結果の有用性や検索画面(ユーザーインターフェース)の評価には、実際に複数の利用者に構築したシステムを利用してもらい、意見を聞いたり行動を観察したりするユーザビリティテストが有益です。ユーザビリティテストには、「○○の条件に合致する文書を検索せよ」など、何らかの課題を課してその正答率やかかった時間を計測する定量的な評価手法と、利用者本人の検索の様子やシステムに対する意見を伺って定性的にシステムを評価する手法があります。もちろん、両者を組み合わせることもあります。
ユーザビリティテストは有益ですが、多数の利用者に対して実施するのは現実的には困難です。多数の利用者の利用状況を把握する手法としては、検索システムの利用履歴を分析して利用状況や利用行動の詳細を把握する、アクセスログ分析があります。ただし、アクセスログ分析では、利用目的、検索結果やシステムに対する満足度など、利用者の主観は明らかにできません。そのため現実的には、ユーザビリティテストとアクセスログ分析を組み合わせて評価する必要があります。
まとめ
検索システムの設計・評価についてまとめてみましたが、参考になりましたか?
ひとくちにシステムの設計・評価といっても評価軸も多くあり、検索システムの特性によって重視する指標も異なります。業務効率化を図るためにも適切な設計・評価を行いたいものです。
電子文書管理を導入したいけど何からはじめればよいかわからないという方は、レコードマネジメント(記録情報管理)を日本でサービス化したパイオニア企業である日本レコードマネジメントにご相談ください。豊富な導入実績がある日本レコードマネジメントは、専門スタッフが企業のあらゆる悩みとニーズに対応し、電子文書管理システムの導入から運用までのすべてを支援します。電子文書管理の導入を進めたいと考えている方は、お気軽にお問い合わせください。