検索システムで文書を活かすには?提供・公開の方法を解説します
業務の効率化には必要な情報を瞬時に取り出す「検索システム」は必要不可欠です。検索システムが出来上がり、公開してシステムを提供する際に何が必要なのか?そしてどのように提供すると情報の利活用につながるのか?
本記事では検索システムの提供・公開方法と検索手法の移り変わりについてまとめました。
検索システムの提供・公開
検索システムの公開範囲
検索システムを提供する際は、次のような提供・公開の範囲や方法などをあらかじめ検討する必要があります。
- 検索対象の文書は機密性(秘匿性)が高いか
- 利用者は特定の機関(企業、大学など)のみか、それとも一般か
- 有償か無償か
- 有償なら課金はどのようにするか
- 検索システムの提供形態は、インターネット上の利用かそれともDVDなどの媒体提供か
インターネット上で有償とするならば次の点を検討します。
- 利用者登録は必要か
- 機関単位の契約か、それとも個人単位か
- 機関単位で一括利用を認めるか
- 同時アクセス数に制限を設けるか
現実的に考えると、有償・無償を問わず、外部に検索システムを提供する場合は、インターネット上に公開する以外の選択肢はないでしょう。検索システムを有償で公開する場合、日本では一機関単位で契約して同時アクセス数に制限を設けるケースが多いですが、国際的にはIPアドレスによる一括利用とする(同時アクセス制限を設けない)のが一般的です。
一方、特に利益を求めない場合や、機関の所有する文書の活用を促すことが目的である場合は、無償でインターネット上に公開するのが一般的です。その場合でも、例えば、GoogleやYahooなどの外部のサーチエンジンから、公開した検索システム内の各ページ(情報資源の詳細ページなど)を検索できるようにするか否かなど、ある程度、公開範囲を定めることができます。特別な事情があれば、外部のサーチエンジンからのアクセスは遮断せざるを得ませんが、利用を促進する観点から言えば、できるだけ広い範囲に公開すべきです。
メタデータの外部提供
最近は、単に検索システムをインターネット上で公開するだけでなく、システムに含まれるメタデータをWeb上にXML形式で提供することで、さらなる利活用につなげようという動きが盛んになっています。
XML
XML(Extensible Markup Language)とは、文書やデータの意味や構造を記述するためのマークアップ言語の一つです。XMLでは < ~ > と </ ~ >という記号(「~」の中身は任意に決められます)を用いた「タグ」でデータを囲うことによって、タグの間に挟まれた部分の意味を表現しています。
RDF
RDF(Resource Description Framework)とは、W3Cにより1999年2月に規格化されたWebにおけるメタデータの標準的な記述形式のことで、XMLで表記します。RDFでは、ある情報資源(Subject)が、作者などのある属性(Predicate)を持ち、著者名などのその属性の具体的な値(Object)がある、という3つの要素(トリプル)を組み合わせることで、メタデータを表現します。
メタデータ標準
RDFは、XMLを使い、Subject、Predicate、Objectの組み合わせでメタデータを記述することは定めていますが、具体的にどのような名前のタグを使うかまでは定めていません。具体的にどんなタグを用い、それぞれのタグをどんな意味で用いるかは、「メタデータ標準」という、さらに別の取り決めで定めています。
代表的なメタデータ標準としては、MARC XML、MODS、ダブリンコアなどがあります。一部のタグもダブリンコアに従ってつけられたものです。1つのメタデータの中で複数のメタデータ標準のタグを使うこともでき、また、自機関などの独自のタグをつけることも可能です。
なお、ダブリンコアの詳細については、当サイトコラム記事「ダブリンコアを知っていますか?」にまとめています。ご興味があればご一読ください。
メタデータ公開の意義
メタデータ標準に則ったメタデータをWeb上で公開することにより、自機関の情報資源だけではなく、複数の機関を横断したデータ共有が容易にできるようになります。これにより、横断検索・統合検索サービスなどの開発が進むだけではなく、検索以外の新たなサービスの出現につながることもあります。
権利関係の明示
検索システムや検索対象の情報資源の利活用を促すにあたっては、メタデータや情報資源そのものの権利関係を明示することも重要になります。
ヨーロッパを中心に、芸術作品・古典籍などの文化的な情報資源やその検索システムを公開する際には、権利関係を明示するとともにオープンなライセンスを採用することが盛んになっています。そのようなライセンスの代表例としてクリエイティブ・コモンズ(CC)があり、例えばCC-BYというライセンスを採用した情報資源は、出典を明示する限り、一々権利者に許諾を求めることなく、改変や再配布など、自由に利活用することが認められています。また、メタデータについては、著作権を放棄し、完全に自由な利活用を認めることで、さらに流通を促そうとする例も多いです。
自機関や自社などで作成したデータや情報資源を第三者が自由に利用できるのは抵抗もあるかも知れませんが、それによって公開した検索システムや情報資源が広く社会に認められることの方がより大きなメリットがある、という考えが広まりつつあります。
検索手法の移り変わり
あいまい検索(類似検索)
あいまい検索(類似検索)とは、全文検索における検索技術のひとつです。いろいろなデータ群の中から、自然文で入力された質問文と類似するドキュメントを検索する技術です。全文検索における、あいまい検索(類似検索)の処理は、大きく次の2ステップで構成されています。
ステップ1としては「部分文字列の選別」で、質問文からの出現頻度をもとにして、検索に有効な部分文字列を高速に選別します。検索精度を維持して検索処理を高速化する技術を用いているため、質問文が長文であっても問題がないという特徴があります。
ステップ2としては「スコアの算出」で、文字列の「出現頻度」や「出現集中度」を考慮したスコアを算出する技術です。
セマンティック検索
セマンティック(semantic)とは、一般的には「意味」「意味論」と訳される語で、IT業界においては「データの持つ意味をコンピューターに理解させ処理する技術」の意味で用いられています。セマンティック検索とは、検索文の意味を理解しその意味に沿った検索結果を提供する技術です。セマンティック検索の特長としては、主に次の3点があげられています。
- 検索文(自然言語)の意味を理解させること
- 意味に沿う結果を高速に抽出(優先的表示)できること
- 検索文の表現揺れ(動詞の類義語や活用形を同等の意味として扱う)に強いこと
セマンティックを活用した検索は、利用者の意図・目的に沿った検索が可能なため、検索効率の向上が期待できます。
AI(人工知能)を使った検索
近年、働き方改革が推進される中、生産性を向上させ長時間労働を是正するマネジメントが求められており、AI(Artificial Intelligence、人工知能)を導入し「業務の効率化」を実現することが大きなメリットとなりつつあります。既に多くの企業や自治体がAIの導入を始めています。
AIは、人工的にコンピューター上などで人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術を指します(Wikipediaによる)。具体的な技術としては、自然言語の理解、経験を通して学習し応用させる技術などがあります。
このAIツールを用いたた検索システムには、統計的自然言語処理、機械学習、AI検索などの多くのAI技術が搭載されています。膨大な情報群から必要な情報をスピーディに探し出すことのできる検索システムは、組織内での効率的な知の共有・管理(ナレッジマネジメント)を実現できるといわれており、将来的に益々進化していくでしょう。
まとめ
検索システムの提供・公開方法と検索手法の移り変わりについてまとめてみましたが、参考になりましたか?
検索システムはインターネットでの公開が一般的になってきました。検索手法も日々進化し、サイトを超えた情報資源の活用が進んでいます。優れた検索システムを使用することで会社の情報資産も活かしていきたいですね。
電子文書管理を導入したいけど何からはじめればよいかわからないという方は、レコードマネジメント(記録情報管理)を日本でサービス化したパイオニア企業である日本レコードマネジメントにご相談ください。豊富な導入実績がある日本レコードマネジメントは、専門スタッフが企業のあらゆる悩みとニーズに対応し、電子文書管理システムの導入から運用までのすべてを支援します。電子文書管理の導入を進めたいと考えている方は、お気軽にお問い合わせください。