ホーム 
 会社案内 
  Mind  
  Android  
  講習会  
 MindSearch 
PinPointFinder
 お問い合わせ 
 
        
 Update:2018年02月18日

about MindSearch


 









注:本ページで解説する特徴は MindSearch III のものです。MindSearch Hyper、 MindSearch Fuzzy ではセンテンス内AND機能は持ちません

既存の検索エンジンの問題(1)


 ハードウェアの高性能化と情報のデジタル化、そしてインターネットの利用が極端に進んだ現在、データ量の増大はとどまるところを知りません。このような状況のもと、検索ソフトや検索エンジンには何を求められるのか改めて考えてみる必要があります。

 一つには高速であること。多量のデータであっても短い時間で検索が終る必要があります。これはソフト面での検索ロジックの改良やハードウェアの進化によってほぼ解決されました。
 もう一つ───おそらくこれがもっとも───重要なことは「希望する情報が正しく得られる」ことです。そんなことは当たり前だと思ってはいけません。現状の検索ソフトを使って「正しくないデータ」「希望しない情報」がたくさん見つかってしまうことは日常茶飯事なのです。



 たとえば、あなたが Yahoo!やGoogleを使い、「小泉」「首相」「ジャズ」という3つのキーワードを指示することで「小泉首相とジャズとの関係」を調べようとしたとします。実際に操作してみると分かりますが、意外なことに多くのサイトが見つかります。
 はたして小泉首相はジャズが好きなのでしょうか? 賢い検索をおこなうとされるGoogleで調べてみると次のような結果が得られます。
2003年8月29日調べ    Google検索サイトにて
キーワード:   小泉 首相 ジャズ        
            ↓
ヒット数: 2,570件
 最初の結果画面に表示された10件のうち、小泉首相とジャズとの関係を述べたページは1件だけでした。「実は小泉首相はジャズミュージシャンの松居慶子さんのファン」という主旨のページが1つだけです。他の9件(90%)は全然関係ないページ・・つまりミスヒットです。
 ミスヒットとなったページ群は、確かにそのページの どこかに これら3語を含んではいるのですが、結果は意図に沿ったものではありません。それらは、たとえば首相とジャズマンがたまたま同じページに収録された紳士録であったり、あるいは内閣の話のあとに音楽の話をしている個人の日記であったり、あるいは今日の総理の動向とジャズコンサートの開催という二つの記事を含んだ新聞社のサイトだったりするのです。日本で一番の人気を誇る検索サイトであっても、現実はこのような弱点を抱えています。ことこの点に関してのみ言えば、十年来、検索ソフトはほとんど変わっていないとも言えます。


問題のポイント

■ミスヒット
 先の検索例でGoogleが第1位としたのは次のページでした。
先の調査は古いもので第一位のページが存在しないため、
現時点(2008年2月)での第一位ページを使って説明します
   弘前大学JAZZ研究会年表(21世紀分)
   http://members.aol.com/hirosakijazzob/pg0000032.html

   〜略〜   〜略〜   〜略〜   〜略〜   〜略〜   〜略〜   〜略〜

 上記ページにはJAZZ研究会の歴史と共に、同じ時代の日本・世界での出来事が書かれています。小泉首相はこの歴史内に記述されているもので、ジャズとは無関係です。たまたま同一ページにこれらの語が使われたというだけであり、厳密にはミスヒットです。
 全文検索という概念が登場した昔、恐らく検索対象は論文や資料のように、1つのページは1つのテーマについて書かれたものであったと思われます。そのようなページでは、「指定された複数のキーワードがページ中の場所を問わずすべて出現するなら、ヒットページである」とみなすことは合理的でした。
 しかし当時に比べ飛躍的に用途が広がった現代のデジタル情報において、特にWebページにおいてはこの方法はあまりにも乱暴な方法と言えます。たとえばニューサイトが顕著な例ですが、1つのページに政治、経済、スポーツ、芸能などあらゆる話題が詰め込まれています。そのようなページ対して、「指定されたキーワード群がページ内の場所を問わず使われていればヒットと解釈」したのでは、検索意図とまったく関係のないページを見つけてしまうのは当然ともいえます。

■検索結果はドキュメントリストでしかない
 既存の検索エンジンがやってくれることは「ドキュメントの場所(URL)を列挙する」ことだけです。当たり前と思われるかも知れませんが、これでは不足なのです。
 現実の世界に対応させてみます。
 あなたが秘書にある情報の調査を依頼したとします。翌日秘書がやってきて、300冊ほどの書籍を机の上にドンと置いて部屋を出て行ってしまいます。当然ですがこれは秘書に期待された仕事の半分でしかありません。書籍を見つけ出すところまでは良いとして、その中で必要な情報部分を抜き出すなり付箋をつけるなりし、「情報そのものを提供する」ことが望まれていたはずです。秘書は普通そうするはずです。
 既存の検索エンジンはこのたとえ話における「気の効かない秘書」に相当します。依頼主(検索者)は,秘書が置いていった本の山と格闘するはめになります。書籍の山は情報ではありません。書籍の中に書かれている「ある部分」が情報のはずです。

■URL下の要約は役に立たない
 既存の検索エンジンの要約をよくご覧になってください。  そこに表示されているものは、ページ中のあちこちでヒットしたキーワードの前後10文字から20文字を抜き出し、それらの個所をつないでまとめたものであることがほとんどです。次のような問題があります。
   × 文章になっていない(細切れをつなぎ合わせたものだから当然)
   × 指定されたキーワード群が関連をもって使われているのか、それとも
全然関係のない文脈で現れたものなのかが分からない
 この問題のため要約(のようなもの)を読んでも、そのドキュメントが本当に自分が欲しかったページなのかどうか分からず、結局はリストアップされた膨大なドキュメントを一つ一つ開いて自分で確かめることになります。
 原典はサイズの大きなものも多く、この作業は検索者にとって大きな負担となります。リストアップされたURLの一つをブラウザで開き、ブラウザの中の「検索」機能を使い、ページのどこにキーワードが現れているのか探したことはありませんか?何のためにコンピュータと検索エンジンはあるのでしょうか。おかしな話です。



MindSearchによる解決(1)

Googleがヒット認定したコンテンツをMindSearchでさらに検索した例
 先の「小泉」「首相」「ジャズ」の3キーワードを使った検索により、Googleがリストアップした上位20件に対し、原典のコンテンツを手動で収集し、MindSearchを使って改めて同じ検索をおこなった結果が以下のものです。



センテンス内ANDによるピン・ポイントな検索
 先の検索結果をご覧ください。Googleが列挙した上位20件がMindSearchによってたった4件に絞り込まれています。重要なことは、この4件は本当に「小泉首相 と ジャズ との関係」を表わしていること・・すなわち欲しかった情報であることです。
 MindSearchに複数のキーワードを与えた場合、原典のセンテンスごとに、そのセンテンス内に複数キーワードがすべて出現するかを見ます。この結果、複数のキーワードが同一文脈の中で使われている個所のみ見つけ出すことができるのです。
 一見単純な原理ですが、この効果は極めて大きく、従来の検索エンジンのように、ページ内で離れた個所にある関係のないキーワードをヒット対象とするようなことはなくなり、ミスヒット数は大幅に減少します。

検索結果画面には既に欲しい情報が見えています
 従来の検索エンジンで言うところの「要約」部分には、ヒットした文そのものを表示できます。たとえば先の検索例の3番目のヒット個所には次のような「ヒットした文」が表示されています。



 上の図をご覧ください。これは従来の「要約のように見えるが実は役に立たない」ものではなく、短いながら起承転結のある文章であり、それ自身があなたの欲しい情報になっています。
 この出力は「このURLは読む価値がるかどうか」の判断に使えるだけでなく、この文章が情報そのものである点にご注目ください。たった2行の文章ですが、「小泉首相 とピアニストの松居慶子さんとはつながりがある」ことを読み取ることができます(実は首相は松居慶子さんのファンだそうです)。

 MindSearchでは検索結果のドキュメントリストがピンポイントで絞り込まれているだけでなく、情報自体がそこに表示されているため、場合によっては原典をあたる(URLを開いてみる)ことなく要約部を眺めることであなたの検索目的が達成されることさえあります。

 MindSearchは検索の基本に立ち返ったソフトです。目的の情報を、見逃すこともなく、水ぶくれさせることもなく、的確に見付け出します。



 









ホームページへ

このホームページの問い合わせ