ホーム 
 会社案内 
  Mind  
  Android  
  講習会  
 MindSearch 
PinPointFinder
 お問い合わせ 
 
        
 Update:2018年02月18日

about MindSearch



 








既存の検索エンジンの問題(2)


■形態素解析と辞書の問題
 多くの検索エンジンは、「形態素解析」という手法を使い、ドキュメント中の文章から単語と思われるものを切り出し、「この単語はこのドキュメントに含まれている」という情報──インデックス──を作ります。
 たとえば「東京国際空港」という表記があった場合、形態素解析によって 東京 国際 空港 という三つの単語に分割されます。この分割には辞書が使われます。
 さてこのままでは問題が起きます。キーワード:国際空港 で検索してヒットしないという問題です。そこで辞書に 国際空港 も登録しておき、それもまたインデックスに加えておくことでこの問題を回避することになりますが、いずれにしても正しく検索できるかどうかが、「辞書の出来具合や解析ロジックの出来具合に依存する」という問題を抱えています。
 その結果として、利用者がある語をキーワードとして指定し、その語がドキュメントに含まれていたとしても、その個所が発見されないことがあるという不確実性がつきまといます。

(事例1)
「・・・高性能化・・・」という原文に対して、キーワード:高性能 で検索をかけてもヒットしない
(事例2)
著名な検索サイトで アイ・エー・エス を検索すると、ほとんどがミスヒットとなる。たとえば語順の異なる「アイ・エス・エー」などがヒットしてしまうが、これはまだ良いほうで、ページのどこかに「アイ」が、またどこかに「エー」が、またどこかに「エス」があるようなページは全部ヒットになる。カタカナ語の多い社名一覧ページなどは軒並みミスヒットで上がってしまう。本当に「アイ・エー・エス」の語が記述されているページは17番目であった。
(このようなことが起きるのは、形態素解析によって アイ エー エス の3語にまず分割され、「それらの語をすべて含むページはヒットである」というロジックで検索が行なわれてしまうからである)

 新語は毎日のように現れますが、辞書のメンテナンスは人手がかかることとから遅れがちです。特にこのあと述べるカタカナの新語は多くの漏れが出ているのが現実です。


■カタカナ語の表記の揺れ
 日常よく使われるカタカナ語の揺らぎはかなり大きく、検索漏れを引き起こす要因となっています。日常的に複数の表記が使われるような単語を用いて某検索サイトから検索したときのヒット件数は次のとおりになりました。

プラスチック 62056(90.6) ←→ プラスティック 6422(0.94)
テレフォンバンキング 735(61.6) ←→ テレホンバンキング 458(38.4)
ダイヤモンド 41341(77.4) ←→ ダイアモンド 12084(22.6)
ミロのビーナス 245(51.3) ←→ ミロのヴィーナス 233(48.7)
ツィゴネルワイゼン 370(61.5) ←→ チゴネルワイゼン 232(38.5)
キヤノン 24084(60.3) ←→ キャノン 15873(39.7)
キャンディ 9104(85.8) ←→ キャンデー 1508(14.2)

カッコ内の数字は両ヒットの合計に対する百分率ですが、単語によっては二つの表記がほぼ半々で使われている場合もあります。いずれにしても、ヒット件数が異なるということは、同一視ができていないことを示します
 上の結果は、「ミロのビーナス」の情報を得ようとした場合、うっかり、複数の表記が有ることに気付かなかったならば、半分近くの情報を取り損なってしまうことを示しています。会社名の「キヤノン」についても同様です。「キャノン」だと思っている人は大変多いです。
 そもそも、外来語のカタカナ表記は音をカタカナで表わしたものなので、ある程度の揺らぎが生じるのは仕方ないことです。また、既に多くの情報がそれによって書かれている訳ですから、どちらかが誤用であるとして片付けることもできません。
 このようなカタカナ語の複数の表記について、一般的にはこれはシソーラス(類義語)辞書の活用によって解決すべき問題と考えられてきました。しかし、近年、カタカナ語は非常な勢いで増加しており、辞書をメンテナンスしていくことさえ大変になっています。特に商品名、人名といった固有名詞についてはサポートしきれていないのが現状です。


■送り仮名の揺れ
 ジョルダン社の有名なソフトに「乗換案内」があります。このソフトの価格を検索サイトで調べると以下のよう結果となります。
2003年5月23日調べ    キーワード:ジョルダン 乗り換え案内 価格
検索サイト 乗り換え案内 と書いた時 乗換案内 と書いた時
Google 289件 1,940件
Infoseek 11件 49件
goo 0件 962件
 上記のように、製品名を「乗換案内」とするべきところ、うっかり「乗り換え案内」と書いてしまうと、かなり少ないヒット数になってしまうことが分かります。既存の検索エンジンにおいては、送り仮名が変わると異なるキーワードとして扱われてしまうのです。
 しかしジョルダン社の正式な製品名は「乗換案内」であって、同社のサイトに行ってもどこにも「乗り換え案内」とは書かれていません。困ったことに、パソコンで「のりかえあんない」を漢字にすると「乗り換え案内」と変換されることが多いのです。
 このケースはほんの一例であり、身の回りに以下のような数多くのひらがなの揺れによる表記違いが存在します。
青空←→ 青い空
受付←→ 受け付け
長時間←→ 長い時間
緊急対策←→ 緊急の対策
 大きな問題は、人はどちらの表記も同じものという意識があるにもかかわらず、既存の検索エンジンはしっかり区別してしまうことです。送り仮名は利用者の個性や、使っているかな漢字変換ソフトに大きく左右されるもので、本来はファジーに対処されるべきものなのです。



MindSearchによる解決(2)

N-gram(部分一致)によるヒット判定
 MindSearchは与えられたキーワードが原文に含むかどうかによりヒット判定します。他の検索エンジンに見られる形態素解析を使った単語抽出および合致判定方法に比べ、検出の見逃しがありません。目視により「ここに書かれている」と思う素直な判定方法に近いものです。
 以前であれば、N-gram(部分一致)を使った検索手法はインデックスファイルが非常に大きくなる、あるいは速度が低下するなどの理由から検索エンジンには適用されにくかったのですが、最近のハードディスクの大容量化、CPUの高性能化、そして弊社独自の処理ロジックの開発によりこの手法が可能になりました。
 またN-gramを使う別の利点として、これ以降に解説するように、表記の揺れの吸収(正規化)をおこないやすいということも挙げられます。


カタカナ表記の揺れの吸収
 MindSearchは以下のようなカタカナ表記の揺れを吸収します。キーワードとしてどちらか一方のみを指定すれば、両方の表記を見つけることができます。


サーバ サーバ

ダイモンド ダイモンド

ヴァイオリン イオリン

マレシア マレシア

ヘア  注:某化粧品メーカのホームページでは両者が混在しています
ディーゼル ーゼル ーゼル
ルトディズニー ルトズニー

 上記同一視処理は辞書を持つのではなく特殊な演算によりおこなっているため、辞書メンテナンスなどが不要なだけでなく、次々と現れる新語──たとえば商品名や人名──に対しても有効に働くというメリットがあります。
 また先に、既存の検索エンジンで アイ・エー・エス を検索するとミスヒットが出てしまう問題点を示しましたが、MindSearchでは「カタカナ表記中の中黒(・)は除去」の処理によって正しい検索がおこなえるようになっています。「アイ・エス・エー」のような語順違いをヒットするようなことが無くなるのは当然として、送り仮名の揺れと同様、検索者のクセによる中黒を付ける/付けないことの揺れを吸収できます。


送り仮名の揺れの吸収
 先に、既存の検索エンジンで「乗換案内」と「乗り換え案内」が異なる語として扱われてしまう問題を挙げましたが、MindSearchでは漢字内の平仮名の除去をおこない両者を同一視することでこの問題を解決しています。たとえば以下では、キーワードとしてどちらか一方のみを指定すれば、両方の表記を見つけることができます。
青空 青い空
受付 受け付け
長時間 長い時間
緊急対策 緊急の対策
東京大阪間 東京から大阪までの間

注:平仮名外しの機能は抑止することもできます



 








ホームページへ

このホームページの問い合わせ