2016年8月6日土曜日

グーグルさんは単語なんて知らない?

グーグル検索が、どういう検索をしているのか、いろいろ試してみると、

のぷよク という、文字列でもちゃんとぷよクエ関連のサイトを見つけてきます。


「ぷよ」で、ぷよクエのサイトが出てくるのはわかりますが、「のぷよ」とか「のぷよク」でもぷよクエ関連のサイトが検索されてきます。
ということは、グーグルさんは「ぷよ」とか「ぷよクエ」という単語を認識しているわけではないんだろうと思われます。単純に、サイト内の文章に「のぷよ」という文字があるかどうかだけを調べているのだろうと思われます。
全文検索をしているにしては検索スピードが速い、ということは、インデックスを作っているんでしょうけど、
たとえば、「星の時計のぷよクエ日記」という文を探す為に、3文字で検索をするためのインデックスを、次のように作っているのだろうと思います。

星の時
の時計
時計の
計のぷ
のぷよ
ぷよク
よクエ
クエ日
エ日記
日記


このインデックスだと、2文字の入力の時にも、このインデックスの頭2文字だけ使えば、検索できます。
じゃあ、「のぷよク」という4文字で検索するときはどうするかというと、「のぷよ」と「ぷよク」に分けて2回検索して、両方で検索できたら、見つけられるわけです。

ただ、この検索方法だと、元の文章の何倍ものインデックスを作らなければならないわけで、それが世界中のサイトの分あって、っていうのはもう、想像を超えています。

0 件のコメント:

コメントを投稿