Namazu

形態素解析を用いた全文検索システム。

日本でもっとも多く利用されているインデックス構築型の全文検索システムだと思われる。

用語

用語
解説

メモ

  • 実用的には、せいぜい数万ファイルくらいを限度としたほうが良さそう。インデックスの構築もファイル数が増えるとファイル数の増大ペース以上にマージが遅くなるし、難点に書いたように検索が上手く行かない結果になりやすくなる。

難点

  • 形態素解析は創作用語だとインデックスされにくい。結果として上手く検索されないことがある。
  • 記事数が多いと有りがちな漢字や語を含むフレーズ検索で、その一部が多すぎると言われて、結果としてまったく検索できなくなる。
  • 長い語彙とかで Segmentation fault が起きることがあるようだ(コマンドライン版でようやく判明)。error_logではPremature end of script headers、ブラウザでは Internal Server Error となる。原因は不明。ウチのサイトだけという可能性は有るけど。
  • カタカナ語が上手く検索できないことがある。
  • 更新ファイルは削除キー+追加で処理されるため、更新の多いサイトだとインデックスが脹れ上がりやすい。静的なHTMLを再構築するような作りだと悲惨。インデックスを圧縮するツールもありますが、むかし使用した時にはインデックスが壊れてしまいました。今は直ってるといいんですが、恐くて使ってません。

商品情報

話題まとめ

チャットログ

チャットログ

blog記事

Drupal.cre.jp - Google新着

テンプレート:rss show(http://drupal.cre.jp/taxonomy/term/132/all/feed)

資料リンク

用例

リンク