プログラミングや開発環境構築の覚え書き



1.はじめに

http://www.sqlite.org/cvstrac/wiki?p=CompilingFts
http://www.sqlite.org/cvstrac/wiki?p=FtsUsage
sqliteではfts3という検索用モジュールが開発されているが
実験中のため?配布されていないがコンパイルすれば使えるようになる
fts3はスペース区切りされた単語とマッチするか調べる事ができるので
文書を分かち書きして
単語1 単語2 単語3 単語4
のように分割して格納すれば検索できる
fts2以降でtokenizerを指定できるようになったのでsqlite用のtokenizerを作成すれば文書の分割をINSERT時に自動で行える。
よって
mecabをtokenizerとして使えるようにすれば、分かち書きされた結果を検索できるはず

2.mecabをtokenizerとしてつかう

cod-no-macbook:sqlite cod$ echo "和布蕪お前をテストする" | mecab
和布	名詞,一般,*,*,*,*,和布,ワカメ,ワカメ
蕪	名詞,一般,*,*,*,*,蕪,カブラ,カブラ
お前	名詞,代名詞,一般,*,*,*,お前,オマエ,オマエ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
テスト	名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
する	動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
EOS
cod-no-macbook:sqlite cod$ echo "和布蕪お前をテストする" | mecab -O 'wakati'
和布 蕪 お前 を テスト する 
分かち書きするには-O 'wakati'を指定する

3.2-gramも使いたい

2-gramのtokenizerを用意する

4.最後に

このページへのコメント

1ln5Og Great post.Really looking forward to read more. Really Great.

0
Posted by check it out 2014年01月20日(月) 19:29:43 返信

qyLb5a A big thank you for your article post.

0
Posted by watch for this 2013年12月21日(土) 00:39:41 返信

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

Wiki内検索

Menu

ここは自由に編集できるエリアです。

編集にはIDが必要です