春山征吾のWiki - Solr/Tokenizer評価201105

内容

http://dumps.wikimedia.org/jawiki/latest/jawiki-la...から抽出した日本のWikipediaの情報をSolrに投入し, Tokenizerによる違いを測定する.

測定項目

なにもインデックスしていない状態で 4983655196(4.7G) byte のtsv(1464241件)を以下のようなURL経由でupdate&commitした際の
ttp://localhost:8080/solr31/update/csv?stream.file=/home/haruyama/work/solr/evaluation_for_tokenizers/data/jawiki.tsv&encapsulator=%ff&separator=%09&commit=true
  • 経過時間(QTime,ms)
  • インデックスのサイズ(byte)
を測定する.

TSVの形式は
id [tab] title [tab] text

春山が常用しているマシンで評価している.

対象Tokenizer

環境

ハードウェア

CPUIntel(R) Core(TM) i7 CPU 860 @ 2.80GHz
メモリ8GB
SSDINTEL SSDSA2M080
  • SolrのインデックスのみSSDに, その他のファイルは別HDDに.

ソフトウェア


設定は, evaluation_for_tokenizers at master from haruyama/solr - GitHub にある.


結果

  • 3回測定し一番早かった回の時間とサイズ
  • 3.1.0 と 1.4.1 では StandardTokenizer の仕様が異なる
  • NGramTokenizerは1024文字までしか処理しない. 利用したデータには1024文字以上の項目が多数あるのですべてがインデックスされていない.

Solr 3.3.0

JapaneseTokenizer(ipadic,1.1.1)
時間(QTime,h:mm:ss)29:20
サイズ(Gbyte)6.75

Solr 3.2.0

JapaneseTokenizer(ipadic,1.1.0)
時間(QTime,h:mm:ss)29:26
サイズ(Gbyte)6.75

Solr 3.1.0

StandardTokenizerCJKTokenizerNGramTokenizer(bi-gram)
時間(QTime,mm:ss)8:5813:459:05
サイズ(Gbyte)6.597.376.75
NGramTokenizer(tri-gram)NGramTokenizer(2&3-gram)
時間(QTime,mm:ss)13:4720:27
サイズ(Gbyte)7.469.58
JapaneseTokenizer(ipadic,1.0.0)Japanesetokenizer(naist-chasen,1.0.0)KuromojiTokenizer
時間(QTime,h:mm:ss)36:5351:451:21:48
サイズ(Gbyte)6.757.126.70
JapaneseTokenizer&EdgeNGramFilter(ipadic,1~15-gram)Japanesetokenizer&NGramFilger(ipadic, bi-gram)
時間(QTime,mm:ss)45:4641:53
サイズ(Gbyte)8.696.73

Solr 1.4.1

StandardTokenizerCJKTokenizerNGramTokenizer(bi-gram)
時間(QTime,mm:ss)8:5314:109:15
サイズ(Gbyte)6.787.376.75