最終更新: haruyama_seigo 2011年07月07日(木) 18:07:53履歴
http://dumps.wikimedia.org/jawiki/latest/jawiki-la...から抽出した日本のWikipediaの情報をSolrに投入し, Tokenizerによる違いを測定する.
なにもインデックスしていない状態で 4983655196(4.7G) byte のtsv(1464241件)を以下のようなURL経由でupdate&commitした際の
TSVの形式は
春山が常用しているマシンで評価している.
ttp://localhost:8080/solr31/update/csv?stream.file=/home/haruyama/work/solr/evaluation_for_tokenizers/data/jawiki.tsv&encapsulator=%ff&separator=%09&commit=true
- 経過時間(QTime,ms)
- インデックスのサイズ(byte)
TSVの形式は
id [tab] title [tab] text
春山が常用しているマシンで評価している.
記述のないものは Solr 3.1.0 のみ評価
- Solr/Tokenizer評価201105/StandardTokenizer(Solr 3.1.0 & Solr 1.4.1)
- Solr/Tokenizer評価201105/CJKTokenizer(Solr 3.1.0 & Solr 1.4.1)
- Solr/Tokenizer評価201105/NGramTokenizer(bi-gram)(Solr 3.1.0 & Solr 1.4.1)
- Solr/Tokenizer評価201105/NGramTokenizer(tri-gram)
- Solr/Tokenizer評価201105/NGramTokenizer(2&3-gram)
- Solr/Tokenizer評価201105/JapaneseTokenizer(lucene-gosen)
- Solr/Tokenizer評価201105/JapaneseTokenizer&NGram(lucene-gosen & NGramFilter)
- Solr/Tokenizer評価201105/JapaneseTokenizer&EdgeN(lucene-gosen & EdgeNGramFilter)
- Solr/Tokenizer評価201105/IgoTokenizer
- Solr/Tokenizer評価201105/KuromojiTokenizer
CPU | Intel(R) Core(TM) i7 CPU 860 @ 2.80GHz |
メモリ | 8GB |
SSD | INTEL SSDSA2M080 |
- SolrのインデックスのみSSDに, その他のファイルは別HDDに.
- Debian sid x86_64
- Oracle Java 6.0.24, 6.0.25
- Apache Tomcat 7.0.12
- Apache Solr 3.1.0, 1.4.1
設定は, evaluation_for_tokenizers at master from haruyama/solr - GitHub にある.
- 3回測定し一番早かった回の時間とサイズ
- 3.1.0 と 1.4.1 では StandardTokenizer の仕様が異なる
- NGramTokenizerは1024文字までしか処理しない. 利用したデータには1024文字以上の項目が多数あるのですべてがインデックスされていない.
StandardTokenizer | CJKTokenizer | NGramTokenizer(bi-gram) | |
時間(QTime,mm:ss) | 8:58 | 13:45 | 9:05 |
サイズ(Gbyte) | 6.59 | 7.37 | 6.75 |
NGramTokenizer(tri-gram) | NGramTokenizer(2&3-gram) | |
時間(QTime,mm:ss) | 13:47 | 20:27 |
サイズ(Gbyte) | 7.46 | 9.58 |
JapaneseTokenizer(ipadic,1.0.0) | Japanesetokenizer(naist-chasen,1.0.0) | KuromojiTokenizer | |
時間(QTime,h:mm:ss) | 36:53 | 51:45 | 1:21:48 |
サイズ(Gbyte) | 6.75 | 7.12 | 6.70 |
JapaneseTokenizer&EdgeNGramFilter(ipadic,1~15-gram) | Japanesetokenizer&NGramFilger(ipadic, bi-gram) | |
時間(QTime,mm:ss) | 45:46 | 41:53 |
サイズ(Gbyte) | 8.69 | 6.73 |
- カテゴリ:
- インターネット
- インターネットセキュリティ
最新コメント