春山征吾のWiki - Solr/Tokenizer評価201105/JapaneseTokenizer

測定結果

Solr 3.1 + 1.0.0(ipadic)

回数時間(QTime, ms)インデックスサイズ(byte)
122133017256869841
223241067256869841
322415717256869841

Solr 3.1 + 1.1-dev(ipadic, 2011/05/06ごろ)

回数時間(QTime, ms)インデックスサイズ(byte)
122471957256870194
222366237256870194
322326227256870194

Solr 3.1 + 1.0.1(ipadic)

回数時間(QTime, ms)インデックスサイズ(byte)
123013077256869841
222538407256869841
322264417256869841

Solr 3.1 + 1.0.1(naist-chasen)

回数時間(QTime, ms)インデックスサイズ(byte)
131051287646650718
231259277646650718
331583157646650718

Solr 3.2 + 1.1.0(ipadic)

回数時間(QTime, ms)インデックスサイズ(byte)
118441147253295572
218009777253295572
317664427253295572

Solr 3.3 + 1.1.1(ipadic)

回数時間(QTime, ms)インデックスサイズ(byte)
117745847252426412
217903687252426412
317599877252426412

設定


schema.xml
    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="solr.JapaneseTokenizerFactory"/>
      </analyzer>
    </fieldType>

Tokenizeサンプル

「証明の終わりで用いるQEDって何の略ですか?」「quod erat demonstrandumです。」のTokenize

ipadic

naist-chasen


naist-chasen compositePOS を設定

  • schema.xml
    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="solr.JapaneseTokenizerFactory" compositePOS="compositePOS.txt"/>
      </analyzer>
    </fieldType>
  • compositPOS.txt

未知語 未知語 記号-アルファベット


1.1.0

ipadic