Lucene/Solr のNGramTokenizer (minGramSize="2" maxGramSize="2")
  • いわゆるbi-gram
  • SolrのWikiには記述がない
  • NGramTokenizerは1024文字までしか処理しない. 利用したデータには1024文字以上の項目が多数あるのですべてがインデックスされていない.

測定結果

Solr 3.1.0

回数時間(QTime,ms)インデックスサイズ(byte)
15577057249587986
25574037249587986
35490287249587986

Solr 1.4.1

回数時間(QTime,ms)インデックスサイズ(byte)
15639927251645357
25832737251645357
35547957251645357

設定

schema.xml
    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="solr.NGramTokenizerFactory" minGramSize="2" maxGramSize="2"/>
      </analyzer>
    </fieldType>

Tokenizeサンプル

「証明の終わりで用いるQEDって何の略ですか?」「quod erat demonstrandumです。」のTokenize

Solr 3.1.0

Solr 1.4.1

メンバーのみ編集できます