Lucene/Solr 3.1のNGramTokenizer (minGramSize="3" maxGramSize="3")
  • いわゆるtri-gram(3-gram)
  • SolrのWikiには記述がない
  • NGramTokenizerは1024文字までしか処理しない. 利用したデータには1024文字以上の項目が多数あるのですべてがインデックスされていない.

測定結果

回数時間(QTime)インデックスサイズ
18316208049291992
28273048014459071
38354078049291992

設定

schema.xml
    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="solr.NGramTokenizerFactory" minGramSize="3" maxGramSize="3"/>
      </analyzer>
    </fieldType>

Tokenizeサンプル

「証明の終わりで用いるQEDって何の略ですか?」「quod erat demonstrandumです。」のTokenize

メンバーのみ編集できます