Lucene/Solr 3.1のNGramTokenizer (minGramSize="2" maxGramSize="3")
  • bi-gram & tri-gram(3-gram)
  • SolrのWikiには記述がない
  • NGramTokenizerは1024文字までしか処理しない. 利用したデータには1024文字以上の項目が多数あるのですべてがインデックスされていない.

測定結果

回数時間(QTime)インデックスサイズ
1144022310201580223
2122751910403552996
3123009210403160657

設定

schema.xml
    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="solr.NGramTokenizerFactory" minGramSize="2" maxGramSize="3"/>
      </analyzer>
    </fieldType>

Tokenizeサンプル

「証明の終わりで用いるQEDって何の略ですか?」「quod erat demonstrandumです。」のTokenize

メンバーのみ編集できます