Solr/Tokenizer評価201105/NGramTokenizer(bi-gram)

Lucene/Solr のNGramTokenizer (minGramSize="2" maxGramSize="2")

いわゆるbi-gram
SolrのWikiには記述がない
NGramTokenizerは1024文字までしか処理しない. 利用したデータには1024文字以上の項目が多数あるのですべてがインデックスされていない.

測定結果

Solr 3.1.0

回数	時間(QTime,ms)	インデックスサイズ(byte)
1	557705	7249587986
2	557403	7249587986
3	549028	7249587986

Solr 1.4.1

回数	時間(QTime,ms)	インデックスサイズ(byte)
1	563992	7251645357
2	583273	7251645357
3	554795	7251645357

設定

schema.xml

    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="solr.NGramTokenizerFactory" minGramSize="2" maxGramSize="2"/>
      </analyzer>
    </fieldType>

Tokenizeサンプル

「証明の終わりで用いるQEDって何の略ですか?」「quod erat demonstrandumです。」のTokenize

Solr 3.1.0

Solr 1.4.1

このページを編集するこのページを元に新規ページを作成

印刷する

Solr/Tokenizer評価201105/NGramTokenizer(bi-gram) - 春山征吾のWiki 先頭へ

春山征吾のWiki

Solr/Tokenizer評価201105/NGramTokenizer(bi-gram)

測定結果

Solr 3.1.0

Solr 1.4.1

設定

Tokenizeサンプル

Solr 3.1.0

Solr 1.4.1

Wiki内検索

最近更新したページ

2024-04-08

2021-02-02

2021-01-16

2021-01-05

2021-01-02

2020-12-15

2019-09-12

2018-08-09

2017-12-19

2016-11-16

2015-12-28

2015-12-11

2015-11-03

2015-02-26

2014-10-26

2014-08-03

2014-06-24

2014-03-07

2013-12-02

2013-12-01

最新コメント

Menu

タグ

カテゴリー

インターネット

暮らし/生活