最終更新: haruyama_seigo 2011年05月17日(火) 12:46:35履歴
Lucene/Solr 3.1のNGramTokenizer (minGramSize="2" maxGramSize="3")
- bi-gram & tri-gram(3-gram)
- SolrのWikiには記述がない
- NGramTokenizerは1024文字までしか処理しない. 利用したデータには1024文字以上の項目が多数あるのですべてがインデックスされていない.
schema.xml
<fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.NGramTokenizerFactory" minGramSize="2" maxGramSize="3"/> </analyzer> </fieldType>
- カテゴリ:
- インターネット
- インターネットセキュリティ
最新コメント