測定結果

kuromoji-solr-0.5.2-20110420.055842-1.tar.gz(kuromoji-0.7.5)

mode="search"
回数時間(QTime, ms)インデックスサイズ(byte)
152139377198180190
249077627198180190
349616717198180190
mode="normal"
回数時間(QTime, ms)インデックスサイズ(byte)
151645067205062859
250114347205062859
354399827205062859

設定


schema.xml
    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="org.atilika.kuromoji.solr.KuromojiTokenizerFactory" mode="search"/>
      </analyzer>
    </fieldType>

README.txtによると
Mode "search" is the recommendedt mode for search, but "extended" is
also possibly.  The "extended" mode unigrams so-called unknown words
and unifies morphological analysis with n-gramming.  Please see the
documentation for further details.  There's also a mode "normal", but
we do not recommend it for search.

Tokenizeサンプル

「証明の終わりで用いるQEDって何の略ですか?」「quod erat demonstrandumです。」のTokenize
mode="search"



mode="normal"

メンバーのみ編集できます