最終更新: haruyama_seigo 2011年07月07日(木) 18:06:20履歴
- lucene-gosen - Japanese analysis for Apache Lucene/Solr 3.1 and 4.0 - Google Project Hosting
- 以下の4つを調査
- Solr 3.1 + 1.0.0(ipadic)
- Solr 3.1 + 1.0.1(ipadic)
- Solr 3.1 + 1.0.1(naist-chasen)
- Solr 3.1 + 2011/05/06 10:20 JSTごろのレポジトリから作成した 1.1-dev(ipdadic)
- Solr 3.2 + 1.1.0(ipadic) (2011/06/13追記)
- Solr 3.3 + 1.1.1(ipadic) (2011/07/07追記)
- 以下の4つを調査
回数 | 時間(QTime, ms) | インデックスサイズ(byte) |
1 | 2213301 | 7256869841 |
2 | 2324106 | 7256869841 |
3 | 2241571 | 7256869841 |
回数 | 時間(QTime, ms) | インデックスサイズ(byte) |
1 | 2247195 | 7256870194 |
2 | 2236623 | 7256870194 |
3 | 2232622 | 7256870194 |
回数 | 時間(QTime, ms) | インデックスサイズ(byte) |
1 | 2301307 | 7256869841 |
2 | 2253840 | 7256869841 |
3 | 2226441 | 7256869841 |
回数 | 時間(QTime, ms) | インデックスサイズ(byte) |
1 | 3105128 | 7646650718 |
2 | 3125927 | 7646650718 |
3 | 3158315 | 7646650718 |
回数 | 時間(QTime, ms) | インデックスサイズ(byte) |
1 | 1844114 | 7253295572 |
2 | 1800977 | 7253295572 |
3 | 1766442 | 7253295572 |
回数 | 時間(QTime, ms) | インデックスサイズ(byte) |
1 | 1774584 | 7252426412 |
2 | 1790368 | 7252426412 |
3 | 1759987 | 7252426412 |
schema.xml
<fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.JapaneseTokenizerFactory"/> </analyzer> </fieldType>
「証明の終わりで用いるQEDって何の略ですか?」「quod erat demonstrandumです。」のTokenize
- naist-chasenではローマンアルファベットな単語が切れたり切れなかったりしているが, compositePOSという設定ファイルで制御が可能(後にサンプルあり)
- Twitter / @Jun Ohtani: naist-jdicですが、JapaneseToke ...
- Twitter / @Jun Ohtani: あー、naist-jdicだけじゃないですね。com ...
- Twitter / @ブルーツリー: JapaneseTokenizerFactoryのc ...
- Twitter / @ブルーツリー: compositePOSの書き方(その1):名詞-数 ...
- Twitter / @ブルーツリー: compositePOSの書き方(その2):名詞-数 ...
- Twitter / @ブルーツリー: 「名詞-数 記号-句点」と書くと、句点の連続が「名詞 ...
- @ブルーツリーさんによると, 「未知語 未知語 記号-アルファベット」という指定ではDataImportHandlerでエラーとなるとのこと コメント欄 春山 征吾のくけー : JapaneseTokenizerとCompositeTokenFilter, compositePOS #SolrJP
- :: compositePOS(CompositeTokenFilter)のバグ修正 | johtaniの日記 :: によると修正されたそうです(2011/06/28).次のリリースでは大丈夫だと思われます.
- カテゴリ:
- インターネット
- インターネットセキュリティ
最新コメント