データは以前デモ用に作成した自分のソーシャルブックマークから作ったものを利用する.
(desc は自分のコメント, bodyは本文抽出したもの.)
元データには title がないデータもあるが, 結果の見易さのために title を uniqueKey とした.
計4299件.
schema.xml の抜粋
<fields>
<field name="uuid" type="ignored" />
<field name="url" type="string" indexed="true" stored="true" required="true" />
<field name="title" type="string" indexed="true" stored="true" termVectors="true" />
<field name="desc" type="text_ja" indexed="true" stored="false" termVectors="true" multiValued="true"/>
<field name="tag" type="text_ws" indexed="true" stored="false" termVectors="true" multiValued="true"/>
<field name="body" type="text_ja" indexed="true" stored="false" termVectors="true" multiValued="true"/>
<field name="timestamp" type="tdate" indexed="true" stored="true" />
<field name="text" type="text_ja" indexed="true" stored="false" multiValued="true" termVectors="true" />
</fields>
<uniqueKey>title</uniqueKey>
<copyField source="title" dest="text"/>
<copyField source="desc" dest="text"/>
<copyField source="tag" dest="text"/>
<copyField source="body" dest="text"/>