Apache luceneを調査(メモ)
そのうち使いたくなる日が来るに違いないと思われるのでちょっとだけ調査。
- インデックスを作る: IndexWriter
- インデックスの格納場所: Directory
- 検索対象のデータ: Document
- 検索データ内のタグ: Field
- データの索引化: Analyzer
- Tokenの大文字/小文字を無視: SimpleAnalyzer
- (調査中): StandardAnalyzer
- Tokenの大文字/小文字を無視+接続詞などを無視: StopAnalyzer
- KeywardTokenizerを使うAnalyzer: KeywordAnalyzer
- WhitespaceTokenizerを使うAnalyzer: WhitespaceAnalyzer
- CJKTokenizerを使うAnalyzer: CJKAnalyzer(contrib)
- 項目ごとにAnalyzerを変更: PerFieldAnalyzerWrapper
- データのTokenへの切り出し: Tokenizer
- インデックスから検索: IndexSearcher
- 検索クエリ: Query
- 検索クエリを構築:QueryParser
- 検索語をTokenに分割: Analyzer
- 検索結果: Hits
- 検索結果をフィルタリングしたい: Filter
- 検索結果をソートしたい: Sort
- 結果をLazy Loadしたい: Hits.iterator() -> Hit
- 検索クエリ: Query