EPWINGの全文検索 その2
約15年前にEPWINGの全文検索を試みた事があったのですが、それの焼き直しです。
Hyper Estraierを利用するの前回と同様ですが、専用のインデキサを用意して、直接インデックスを作成できるようにしました。 Lookup 1-4+mediaに対応コードを入れたので、インデックスがあれば自動的に使用できます。
EBWin4の全文検索と比べた時のスペック上の優位点として
- 外字Unicodeマップで置換されたテキストがインデックスに収録される。
- 元の辞書に対する容量制限は無いので、Wikipediaもインデックスを作成できる。
があります。ただし、巨大書籍に対しては、インデックスは作成できても検索にはそれなりに時間がかかります。
インデックスの大きさは作成時のオプションにもよりますが、広辞苑第6版で約205MiB、日本語版ウィキペディア (20220220) で約13GiB程度でした。