ウィキペディア日本語版のダンプデータをFreePWINGで処理してみました。 UTF-8な文字とか画像とか音声とか数式とか表とかは全てオミットして、何も考えずに表示できるテキストだけ抽出しています。 他項目へのリダイレクト等を省いて約43万弱の項目があり、HONMONファイルは約1.2GBになりました。
ちなみに、本当は英語版のウィキペディアに挑戦しようと思ったのですが、ダンプデータが圧縮した状態で2.5GBというのを見て一瞬で方針を変更しました。
やっつけっぷりのかなりひどいコードですが、相互参照を扱えるようにできれば一度公開してみようかと思います。
コメント (0件)
Kazuhiro's blog
http://ikazuhiro.s206.xrea.com/article.php/20070618150130969