Kazuhiro's blog
ようこそ! Kazuhiro's blog
火曜日, 3月 19 2024 @ 02:16 午後 JST
   

WikipediaのダンプデータをJIS X 4081に変換する

general

ウィキペディア日本語版のダンプデータをFreePWINGで処理してみました。 UTF-8な文字とか画像とか音声とか数式とか表とかは全てオミットして、何も考えずに表示できるテキストだけ抽出しています。 他項目へのリダイレクト等を省いて約43万弱の項目があり、HONMONファイルは約1.2GBになりました。

ちなみに、本当は英語版のウィキペディアに挑戦しようと思ったのですが、ダンプデータが圧縮した状態で2.5GBというのを見て一瞬で方針を変更しました。

やっつけっぷりのかなりひどいコードですが、相互参照を扱えるようにできれば一度公開してみようかと思います。

タグ:Wikipedia FreePWING EPWING

トラックバック

このエントリのトラックバックURL: http://ikazuhiro.s206.xrea.com/trackback.php/20070618150130969

WikipediaのダンプデータをJIS X 4081に変換する | 0 件のコメント | アカウントの作成
コメントは投稿者の責任においてなされるものであり、サイト管理者は責任を負いません。