Kazuhiro's blog
ようこそ! Kazuhiro's blog
火曜日, 11月 05 2024 @ 07:42 午後 JST
   

英語版WikipediaのダンプデータをJIS X 4081に変換する

general

FreePWINGによる巨大書籍の作成実験の一環としてとしてウィキペディア英語版の変換を試みました。 Cygwinで行っていましたが、変換にはFreePWINGとwikipedia-fpwのいずれにも更に変更 (まだ未公開です) が必要でした。 変更の原因としてはやはりエントリが多いことによるメモリ不足のようで、手元ではDB_Fileモジュールとtieを使って凌いでいます。

変換には変換元のファイルも含めておよそ60GB弱必要で、作成されたHONMONファイルは約14.2GBです。NTFS圧縮後で約7.5GBになっています。要した時間はだいたい50時間強くらいだと思います (PIII 1G x 2, 2GB, Cygwin)。

(追記) FreePWING 1.5に対するパッチとwikipedia-fpw-20080616に対するパッチを公開しておきます。 パッチを当てたFreePWINGは既存のスクリプトでも動作するはずですが、fpwlinkが倍、もしくはそれ以上時間がかかるようになります。

(追記の追記) wikipedia-fpwのパッチは書籍のタイトルやディレクトリ名・パッケージ名は元のままなので適宜変更してください。

タグ: EPWING FreePWING Wikipedia

トラックバック

このエントリのトラックバックURL: http://ikazuhiro.s206.xrea.com/trackback.php/20081022183436759

英語版WikipediaのダンプデータをJIS X 4081に変換する | 1 件のコメント | アカウントの作成
コメントは投稿者の責任においてなされるものであり、サイト管理者は責任を負いません。
英語版WikipediaのダンプデータをJIS X 4081に変換する
投稿者は: ゲストユーザ on 日曜日, 4月 18 2010 @ 10:44 午後 JST
いつもwikiでお世話になっております。
ちょっとわがままなお願いですが、もしよろしければ、英語版の変換済みのデータはどこかにアップしていただけないでしょうか