英語版WikipediaのダンプデータをJIS X 4081に変換する

水曜日, 10月 22 2008 @ 06:34 午後 JST

投稿者: kazuhiro

FreePWINGによる巨大書籍の作成実験の一環としてとしてウィキペディア英語版の変換を試みました。 Cygwinで行っていましたが、変換にはFreePWINGとwikipedia-fpwのいずれにも更に変更 (まだ未公開です) が必要でした。 変更の原因としてはやはりエントリが多いことによるメモリ不足のようで、手元ではDB_Fileモジュールとtieを使って凌いでいます。

変換には変換元のファイルも含めておよそ60GB弱必要で、作成されたHONMONファイルは約14.2GBです。NTFS圧縮後で約7.5GBになっています。要した時間はだいたい50時間強くらいだと思います (PIII 1G x 2, 2GB, Cygwin)。

(追記) FreePWING 1.5に対するパッチとwikipedia-fpw-20080616に対するパッチを公開しておきます。 パッチを当てたFreePWINGは既存のスクリプトでも動作するはずですが、fpwlinkが倍、もしくはそれ以上時間がかかるようになります。

(追記の追記) wikipedia-fpwのパッチは書籍のタイトルやディレクトリ名・パッケージ名は元のままなので適宜変更してください。

タグ: EPWING FreePWING Wikipedia

コメント (1件)


Kazuhiro's blog
http://ikazuhiro.s206.xrea.com/article.php/20081022183436759