メニュー |
ようこそ! Kazuhiro's blog
木曜日, 8月 28 2008 @ 11:25 午後 JST wikipedia-fpwウィキペディア日本語版のダンプデータをFreePWINGを利用してJIS X 4081形式に変換するツールです。 オフラインでウィキペディアを参照したい場合に使えます。 ただし、画像とか表とか数式等には全く対応していないので、そういうものも参照したい場合はオンラインになるなりローカルにウィキペディアのコピーを構築した方がよいと思います。 for your downloadwikipedia-fpw-20080616-src.tar.gz インストールこのツール自体は任意のディレクトリに展開するだけです。 ただし、FreePWINGの導入以外に以下の要件を満たす必要があります。
また、FreePWINGは1.5以降を使用する事をおすすめします。 変換準備ダンプデータの準備ダウンロードサイトからダンプデータをダウンロードします。 ダウンロードするファイルはjawiki-latest-pages-articles.xml.bz2、あるいはjawiki-yyyymmdd-pages-articles.xml.bz2のような名前のファイルです。 ダンプデータは伸長した状態で、ツールのあるディレクトリにwikipedia.xmlという名前で置いてください。 wikipedia-fpw.confの修正FreePWING 1.5以降を利用していない場合は
'trim_long_index' => 0,
となっている部分を
'trim_long_index' => 1,
と変更してください。ただし、動作は未確認です。 また、相互参照を使用しない場合は
'enable_reference' => 1,
となっている部分を
'enable_reference' => 0,
のように変更してください。 この値を2にすると同一項目内にある、参照先が重複した相互参照を無効にできます。 @skip_headings, @skip_contents, @select_headings, @select_contentsを編集することで、書籍に収録する項目の取捨選択が(一応)行えます。 ソースのコメントを参照してください。 その他の項目はどちらかというとデバッグ用です。 コメントを見てわかる人はいじってみてください。 変換通常のFreePWINGを利用したツールと同様です。 $fpwmake で辞書が生成されます。 この時、 Complex regular subexpression recursion limit (32766) exceeded at fpwwikipedia line 219, <GEN11> line 4959960. のような表示が出るかもしれませんが気にしないでください。 パッケージを作る場合は $fpwmake package 等のようにします。 packageの部分をpackage-tar-gzやpackage-tar-bz2に変えれば、それぞれに応じたファイル形式でパッケージが作られます。 制限・不具合
その他ツールのライセンスはGPL v2に従って下さい。 作成された書籍のライセンスはGFDLに従います。 更新履歴2008/07/30 <source>タグに対応した。 マッチ演算の回数をなるべく減らすようにした。 もしかしたら要るところまで削っているかも。 2008/05/31 収録する項目の取捨選択が(ある程度)行えるようにした。 項目末尾のゴミになっていた部分を取り除いた。 同一項目内で参照先が重複している相互参照を無効にできるようにした。 2007/12/02 cygwinでだけ落ちていたところで落ちにくくなった(かも)。 余計な字下げ情報を出力していたのを修正した。 htmlタグで書かれた表も取り除くようにした。 2007/11/21のダンプデータとcygwinで動作するのを確認した。 2007/09/27 20070923版のダンプデータで動作するようにworkaroundを追加した。 Encodeモジュールに関する説明をちょっと追加した。 2007/08/23 数値参照をデコードするようにした。 cygwinのperlで通るようにworkaroundを追加した。 2007/08/17のダンプデータでは大丈夫(なはず)。 cygwinのperl特有の事項を制限・不具合の項に書き直した。 2007/08/19 cygwinのperlでは相互参照を無効にするよう記載した。 2007/06/29 自ページ内への参照の処理がうまくできていなかったのを修正した。 リダイレクトの検出に失敗することがあったのを修正した。 warningを標準出力に出すようにした。 2007/06/24 正規表現について色々勘違いしていたので修正した。 デバッグモード時に有効になるコードを入れ忘れていたのを修正した。 整形済みテキストに対応した。 整形処理をもう少し真面目にやるようにした。 2007/06/20 公開。 |
新着情報記事-コメント 最近 2 日-トラックバック 最近 2 日- |
| Copyright © 2008 Kazuhiro's blog 本ページのすべての商標と著作権はそれぞれの所有者に帰属します。 |
Powered By Geeklog ページ作成時間: 0.11 秒 |