*Dumper for PDIC dictionary to CSV or pdic 1-line format.

written by Kazuhiro Ito <kzhr@d1.dion.ne.jp>


**これは何?
PDIC (*1) で使われている、PDIC 形式の辞書からテキストデータを抽出する
プログラムです。
PDIC 形式で配布されている辞書を、他の形式に変換したい場合などに
有用かもしれません。
PDIC 自体にその様な機能は存在しますので、それで差し支えない人には
不要なツールです。

(*1) http://homepage3.nifty.com/TaN/


**インストール
通常の autotools を利用したプログラムと同様です。
特有のオプションとして以下のものがあります。

*** --with-iconv-includes=DIR
*** --with-iconv-libraries=DIR
iconv 関数に必要なヘッダおよびライブラリが存在するディレクトリを指定します。

*** --with-sjis-iconv-name=NAME
SJIS 系の辞書に収録されているテキストの文字コードを指定します。
iconv が対応している文字コードを指定してください。
デフォルトは CP932 です。 

*** --with-utf8-iconv-name=NAME
pdicdump が出力する文字コードを指定します。
正確には SJIS 系の辞書のテキストを出力する際にこの文字コードに
変換されます。
iconv が対応し、UTF-8 互換な文字コードである必要があります。
デフォルトは UTF-8 です。 


**使い方

  pdicdump filename

として実行すると filename な PDIC辞書からテキストデータを抽出して
標準出力に CSV形式でダンプします。
内容は概ね PDIC の CSV形式 (*2) に従いますが、
・文字コードは常に UTF-8
・1行目の項目リストは出力しない
という点が異なります。
PDIC 1行テキスト形式 (*3) で出力する場合は

  pdicdump -o pdic1 filename

のようにします。
出力の文字コードは UTF-8 に固定されています。
SJIS 形式の辞書については見出し・テキスト・用例の文字コードを
オプションで指定できます。
詳しくは --help で確認してください。
ただし、動作確認はしていません。
発音記号に SIL IPA 93 フォントの利用を想定している辞書の場合は 

  pdicdump -p silipa93

のように -p オプションを指定してください。
逆に SIL IPA 93 フォントを利用しない事を想定している辞書の場合は 

  pdicdump -p asis

のように指定してください。

(*2) http://homepage3.nifty.com/TaN/unicode/help/CSVFormat.html
(*3) http://homepage3.nifty.com/TaN/unicode/help/OneLineFormat.html


**ライセンス
プログラムの大部分は修正BSDライセンスに従います。
同梱の COPYING ファイルを参照して下さい。
BOCU-1 のエンコーダー / デコーダー等、私の著作でないものは
それぞれのライセンスに従ってください。
詳細は個々のファイルを確認してください。


**制限
パスワード・暗号化・圧縮等には対応していません。
HYPER辞書形式 Ver 4.00 より古い形式の辞書にも未対応です。
