Kazuhiro's blog
ようこそ! Kazuhiro's blog
木曜日, 11月 21 2024 @ 08:50 午後 JST

pdicdump

PDICで使われている、PDIC形式の辞書からテキストデータを抽出するプログラムです。 PDIC形式で配布されている辞書を、他の形式に変換したい場合などに有用かもしれません。 PDIC自体にその様な機能は存在しますので、それで差し支えない人には不要なツールです。

for your download

pdicdump-1.1.0.tar.gz

必要なソフトウェア

libiconv
システムにiconvがない場合は必要になります。

インストール

通常の autotools を利用したプログラムと同様です。 特有のオプションとして以下のものがあります。

--with-iconv-includes=dir
--with-iconv-libraries=dir

iconv関数に必要なヘッダおよびライブラリが存在するディレクトリを指定します。

--with-sjis-iconv-name=name

SJIS系の辞書に収録されているテキストの文字コードを指定します。 iconvが対応している文字コードを指定してください。 デフォルトはCP932です。

--with-utf8-iconv-name=name

pdicdump が出力する文字コードを指定します。 正確にはSJIS系の辞書のテキストを出力する際にこの文字コードに変換されます。 iconvが対応し、UTF-8互換な文字コードである必要があります。 デフォルトはUTF-8です。

使い方

$pdicdump file

として実行するとfileというファイル名のPDIC辞書からテキストデータを抽出して標準出力に CSV形式でダンプします。 内容は概ねPDICのCSV形式に従いますが、

  • 文字コードは常にUTF-8
  • 1行目の項目リストは出力しない

という点が異なります。 PDIC 1行テキスト形式で出力する場合は

$pdicdump -o pdic1 file

のようにします。 出力の文字コードはUTF-8に固定されています。

SJIS形式の辞書については見出し・テキスト・用例の文字コードを オプションで指定できます。詳しくは--helpで確認してください。 ただし、動作確認はしていません。 発音記号にSIL IPA 93フォントの利用を想定している辞書の場合は

$pdicdump -p silipa93 file

のように-pオプションを指定してください。 逆にSIL IPA 93フォントを利用しない事を想定している辞書の場合は

$pdicdump -p asis file

のように指定してください。

制限・不具合

  • パスワード・暗号化・圧縮等には対応していません。
  • HYPER辞書形式 Ver 4.00より古い形式の辞書にも未対応です。

ライセンス

プログラムの大部分は修正BSDライセンスに従います。 同梱のCOPYINGファイルを参照して下さい。 BOCU-1のエンコーダー/デコーダー等、私の著作でないものはそれぞれのライセンスに従ってください。 詳細は個々のファイルを確認してください。

更新履歴

2019/06/15 Version 1.1.0。一部の辞書で項目が出力されない、出力が壊れる等のバグ修正。 デバッグ出力に対応。 環境変数PDICR_DEBUGを定義していると標準エラー出力にデバッグ用の上方が出力される。 出力量が膨大になるので注意。

2010/08/09 公開。


最終更新日: 月曜日, 7月 08 2019 @ 11:23 午後 JST; 10,809 閲覧件数 印刷用画面