Kazuhiro's blog
ようこそ! Kazuhiro's blog
水曜日, 7月 24 2019 @ 03:36 午後 JST
 記事を友人にメールする 印刷用画面 

pdic-fuw released

general

またしても今更な話ですが、pdicdumpの出力からJIS X 4081 UTF-8 extension準拠の書籍に変換するツールを公開しました

以前に公開したpdic-fpwに比べ、辞書内のハイパーリンクテキスト (相互参照)にある程度対応しています。また、付属のLookup 1.4+media用のパッケージファイルを使えば、フォントタグ等にもある程度対応します。

タグ:PDIC FreeUWING

 記事を友人にメールする 印刷用画面 

EPWINGを圧縮する (libdeflateで)

general

今更な話ですが、EBライブラリに付属のebzipを使えば、EPWINGを圧縮したまま利用する事が可能です。ebzipで圧縮されたEPWINGは、EBライブラリだけでは無く、多くのEPWINGビューアが対応しています。

ebzipのオプションには圧縮レベルがあり、これは圧縮するチャンクの大きさに反映されます。最大値の5ではチャンクのサイズは64KiBです。ebzipでの圧縮にはzlibを利用していますが、ebzipの圧縮レベルとは別に、zlibにも圧縮レベルがあります。ebzipでは圧縮レベルに関係なく一律の値 (Z_DEFAULT_COMPRESSIONによって指定される値で、現在は6) を指定しています。

zlibの圧縮レベルを上げればもっと圧縮できるのではないかと思って試してみましたが、よくて1%強程度しか改善できませんでした。

その時点で諦めてもよかったのですが、zlib以外のライブラリを使ってみてはということで、圧縮率の改善が見込めそうなlibdeflateを使ってみました。

青空てにをは辞典
190309
広辞苑第五版
HONMON2
広辞苑第五版
HONMONS
日本語版ウィキペディア
Wikip_ja20190301
英語版ウィキペディア
Wikip_en20190301
非圧縮
1,764,730,880 220,059,648 69,834,752 33,236,779,008 112,939,145,216
ebzip -l 5
478,746,362 72,335,940 50,837,283 19,927,656,401 33,968,207,228
非圧縮との比 27.1% 32.9% 72.8% 60.0% 30.1%
ebuzip -l 5
20190630
470,542,862 72,172,845 50,771,067 19,897,758,310 33,530,220,494
ebzipとの比 98.3% 99.8% 99.9% 99.8% 98.7%
ebuzip -l 5
libdeflate
441,842,778 67,058,577 49,942,504 19,661,425,623 32,384,784,337
ebzipとの比 92.3% 92.7% 98.2% 98.7% 95.3%

結果は表のような感じで、悪くても1%以上は改善し、書籍によっては約7.7%改善しました。 ebuzip -l 5 20190630 となっているものはzlibの最大圧縮レベルを利用したケースです。 また、HONMON2の非圧縮のサイズはHONMON2を伸長した場合のものです。 微々たる物といえばそうなのですが、スマートフォンなど、ストレージに制限がある場合には有効かもしれません。

EB Library with UTF-8 supportでlibdeflateを利用できるようにしていますので、興味のある方はお試しください。

タグ: EPWING EB Library

 記事を友人にメールする 印刷用画面 

Texinfoで日本語pdfを作成する

general

細田さんが作業された、「Texinfoで日本語PDFを生成」をLookupとWanderlustのドキュメントでやってみました。そのままではクロスリファレンスの部分が日本語化されていないので、一部変更したものを使ってみました。 実際にやったことは変更したファイル (texinfo.tex, texinfo-ja.tex, txi-ja.tex) をダウンロードし、.texiファイルに若干の修正を加えただけです。

修正内容は

  1. ファイルの先頭にある\input texinfo\input texinfo-jaにし、texinfo.texを直接読み込まずにtexinfo-ja.texを読み込むようにする。
  2. ファイルの文字コードをutf-8にし、ファイルヘッダ (Emacs用の coding cookieや@documentencodingコマンドの引数等) もそれに合わせる。

だけでした。Debian (sid) とW32TeXのLuaTeXで確認しています。 尚、インデックスや見出しに日本語等の非ASCII文字を含む場合 (Lookupのドキュメントが該当します)、texindexコマンドはTexinfo 6.0以降のものである必要があるはずです (W32TeXのtexindexは対応していません。私はMSYS2texindexを使いました)。作成されたWanderlustの日本語ドキュメントをおいてみました (pdf, 3.2MB) ので興味のある方はご覧ください。

 記事を友人にメールする 印刷用画面 

x-gzip64 decoder for FLIM on Emacs24

general

Emacs24で実装された、zlibサポートを利用したx-gzip64エンコードのデコーダです。 今更FLIMに入れるのもどうかという気もしますので、ここで公開しておきます。

;; x-gzip64 decoder
(when (and (fboundp 'zlib-available-p) (zlib-available-p))
  (eval-after-load "mel-g"
    '(progn
       (mel-define-method mime-decode-region (start end (nil "x-gzip64"))
         (save-excursion
           (save-restriction
             (narrow-to-region start end)
             (let ((mb enable-multibyte-characters))
               (set-buffer-multibyte nil)
               (base64-decode-region (point-min) (point-max))
               (zlib-decompress-region (point-min) (point-max))
               (set-buffer-multibyte mb)))))

       (mel-define-method mime-decode-string (string (nil "x-gzip64"))
         (with-temp-buffer
           (set-buffer-multibyte nil)
           (insert string)
           (base64-decode-region (point-min) (point-max))
           (zlib-decompress-region (point-min) (point-max))
           (buffer-string)))

       (mel-define-method mime-write-decoded-region (start end filename
                                                           (nil "x-gzip64"))
         "Decode and write current region encoded by gzip64 into FILENAME.
START and END are buffer positions."
         (interactive "*r\nFWrite decoded region to file: ")
         (let ((coding-system-for-read 'binary)
               (coding-system-for-write 'binary)
               (buffer (current-buffer)))
           (with-temp-buffer
             (set-buffer-multibyte nil)
             (insert-buffer-substring buffer start end)
             (base64-decode-region (point-min) (point-max))
             (zlib-decompress-region (point-min) (point-max))
             (write-region (point-min) (point-max) filename)))))))

タグ: Emacs Wanderlust

 記事を友人にメールする 印刷用画面 

cld4-epw-20150508 is released

general

cdae2-epwを作成されたクサガメさんが、Cambridge Learner's Dictionary 4th Editionに付属のCD-ROMの内容を、EBStudioで変換できるようにするためのPerlスクリプトを公開されています。