PDFで「見」や「高」などの文字が検索できなかったり、コピペすると似たような別の字に化けたりする問題(康熙部首・CJK部首補助の文字化け問題)について。この問題があるPDFから、問題のないPDFを生成するツールを作ってみました。https://t.co/BmrubCfhH5— TrueRoad (@trueroad_jp) January 23, 2021
PDFで「見」や「高」などの文字が検索できなかったり、コピペすると似たような別の字に化けたりする問題(康熙部首・CJK部首補助の文字化け問題)について。この問題があるPDFから、問題のないPDFを生成するツールを作ってみました。https://t.co/BmrubCfhH5
PDFで漢字が康熙部首に化ける問題、Acrobat Distillerで出力されたPDFで起きます(他にChromeのPDF出力でも)。Adobeのサポートにこの問題あったので、コメントを追加した: https://t.co/sFLGpiZfO4 https://t.co/WBt1ZysDjM— 村上真雄 MURAKAMI Shinyu (@MurakamiShinyu) July 13, 2020
PDFで漢字が康熙部首に化ける問題、Acrobat Distillerで出力されたPDFで起きます(他にChromeのPDF出力でも)。Adobeのサポートにこの問題あったので、コメントを追加した: https://t.co/sFLGpiZfO4 https://t.co/WBt1ZysDjM
「埼玉県日高市」と書いたHTMLファイルをChromeで開き,「ファイル」→「印刷」→「PDF に保存」すると,pdftotextで「埼⽟県⽇⾼市」(⽟⽇⾼が康熙部首),Previewで開いてコピペすると「市高日県玉埼」?! Safariで「ファイル」→「PDFとして書き出す」なら大丈夫— Haruhiko Okumura (@h_okumura) July 13, 2020
「埼玉県日高市」と書いたHTMLファイルをChromeで開き,「ファイル」→「印刷」→「PDF に保存」すると,pdftotextで「埼⽟県⽇⾼市」(⽟⽇⾼が康熙部首),Previewで開いてコピペすると「市高日県玉埼」?! Safariで「ファイル」→「PDFとして書き出す」なら大丈夫
「埼玉県日高市」をHTML(UTF-8)に書いて、Windows 10のFirefox 78で開いて、Just PDF 3やMicrosoft Print to PDFでPDFにすると、高(U+9AD8)が⾼(U+2FBC)に化けた。 https://t.co/5QkuchudZJ— nightraven (@raven_si) July 14, 2020
「埼玉県日高市」をHTML(UTF-8)に書いて、Windows 10のFirefox 78で開いて、Just PDF 3やMicrosoft Print to PDFでPDFにすると、高(U+9AD8)が⾼(U+2FBC)に化けた。 https://t.co/5QkuchudZJ
PDFからコピペしたら漢字が見た目の似た康熙部首に化けるのはPDFを作るとき内部的に埋め込まれるToUnicode CMapの生成方法がマズいってことですよね、たぶんそれなら昔のdvipdfmxと同じなので、今のdvipdfmxと同じ方法を実装していればとりあえず問題なくなるはず…— TrueRoad (@trueroad_jp) July 15, 2020
PDFからコピペしたら漢字が見た目の似た康熙部首に化けるのはPDFを作るとき内部的に埋め込まれるToUnicode CMapの生成方法がマズいってことですよね、たぶんそれなら昔のdvipdfmxと同じなので、今のdvipdfmxと同じ方法を実装していればとりあえず問題なくなるはず…
ChromeのPDF出力がタグ付きPDF対応になったのは素晴らしいですが、漢字が康熙部首に化ける問題は未修正なので、まだアクセシビリティーに問題あります。ぜひ次はこの修正をお願いしたいです。 https://t.co/xzeFRen2dH— 村上真雄 MURAKAMI Shinyu (@MurakamiShinyu) August 13, 2020
ChromeのPDF出力がタグ付きPDF対応になったのは素晴らしいですが、漢字が康熙部首に化ける問題は未修正なので、まだアクセシビリティーに問題あります。ぜひ次はこの修正をお願いしたいです。 https://t.co/xzeFRen2dH