フォト

ウェブページ

無料ブログはココログ

MyList

« 東京国立博物館がクラウドファンディング <儒烏風亭らでんの目標> | トップページ | 生成AIは創造の価値を低下させるのか  »

2025年11月10日 (月)

UNICODEの互換文字 <知らぬ間に紛れ込んでいる>

ダウンロードしたPDFファイルをツールで読上げると、特定の文字を読み飛ばすことに気が付いた。

Photo_20251016135101

問題のファイルは総務省が公開している

 クラウドサービス提供における情報セキュリティ対策ガイドライン(第3班)
 https://www.soumu.go.jp/main_content/000771515.pdf

で、Chromeで読上げているときに、特定の文字を読み飛ばすことに気が付いた。
他の読上げツールでも同様に読み飛ばすので、ツールの問題ではないだろうと考え、文字コードを調べてみたら

大 (U+5927) が
⼤ (U+FDEC) で

記録されていることが分かった。

「⼤」(U+FDEC)は「大」 (U+5927)の互換文字で、異なる文字コード(CP932など)から変換した際に変換されることがあるらしい。

見た目には分からないのだが、文字コードが異なるので、検索でヒットしないし、読上げツールも読めない。
公開した人もそこまでチェックしなかったのだろう。

ということで、このドキュメントの互換文字をすべてチェックしたら

文字 Unicodeコードポイント UTF-8 バイト列 Unicode 名称
U+FDEC EF B7 AC FULLWIDTH CJK IDEOGRAPH-5927 (全角 大)
U+FDEC EF B7 AC FULLWIDTH CJK IDEOGRAPH-652F (全角 支)
U+FDEC EF B7 AC FULLWIDTH CJK IDEOGRAPH-6BD4 (全角 比)
U+FDEC EF B7 AC FULLWIDTH CJK IDEOGRAPH-6B20 (全角 欠)
U+FDEC EF B7 AC FULLWIDTH CJK IDEOGRAPH-793A (全角 示)
U+FDEC EF B7 AC FULLWIDTH CJK IDEOGRAPH-5FC3 (全角 心)
U+FDEC EF B7 AC FULLWIDTH CJK IDEOGRAPH-5C0F (全角 小)

が使われているようだ。
どのアプリで変換されたかは不明だが、CP932から変換されたドキュメントは注意が必要だ。


最近の投稿
Yoshiのよしなしごと】【Yoshiのブログ】【よしなしごと

« 東京国立博物館がクラウドファンディング <儒烏風亭らでんの目標> | トップページ | 生成AIは創造の価値を低下させるのか  »

よしなしごと」カテゴリの記事

ほぼ1人情シス」カテゴリの記事

コメント

コメントを書く

(ウェブ上には掲載しません)

« 東京国立博物館がクラウドファンディング <儒烏風亭らでんの目標> | トップページ | 生成AIは創造の価値を低下させるのか  »