UNICODEの互換文字 <知らぬ間に紛れ込んでいる>
ダウンロードしたPDFファイルをツールで読上げると、特定の文字を読み飛ばすことに気が付いた。
クラウドサービス提供における情報セキュリティ対策ガイドライン(第3班)
https://www.soumu.go.jp/main_content/000771515.pdf
で、Chromeで読上げているときに、特定の文字を読み飛ばすことに気が付いた。
他の読上げツールでも同様に読み飛ばすので、ツールの問題ではないだろうと考え、文字コードを調べてみたら
大 (U+5927) が
⼤ (U+FDEC) で
記録されていることが分かった。
「⼤」(U+FDEC)は「大」 (U+5927)の互換文字で、異なる文字コード(CP932など)から変換した際に変換されることがあるらしい。
見た目には分からないのだが、文字コードが異なるので、検索でヒットしないし、読上げツールも読めない。
公開した人もそこまでチェックしなかったのだろう。
ということで、このドキュメントの互換文字をすべてチェックしたら
| 文字 | Unicodeコードポイント | UTF-8 バイト列 | Unicode 名称 |
| ⼤ | U+FDEC | EF B7 AC | FULLWIDTH CJK IDEOGRAPH-5927 (全角 大) |
| ⽀ | U+FDEC | EF B7 AC | FULLWIDTH CJK IDEOGRAPH-652F (全角 支) |
| ⽐ | U+FDEC | EF B7 AC | FULLWIDTH CJK IDEOGRAPH-6BD4 (全角 比) |
| ⽋ | U+FDEC | EF B7 AC | FULLWIDTH CJK IDEOGRAPH-6B20 (全角 欠) |
| ⽰ | U+FDEC | EF B7 AC | FULLWIDTH CJK IDEOGRAPH-793A (全角 示) |
| ⼼ | U+FDEC | EF B7 AC | FULLWIDTH CJK IDEOGRAPH-5FC3 (全角 心) |
| ⼩ | U+FDEC | EF B7 AC | FULLWIDTH CJK IDEOGRAPH-5C0F (全角 小) |
が使われているようだ。
どのアプリで変換されたかは不明だが、CP932から変換されたドキュメントは注意が必要だ。
最近の投稿
【Yoshiのよしなしごと】【Yoshiのブログ】【よしなしごと】
« 東京国立博物館がクラウドファンディング <儒烏風亭らでんの目標> | トップページ | 生成AIは創造の価値を低下させるのか »
「よしなしごと」カテゴリの記事
- これまで私があなたをどう扱ってきたのかを画像にしてください(2026.01.22)
- M365をきちんと使う <SharePointはNASじゃない>(2026.01.10)
- 今時の50歳(その2) <AIさんに訊いてみた>(2026.01.06)
- 今時の50歳(その1)(2026.01.04)
「ほぼ1人情シス」カテゴリの記事
- 2025年の反省(2025.12.31)
- ランサムウェア被害(2025.12.23)
- 衣食足りて・・・ <まだ貧しいのか>(2025.12.13)
- grep考(2) <Excelで検索してみた>(2025.12.07)
- Japan IT Week 2025秋 <AIブームが終わろうとしている?>(2025.11.02)
« 東京国立博物館がクラウドファンディング <儒烏風亭らでんの目標> | トップページ | 生成AIは創造の価値を低下させるのか »



コメント