プログラマのための文字コード技術入門 第8章「はまりやすい落とし穴とその対処」その1

プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)

プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)

今日から第8章です。文字コードにまつわる典型的なトラブル、諸問題についてのお話なので読み物としてさらっと読みます。

  • 通は od -tx1z -Ax で16進数ダンプ
  • 文字化け
    • Sift_JIS の第2バイトはASCIIと重なってるので文字化けした時に ASCII 文字が表示されることがよくある
      • いわゆる「ダメ文字」の原因でもありますね。
    • IE の文字化けはなかなか趣き深い。ただバイト列を誤った文字コードで解釈しているだけじゃなくできるだけ回復させようとしている(そして結果よくわからない表示になってる)?
    • 機種依存文字は使わない