プログラマのための文字コード技術入門 第3章「代表的な符号化文字集合」その6

昨日はちょっとトラブルでお休みしました。またまた Unicode の続きからです。

  • Unicode ISO/IEC 10646(UCS)
    • 全角半角のコードが分けられてる
      • 往復変換で元の文字コードの情報が失われないように余分な符号位置も存在する
    • 統合漢字
    • 互換漢字

なんとかかけあしで 3章を読み終えました。
歴史的経緯や他文字コードとの互換性、文化的/政治的な議論など入り交じって符号化文字集合を規定するのはいやになるくらい難しいことだとひしひしと感じました。こういうところが「文字コード難しい」というイメージの一端になっているような気がします。