プログラマのための文字コード技術入門 第2章「文字コードの変遷」その2

今日は ISO/IEC 2022、8ビットコード、2バイトコード(マルチバイトコード)です。いきなりぐっとむつかしくなりました。集中して読まないと理解し損ねそうです。

  • 要はMSB 8ビット目が立ってるコードも使う
  • Left(8ビット目が0)とRight(1)という2つの領域に分割すると考えてそれぞれの領域のコードをエスケープシーケンスで文字集合を呼び出して(切り替えて)使うというモデル
  • Right の領域はマルチバイトでもよい
  • EUC-JP も ISO/IEC 2022 の枠組みの中で、エスケープシーケンスによる切り替えなしでコードしている

意外とあっさりマルチバイトコードEUC-JP という名前が出てきました。エスケープシーケンスで文字集合を切り替えるということは、文字コードが文脈に依存するので、文字列の途中の一部を切り出したりするときに困りそうですね。