プログラマのための文字コード技術入門 Appendix A.1 - A.3

今日から Appendix です。

  • A.1 ISO/IEC 2022 のもう少しだけ詳しい説明
    • GL/GR に符号化文字集合を呼び出すという説明だったけど実際には G0, G1, G2, G3 と仮想的なバッファに「指示」されているものを「呼び出す」という概念になっている。
    • EUC-JP は G0-G3 にあらかじめ使う文字集合を「指示」しておいて、それは固定で G0-G3 からの「呼び出し」で切り替えてる
    • ISO-2022-JP は適宜 G0 に文字集合を「指示」していて、実は GL への「呼び出し」はしていない。
  • A.2 JIS X 0213 の符号化方式
    • EUC-JP や Shift_JIS にも上位互換版があるんですねー。しかしこれよく使われるようになるのかどうか……
  • A.3 諸外国・地域の文字コード概説
    • さらっと流し読みしましたが、北朝鮮文字コードのところで、指導者の名前に使われるハングルが特別な符号位置に用意されていて、人名をソートすると必ず先頭にくるようになっているというあたりはさすがですね。別に揶揄するわけではなくて、文字というのは文化や政治と深い関わりがあって、文字コードはそういう面からの影響を受けることが多いということを本書で学んだので、そのわかりやすい一例だなぁと思いました。

Appendix はまだ残っているのであと一日くらい読みます。

その後の本のことをまだ考えていませんでした。そろそろ好きな Ruby の本に戻って「メタプログラミング Ruby」か「Ruby ベストプラクティス」にしようかと思います。