プログラマのための文字コード技術入門 第3章「代表的な符号化文字集合」その5

昨日はちょっとトラブルでお休みしました。またまた Unicode の続きからです。

  • Unicode ISO/IEC 10646(UCS)
    • BMP(基本多言語面) だけでほぼ普段使う文字は入ってそう
    • 面01(SMP Supplementary Multilingual Plane)
      • 麻雀牌の絵柄とか音符とか古代の文字が入ってるらしい
    • 面02(SIP Supplementary Ideographic Plane)
      • CJK統合漢字拡張C で追加された漢字が入ってるらしい
    • 面0E
      • メタ文字? よくわからない。他の文字につけ加えて何かを指定するような感じ
    • 結合文字
      • 2つ以上の符号位置を組み合わせて1つの文字にする仕様が Unicode にはある
      • 合成によらず1つの符号位置で同じ文字が用意されていることもあるので、その方針を統一するのを「正規化」と呼ぶ
      • UCS-4 の群00、面00。基本多言語面(BMP)のみの符号
    • 実質的に 群00以外の群は利用されない
    • 記法。U+4E00 は BMP の 区4E 点00 の符号位置(漢字の'一'がわりあてられている)

今日はここまで。
Unicode はよく知っておいたほうがよいと思うのでまだまだじっくり、とはいえそろそろ次の章へ行きたいところです。