プログラマのための文字コード技術入門 第4章「代表的な文字符号化方式」その1
プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)
- 作者: 矢野啓介
- 出版社/メーカー: 技術評論社
- 発売日: 2010/02/18
- メディア: 単行本(ソフトカバー)
- 購入: 34人 クリック: 578回
- この商品を含むブログ (129件) を見る
長かった第3章を抜けて、今日から第4章の文字符号化方式のところです。
そのまえにちょっと復習
- 「符号化文字集合」とは符号位置(整数の組)と文字(字形)を関連付けるもの。Unicode は符号化文字集合。狭義の「文字コード」
- 「文字符号化方式」とは符号位置をどのようにバイト列として表現するかの方法。UTF-8 や UTF-16 は符号化方式
- 両者が一緒になってたり、符号化方式について明確に決まってないものもある。両方あわせて「文字コード」と呼ぶことも?
では4章の内容に入っていきます。
- JIS X 0201 の符号化方式
- JIS X 0208 の符号化方式
- 8種類も符号化方式が定められてる
- EUC-JP, ISO-2022-JP, Shift_JIS 等の符号化方式を含む
- GL, GR に符号化文字集合を呼び出して使う基本的な考え方は同じ
- 漢字用7ビット符号。GL に JIS X 0208 を呼び出して固定で使う。1バイト文字との混合がなく常に1文字は2バイト
- EUC-JP。GL に ASCII、GR に JIS X 0208 を呼び出す。ただし制御文字で1文字ぶんだけ JIS X 0201 片仮名、JIS X 0212 補助漢字を呼び出せる。
- ISO-2022-JP
- GR しか使わず、エスケープシーケンスで文字集合を切り替えて使う。ASCII, JIS X 0201(ラテン文字)、JIS X 0208(1978版、1983版)を使用。
- Shift_JIS
- やけに複雑で JIS X 0208 に則ってない。なにやら計算式を用いて符号位置を算出する。
Shift_JIS は独自すぎてやだ、ということを時々聞いてましたがこれでどういうことはわかりました。Shift_JIS いやですね。