みんなの Python 1-11 Python と日本語
- 作者: 柴田淳
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2006/08/22
- メディア: 単行本
- 購入: 11人 クリック: 624回
- この商品を含むブログ (180件) を見る
今日は 1-11 「Python と日本語」の前半を読みました。
- Python の文字列はバイト列
- ユニコード文字列はマルチバイト文字列を格納できる
- Codec というモジュール(?)で文字エンコードの変換をサポート(2.4 から)
- 組み込み関数 unicode() で8ビット文字列をユニコード文字列に変換できる(sjis, euc-jp, utf-8 などが指定できる)
- 文字列のメソッド decode でも変換できる
ユニコード文字列の文字エンコードは UTF-8 固定だと思ってましたが Python としては特に内部で固有のエンコードは決まってないんですね。