みんなの Python 1-11 Python と日本語

みんなのPython

みんなのPython

今日は 1-11 「Python と日本語」の前半を読みました。

  • Python の文字列はバイト列
  • ユニコード文字列はマルチバイト文字列を格納できる
  • Codec というモジュール(?)で文字エンコードの変換をサポート(2.4 から)
  • 組み込み関数 unicode() で8ビット文字列をユニコード文字列に変換できる(sjis, euc-jp, utf-8 などが指定できる)
  • 文字列のメソッド decode でも変換できる

ユニコード文字列の文字エンコードUTF-8 固定だと思ってましたが Python としては特に内部で固有のエンコードは決まってないんですね。