プログラマのための文字コード技術入門 第5章「文字コードの変換と判別」その3

引き続き第5章のコードの自動判別です。

  • BOM、エスケープシーケンスでの判別 - これは比較的確度の高い方法
  • バイト列の特徴をみる
    • そもそも EUC-JP としても Shift_JIS としても正しく文字列を示すバイト列というのはありえるので、完全な判定というのはありえない
    • 「入」という文字は EUC-JP と Shift_JIS でそれぞれお互いに相手は使用しないバイトを含むので判別しやすい。これを先頭のほうに入れておくというテクニック

結論としては自動判別に頼らずに文字コードを指定するしくみを使いましょうというとこでしょうか。

明日から第6章へ入っていきます。