プログラマのための文字コード技術入門 第5章「文字コードの変換と判別」その2

引き続き第5章の文字コード変換です。

  • そもそも文字集合が違う文字コード間の変換は問題になる。対応する文字がない、似た文字が複数ある(包摂)など
    • 変換で情報が失なわれたり、往復変換で文字が変化してしまったり
  • 文字を変換してしまう(文字変換)こともしばしばある
    • バックスラッシュ問題もこの一部
  • コードの自動判定

変換と一口に言っても、7ビット部分は素通しにしたいのか、文字を保持するように変換したいのか(バックスラッシュ問題)その時々で意図が違うので難しいんですね。

明日はコードの自動判別のところです。