プログラマのための文字コード技術入門 第7章「プログラミング言語と文字コード」その3

今日から第7章の続き、Java での文字列のソートと文字分割についてです

  • 何も考えなければ Unicode 基準でのソートになる。英数字ひらがなカタカナくらいはともかく漢字は読み基準というわけではない微妙な結果になる
    • Collator というのを使って言語毎に自然な(アクセント記号つき文字の位置とか)ソートをさせる仕組みがある
  • 文字は char 毎に分割するとサロゲートペアや結合文字が分割されてしまって化ける
    • BreakIterator というクラスを使って正しい文字区切り位置で分割できる仕組みがある。外部イテレーターとして使う

Java についてはこれで終わり。明日からは Ruby 1.8 のトピックです。