勝手に和訳:Joel Spolsky氏によるUnicodeとCharacter Setsの解説

Joel Spolsky氏がブログJoel on Sotfware(http://www.joelonsoftware.com/)に掲載されていたThe Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) – Joel on Softwareを勉強をかねて勝手に和訳してみました。
    » http://www.servletgarden.com/blog/2008/01/31/unicode-and-character-sets-translation/

掲載されたのは2003年10月とやや古いので、現状と違うところがあるかもしれないのですが、とても勉強になりました(PHP批判がここにも)。加えて面白かった。なんとなく知っているつもりだと思っていたあたりですが、いざこういうモノを読むとちゃんと理解していなかったかも、、、です。(^^;;

内容のおさらいで、簡単にまとめると…

  • Unicode:地球上に存在する文字をすべてU+0041のようなU+数字のコードポイントで表現する概念
  • エンコーディング:Unicodeのコードポイントで表現されている文字をビット列に変換するための方式

そのエンコーディングにはUTF-8UTF-16, UTF-7UCS-2、ISO 8859-1など数百種類あります。なかでもよく使われているUTF-8は1から127までのコードポイントは1バイトで表現して、128以上のコードポイントは2, 3, ...というように必要に応じてバイト数を増やしていきます。英語のアルファベットは1バイトしか使わないので、ここについてはISO 8859-1やASCIIなどどまったく同じ。メモリやディスクを節約できるようになっています。

…といったところでしょうか。

それにしても、IEエンコーディングが指定されていなかったときには統計学的に類推すると説明されていましたが、、、知りませんでした。

オリジナルのブログの方はかなりべらんめい調なのですが、その感じをだすのはわたしには難しかったのでSpolsky氏の本来の語調とはずいぶん違うと思います。

ところで、Spolsky氏は2月13,14日に開催されるデブサミ2008で講演されるようですね。(都会はいいなぁ…。いろいろやっていて)