Windows でいう Unicode テキストは、リトルエンディアンの UTF-16 です。
(ビッグエンディアンとリトルエンディアンという区分は、2Byteの前後の並べ方の方式を言いますが、この単語は、ジョナサン・スウィフトの風刺小説
ガリバー旅行記の中のエピソードに由来します。ガリバー旅行記の第1部「小人国」では、卵を丸い方(大きい方)の端から割る人々(Big Endians)と尖った方(小さい方)の端から割る人々(Little Endians)との対立が描かれています。ガリバー旅行記は、
青空文庫の
ここで読めます。)
2バイトでは、下記の数が区分できます。
2Byte = 256^2 = (2^8)^2 = 2^16 = 65,536
世界の全ての文字を表現するには、16bit(65,535文字)では足りないため、場合によっては、32bitを使って文字を表現する可変長の、サロゲート(sarrogate)方式が、Unicode 2.0 から導入されました。
サロゲート(surrogates)とは、16bitの領域(65,535)に2048個の空間(D800〜DFFF
)を予約し、さらにその2048個のコードを上位用1024個と下位用1024個に分けて上位+下位の32bit(4バイト)コードで1文字を表します。つまり理論上1024×1024の100万を超える文字を扱うことができます。
参考:IVS(Ideographic Variation Sequence)
http://itpro.nikkeibp.co.jp/article/COLUMN/20100126/343783/
http://ja.wikipedia.org/wiki/%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BF
1991年 - Unicode 1.0
1996年 - Unicode 2.0 UTF-8
2000年 - Unicode 3.0
2002年 - Unicode 3.2 JIS X 0213正式対応(70,195の漢字が利用可能)
2003年 - Unicode 4.0
2006年 - Unicode 5.0 バリ文字、フェニキア文字、楔形文字 など追加
2010年 - Unicode 6.0 携帯電話の絵文字
2014年 - Unicode 7.0 約250字の絵文字の追加
2015年 - Unicode 8.0
2016年 - Unicode 9.0 絵文字の追加、4KTV放送用シンボル追加
UTF-8エンコード方式は可変長で、英数記号のASCIIコード128文字(U+0000〜U+007F)は、1バイトで表して、0x0800から0xFFFFまでのマルチバイト文字は、3バイトで表します。16補足プレーンの1,048,576文字は、4バイトでエンコードされます。
3バイトでは、下記の数が区分できます。
3Byte = 256^3 = (2^8)^3 = 16^6 = 16,777,216
2^10 ≒ 1000 ( 10 log2 ≒ 3.01 ≒ 3 = log1000 ) を使って、下のように概算もできます。
(2^8)^3 = 2^24 = 2^4*2^20 = 16,000,000
Unicodeは、1,000,000 (百万文字)を取り扱うことができるため、「世界中の文字を取扱うことができる」と考えられます。
中国の国家標準 GB2312 は6,763字、2003年3月に制定された新規格 GB18030 は、27,484字。
康煕字典4万7千:中国の清の康煕帝が編纂させた辞書(1716年)
中華字海8万5千:中国の最大の字典(1994年)
高電社の
ChineseWriter7〜 は、 GB18030 に対応しています。欲しいな (^^ゞ
日本のJISX0208 は、漢字・非漢字6,879字を規定。(うち漢字は第一水準2,965字,第二水準3,390字の計6,355字。)
後継規格として、
2000年にJIS X 0213:2000 (JIS2000) が制定され、第3水準1,908字、第4水準2,436字 計4,344字が追加された。これで、基本漢字とあわせて、漢字10,040、非漢字1,183
2004年には、JIS X 0213:2004 (JIS2004) として、第3水準に10文字追加と、第1水準・第2水準の内の168文字の例示字形の変更がありました。
http://www.jisc.go.jp/newstopics/2005/040220kanjicode.pdf
Windows Vista には JIS2004 に対応したフォントが同梱されているので、対応するアプリケーションでは、JIS2004 の文字が使えます。
教育漢字1,006:小学校で習う漢字
常用漢字1,945:一般の社会生活で用いる漢字の目安(教育漢字を含む)
人名用漢字284:常用漢字外で人名として戸籍登録に使用できる
大漢和辞典51,053:日本の最大の漢和辞典(修訂2版1990年)
フォントについては、「
多書体フォント」も参照下さい。