文字コードとUNICODE (パソコン便利ツール集)

　Windows でいう Unicode テキストは、リトルエンディアンの UTF-16 です。
　(ビッグエンディアンとリトルエンディアンという区分は、2Byteの前後の並べ方の方式を言いますが、この単語は、ジョナサン・スウィフトの風刺小説ガリバー旅行記の中のエピソードに由来します。ガリバー旅行記の第1部「小人国」では、卵を丸い方(大きい方)の端から割る人々(Big Endians)と尖った方(小さい方)の端から割る人々(Little Endians)との対立が描かれています。ガリバー旅行記は、青空文庫のここで読めます。)

2バイトでは、下記の数が区分できます。
2Byte = 256^2 = (2^8)^2 = 2^16 = 65,536

　世界の全ての文字を表現するには、16bit(65,535文字)では足りないため、場合によっては、32bitを使って文字を表現する可変長の、サロゲート（sarrogate）方式が、Unicode 2.0 から導入されました。
　サロゲート（surrogates）とは、16bitの領域（65,535）に2048個の空間（D800〜DFFF ）を予約し、さらにその2048個のコードを上位用1024個と下位用1024個に分けて上位＋下位の32bit(4バイト)コードで1文字を表します。つまり理論上1024×1024の100万を超える文字を扱うことができます。

　参考：IVS（Ideographic Variation Sequence）
http://itpro.nikkeibp.co.jp/article/COLUMN/20100126/343783/
http://ja.wikipedia.org/wiki/%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BF

1991年 - Unicode 1.0
1996年 - Unicode 2.0 UTF-8
2000年 - Unicode 3.0
2002年 - Unicode 3.2 JIS X 0213正式対応(70,195の漢字が利用可能)
2003年 - Unicode 4.0
2006年 - Unicode 5.0 バリ文字、フェニキア文字、楔形文字など追加
2010年 - Unicode 6.0 携帯電話の絵文字
2014年 - Unicode 7.0 約250字の絵文字の追加
2015年 - Unicode 8.0
2016年 - Unicode 9.0 絵文字の追加、4KTV放送用シンボル追加

UTF-8エンコード方式は可変長で、英数記号のASCIIコード128文字(U+0000〜U+007F)は、1バイトで表して、0x0800から0xFFFFまでのマルチバイト文字は、3バイトで表します。16補足プレーンの1,048,576文字は、4バイトでエンコードされます。

3バイトでは、下記の数が区分できます。
3Byte = 256^3 = (2^8)^3 = 16^6 = 16,777,216
2^10 ≒ 1000 ( 10 log2 ≒ 3.01 ≒ 3 = log1000 ) を使って、下のように概算もできます。
(2^8)^3 = 2^24 = 2^4*2^20 = 16,000,000

　Unicodeは、1,000,000 (百万文字）を取り扱うことができるため、「世界中の文字を取扱うことができる」と考えられます。

　中国の国家標準 GB2312 は6,763字、2003年3月に制定された新規格 GB18030 は、27,484字。

　康煕字典4万7千：中国の清の康煕帝が編纂させた辞書(1716年)
　中華字海8万5千：中国の最大の字典(1994年)
　高電社の ChineseWriter7〜は、 GB18030 に対応しています。欲しいな (^^ゞ

　日本のJISX0208 は、漢字・非漢字6,879字を規定。(うち漢字は第一水準2,965字，第二水準3,390字の計6,355字。)
　後継規格として、2000年にJIS X 0213：2000 (JIS2000) が制定され、第3水準1,908字、第4水準2,436字計4,344字が追加された。これで、基本漢字とあわせて、漢字10,040、非漢字1,183
　2004年には、JIS X 0213：2004 (JIS2004) として、第3水準に10文字追加と、第1水準・第2水準の内の168文字の例示字形の変更がありました。
http://www.jisc.go.jp/newstopics/2005/040220kanjicode.pdf
　Windows Vista には JIS2004 に対応したフォントが同梱されているので、対応するアプリケーションでは、JIS2004 の文字が使えます。

　教育漢字1,006：小学校で習う漢字
　常用漢字1,945：一般の社会生活で用いる漢字の目安(教育漢字を含む)
　人名用漢字284：常用漢字外で人名として戸籍登録に使用できる
　大漢和辞典51,053：日本の最大の漢和辞典(修訂2版1990年)
　フォントについては、「多書体フォント」も参照下さい。

№	文字コード名	説明
1	ASCII	1バイト・パソコンの標準
2	EBCDIC	IBM社の大型機械の標準
3	EUC	UNIXマシンの標準
4	JISコード	JIS(日本工業規格)で標準化
5	シフトJIS	日本語WindowsやMac OSなどで使われる
6	Unicode	全世界の、全ての文字を区分できる。日本語文字を、 3バイトで表現するもの(UTF8)と、 2バイトで表現するもの(UTF16)(リトル・エンディアンとビッグ・エンディアンに分かれる) 、の3種類の標準が存在 Windows の Unicode テキストは、リトルエンディアンの UTF-16

JIS	表示	HTML	UNICODE
0x405B		摑	0x6451

フォント	日本漢字		−							−	a
	中国漢字	−				−					a
	台湾漢字	−	−		−						a
文字コード	S-JIS	95D3	−	E7B2	905E	E1C1	95BD	8948	FBB9(漢字3)	−	61
	GB	−	B1DF	DF85	D5E6	−	C6BD	D3F0	E087	B5CB	61
	Unicode	BA8F	B98F	8A90	1F77	1E77	735E	BD7F	2791	9390	6100
	UTF-8	E8BEBA	E8BEB9	E9828A	E79C9F	E79C9E	E5B9B3	E7BEBD	E984A7	E98293	61

文字コードとUNICODE

目次

文字コードの種類

文字コードとフォントの関係(例)

Unicode の世界

文字コードの種類

文字コードとフォントの関係(例)

Unicode の世界

文字コードとUNICODE

目次

文字コードの種類 文字コードとフォントの関係(例) Unicode の世界

文字コードの種類

文字コードとフォントの関係(例)

Unicode の世界

文字コードの種類

文字コードとフォントの関係(例)

Unicode の世界