文書の過去の版を表示しています。
文字コード
ASCII
1960年代
アメリカ国立標準技術研究所(NIST)によりASCII(アメリカ標準情報交換コード)が開発される。
ASCIIは128の文字セットを使用して、7ビットのエンコーディングを採用している。これにより英数字と基本的な記号を表現できコンピューターで広く利用される。
英語の文字と基本的な記号しか表現できないため、さまざまな拡張ASCIIが登場する。
拡張ASCII
7ビットのASCII文字セットを8ビットに拡張して使用する一連の文字コード。これにより128から256に表現できる文字数が拡大される。
異なる拡張ASCII間では互換性がない。1990年代に入るとこれらの問題を解決するためにUnicodeが開発される。
Unicode
現在、UnicodeはWebページや多くのプログラミング言語、テキストファイルの標準として受け入れられている。
Unicodeのエンコーディング形式
いくつかのエンコーディング形式があるが、特にUTF-8が広く使用されている。
UTF-8
可変長エンコーディング
1バイトから4バイトまでの長さでUnicode文字をエンコードする。ASCII文字は1バイトでエンコードされ、多くの国際文字は2バイト、3バイト、または4バイトでエンコードされる。
UTF-8はASCIIと完全に互換性がある。従来のASCIIテキストファイルは変更なしにUTF-8としても正しく解釈される。
UTF-16
可変長エンコーディング
2バイトまたは4バイトでエンコードされる可変長の文字エンコーディング
UTF-32
Unicodeのすべての文字を4バイトで表現する固定長エンコーディング。他のエンコーディング方式に比べてデータサイズが大きくなる。限定的に使用される文字エンコーディング
Shift_JIS(シフトJIS)
日本語を含む文字列を表現するために用いられる文字コード。1997年に「JIS X 0208」で標準化されたが、ベンダーが独自に拡張したコードセットを指している場合もある。
CP932
Shift_JISの亜種。CP932(Microsoftコードページ932)はMicrosoftがShift_JISを独自に拡張した文字コード。WindowsにおけるShift_JISの実装。
CP932のその他の呼称
「Windows-31J」「MS932」など