文書の過去の版を表示しています。

文字コード

ASCII

1960年代
アメリカ国立標準技術研究所（NIST）によりASCII（アメリカ標準情報交換コード）が開発される。
ASCIIは128の文字セットを使用して、7ビットのエンコーディングを採用している。これにより英数字と基本的な記号を表現できコンピューターで広く利用される。
英語の文字と基本的な記号しか表現できないため、さまざまな拡張ASCIIが登場する。

拡張ASCII

7ビットのASCII文字セットを8ビットに拡張して使用する一連の文字コード。これにより128から256に表現できる文字数が拡大される。
異なる拡張ASCII間では互換性がない。1990年代に入るとこれらの問題を解決するためにUnicodeが開発される。

Unicode

現在、UnicodeはWebページや多くのプログラミング言語、テキストファイルの標準として受け入れられている。

Unicodeのエンコーディング形式

いくつかのエンコーディング形式があるが、特にUTF-8が広く使用されている。

UTF-8

可変長エンコーディング
1バイトから4バイトまでの長さでUnicode文字をエンコードする。ASCII文字は1バイトでエンコードされ、多くの国際文字は2バイト、3バイト、または4バイトでエンコードされる。
UTF-8はASCIIと完全に互換性がある。従来のASCIIテキストファイルは変更なしにUTF-8としても正しく解釈される。

UTF-16

可変長エンコーディング
2バイトまたは4バイトでエンコードされる可変長の文字エンコーディング

UTF-32

Unicodeのすべての文字を4バイトで表現する固定長エンコーディング。他のエンコーディング方式に比べてデータサイズが大きくなる。限定的に使用される文字エンコーディング

Shift_JIS（シフトJIS）

日本語を含む文字列を表現するために用いられる文字コード。1997年に「JIS X 0208」で標準化されたが、ベンダーが独自に拡張したコードセットを指している場合もある。

CP932

Shift_JISの亜種。CP932(Microsoftコードページ932)はMicrosoftがShift_JISを独自に拡張した文字コード。WindowsにおけるShift_JISの実装。

CP932のその他の呼称

「Windows-31J」「MS932」など

マイウィキ

目次