文書の過去の版を表示しています。

文字コード

文字コードとは、コンピュータが文字を識別するために文字を数値（ビット列）に変換しているルール。文字と数値の対応づけ。各文字に数値を割り当てて扱っているが、割り当て方はいくつかの方式がある。

ASCII

1960年代
アメリカ国立標準技術研究所（NIST）によりASCII（アメリカ標準情報交換コード）が開発される。
ASCIIは128の文字セットを使用して、7ビットのエンコーディングを採用している。これにより英数字と基本的な記号を表現できコンピューターで広く利用される。
英語の文字と基本的な記号しか表現できないため、さまざまな拡張ASCIIが登場する。

拡張ASCII

7ビットのASCII文字セットを8ビットに拡張して使用する一連の文字コード。これにより128から256に表現できる文字数が拡大される。
異なる拡張ASCII間では互換性がない。1990年代に入るとこれらの問題を解決するためにUnicodeが開発される。

Unicode

世界中の文字を収録し、統一的に扱うための文字セット規格。現在、UnicodeはWebページや多くのプログラミング言語、テキストファイルの標準として受け入れられている。

Unicodeのエンコーディング形式

世界中の文字を収録するUnicodeだが、同じ文字セットに対していくつかのエンコード形式（符号化方式）がある。その中で、特にUTF-8が主流として広く使用されている。

UTF-8

可変長エンコーディング
1バイトから4バイトまでの長さでUnicode文字をエンコードする。ASCII文字は1バイトでエンコードされ、多くの国際文字は2バイト、3バイト、または4バイトでエンコードされる。Linux系やmacOSの標準文字コード。
UTF-8はASCIIと完全に互換性がある。従来のASCIIテキストファイルは変更なしにUTF-8としても正しく解釈される。

UTF-16

可変長エンコーディング
2バイトまたは4バイトでエンコードされる可変長のエンコーディング

UTF-32

Unicodeのすべての文字を4バイトで表現する固定長エンコーディング。他のエンコーディング方式に比べてデータサイズが大きくなる。限定的に使用されるエンコーディング形式。

Shift_JIS（シフトJIS）

日本語を含む文字列を表現するために用いられる文字コード。1997年に「JIS X 0208」で標準化されたが、ベンダーが独自に拡張したコードセットを指している場合もある。1バイトと2バイトの可変長エンコーディング。

CP932

Shift_JISの亜種。CP932(Microsoftコードページ932)はMicrosoftがShift_JISを独自に拡張した文字コード。WindowsにおけるShift_JISの実装。標準的に使用される文字コード。

CP932のその他の呼称

「Windows-31J」「MS932」など

EUC-JP（日本語EUC）

UNIXやLinuxの標準的な文字エンコードとして使用されてきた。WebサーバーにUNIXやLinuxが多く用いられていたことから日本語WebサイトではShift_JISと並んでEUC-JPも多く使われていた。2000年代中頃からUTF-8が普及し始めている。2バイトの固定長エンコーディング。

ANSI

コンピュータの文字コードにおいて「ANSI」と言う場合、Windows におけるローカルな文字コードを指している。国や地域ごとに違う異なるエンコーディングとなる。日本においては「CP932」のことになるが、Windows10では「ANSI」としてUTF-8を使用するオプションも登場した。

マイウィキ

目次