お寿司か焼き肉食べたい

まじめな事からしょーもない事まで
めにゅーを開く(投げやり)

文字コード、これとっても怖い

コーディングやプログラミングを行うに当たって、実はとっても重要な文字コード
良く使うものなどをかいつまんで紹介します。

文字コードの種類

世界中の言語用に文字コードってのは存在しています。
無数にありすぎるので、正直全部覚えきれませんし、覚える必要もありません
ひとまず日本語ベースとして、以下の文字コードがあると覚えておけばOKです。
【Shift_JIS】
【EUC-JP】
【UTF-8】
【iso-2022-jp(JISコード)】
の3つです。

そもそも文字コードってなんですか

そもそもの話なんですが、文字コードって簡単に言いますが、何かと言うと
そのまま、【文字を表示させるコード】なんです。

意味不明っすね。

例えば、【あ】←この文字をベースに少しだけ。

普通にhtmlに【あ】って記述すれば【あ】と表示されます。
でも【あ】と表示する前の状態ってのがあります。それが文字コードです。
で、Shift_JISとUTF-8とか何が違うのかというと、文字コードが違うのです。
同じ【あ】でも、

Shift_JIS:82A0
UTF-8:e3 81 82

のように全然違うわけです。これが文字コードの違いと呼ばれているものです。

なので、Shift_JISで書かれたものをUTF-8で見ようとすると
【文字化け】が発生するのですね!

Shift_JISとは

昔から使われているオーソドックスな文字コードです。
元々は英語なので、日本語でないんですよね。その為に作られたのがこのShift_JISなのです。
読み方は、「シフトジス」「エスジス」等と呼ばれる事が多いです。
また、正式な書き方は【Shift_JIS】なんですが結構これ間違えてる人も多く 【sjis】【shift-jis】のように書いてたりします。でもこれでも認識してくれるようです。

余談ですが、Shift_JISをベースに亜種が作られており
マイクロソフトなどの各ベンダーが実装するShift_JISの亜種は【MS932】
Mac OSが実装する亜種については「MacJapanese」と呼ばれるものが存在しています。
ちなみにShift_JISが正式名称であり、略語ではありません。

EUC-JPとは

きっと今回紹介する中で一番知名度が低い文字コード、きっと現状では使うことはもうないんじゃないかと思ってるくらいです。
【Extended UNIX Code Packed Format for Japanese】 が正式名称です。
PHPでゴリゴリしてた時代、一時社内ではEUC-JPばっかり使ってた時期もあったのでついでに。

しつこいようですが、使うことはないと思います

じゃぁ何に使われてるんだよって事ですが
UNIX上で日本語の文字を扱う場合にもっとも多く利用されている文字コードなのです。
※UNIXは基本的にOSと思っててもらってよいです。

UTF-8とは

マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムといった名だたる企業が集まって
文字コードの国際化を決定します。これが、Unicodeと呼ばれるものです。
で、そのUnicodeの変換方式の一つとして、このUTF-8が生まれました。
かなりかいつまんでの説明ですが、もっと簡単に言うと
【国際化した文字コード】の事です。難しい

WebサイトでUTF-8を使うと何が利点かというと、世界中から見ても文字化けせずに見れる事でしょうか
↑間違ってたらすいませんホント

ちなみに、【8】これはビット数を指しており、UTF-16なんてものとかもあったりします。

どうでも良いですが、僕が好きな文字コードです。
jQueryとかこの文字コードベースですし。(もっと増えてくれ!)

iso-2022-jp

最後にiso-2022-jp。
この文字コードはEメールで使われている文字コードです。
【アイエスオー】【ジスコード】と呼ばれたりします。