文字コードについて

文字コードとは、コンピュータなどの電子媒体において、文章を画像などの図形データとしてではなくテキストの形式で扱う場合に、その各文字(単一の文字でない場合もある)に対して持っている符号(コード)のことである。

文字を特定の符号で扱う手段はコンピュータが誕生するよりも昔から存在した
(モールス符号などもそのようにして使用された文字を符号化した情報の一種である)。
また、文字を表形式にして扱う方法も古くから存在し(日本語の仮名の五十音図もその一種である)、利用されてきた。コンピュータにおいては、文字などを表形式などを用いて体系的に符号化した利用がその性質上強く行われ、それらが文字コードとなっている。

文字コードの歴史は電気通信の歴史とほぼ等しい。

古くはテレックスで用いられた国際電信アルファベット第2、アメリカ規格協会(ASA)が定めた。ASCII、IBMによって開発されたEBCDICなどがあった。
しかしコンピュータシステムが多くの言語圏で利用されるようになるにつれて文字コードの種類も増大し、現在では100種類以上の代表的な文字コードが存在する。

コンピュータの発展が早かった英語圏やその他のアルファベットを使用する言語(主に西洋)、日本語、中国語、韓国語などは早くから言語固有の文字コードが制定され利用可能になった。
その他の大部分の言語もUnicodeの普及とともにコンピュータ上で文字を正常に表現することができるようになりつつある。

多様な文字コードの存在は文字コードの互換性問題を引き起こす。

文字コードの互換性問題とは、ある文字コードで記録されたデータを別の文字コードに変換しようとするとき、一方で定義されている文字がもう一方では定義されていない(あるいは用途によって2種類の文字に分けられている)という問題である。
日本語では、これは特殊な漢字(名字や団体名に使われる漢字)などが入ったデータベースを扱うときなどに問題となる。
また文字コードの変換にかかるコストはばかにならないことが多い。

近年、これらの互換性問題を解決するためにすべての言語の文字に、一つの文字コード体系で対応する試みであるUnicodeが作られ、オペレーティングシステムやJavaなどの内部コードとして広く利用されている。
Microsoft WindowsやmacOSなどの最近のOSは、表面上はUnicode以外の文字コードを使っていても内部処理上はUnicodeに変換して処理しているものが多い。
この場合、波ダッシュのように、字によってはUnicodeと各文字コードの変換テーブルがOSによって異なるなどの問題が生じる場合がある。


トップ   差分 履歴 リロード   一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-06-03 (金) 19:20:24 by pukiwiki 1.5.4