情報のデジタル化とはなにか?標本化・量子化・符号化について

今回のテーマは「情報のデジタル化とは何か?」だ。

以前に公開した記事「アナログとデジタルの違いについて」でも似たような話をしているが、その点をもう少し深掘りしして解説していく。

 

当該記事が未読の方は、ぜひ一度目を通してみてほしい。(2~3分で読めるよ)

情報のデジタル化とは何か?

「アナログ」と「デジタル」を対比すると、それぞれの本質が浮き彫りになる。

 

アナログ情報とは、情報を物理量で表したもので、人間が知覚しやすい点がアナログ化の利点である。

デジタル情報とは、情報を物理量から符号(数値・記号・文字など)に変換して表したもので、コンピューターが扱いやすい点がデジタル化の利点である。

 

例えばアナログ体温計(例:水銀体温計)は、温度によって体積が変化する水銀の特性を利用して、水銀が伸びた「長さ」という物理量を"人間が"読み取って、温度に変換※する。

対してデジタル体温計は、温度によって電気抵抗値が変化するとある物質の特性を利用して、「抵抗値」という物理量を"コンピュータ"が読み取って、温度に変換※・表示する。

 

このように、物理量をできる限りそのまま扱うのがアナログ化であり、物理量を符号化して扱うのがデジタル化である。

 

※補足

『アナログ体温計の場合も、人間が「長さ(物理量)→温度(符号)」に変換しているのだから、デジタル化といえるのでは?』と思う方もいるかもしれない。

確かにその通りだが、あくまで先述の定義に従うのであれば、「人間が物理量を扱う必要がないこと」がデジタル化の本質と言えるのかもしれない。

情報をデジタル化する手順(標本化・量子化・符号化)

一口に「情報」といっても、色、文字、温度、匂い、触感、数字など様々だ。「伝達できるもの」はすべて情報なのだから。

その中でも今回は、「音」という情報をどういった手順でデジタル化するのかを解説する。

 

アナログ情報をデジタル情報に変換することを、「A/D変換(Analog to Digital)」という。

対象が何であれ、A/D変換は次の手順で行われる。

 

  1. 標本化
  2. 量子化
  3. 符号化

①標本化とは

音がマイクロフォンによって拾われると、音圧の時間的変化が電圧に変換される。音圧も電圧もアナログ情報であるため、この時点ではまだアナログ情報処理である。

例えば横軸を時間、縦軸を電圧としてグラフにすると、音の波形(実際は電圧の波形)を表現できる。

 

こうして表現したアナログデータに対し、一定間隔ごとにその瞬間の値を測定することを「標本化(サンプリング)」という。

「標本」とは「実物に似せて作ったもの」という意味だが、その意味通り、標本化したデータ(デジタルデータ)は元のデータ(アナログデータ)のコピーではない。

サンプリング周波数について

標本化する間隔、特に1秒間に行う標本化の回数のことを「サンプリング周波数(Hz)」といい、サンプリング周波数が大きいほど、より精密に元データを表現できる。

サンプリング周波数が大きいほど精密になるが、扱うデータ量は増えてしまう。

 

では、必要以上にデータ量を増やしたくない場合、そのバランスをどのように取れば良いのだろうか?

それに対する一つの解が「標本化定理」である。

 

標本化定理によると、含まれる周波数成分のうち最大のものの倍以上の周波数で標本化を行うことで、計測したデータから元の波形(アナログデータ)を復元できる。

例えばCDに音を収録する場合、人間に聞き取れる範囲の周波数の音を復元できれば良い。人間の可聴周波数は20~20,000Hzと言われているので、つまり、40,000Hz以上の周波数で標本化を行えば、必要な音声データのすべてを収録できることになる。

(実際、CDでは44,000Hzで計測が行われている)

標本化誤差について

標本化定理に従うことで、人間の可聴周波数域内の音は、ほぼその通りに表現することができることが分かった。

しかし逆に言えば、本来存在したはずの「人間の可聴周波数域外の音」は、復元することができないということでもある。

 

このように、標本化によって元データが失われることを「標本化誤差」という。

②量子化とは

一般的に、標本化して得たデータは、正確に計測していればいるほど有効桁数が大きくなる。出来ることならば、高い精度で扱いたいが、データ量が増えてしまうという問題点がある。

 

よって、妥協できる範囲で、ある一定の精度の数値に丸める必要がある。

例えば、2万、1万1千、8万、5万2千、7万といった大きな数値のままだと都合が悪いため、それぞれ20、11、80、52、70といった具合に丸めて扱う。

こういった処理のことを「量子化」という。

 

どの程度の精度の数値に丸めるかは様々だが、CDの場合は16桁の2進数で表現できる範囲、すなわち65,536段階で表現できる範囲に丸められる。

注意
くどいようだが、「妥協できる範囲で、処理しやすい値に変換すること」が量子化の本質である。

量子化誤差について

元データをある一定の精度の数値に丸める際は、必ず元の正確なデータとの違い(丸め誤差)が生じてしまう。

このように、量子化によって元データが失われることを「量子化誤差」という。

③符号化とは

量子化によって丸められたデータを、nビットの2進数に変換することを「符号化」という。nの値が大きいほど精度は優れるが、データ量は大きくなる。

CDの場合は「16桁の2進数で表現できる範囲」で量子化されているため、符号化も16ビットの2進数で行われる。

 

以上で、アナログ情報のデジタル化(A/D変換)手順は完了だ。

デジタル化した情報をアナログ化する(D/A変換)、すなわちCDから音を取り出して再生する場合は、上記の逆の手順を踏むことで実現できる。

「情報のデジタル化」とはなにか?|まとめ

デジタル化の本質は、アナログ情報を符号化すること、ないしは人間がアナログ情報を扱わずに処理することである。

そしてデジタル化は、標本化、量子化、符号化の手順を踏むことで実現でき、これをA/D変換(Analog to Digital)という。

 

今回は情報のデジタル化の本質、およびその手順の概観を説明した。

今後は、音以外の情報(映像や文字など)をデジタル化する手順や、標本化定理を始めとする法則やテクノロジーの紹介などもしていく予定だ。