音声レベルの数値表現

音声レベルの数値表現

 音のレベル(音量)を扱うとき、最初に躓くのが単位の多さです。 音のレベルを表すにはdB(デシベル、デービー)という単位を使用します。 しかしひとえにdBといっても、dBu, dBV, dBFSなど表現方法が豊富にあり、その違いについて解説します。

dB(デシベル)について

 dBは、ある量と、ある特定の基準値に対する大きさ(比)を、常用対数を取って表す単位です。 「特定の基準」を何とするかによって、「dB」が示すものは異なります。 「特定の基準」を任意の基準量とすると相対量として使用でき、実際の物理量とすると絶対量として使用できます。

Note

 「dB」の「d(デシ)」は1/10を表すSI接頭語で、「B(ベル)」は2つの量の比を常用対数(底が10の対数)で表した単位です。 対数の性質を用いることで、取りうる範囲が大きい数値を効果的に表現します。
少し極端な例ですが、例えば「特定の基準」をA0A_0として、10,000,000A010,000,000A_0という数値を表現したい場合、なかなか大きな数になりますが、常用対数を取って10倍すると10log1010,000,000A0A0=7010\log_{10} \frac{10,000,000A_0}{A_0}=70 dBという大きな値から非常に小さな値まで、より扱いやすい範囲の数値で表現できます。\

Tip

dBという表現は歴史上、最初に電話における電力の伝送減衰の表現に使われました。

 音のレベルを扱うのにdBを使用することは、次の利点があります。

  • Noteに書いた通り、大きな桁の数値を小さな桁で表現できます。
  • 人間の聴覚は物理的な音量の変化を対数的に捉えるため、dBで表した数値の変化は、人が実際に感じる音量の感覚と近くなります。
  • 常用対数の性質から、掛け算・割り算を足し算・引き算で計算できます。

相対量のdB

 dBは電力比の対数の10倍として定義されます。相対量のdBは次の式で計算できます。

a=10log10bb=10a10 a=10\log_{10}b \Leftrightarrow b=10^{\frac{a}{10}}

ここで特定の基準をリニア値で1として、これをbb倍するときのdB値をaa dBとします。

Note

リニア値とは、dBのような対数表現に対して、倍率など私たちが日常的に使う直線的な数値のことです。

また、音信号は通常、電圧として扱われます。 ここで注意すべきなのは、電力(P)は電圧(V)の2乗に比例するPV2P \propto V^2)という関係です。 このため、電力比を電圧比で表現し、dBで表すと次のようになります。

adB=10log10(P1P0)=10log10(V1V0)2=20log10(V1V0)a_{\text{dB}} = 10\log_{10} \left( \frac{P_1}{P_0} \right) = 10\log_{10} \left( \frac{V_1}{V_0} \right)^2 = 20\log_{10} \left( \frac{V_1}{V_0} \right)

ここで、V1V0\frac{V_1}{V_0} が電圧の比率(リニア値)です。 つまり、基準となる電圧に対して電圧が cc 倍になるときのdB値 aaは、次の式で計算されます。

a=20log10cc=10a20a = 20\log_{10}c \Leftrightarrow c = 10^{\frac{a}{20}}

このように、扱う量が電力のような「エネルギー量」であれば係数は10、電圧や音圧のような「振幅量」であれば係数は20になります。 実用上音を扱う場合、つまり電圧や音圧を扱う際には振幅量を考えるので、係数が20の式(dB値 aa と振幅 cc 倍の関係)を使用することになります。

dB値とリニア値を変換するツールを用意しました。

よく使われるdBと倍率の目安(振幅量の場合)

dB値 電圧・音圧の倍率(約)
+20 dB 10 倍
+10 dB 3.16 倍
+6 dB 2 倍
+3 dB 1.41 倍
0 dB 1 倍
-3 dB 0.71 倍
-6 dB 0.5 倍
-10 dB 0.316 倍
-20 dB 0.1 倍

絶対量のdB

 dBの計算式に出てきた「特定の基準」に、物理的に意味のある具体的な値を定めたものが絶対量のdBです。 基準となる物理量は様々で、単にdBと記載せずに、dBuやdBFSというように、dB[◯]の部分を変えて表現することも多々あります(文脈上明らかな場合は記載しないこともあります)。

音声信号処理では、主に3つの単位dBu, dBV, dBFSが使われます。これらはアナログ信号かデジタル信号かで使われる場面が異なります。

アナログ信号のレベル:dBuとdBV

 dBuとdBVはどちらも電圧を基準としたアナログオーディオ機器の信号レベルを表す単位です。

dBu

  • 基準:0.775 V = 0 dBu
  • 用途:業務用音響機器に使用されます。プロオーディオ分野では+4 dBuが標準的なラインレベルとなります。

Note

もともとは、インピーダンスが600 Ωの電話回線で1 mWの電力を消費する電圧が約0.775 Vだったことに由来します。 そのため、かつてはdBmと表記されることもありました(小文字mがmWを指します)。 現在ではインピーダンスに関係なく、0.775 Vを基準とする便利な電圧の単位として広く使われています。

dBV

  • 基準:1 V = 0 dBV
  • 用途:民生用音響機器に使用されます。民生用の標準ラインレベルは-10 dBVとなります。

Note

業務用機器(+4 dBu)と民生用機器(-10 dBV)にはレベル差があります。 +4 dBuをdBVに換算すると約1.78 dBVとなり、民生用の-10 dBVとは約11.8 dBもの差があります。 これは電圧に換算すると約4倍の違いに相当し、レベル差を考慮せず機器同士を接続すると、音量不足やノイズの原因となります。

Tip

業務用音響機器:オーディオミキサー、業務用アンプなどがあります。
民生用音響機器:CDプレイヤー、安価なオーディオインターフェイスなどがあります。

デジタル信号のレベル:dBFS

  • 基準:デジタルで表現できる最大値(Full Scale)= 0 dBFS
  • 用途:デジタルオーディオを扱うどの場面でも使用されます。

Note

dBFSの値は必ず0以下の負の数となります。基準が最大値であるため、信号レベルがそれを超えることは原理的にありません。

ラインレベルの換算表

 上記3つの単位がどのような関係にあるか表で示します。 注意点としては、アナログ(dBu/dBV)とデジタル(dBFS)の間には固定式が存在しません。 両者の関係はどの電圧レベルを、どのデジタルレベルに変換するかという基準によって決まるため、機器の設計思想によって様々です。

ここでは業務用音響機器で広く使用されている基準の一つである、+4 dBu = -20 dBFSを前提としています。

レベルの名称 電圧(Vrms) dBu dBV dBFS
業務用音響機器 最大レベル 12.28 V +24 dBu +21.8 dBV 0 dBFS
業務用 公称ラインレベル 1.228 V +4 dBu +1.78 dBV -20 dBFS
0 dBV基準 1 V +2.21 dBu 0 dBV -21.8 dBFS
0 dBu基準 0.775 V 0 dBu -2.2 dBV -24 dBFS
民生用 公称ラインレベル 0.316 V -7.8 dBu -10 dBV -31.8 dBFS

この表から以下のことがわかります。

  • 業務用機器のラインレベル(+4 dBu)は、電圧としては1.228 Vに相当します。
  • 民生用機器のラインレベル(-10 dBV)は、電圧としては0.316 Vに相当することから、業務用に比べレベルが小さいことがわかります。民生用機器の出力を業務用機器に直接接続すると音量が不足するため、レベル変換可能なアンプが必要になります。
  • 公称ラインレベルである-20 dBFSから、デジタル的な最大値である0 dBFSまでの間に20 dBの余裕があることがわかります。この余裕をヘッドルームと呼びます。これは予期せぬ大きな音が入ってきても、音が歪まずに録音や再生をするための重要なバッファーとなります。業務用機器の最大レベルが+24 dBuとなっているのは、この20 dBのヘッドルームを確保する狙いがあります。
  • dBuとdBVはどちらもアナログ電圧を基準とするため、以下の関係が常に成り立ちます。
dBu=dBV+2.21dBV=dBu2.21\text{dBu} = \text{dBV} + 2.21 \Leftrightarrow \text{dBV} = \text{dBu} - 2.21

音圧レベル:dBSPL

 電気信号やデジタルデータの音声信号の他に、物理的な音のレベルを示すのに重要な単位があります。 それが空気中の音の大きさを示す音圧レベル dBSPL(Sound Pressure Level)です。 分類としては「絶対量のdB」になります。

dBSPLは私たちが普段音として認識している、空気の圧力変化(音圧)を基準に表現します。

  • 基準:20 μPa(マイクロパスカル)= 0 dBSPL
  • 用途:環境音や騒音レベルの表現、マイク感度やスピーカー出力性能の表現

Tip

20 μPaは健康な若者が聞き取れる最も小さな音圧(1kHz)とされており、「最小可聴値」と呼ばれます。

音圧レベルは音源との距離が離れると小さくなるので、どの地点で測定したのかという観点が重要となります。 例えば、スピーカーの出力性能(能率)を表すには音圧レベルを使用します。1 Wの信号を加えたスピーカーに対して、1 m離れた地点に騒音計を配置すると、そのスピーカーの音圧レベルが得られます。 この時の単位はdB/W/mと製品仕様書などに記載されます。

騒音も音圧レベルで表現されます1

うるささ 身体/生活への影響 音圧レベル dBSPL 相当する騒音発生源または環境
きわめてうるさい 聴覚機能に異常をきたす 120 ジェットエンジン(飛行機)の近く
^ ^ 110 自動車のクラクション(2 m)
^ ^ 100 電車が通るときのガード下
液圧プレス(1 m)
^ うるさくて我慢できない 90 犬の鳴き声(5 m)
騒々しい工場の中
カラオケ(店内中央)
ブルドーザー(5 m)
^ ^ 80 地下鉄の車内
電車の車内
ピアノ(1 m)
布団たたき(1.5 m)
麻雀牌をかき混ぜる音(1 m)
うるさい かなりうるさい。かなり大きな声を出さないと会話ができない 70 騒々しい事務所の中
騒々しい街頭
セミの鳴き声(2 m)
やかんの沸騰音(1 m)
^ 大きく聞こえ、うるさい。声を大きくすれば会話ができる 60 洗濯機(1 m)
掃除機(1 m)
テレビ(1 m)
トイレの洗浄音
車のアイドリング
乗用車の車内
普通 大きく聞こえる、通常の会話は可能 50 静かな事務所
家庭用クーラー(室外機)
換気扇(1 m)
^ 聞こえるが、会話には支障なし 40 市内の深夜
図書館
静かな住宅地の昼
静か 非常に小さく聞こえる 30 郊外の深夜
ささやき声
^ ほとんど聞こえない 20 ささやき
木の葉のふれあう音
聞こえない 聞こえない 0 耳で聞こえる限界

音圧レベルの計算

 音圧レベルは振幅量で表されるため、電圧同様係数は20となります。

dBSPL=20log10(P1P0)\text{dBSPL} = 20\log_{10} \left( \frac{P_1}{P_0} \right)

ここで基準音圧P0=20P_0=20 μPaとなります。

音響パワーレベル

 音圧レベルと似て非なる単位として、音響パワーレベルがあります。 音響パワーは音の物理的なエネルギー(音の強さ)です。 音源から離れた特定の地点で測定した結果を示す音圧レベルに対して、音響パワーは音源そのものが持つ絶対的なエネルギーであるため、距離によって変わることはありません。

音響パワーレベルは音響環境に依存しないレベルなので、騒音規制のための基準などに用いられます。

音響パワーレベルの計算

 音響パワーレベルはエネルギー量で表されるため、係数は10となります。

dB=10log10(W1W0)\text{dB} = 10\log_{10} \left( \frac{W_1}{W_0} \right)

ここで基準はW0=1W_0=1 pWとなります。

「音量2倍」は+3 dBか+6 dBか

エネルギー量で考えると+3 dB

 よく音の世界では音量が2倍になると「+3 dBになる(増加する)」と表現されます。 例えば同じ音量のうるさいバイクが2台あった場合、1台だけの場合に比べて+3 dBになることになります。 ではこのときの「音量」とは何を指しているのでしょうか?

答えは「エネルギー量」になります。 計算式でいうと10の係数を使用するので

10log1023.01dB 10 \log_{10}{2} \approx 3.01 \text{dB}

となり音源の数が2倍になると、音量は3 dB増加するといえます。

一方、このケースは音圧の式で表現することもできます。 先述のように、音源が2倍になると音のエネルギーは2倍になります。 エネルギーと音圧(振幅)の関係を考えると、エネルギーは音圧の2乗に比例するので、エネルギーが2倍になると音圧は21.414\sqrt{2} \approx 1.414倍となります。 この音圧の増加率を係数20の音圧レベルdBSPLの式で表現します。

20log102=20log1021/2=1220log102=10log1023.01dB 20 \log_{10}{\sqrt{2}} = 20 \log_{10}{2^{1/2}} = \frac{1}{2} \cdot 20 \log_{10}{2} = 10 \log_{10}{2} \approx 3.01 \text{dB}

このように音圧とエネルギーの関係を頭に入れておくと、同じように3 dBという数字が求められます。 「音量が2倍になると、+3 dBになる」という文脈では、音量は音のエネルギーを指している前提があります。

必ずしも+3 dBではない

 しかしこのケースが当てはまらない特殊なケースもあることに注意が必要です。 それは1台目と2台目のバイクがまったく同一の波形で同一の位相を持つ場合です。 バイクの場合は現実的にはあり得ませんが、同一の信号を分岐させて2つのスピーカーで出力したり、音楽制作ソフトで全く同じ波形をコピーすると、同一の波形で同一の位相を持つ場合が作れます。

これは対象とする音の位相を「コヒーレント(干渉的)」とするか「インコヒーレント(非干渉的)」とするかによって考え方が変わります。

コヒーレントな加算

 2つの音声波形の位相関係が常に一定の場合、音を振幅(音圧)で加算します。 2つの波がぴったり同相だと、振幅はA+A=2AA + A = 2Aとなり、

20log1026.021dB 20 \log_{10}{2} \approx 6.021 \text{dB}

と+6 dBが導かれます。 このように位相によって結果が変わる現象をコヒーレント(干渉的)と呼びます。

一方2つの波形がぴったり逆相だと、振幅はAA=0A - A = 0となり、

20log100dB 20 \log_{10}{0} \approx -\infin \text{dB}

-\infin dBが導かれます。 この状態は無音となります。 このような逆相の2つの波形を打ち消す性質を利用することで、ノイズ除去やエコー除去を実現することもできます。

インコヒーレントな加算

 2つの音声波形の位相関係がバラバラで時間的にランダムの場合、足し合わされて強め合う瞬間もあれば、打ち消し合って弱め合う瞬間もあります。 その結果合成された音の大きさは、それぞれの波が持つエネルギー(音の強さ)の足し算に近似できます。 音のエネルギーのケースを思い出してみると、エネルギー2倍になったらレベルは+3 dBになることがわかります。

10log1023.01dB 10 \log_{10}{2} \approx 3.01 \text{dB}

一般的な雑音や話し声は位相がランダムに変化するため、インコヒーレントな加算に該当します。 このように「音量が2倍になると、+3 dBになる」文脈を掘り下げると、インコヒーレントな波形を前提としていることも知っておくと良いでしょう。

ラウドネスレベル