音の高さと周波数
 NHKの時報のポッポッポッポーンというあの音の、最後のポーンと尾を引く音は、はじめの三つの音よりも音程が高く聴こえます。それは音の振動数が違うからで、はじめの三つの音は1秒間に440回の割合で振動し、あとのひとつは毎秒880回です。つまり振動数が多いほど音程は高く感じるわけで、振動数に応じて音程の高い低いの区別をするのです。毎秒440回……などというのはめんどうなので、Hz(ヘルツ)という単位を使い、440Hz、800Hz……と呼びます。以前はサイクルという名をあてていました。モーターサイクル(オートバイ)、サイクリング、などのサイクルと同じです。
 サイクルは一周期といった意味ですから、T1秒あたりUという定義には正確でないため、周波数(1秒あたりの振動数)の単位としてヘルツ(Hertz=ドイツの物理学者。彼の研究によって、その名をとって振動数の単位として使われるようになった)を採用しているわけです。音の高さ、音の振動数を、音のピッチ(Pitch)という場合もあります。
 440Hzの音は、音程でいうとA、ドレミ……でいうと「ラ」音、ハニホ……でいえば「イ」音にあたり、オーケストラが開演前に調律をするときの標準音です。したがって、440HzのA音を別名〈コンサート・ピッチ〉などと呼びます。880Hzも音名でいえば全く同じですが、440Hzのちょうど2倍ですから「1オクターブ高い」または「1オクターブ上」のA音というふうにいいます。
〈オクターブ〉というのは、周波数(振動数)で2倍または1/2の関係をさしています。
 このように、音楽で使われる音程(ピッチ)には、固有の振動数があり、振動数に応じて音の高い低いがきまるのです。私たちに最も身近な楽器のひとつとしてピアノを例にあげれば、ピアノの中央のC音が、約260Hz(調律によって多少の違いが生じ、260ないし265Hzぐらいの間になる)で、そこから数えて6番目のキイが440HzのAになります。1オクターブ上のCは260の2倍の約520Hz、1オクターブ下のCは半分の約130Hzになるわけです。(図4−1)
 このようにして計算してゆくと、88鍵のピアノで、いちばん左端のキイが約27Hz、右端のキイが約4100Hzということになります。
 ピアノの音域はずいぶん広いようですが、しかし人間の耳はそれよりはるかに広い20Hzから20000Hz(20kHz)の音域を聴きとることができます。
 しかしおもしろいことは、自然界にはもっともっと多くの「振動」があって、人間の耳が聴きとっている範囲はそのほんの一部の振動数にすぎない、という事実です。つまり、あらゆる振動の中で、人間の耳に感じとれる範囲の振動数だけを、聴覚の研究では「聴きとれる周波数(Audible frequency=可聴周波数)」として定義しています。「オーディオ(Audio)」ということばもそこから生まれたものです。もともとは「聴く」という意味のラテン語です。
 人間にとってのオーディオ周波数は20Hzから20kHzまでの間ですが、動物は人間よりも広い範囲を聴くことができるようです。身近なところでは犬の場合、15Hzから50kHzという広い範囲を聴くことができます。しかし一般に動物は低い音よりは高い音の方が得意のようで、ネコは60Hzから65kHz、コウモリは1kHz以上120kHz、イルカは150Hzから150kHz(!)という非常に高い周波数まで感じとることができるといわれています。人間の可聴範囲以上の高い周波数を超音波(Supersonic)と呼びますが、コウモリが超音波を発しながら障害物を探知したり、イルカが超音波で交信しあったりしていることはよく知られています。むろん人間からみれば超音波でも、彼らにとってはそれが「可聴周波」なのですが……。
 さて、再び人間の可聴周波数の話にもどりましょう。さっきも書いたように、人間の耳は、周波数が2倍になると1オクターブ高い音、と感じる。この関係は周波数が低くても高くても変わりません。たとえば150Hzの音を聴いたのちに周波数をだんだん上げていって1オクターブ上の音、と感じるところは300Hzですし、800Hzの音が1オクターブ上がったと感じる音は1600Hzになります。前者の場合、二つの音の差は150Hzですし、後者の場合は800Hzで、この二つは全然違うみたいですが、人間の耳はどこまでいっても常に倍、倍……という関係で音の高さの比をとらえるのです。

可聴音域は10オクターブ
 もう少し別な形で考えてみましょう。20Hzから20kHzの可聴周波数を、図4−2のように整理してみます。20Hzから始まって、倍が40、その倍が80……と、1オクターブずつに区切ってゆくと、20から20kHzの間を10オクターブに区切ることができます。つまり人間の耳は20Hzからはじまって10オクターブの範囲の音を感じとることができると言えます。
 そこで興味ある事実があります。20から20kHzをオクターブ間隔で割ってみると、そのちょうど中間が約640Hzになることは、図4−2からわかりますが、この640Hzというのは、故田口 三郎博士によれば、人間の口がぽかんと開いたときの口腔内の自然共鳴音にほぼ近いということです。さらに興味深いことは、640の半分、つまり320Hz付近は、女性の声の平均的な高さであり、さらにその半分の160Hz付近が男性の声の平均的高さだというのです。640Hzというのは、ピアノの中央のCの1オクターブ上のグループのEとE♭の中間ぐらいになります。
 またこの640という数字は、可聴音の最低20と、最高2万とをかけた数字40万の平方根に相当します。20Hzから20kHzまでを対数的に整理すると、その中心は640Hzだということは、この点からも証明できるわけです。
 以上の話は、音の中でピッチ(音程)を決める大切な要素である音の振動数(周波数)についての基本ですが、楽器や人の声や自然界のさまざまの〈音〉、そしてスピーカーから発する〈音〉は、ピッチだけで定義できるものではなく、いわゆる音色を決めるもっと重要な要素として、倍音(ハーモニクス)や音のモード(様相)などの問題がありますが、その話はもう少し後に回して、いましばらく周波数の問題を整理してゆくことにしましょう。
 レコードをいい気持ちで聴いていると、「もっと音を低くしなさいよ」などと文句をいわれます。「声高にしゃべる」などという表現があります。日常語としてはこれで通用しますが、この言い方はともに正しくないので、いままでの話からおわかりのように、音の低い・高いとは音のピッチの高低、周波数の高低をさしていう言葉であって、ステレオの音は「低く」ではなく「小さく」するのであり、「声高に」ではなく「大きな」声でしゃべる、というのが正しいわけです。
 そこで音の高・低ですが、ピッチ(音程、振動数、周波数)の低い音を〈低音〉といい、ピッチの高い音は〈高音〉といいます。「低音がよく出る」とか、「高音が耳ざわり」などという表現は、スピーカーからの音の形容としてよく使われますが、音楽で使う低音・高音と、オーディオで使う低音・高音とは、少々定義に違いがあります。

音楽の「低音」と「高音」
 コントラバス(ペース)やファゴット(バスーン)のことを、ふつう〈低音楽器〉といい、バイオリンやフルート、ピッコロを〈高音楽器〉と呼んでいます。ベースの最低音が約41Hz、ファゴットの最低音は約60Hzですから、ピアノの最低音の約27Hzほどではないにしても、いちおう〈低音〉といえますが、高音楽器の方は、バイオリンの最高音が約3kHz、フルートではせいぜい2kHz,ピッコロでも3kHzぐらいですから、耳に聴こえる限界の20kHzからみたら、ずいぶん低いように思えます。(図4−3)
 クラシックの声楽の場合には、ソプラノとかテノールというようにそれぞれの声部がかなり明りょうに区別されています。最も普通に使われる音域とその周波数を図4−4に示します。
 バスの約80Hzからソプラノの約1050Hzまで、ほぼ4オクターブ弱の範囲ですが、やはりオーディオ周波数の上限に比べたら、意外に高い音は出ないように思えます。
 楽器も声楽も、それほど高い音が出せないのに、なぜオーディオの場合に、スピーカーから10kHzだの20kHzだのという高い周波数が再生されなくてはならないのでしょうか。それは、楽器でも人の声でも、ある音程(ピッチ)の音を鳴らしたとき、その音(基本音または基音=ファンダメンタル)のほかに、倍音(ハーモニクス)が出てくるからです。バイオリンの最高音がたとえば3kHzまでといっても、その音を鳴らしたとき、バイオリンからは、3kHzの音に重なって、6kHz、9kHz、12kHz……といった整数倍の倍音、それ以外の複雑な倍音など、たくさんの周波数が同時に発生します。
 そして、この倍音こそ、楽器の音色を大きく支配するので、倍音を正しく再生し、楽器の個性を正しく再現するために、10kHz以上の高音が必要になってくるわけです。ピアノでも声楽でも、その他あらゆる楽器の、いや自然界のあらゆる音は、きわめて複雑な構造を持っているのです。こうした音の構造については倍音の話を含めてもっと先に行ってから再びくわしく解説します。いまここでは、音の振動数(周波数)の概念を知っておいていただくだけで十分です。

オーディオの「低音」と「高音」
 説明はあとまわしで、まず図4−5をみてください。これがオーディオで使われる〈低音〉とか〈高音〉の分類です。音楽用語との大きな違いは、楽器や人の声での〈高音〉は、オーディオではだいたい〈中音〉かせいぜい〈中高音〉域に含まれ、楽器のファンダメンタルが終わってハーモニクス領域にはいったあたりからがオーディオでの〈高音〉域になるという点でしょう。つまりピアノのキイの右端が終わったその先あたりからが、オーディオの〈高音〉域だといえます。言い換えれば、オーディオで言う高音は、ほとんど倍音(ハーモニクス)の領域のことだ、と考えても差し支えありません。逆に言えば、オーディオ装置で高音をきれいに再生するということは、楽器のハーモニクスをどれだけきれいに生かすことができるか、それによって楽器の個性をどれほど際立たせることができるか、ということになるわけです。
 図4−5では、各音域を細かく分けていますが、もっと大づかみに〈低音〉〈中音〉〈高音〉と分けた場合には、どのあたりが境界線になるのか……。
 これには定説がないのです。いろいろなオーディオの入門書、参考書をひらいてみても、どこからどこまでが中音域で、どこからが高音域とはっきり書いたものはほとんどありません。それでいて、低音とか高音という用語はしきりにで出てきます。しかし、これはもともと、ここからここまで、というようにはっきりした境界線をひけるものではないのです。低音と中音の分かれ目で、音がガラリと変わるわけがありません。ですから図4−5でも、各帯域は重複しています。また、この分けかたには定説がない代わりにかえっていろいろな説があり、また考え方によって分けかたも変わります。図4−5はあくまでもひとつの目安としてみてください。
 音域の呼び方よりも、ここではむしろ各音域の音の効果の方を重視していただきたいのです。周波数と音の感じの関係は、よほど訓練された耳でなくては聴き分けにくいのでずいぶん大きな誤解があります。この問題についても、これから先たびたびふれてゆきますが、たとえば低音の感じを例にとってみても、普通のスピーカーからブンブンとかドンドンという感じで聴こえてくる低音は、だいたい80から100Hz付近の音が多く、60Hz以下の音になると、唸り、さらには風圧あるいは振動のような感じに近くなり、音という概念とは少々違って、聴こえるというよりははだで感じる、体ぜんたいが圧迫されるような感じになってくるのです。
 しかしまた、そういうほんとうの低音は、私たちの身近にある普通のオーディオ装置、普通のスピーカーでは出すことができないので、まあ話の上だけ、ということになりそうです。筆者の持っているスピーカーの中で最も低音のよく出るものでも、どうやら40Hzがきちんと出るという程度で、ほんとうに低い音を再生することは、普通考えられているよりもよほど難しいものです。また、普通の音楽鑑賞には、そういう低い音は、再生する必要もないものなのです。まあ60Hzがきちんと再生できるスピーカーがあれば、音楽を聴いていて低音が不足した感じはしないものです。
 しかしこの話は少々変だ、と思われるかもしれません。ピアノでさえ、最低音27Hzは出るはずだ。それなのに60Hzでいいとはどういうことだ……。ここが音の難しいところです。このことを理解していただくには、楽器の音の性質、スピーカーから出る音の性質、それに私たち人間の耳が音を聴くときの聴こえ方、あるいは音を聴くときの心理の問題、さらにはレコードにはいっている音の性質と再生装置との関連など、広い角度から考えてゆかなくてはなりません。
 したがって、ここでは、性急な結論は出せません。これからあとの、いろいろな角度からの話が少しずつ結びついて、最後に結論がでてくるといった性質のものなのです。まだまだ話はこれからです。

ハーモニクスの性質
 人間の耳には20kHzという高い音が聴こえるのに、音楽の場合、たとえばピアノの鍵盤の最高音が、なぜ4186Hzまでと決められたのか、不勉強な筆者はその正確な理由を知りませんが、人間の耳の正確からいうと、4kHz以上の周波数になると、音のピッチ(音程)に対する判断力が鈍ってくることがあげられます。
 ともかくパイプオルガンを除いては、楽器自体は4kHzあたりまでしか音を出さないのに、それを再生するオーディオパーツのほうは、たとえばスピーカーを例にとっても、たいていのスピーカーなら10kHz以上までも再生するようにできています。なぜ、その必要があるのでしょうか。
 いままで、楽器の音程や音域のことだけ説明してきましたが、まだ各楽器の音色のちがいについては、ふれていませんでした。たとえばバイオリン、クラリネット、フルートが同時にA(440Hz)の音を鳴らしたとしましょう。それでも私たちの耳には、それぞれの楽器の音色の違いがはっきりと聴きとれます。ということは、音程(ピッチ)は、音色の差には直接の関係がないということになります。音程(周波数)の高い低いは、単に音の高さを決める要素なので、音色とは直接の関係がない。とすると、楽器の音色をきめる要素は何か……。
 そのひとつが、これからお話するハーモニクス(倍音または高調波)です。楽器の音の性質を考える場合、このハーモニクスの問題は非常に重要です。
 いま、バイオリンがA(440Hz)の音を出したとします。すると、その基本音(基音、ファンダメンタル)のほかに、基音の倍数系列のたくさんの倍音(ハーモニクス)が同時に発生します。基本音の2倍の880Hz、3倍の1320Hz、4倍の1760Hz、5倍の2200Hz……というように(図4−6)。しかもそうした整数倍の音に加えて、楽器の種類によっては雑音に近い成分の音を発生するものがあり、その場合は基本音に対する整数倍の倍音というようなきれいな形でなくもっと複雑な音が多数発生し、微妙な音色を形づくります。
 同じバイオリンでも弾き手が違えばハーモニクスの発生のしかたが違います。とうぜん、バイオリンとフルートとクラリネットでは、ハーモニクス成分の分布や強さがそれぞれ大きく違ってきて、これが楽器の音色をきめる大きな要素のひとつになるのです。
 ハーモニクスの周波数分布は、ファンダメンタルの10倍以上にも達することがあります。バイオリンやクラリネットは、倍音成分が多い方の楽器です。反対にフルートは、高音域になるにしたがって、倍音成分が減ってきて、ほとんど純粋の基本音に近くなる場合があるといわれています。パイプオルガンにもこのような音のパイプがあります。ともかく、こうした倍音の含みかたの違いが、音色の差を大きく支配します。楽器の中でもシンバルのようなものは、純粋な倍音であるよりも、非常に不規則な雑音に近い成分が超音波の領域(つまり人間の耳には聴こえない高い周波数)まで発生するのです。しかし楽器ここの細かな問題については、ここでは深く立ち入りません。いままで述べてきた問題について専門的に研究しようという方には、H. F. Olson 著「音楽工学」(平岡正徳訳・誠文堂新光社刊)などをご参照いただくようおすすめします。

再生音の高音域限界
 これまでの話からもご想像いただけるように、楽器の基音そのものは4kHzどまりと比較的低いのに、その倍音は10kHz以上の高音域まで及んでいるわけで、したがって、倍音を正しく再生しなくては、楽器固有の音色の微妙な差を聴き分けることができないわけです。スピーカーが、10kHz以上の高い周波数まで正確に再生できなくてはならないという理由が、ここにあります。しかし、たとえばシンバルの周波数成分が20kHz以上にまで広がっているからといって、スピーカーから20kHz以上の音を再生しなくてはならないというわけではありません。人間の耳に聴こえない音までを再生する必要はないからです。
 再生音の限界をしだいに狭めてゆくと、楽器固有の音色がしだいに不明りょうになることはよく知られています。たとえば、バイオリンとクラリネットが同じ音程で演奏しているような場合、再生音を4〜6kHzぐらいまでカットしてしまうと、二つの楽器の音色の区別がつきにくくなります。
 図4−7は、 W・B・スノウが発表したものですが、楽器や人の声やさまざまな雑音まで含めて、周波数の範囲をどこまでせまくしたら、もとの音の音色がそこなわれるかを表したものです。これをみると、低音域のほうは、楽器によりそれぞれ大きく異なりますが、高音域の限界の方は、だいたい13ないし14kHzあたりに多く分布していることがわかります。いいかえれば、13〜14kHzあたりまで再生すれば、楽器個々の音色の特徴は、いちおう十分再現できるということになります。
 アンプのフィルターの話のところでも書いたように、たとえば HIGH フィルターのスイッチをONにしてみると、再生音に明らかに変化が生じます。たいていのフィルターが6kHzから9kHzていど以上の高音域をカットするように作られています。6〜9kへるつあたりから高域をとり除いた場合、音色がどのように変化するかということが、この実験で理解できます。このようにして実験用のフィルターを作り、いろいな楽器の音を聴きながら、周波数を切り替えてみると、11kHzあたりからフィルターをONにしてもOFFにしても音色の違いがあまりよくわからなくなり、12kHz、13kHzあたりになると、たいていの楽器の音色の個性がほとんど損なわれないということがわかります。その半面、10〜11kHzあたりから高音域をカットすると、《臨場感》ということばであらわされる音楽全体の漂うようなふん囲気感が微妙に失われることもわかります。
 こんな実験からも、13kHz〜14kHzあたりに高域再生のひとつの限界点があることが理解できます。

再生音の低音域限界
 楽器の音色を、それぞれの楽器らしい音色で再生するのに必要な周波数範囲について、高音域の方は前項で説明しました。こんどは低音域について考えてみましょう。もういちど、W・B・スノウの図をみていただきたい。
 人間の耳に聴きとれる高音の限界が20kHzであっても、再生音の場合は13〜14kHzまで出れば楽器の音色を再現するのに十分であるように、低音域も、人間の耳が16ないし20Hzの音を感じることができても、再生音では30Hzまで出せれば、ほぼ十分であることは図から読み取れる通りですが、ここで大切なことは、30Hzという低い音域を必要とするのが、パイプオルガンと部屋の雑音の二つだけだ、という点でしょう。まあパイプオルガンはわかるとしても、部屋の雑音とはいったいどういうことなのか……。
 たとえばドアや窓のあけたて、そしてカーペットの上を歩く足音やソファにすわる音、そうした室内で発生するさまざまな物音を、スピーカーからそっくり再現しようとすると、こういう広い周波数範囲が必要だという、W・B・スノウの図はそういう意味を表しているのです。
 しかし、そうだとしたら――と、注意深い読者なら、とうぜん疑問を持つはずです。たとえばピアノ。88鍵のピアノの最低音は約27Hzのはずでした。そのピアノに必要な再生音域を、スノウの図でさがしてみると、低い音は40Hzまででよい、としていることに気がつきます。これは変だ、これでは、ピアノの最低音が聴こえないじゃないか……。
 一つの飛躍した答えがあります。ピアノの最低音のキイが27Hzだとしても、実際の音楽で最低音まで使う曲は非常に少ない。だから40Hzぐらいまででいいのさ。
 こういう考え方も、全面的には正しいと言えないまでも、間違っているとは言いにくいのですが、しかしスノウの場合、かりにピアノが最低音のキイを鳴らしたとしても、40Hzで結構、としているのです。だから、なおさら変だ。
 そのことを説明するには、二つの要因について知っていただかなくてはなりません。第一に、ピアノに限らず――いまはまだ周波数とハーモニクスの問題に話を絞っていますが――楽器から出る低音の音の出かた。第二に、人間の耳が低音を聴いたときの音の聴こえ方あるいは感じ方、の二つです。
 まず、ピアノの場合に話を限って、ピアノの低音の出かたを知っていただきましょう。すでに219ページの図4−6で、楽器の音色は、基音(ファンダメンタル)と倍音(ハーモニクス)の複合で構成されていることを説明しました。あらゆる楽器を通じて、基音だけで倍音を全然含まない音というのはありません。(話が横道にそれますが、基音だけで倍音を全然含まない音を純音――ピュア・トーンと言い、これは自然界にはほとんど存在しない音で、人工的な発振音、たとえばオシレーターなどが作り出す音以外にはほとんどありません。はじめに例にあげたNHKの時報の音が、ピュア・トーンの一例です。しかし厳密には、もとの音がいかに純音でも、スピーカーを通してそれを聴くかぎり、スピーカー自体にわずかな歪があるために出てきた音は純音とは違ってしまいます)
 ところでピアノです。ピアノの最低音のキイをポーンと鳴らすと、27Hzの低音が出る。……というのは実は理屈の上だけの話で、実際には27Hzというほんとうの低い音は、ほとんど出てこないのです。そりゃ変じゃないか。だって確かにほかのキイとは違う低い音がガーンと響くんだもの、と思われるでしょう。
 その通り、たしかに、低い、振動的な響きが鳴りわたります。いかにもそれは「低音」という感じです。しかし、27Hzという音ではないのです。
 もう少し正確にいえば、ピアノの最低音のキイをたたいたとき、きわめてわずかであるにしても27Hzの基音は発生するのですが、それよりも倍音――ハーモニクスの方が、エネルギーがはるかに大きい。そしてかりに27Hzという基音を取り除いてしまったとしても、全体の音色はあまり変化しないのです。変化しない、というのは正しくないかもしれません。ここで先の第二の原因――人間の耳の低音の感じかたと話が結びつくのですが、ピアノの最低音のキイを鳴らし、それをスピーカーから再生した場合に、27Hzという基音をカットして(取り除いて)しまっても、人間の耳はその音色の変化に気づきにくい、ということなのです。
 こんな説明をしても、にわかに信じられないかもしれません。それじゃ、いったい、ピアノの最低音のキイは何のためにあるのだろう。基音がなくてもいいとしたら、その1オクターブ上のキイをたたいたときの差を聴き分けられるのは、どうしてなのだろう……。
 この疑問は非常に重要です。最低音のAと1オクターブ上のAを鳴らしたときの、あのあきらかな音色の違いは、どうして生じるのか。二つの音を交互に鳴らしたとき、あきらかに一方が高い音、一方が低い音と聴き分けられるのはどうしてなのか。同じ88鍵のピアノでも、家庭用のアップライトにくらべてフルコンサート・グランドの方が低音がよく出るように聴こえるのはなぜか……。
 簡単にいってしまえば、それらはすべて、基音と倍音の割合によって変わるのだ、といえます。図4−8に、ピアノの音の音響スペクトル(基音と倍音の分布を表したこのような図をスペクトルと呼びます)の一例を示しますが、上は標準A(440Hz)の場合、下は中央Cの1オクターブ下のC(約131Hz)の場合です。440Hzの場合は倍音群に対して基音のエネルギーが明らかに優勢ですが、131Hzになると、基音よりもむしろ倍音(中でも第二から第五ぐらいまでの倍音)の方が、はるかにエネルギーが大きく、基音のエネルギーがわずかになっている、という点に注意して下さい。むろんピアノが変わり演奏者が変わればスペクトルも変わりますから図はあくまでもひとつのサンプルにしかすぎません。一般的にいって、ピアノという楽器の場合中音域から高音域にかけては基音のエネルギーの方が倍音よりも大きいという、ごくあたりまえの形になりますが、低音域になるにしたがって図のように倍音グループのエネルギーの方が優勢になって、しだいに基音そのもののエネルギーは減少してしまうのです。とくに小型のピアノほどこの点は顕著で、アップライトや小型グランドでは、最低音域では基音はほとんど無いに等しい。
 とういよりも、さきほども述べたように、基音を取り除いても全体の音色にほとんど影響しないほど、そのエネルギーはわずかなのです。27Hzといった、ほんとうに低い基音はフルコンサート・グランドかそれに準じた大型のピアノの場合でさえ、エネルギーとしてはほんのわずかしか発生しないのです。それでもしかし、基音に対する倍音のスペクトルの様相は、ピアノによってさまざまに異なり、仮に基音をカットしてしまっても、倍音グループのスペクトルに応じて、われわれの耳は音程の高低やピアノの大小を、はっきりと聴き分けます。言い換えれば倍音のスペクトルによって、人間の耳は、ほんとうの低音を聴いたかのように錯覚する場合があるのです。
 楽器の音と人間の耳の性質との、こういう関係によって、多くの楽器は、基音そのもののエネルギーがごくわずかであっても、低音楽器として扱われ、立派に存在できることになるのです。