「人間の声をしゃべる機械」 −−それを実現するのが音声合成装置です。現在では子供の玩具にも組み込まれているほどに普及していますが、一昔前にはSFの世界のことでした。
音声合成装置としては、人間の肉声を録音した単語をつなぎ合わせて再生する方式が考えられます。たとえば、NTTの電話番号案内(104番)で使われているアナウンスは、
「お問合せの番号は」 「さん」「に」「よん」「よん」 「の」 「ろく」「はち」「いち」「いち」 「です」というように、それぞれ人間の肉声を別々に録音した単語をつなぎ合わせて再生したものです。この方式では、それぞれの単語を取り替えることで、さまざまな文章を再生することができますが、単語のつなぎ目が不自然に聞こえる難点があり、また、あらかじめ用意した単語の組み合わせ以外の文章は再生できないなどの制約があります。
そこで、人間の肉声の録音は一切使わず、肉声に似せた音響を電子音によって人工的に作る方式の音声合成装置が考案されました。現在のパソコンによる合成音声のほとんどがこの方式で、人類の夢である「人と自然に会話ができるロボット」は、この方式によって実現が期待されます。
郵政省電波研究所(現在の通信総合研究所)の音声研究グループが昭和34年から35年にかけて製作したこの装置が、電子音によって発声する日本最初の音声合成装置(ターミナルアナログシンセサイザー)とされています。たくさんの真空管やスイッチを並べた大がかりな装置です。この装置を使って、音響のどの部分をどう変えたらどのような声に聞こえるか、といった人間の聞き取りテストを実施し、聴覚心理学上の数多くの研究成果が得られました。当時、このような装置は世界に数台しかありませんでした。
本ページでは、その貴重な「初めて機械がしゃべった日本語」をお聞かせします。