通信総合研究所における音声研究グループの軌跡(1955〜1989)

文責:滝澤 修

1 前史

 音声研究グループの軌跡を述べる前に、まず通信総研の前史を概観する。
 通信総合研究所の源は、明治9年(1876)に当時の工部省電信寮に設置された碍子試験所にまでさかのぼる。同所は明治24年(1891)に逓信省電務局の電気試験所となり、無線電信については、マルコーニが世界最初の公開実験を行った翌年の明治30年(1897)に早くも本邦初の公開実験を行っている。そして同実験グループは大正4年(1915)に、平磯出張所(現・関東支所平磯宇宙環境センター)を設置し、TYK式無線電話装置の開発など、わが国における電気通信技術の最先端研究所としての活動を行っていた。一方、逓信省、陸軍省、および海軍省の電波伝搬研究機関を統一する目的で設置された電波物理研究会(会長・長岡半太郎)が昭和17年に文部省電波物理研究所(東京府北多摩郡小金井町)となり、同研究所は戦後の昭和22年(1947)に、連合軍総指令部の勧告により電気試験所に吸収された。翌昭和23年(1948)に電気試験所は電力部門と電気通信部門の2つに分割され、前者は商工省工業技術庁所管の電気試験所となり、後者は逓信省に残って電気通信研究所と改称された。前者は後に電子技術総合研究所と改称し、筑波に移転した。後者は、翌昭和24年(1949)に逓信省が郵政省と電気通信省に分離した際に、電気通信省に移管され、同時に学術的色彩の濃い部門が、電気通信省の外局であった電波庁に移された。電気通信研究所の残りは、昭和27年(1952)に電気通信省から改組された電電公社に引き継がれ、現在のNTTおよびKDDの研究所となった。一方電波庁に移された研究部門は、総理府電波監理委員会の中央電波観測所を経て、電波監理委員会の廃止、電気通信省の電電公社への改組と同日の昭和27年8月1日に郵政省に移管され、電波研究所と改称された。そして同研究所は昭和63年(1988)に通信総合研究所と改称された。

2 音声研究グループの機構史

 まず、本冊子で用いる「音声研究グループ」の定義を与える。「音声研究グループ」は、電波研究所およびその後身である通信総合研究所の中で、音声関係の研究に携わっていた研究者をひっくるめた呼称とし、昭和30年8月の通信方式研究室の非公式設立をもって誕生したとする。但し昭和42年に音声研究室が発足するまでは、他の研究グループとの研究者の切り分けが困難であるので、一定期間以上にわたって音声に関する研究を主として行ってきた研究者を音声研究グループのメンバーとしている。音声研究室発足以後については、音声研究室と「音声研究グループ」とは等価としている。
 音声研究グループは、昭和30年に非公式に設置された通信方式研究室の中に誕生した。同研究室は、電離層観測等に業務のウェイトが置かれていた当時の電波研究所の中で、新しい研究の方向を模索することを使命とし、当初はテレビ、音声、および符号・雑音の3グループから成っていた。昭和31年の研究室制度の導入により同研究室は正式に発足した。昭和36年の機構改革で情報処理研究室が発足し、同研究室はパターン認識、計算機、および音声の3グループによって構成された。このうち音声研究グループは昭和42年の部制導入に伴い、通信機器部音声研究室として独立した。その後、細かい部制改正で昭和53年に情報処理部、昭和60年に通信技術部の所属となった。そして平成元年の関西支所(関西先端研究センター)設立に伴い、音声研究室は発展的に解消され、同支所の知覚機構研究室となった。

3 音声研究グループの研究史

3.1 音声研究室発足前(昭和30年〜42年)

○人の動き

 昭和30年、通信方式研究室の中田和男、鈴木誠史らによって音声研究はスタートした。中田は昭和32年から33年にかけて米国MITに留学し、帰国後音声研究グループを率いる立場となった。新規採用者として昭和35年に電機大から角川靖夫(採用は34年)、昭和38年に電通大から中津井護が加わり、一段と強化されたメンバーによって研究が進められた。この間、昭和37年に中田が、続いて昭和39年に鈴木が学位を取得した。中田は昭和40年に日立製作所中央研究所へ転出し、昭和57年から東京農工大教授をしている。なお松岡耕一が昭和35年から情報処理研究室設立の昭和36年まで音声研究グループに所属していた。
 また、研究所のセンター計算機として昭和36年にNEAC2203が、続いて昭和38年にNEAC2206が導入され、わが国でもかなり早い時期から音声研究に計算機が用いられていた。

○研究史

 わが国の音声研究におけるパイオニア的業績を上げたこの時期の研究は、以下のように大別される。

(1) 音声合成と言語音知覚
 昭和34年に日本で初めての電子回路のみで構成された音声合成装置を製作した。
 この装置を利用して、音素を構成するスペクトルパタンと聴き取りの関係を求める実験を行った(昭和35年)。この研究成果は、その後の音声研究者のために貴重な資料となった。
 昭和38年から、スペクトラムアナログ形と声道の形(断面積関数)から直接音声波形をソフトウェアによって合成する方式を開発し、音素系列から音声を合成する場合の制御法則を検討した。

(2) ホルマント周波数の推定
 有声音の最も重要な情報要素は、声道の伝達特性を特徴づける共振(ホルマント)の周波数である。これを音声信号から推定する多くの手法が開発されたが、音声研究グループは昭和36年からソフトウェアによる測定法の開発を始めた。
 最初に、音声スペクトルのモーメント計算からホルマント周波数を近似的に求める手法を開発し、多くの分析、識別実験に利用した。後にこの方法は、逆フィルタにより単一のホルマント特性を取り出して計算するように改良され(昭和43年)、話者の相違や、雑音に強い実用的な方法になった。
 一方、当時発表されたばかりの「分析による合成」法(AbS)を導入し、幾多の修正を加えて昭和36年には利用できるようになった。後年これは、実際の資料から得られる音源特性を導入して収束するように改良され、昭和45年には声帯音源とホルマント諸要素を同時に推定できるようになった。

(3) 識別
 分析的研究と並行して各種の識別を試み、数字語識別装置を我が国で初めて製作した。当時音声識別には、特徴抽出、調音結合、個人性、言語の構造などにまだ多くの問題が残されており、昭和39年以後、音声研究グループは直接識別を目的とした研究は行わなかった。

(4) 調音分析
 調音器官の形や運動を発声中に直接観測することは、調音結合や発声過程の研究に極めて重要である。昭和38〜43年に、電機大学および日大病院と共同し、X線による声道の側断面の撮影と分析を行なった。
 また、昭和39年には声道の形(断面積関数)からその伝達特性を求める手法が、波動方程式、回路網理論を利用して開発された。
 X線による声道の撮影には、被爆障害の問題があるため、直接観測を避けて、音声スペクトルから声道形状を求めることが考えられた。昭和38年から43年にかけて、その計算法が確立された。音声研究グループでは、調音の位置が異なっても、ホルマント周波数の偏移が少ない調音構造があることなどを見いだした。

(5) 聴覚のシミュレータ
 人は聴覚系で音を弁別し、音声の意味を理解する。この系の情報処理機能を知ることが、音声の分析、識別の手がかりになると考えて、中耳と内耳を模擬する回路網と、興奮・抑制端子をもったニューロン回路を昭和40年に製作した。これらを使用して、基本的な情報処理機能の実験を行い、周波数の選択度を増す過程などを構成した。

3.2 音声研究室時代(昭和42年〜平成元年)

○人の動き

 昭和41年からMITに留学していた鈴木が昭和42年に帰国し、彼の帰国直前に設立された音声研究室の初代室長になった。昭和39年に明治大から新規採用され、当初は情報処理研究室の計算機グループに属していた高杉敏男が、音声研究室発足と同時に音声研究グループに加わった。昭和45年に角川が通信系研究室長として転出し、転出後に音声研究グループ時代の研究をまとめて学位を取得した。昭和46年に計算機研究室から田中良二が配置替えされた。高杉は昭和48年から49年までフランスCNETに留学した。また猿渡岱爾が昭和50年から51年にかけての8カ月余りだけ音声研究室に在籍した。中津井は昭和50年から52年まで、高杉は昭和54年から55年までそれぞれ企画部に在籍し、研究マネジメントの経験を積んだ。両者は共に企画部在籍中に学位を取得した。フランス・グルノーブル国立電子電波高等専門学校での1年間の留学を終えた吉谷清澄が、昭和51年に通信方式研究室から転入した。鈴木は昭和55年に企画部第1課長として転出し、事実上の研究者生活を終えた。同時に田中も沖縄電波観測所長として転出し、高杉が企画部から音声研究室に復帰した。高杉は昭和57年に第1衛星計測研究室長として転出し、音声研究グループから離れた。企画部から復帰した中津井は昭和53年から55年までカナダ・ケベック大学国立科学研究所に留学し、帰国直後に鈴木の後を継いで第2代の音声研究室長になった。昭和57年に大山玄が東北大学から選考採用され、音声研究室に配属された。昭和58年に田中が音声研究室に復帰し、昭和61年に中津井が企画課長として転出した後を継いで第3代の音声研究室長になった。この間、昭和60年に吉谷が学位を取得した。昭和62年に田中が宇宙開発事業団へ、大山がATRへそれぞれ転出し、一時音声研究グループは吉谷だけになったが、同年大阪大学産業科学研究所の助教授だった柳田益造が第4代室長として赴任してきた。同年、新規採用の滝澤修が配属された。昭和63年に吉谷は通信技術調査室に転出した。平成元年に警察庁科学警察研究所から野田秀樹が移籍された。

○研究史

 音声研究室時代に入ると、研究資金の獲得のために、従来の音声情報処理の基礎的研究から、やや具体的な問題を対象とした研究に重点が移った。すなわち、昭和40年代後半には、当時注目されていた海洋開発に関連するヘリウム音声の研究を、グループの全力を投入して組織的に実施した。昭和50年代には、音声通信の障害となる雑音を克服する方法を多面的に検討し、SPAC、SUNDERなどの優れた方式を開発した。柳田が室長になった昭和62年以降は、信号処理から知識処理へ研究の重点を移し、音声言語における深い意味理解の研究を進めている。

(1) 草創期のFFTソフトウェアの開発
 鈴木の留学中に、高速フーリエ変換法(FFT)がCooleyらによって提案された。鈴木の情報を基に高杉が開発したFFTソフトウェアは、わが国でも極めて早い時期のもので、東大宇宙航空研究所(現・宇宙科学研究所)を始めとして、あちこちの研究機関に無償で提供して重用された。

(2) 声帯音源に関連した研究
 声帯音源は有音声の自然性、個人性、感情などを支配する主要な情報であるが、特にその波形(声帯波形)の性質については未知な点が多い。従って間接的にも、これを調べることができれば極めて有用である。
 昭和44〜45年に、音声波形からその声道の特性を推定し、これをとり除くことによって声帯波形を推定する手法を開発した。一つは、スペクトル領域のデジタルフィルタによるもので、話者、母音、発声努力と声帯音源の関係の分析に用いられた。他は、時間領域のデジタルフィルタによるもので、連続的な波形の分析に適している。この系は、スペクトルアナログ形の合成系と結合して、ホルマント形の分析、合成系を構成し、ヘリウム音声の復元、母音の個人性の研究などに役立てられた。また、声帯に疾患のある声の分析も進められ、慶応病院と共同で診断への利用を検討した。

(3) 伝送
 昭和45年に、分析・合成系による音源特性と自然性・個人性の関係の研究として、音源特性の評価、およびホルマントボコーダにおける音源特性の記述のモデルを検討した。また同年には、音声回線の品質を評価する明瞭度試験法の検討も行った。

(4) ヘリウム音声の分析と復元
 海中居住において潜水の深度が深くなり、期間が長くなるにつれて、高圧空気の呼吸による生理的障害が顕著となるため、ヘリウムを主成分とする人工空気を使用する。そこで発声した音声(ヘリウム音声)は、いわゆるドナルドダックボイスと呼ばれる著しくひずんだものとなり、了解性が低下するため、水中での生命線とも言える音声通信が阻害される。電波研究所では、昭和45年から科学技術庁で推進している海中居住実験(シートピア計画)に参加し、音声研究グループはヘリウム音声を中心に海中音声通信に関する広範な調査によって問題点を整理した後、一連の潜水実験に参加してヘリウム音声資料の収録等を行った。これらの資料を、音響分析及び知覚(聴き取り)の両面から系統的に解析するとともに、その結果に基づいて各種の了解性改善方式を開発した。主な方法は以下のようなものであった。
(i) ヘリウム音声の波形を区分し、その一部を取り除いて残りをもとの区間長に伸長する。
(ii)ホルマントボコーダを利用し、声道と音源の情報を分離し、前者のスペクトルを正常な音声のものに変換した後に合成する。
 これら応用面での成果の他、大気と異なる次元から声道音響モデルの損失を推定する等の基礎的な分野での成果も挙げた。

(5)音声通信における環境雑音対策
 騒音が環境問題の一つとして重視されるようになった。音声通信においても、送、受話時の騒音(環境雑音)が障害となる場合があり、特に、高騒音の作業現場などでは特別な工夫を必要とする。環境雑音と音声の了解性の関係、各種トランスデューサ(耐騒音マイクロホン等)の利用、信号処理による雑音低減などについて調査し、環境雑音サンプルの収集と解析を行うとともに、主に相関関数を用いた信号処理による雑音低減方式を検討した。

(6)相関関数を用いた音声処理方式SPAC
 送話時の環境雑音や伝送路の雑音などにより、劣化した音声のSN比を改善するSPAC(Speech Processing System by Use of Autocorrelation Function)を昭和50年に開発した。これは短時間自己相関関数の性質を利用した信号処理方式であり、シミュレーションによる方式の最適化の後にハードウェアが製作された。理論解析及び聴取試験の両面からSN比改善効果を定量的に評価するとともに、低ビットレートのPCMやADMの符号化雑音にも有効なことを実験的に確かめた。なお、SPACは周波数スペクトルの圧縮、拡大も行えるため、ヘリウム音声の了解性改善やテープレコーダの再生速度変更と組み合わせた会話速度の変換などにも利用可能で、実用化が検討されている。

(7)PCM符号誤り雑音抑圧方式SUNDER
 PCM音声通信では、符号誤りによって復号音声にクリック性の雑音が加わる。このような場合の対策としては、通常、誤り訂正符号が用いられるが、それには余分な情報の伝送が必要となる。音声研究グループが開発した抑圧方式SUNDER(Suppressor of Noise due to Digital Errors in PCM Speech)は受信した復号音声信号のみから誤り雑音を検出し抑圧する方式である。雑音検出には電力スペクトル引算法および位相スペクトル法の2種を用いた。計算機シミュレーション実験によると、符号誤り率10-3のランダム誤りを持つ復号音声に本方式を適用するとSN比が16〜19dB改善された。10-4以下では雑音のない場合とSN比が等しくなり、処理によるひずみがほとんどないことが示された。他の符号誤り雑音抑圧方式(改善度9dB以下)に比べて格段に高い抑圧効果をもつことと、一般の雑音抑圧方式に生じやすい処理ひずみがほとんどないことが本方式の優れた特徴である。周波数帯域幅や送信電力に厳しい制限のある通信回線への適用が特に有効であると考えられる。

(8)音声品質評価
 音声通信系の品質は、最終的には主観評価によるが、主観評価では、評価手続きや評価者の差異による評価結果の変動が大きく、相互比較が困難なことが指摘されている。これらの欠点を克服することを目標とした主観SN比を評価尺度とする評価手法を考案し、各種デジタル符号化音声の品質評価に適用してその有効性を確かめた。40kb/sPCMの主観SN比に時期や評価者による有意差がなく、本手法は極めて再現性が高い。

(9)複合適応形デルタ変調方式CADM
 移動通信等16kbps程度の情報伝送速度において、音声のディジタル伝送が望まれる場面が多い。この場合、符復号方式としてはADM,ADPCM,APC,RELC(残差駆動LPC)などが考えられる。このうちADMは瞬時圧伸形とシラビック圧伸形に大別されるが、各々一長一短がある。音声研究グループは、両圧伸(適応)法の長所を生かした複合適応形デルタ変調(CADM)を提案した。この方式は広いダイナミックレンジを持ち、また主観品質は4bitPCMと5bitPCMのほぼ中間に位置し、公衆通信には不十分であるが専用通信業務には十分な品質を満たしている。

(10)深い意味理解
 比喩、洒落、皮肉などの「隠された意味」を持つ音声言語の認識手法の検討を昭和62年に開始した。この研究テーマは、音声研究室の解消後も、関西先端研究センター知的機能研究室において継続している。


参考文献:「電波研究所研究室めぐり」電波時報 1972.7
     「電波研究所沿革史」電波研究所 1961
     「20年史」電波研究所 1972
     「最近10年の歩み」電波研究所 1985
     岡野直樹「電波研究所の将来に関する一考察」
        昭和61年度国家公務員I種採用職員採用時訓練論文集
     「電子技術総合研究所紹介パンフレット」 1986

音声研究グループの資料室のホームページに戻る