voice-synthesis

ルパル・パテル 指紋のようにユニークな合成音声

「コンピュータを駆使した音声の選択肢には限りがあります」パテルは語りかける。ここでは、70万ビューを超える Rupal Patel のTED講演を訳し、声なき人たちのためにユニークな声を生み出す方法について理解する。

要約

重度の言語障害をもつ多くの患者はコンピュータを駆使してコミュニケーションをはかっています。でもその音声の選択肢には限りがあります。そのため、イギリス人のスティーヴン・ホーキングの声はアメリカ訛りで、多くの人達が同じ声を使い、しばしば不似合いな声で我慢しているのです。スピーチ・サイエンティストのルパル・パテルはこの現状をどうにか変えたいと願いました。素晴らしい講演の中で、パテルは声なき人達のためにユニークな声を生み出す方法について紹介します。

People relying on synthetic speech use the voice they’re given, not their own. Rupal Patel created the vocaliD project to change that.

 

1 人の声は心のオルガン(心の臓器)

今日 皆さんにお話したいのは 私たちのあり方を決める パワフルで 基礎的なもの― 「声」についてです。私たち一人一人に独特の声紋があり 私たちの年齢、体格 生活習慣や個性までも映し出します。 ヘンリー・ワーズワース・ロングフェローは 「人の声は心のオルガン(心の臓器)である」と 詩でつづりました。スピーチ・サイエンティストである私は 発声の仕組みに魅せられ これを人工的に作り出す方法を 見つけました。これを皆さんと共有いたします。

 

2 個性に欠けた合成音声にショックを受けた

まずは皆さんが ご存知かもしれない 声のサンプルを流します。(音声)スティーヴン・ホーキング: 「私が意図することは かなり明確だと思っていました」

お聞きいただいたのは スティーヴン・ホーキング教授の声です。皆さんが ご存知ないかもしれないのは 同じ声を こちらの女の子のような 神経疾患で話すことができない 子どもも使っている 可能性があることです。実は このような方々は 声の選択肢が ごく限られているため 同じ声を使っていることがあるのです。アメリカだけでも 話すことができない人達が 250万人もいます。その多くの人達が コミュニケーション手段として コンピューターを使用します。世界規模で 数百万の人々が 人工音声を使っているのです。ホーキング教授も その1人で アメリカ訛りの音声を使っていますね。この個性に欠けた 合成音声には 本当にショックを受けました

数年前に障害を持つ人の 技術支援に関する会議に 参加した時のことです。展示ホールに足を入れると 小さい女の子から 成人男性まで それぞれの機器を使って 話しているんですが 機器は違えど 同じ声でした。周りを見回すと 私の周りでも 同じことが起こっていました。文字通り数百人の人達が ごく限られた音声を使っていて それぞれの身体や個性に 合っていないんです。小さい女の子に 成人男性用の義足を あてがうなんて想像できませんよね。ではなぜ人工音声もそうしないのか? これが大変気に掛かり この状況を何とかしたいと思ったのです。

これから お聞きいただくのは 重度の言語障害を患っている 2人の音声サンプルです。どのように聞こえるか お聞きください。同じ内容を発話しています(第1音声)(第2音声) 話の内容までは 分からなかったかもしれませんが 2人の個性的な 音声はお分かりいただけたでしょう。

 

3 話者の独特な声の特徴を反映した個人用音声の開発

次に私がやりたかったことは このように残された 発話能力を 活かして 使用者に合わせて カスタマイズできる テクノロジー つまり彼らのために カスタマイズできる声を 開発することでした。そこで協力者の ティム・バンネルに助言を仰ぎました。バンネル博士は音声合成の 第一人者で 彼がやっているのは 事前に録音してあった 本人の音声サンプルを用いて 音声を復元することで 個人用の音声を作っているのです。対象となるのは後天性の障害で 声を失った人達です。生まれながらに 言語障害がある人達には 「事前に録音した音声サンプル」なんてありません。でも私が考えたのは 残された かすかな声から その人の声を 蘇らせることができるはずだと。

そこで これに取り組むことにしたのです。アメリカ国立科学財団から わずかな資金援助を受け 話者の独特な声の特徴を反映した 個人用音声の開発を始めました。私たちは このプロジェクトを “VocaliD”や“vocal I.D.”と 名づけました。

 

4 音源がフィルターにかかることが発声のメカニズム

これから皆さんに この特注の声がどのように作られ 実際の声を お聞きいただく前に 音声科学についての ごく簡単な講義をします。いいですか? まず私たちの音声は 成長過程において 劇的に変化します。小さな子どもの声は 十代の人達と異なりますし 成人の人達も異なります。皆さん これを経験しますね。2つ目の事実は発声とは 皆さんの喉頭から発せられた 振動による音源が 残りの声道を通過することで 起こります。皆さんの頭と首の中にある スペースが 振動することで 音源をフィルターにかけて 母音と子音が発音されるのです。つまり音源がフィルターにかかることが 発声のメカニズムなのです。これが一人一人に起きているわけです。

先ほど申し上げたように 私は重い言語障害を患う人達の 音源の特性についての 理解と研究に 長いこと 携わってきました。そこで気づいたのは 彼らのフィルターに障害があっても 音源は調節可能であるということで それは声のピッチ、大きさ、テンポです。これらはプロソディー(韻律)と呼ばれるもので 長年の調査で 言語障害者のプロソディーが 健在であることを 実証してきました。ですから これらの表現が 話し手のアイデンティティにも 重要だと気づいた時 このアイデアを思いついたのです。それは発話させたい人の 音源を使い ―これは残っているんですね。対象となる人と同じ年齢で 同じ体格の人から フィルターを借りて この明瞭な音声と 混ぜたらどうかと考えたのです。合成した声は フィルターを借りた 代理話者と同じくらい 明瞭な声で 私たちがターゲットとしている話者の アイデンティティにも 類似しているんです。こんなに簡単なんです。これが私たちがやっていることの 裏にある科学です。

 

5 提供者は数百から数千の言葉を発声するだけ

では アイデアが思いついたところで どうやって実際に声を構築したらいいでしょう? まずはフィルターを提供してくれる人を 探す必要がありました。全然難しいことではないんです。提供者になるということは 数百から数千の言葉を 発声するだけです。この過程はこんな感じです。

声:物事は対になって起こります。 寝るのが大好きです。 雲一つない青い空です。

これを3時間から 4時間ほど続けます。ここでのポイントは 対象となる人が話したい文章を 代理人に言わせるのではなく 言葉の中で生じる 全ての異なる 音の組み合わせを 拾っていくことです。サンプルが多ければ多いほど より質の良い声を得ることができます。収録が終わったら 次に必要なのは 読まれた文章を解析し 言語の要素に分割することです。1つの音や 2つの音の組み合わせや 時には 単語全体を データセットすなわちデータベースに 集積していきます。このデータベースを 音声バンクと呼びましょう。音声バンクのパワフルな点は この音声バンクから 新しい言葉を発声できることで 「チョコレートが好き」とか これは誰でも言いたいですよね。データベースを駆使して その言葉の発声に必要な 全ての断片を見つけるのです。

 

6 波形接続合成という音声合成

声:チョコレートが好きです

これが音声合成です。波形接続合成という 私たちが使っている手法です。これは目新しくありませんが 新しい点は どうやって この若い女性が 話すような音声にするかです。

彼女の名前はサマンサです。私が彼女に出会ったのは 彼女が9歳の時で 私のチームは 彼女のための声を構築してきました。まずは代理ドナーを探して サマンサにも いくつかの 発声をお願いしました。彼女が発声できるのは 主に母音だけですが 彼女の音源特性を引き出すのには 十分な情報でした。次のステップは 私の6歳の娘が上手く例えています。娘は「声を色づかせるために 絵の具を混ぜているんだね」と。きれいですよね。まさにその通りなんです。サマンサの声は 濃縮された食紅のように 彼女の代理ドナーの 録音した声に混ぜることで ピンク色の声になるのです。まさに こんな風に

サマンサ:ああああああ

今では こんな風に話せます。

サマンサ:この声は私だけのもの 友達と新しい声で話すのが楽しみ。 ありがとう (拍手)

 

7 『VocaliD.org』というサイトを立ち上げた

彼女が 最初に この声を聞いた時の 顔いっぱいに広がった 優しい笑みは ずっと忘れないでしょう。世界中には数百万人もの サマンサのような人々がいます。数百万ですよ。私たちの取り組みは まだまだ始まったばかりです。これまでの取り組みは アメリカ国内で 声を提供してくれる人々を 数名集めて 私たちの初の試みとなる 個人用の声の構築に 利用しています。でも やることは山ほどあります。例えばサマンサの代理ドナーは 中西部の出身で 見ず知らずの他人が 声の贈り物をしてくれたのです。私が科学者として とても楽しみなのは 研究室でやっていた仕事を ついに実用化して 実社会に影響を与えることです。

次に皆さんと共有させていただくのは この成果を どうやって次のレベルに 進めるかです。私が考えているのは 世界中の あらゆる階層の人々 異なる体格や 違う年齢層の人々が 代理ドナーとなって 個性と同じくらい 色彩に富んだ声を 人々に贈ることです。これを叶えるための第一歩として 『VocaliD.org』というウェブサイトを 立ち上げました。声や専門知識の提供を 募るためのサイトで 私たちのビジョンを いろいろな形で 支援してくれる人たちを 集める試みです。

 

8 「自分の声でしゃべったのは初めてだ」

献血で他人の命を救うことができますね。声を提供することで 他人の人生を変えることができます。ほんの数時間分の 代理話者の 音声サンプルと 声を受け取る人の発声した 母音が1つでもあれば 独特な声のアイデンティティを 作れます。

これが私たちがやっている裏にある 科学なんです。この仕事に インスピレーションをもたらしてくれた 人間的な部分に立ち返ることで 締めくくります。約5年前のことです。私たちが最初に作った声は ウィリアムという男の子のためでした。母親が この声を始めて耳にした時 「まさにウィリアムの声だ。もし この子が話せていたら きっとこんな声だったに違いない」と。するとウィリアムが 彼の機器で メッセージをタイプするんです。私は彼が何を考えているのか 思いを馳せました。9年間も他人の声を使っていた 男の子が ついに自分の声を手に入れたのです。どんな気分だと思いますか

ウィリアムはこう言いました 「自分の声でしゃべったのは初めてだ」ありがとうございました(拍手)

 

最後に

個性に欠けた合成音声にショックを受けた。話者の独特な声の特徴を反映した個人用音声の開発。音源がフィルターにかかることが発声のメカニズム。音源(声のピッチ、大きさ、テンポ)は調整可能。対象となる人と同じ年齢で同じ体格の人からフィルターを借りて混ぜればいい。提供者は数百から数千の言葉を発声するだけ。人の声は心のオルガン

和訳してくださったMari Arimitsu 氏、レビューしてくださった Akiko Hicks 氏に感謝する(2013年12月)。

VOCALOID2 HATSUNE MIKU


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>