2017年度未踏IT

あらゆる人の声を模倣可能なリアルタイム音声変換システムの開発

プロジェクト概要

本プロジェクトでは、入力音声を他人の声に変換するソフトウェアを開発する。本システムの特徴は、入力音声の声質に依らず変換可能なこと、人が自然だと感じるほど高精度であること、リアルタイムに変換可能なことである。

誰しもが一度は、他の人の声で話してみたいと思ったことがあるかもしれない。しかし、それをシステムとして実現しようとした場合、ある他者の声を真似ることには技術的な困難さがある。画像のピクセル要素と比較すると、音声信号における微小時刻毎の要素は各々が重要な情報を有しており、また時刻間の相関も強い。従って、ある声を他人のものに変えようとしたとき、元の声の発話間隔、強調、イントネーションなどの要素を残しながら、目的とする声へ変換するためには、音声信号を局所的にも大域的にも精密に変換する必要がある。本プロジェクトでは、この技術的な障害を深層学習の高い表現能力によって解決し、実用に堪えるソフトウェアを実現する。

本プロジェクトの手法では、声の模倣を以下の2ステップで実現する。まず、音声認識の技術を応用し、個人の声質に依らずに共通する特徴量を入力音声から抽出する。そして、その特徴量に対して対象の声質情報を付与し、声を再生成することで変声を行う。このような構成でモデルを構築することで、例えばパラレルデータ（入力者と変換先の話者が同一のスクリプトを読み上げた音声データで、二者の時間的対応が取れているデータ）のような特殊なデータを使う必要がなくなり、学習データに掛かるコストが時間的にも金銭的にも小さくなる。

高精度な声の模倣が可能となることで、アニメのキャラクターや声優の声を現実世界で再現でき得ること、亡くなった人の声を再現でき得ること、そして、コミュニケーションに利用でき得ることなどの可能性が考えられる。

採択理由

本提案はニューラルネットワーク技術を利用した、音声変換システムの開発提案である。タイトルの通り、特定の話者の特徴を再現する変声機の実現を目指しており、実現すればそれぞれの話者が持つ、音素のつながりやイントネーションを真似た音声への変換サービスを提供することができる。文字起こしと発話ではなく、音声そのものを音素認識と声質変換することで音声変換を実現しており、実現する変声品質次第ではあるが、具体的なサービスとしての発展性に大きく期待している。

PM

藤井彰人

KDDI株式会社ソリューション事業本部ソリューション事業企画本部副本部長兼クラウドサービス企画部長

クリエータ

早川顕生

東京大学大学院情報理工学系研究科知能機械情報学専攻

採択金額

2,304,000円

未踏プロジェクトダッシュボード

あらゆる人の声を模倣可能なリアルタイム音声変換システムの開発

プロジェクト概要

採択理由

PM

クリエータ

採択金額

成果報告会

関連リンク