2022年度未踏IT

スマートフォン向けにカスタマイズが可能なサイレントスピーチインタフェース

プロジェクト概要

本プロジェクトでは音声不要の、誰でも自由自在に利用できる無声発話（サイレントスピーチ）インタフェースを開発する。具体的には、スマートフォンの内蔵カメラを用いた利用者の口元画像を元にリップリーディングを行い、発声を必要としないサイレントスピーチ入力を実現する。

従来のリップリーディングシステムはデータ収集に膨大な手間がかかったり、使用可能な語彙数も限られていたりするなどの課題が存在する。本プロジェクトでは、One-shot転移学習を用いたリップリーディングモデルを実装し、大規模なデータセットで事前学習を行うことよって、1サンプルだけでコマンドを登録できるリップリーディングシステムを実現する。これにより、語彙数の制限が解消され、サイレントスピーチコマンドをその場でカスタマイズすることが可能になる。

このリップリーディングによる認識手法とモバイル端末のボイスアシスタント機能を連動させることで、モバイル端末で気軽に利用できる、直感的で表現力の高い無声発話による入力を実現する。

音声インタフェースは、今やどこでも誰もが使えるインタフェースとして普及しているが、発話を前提とするため、騒音の影響を受けたり公共の場での発話が難しいなど、環境面での制約が多いのが課題である。

本提案は、リップリーディングに基づいたサイレントスピーチインタフェースをスマートフォンに実装することを目指している。具体的にはOne-Shot転移学習を用いてリップリーディングを実装するとともに、スマートフォンのカメラとマイクを利用した個々にカスタマイズ可能なサイレントスピーチコマンド機能も計画しており、発話を前提とする音声インタフェースの「次」を担うことができるユニークな提案と考え採択した。

リップリーディングとスマートフォンで、これまでに経験したことない新しい世界を開いてくれることを期待したい。

採択理由

PM

藤井彰人

KDDI Digital Divergence Holdings株式会社　代表取締役社長／KDDI株式会社　執行役員　ソリューション事業本部　ソリューション事業企画本部

クリエータ

蘇子雄

東京大学大学院学際情報学府学際情報学専攻

方詩涛

東京大学大学院工学系研究科電気系工学専攻

採択金額

2,736,000円

未踏プロジェクトダッシュボード

スマートフォン向けにカスタマイズが可能なサイレントスピーチインタフェース

プロジェクト概要

採択理由

PM

クリエータ

採択金額

成果報告会

関連リンク