未踏プロジェクトダッシュボード

IPA未踏事業 プロジェクト一覧

修正・お問い合わせはこちら
一覧に戻る
2022年度未踏IT

スマートフォン向けにカスタマイズが可能なサイレントスピーチインタフェース

プロジェクト概要

本プロジェクトでは音声不要の、誰でも自由自在に利用できる無声発話(サイレントスピーチ)インタフェースを開発する。具体的には、スマートフォンの内蔵カメラを用いた利用者の口元画像を元にリップリーディングを行い、発声を必要としないサイレントスピーチ入力を実現する。

従来のリップリーディングシステムはデータ収集に膨大な手間がかかったり、使用可能な語彙数も限られていたりするなどの課題が存在する。本プロジェクトでは、One-shot転移学習を用いたリップリーディングモデルを実装し、大規模なデータセットで事前学習を行うことよって、1サンプルだけでコマンドを登録できるリップリーディングシステムを実現する。これにより、語彙数の制限が解消され、サイレントスピーチコマンドをその場でカスタマイズすることが可能になる。

このリップリーディングによる認識手法とモバイル端末のボイスアシスタント機能を連動させることで、モバイル端末で気軽に利用できる、直感的で表現力の高い無声発話による入力を実現する。

音声インタフェースは、今やどこでも誰もが使えるインタフェースとして普及しているが、発話を前提とするため、騒音の影響を受けたり公共の場での発話が難しいなど、環境面での制約が多いのが課題である。

本提案は、リップリーディングに基づいたサイレントスピーチインタフェースをスマートフォンに実装することを目指している。具体的にはOne-Shot転移学習を用いてリップリーディングを実装するとともに、スマートフォンのカメラとマイクを利用した個々にカスタマイズ可能なサイレントスピーチコマンド機能も計画しており、発話を前提とする音声インタフェースの「次」を担うことができるユニークな提案と考え採択した。

リップリーディングとスマートフォンで、これまでに経験したことない新しい世界を開いてくれることを期待したい。

採択理由

PM

藤井 彰人

KDDI Digital Divergence Holdings株式会社 代表取締役社長/KDDI株式会社 執行役員 ソリューション事業本部 ソリューション事業企画本部

クリエータ

蘇 子雄

東京大学大学院学際情報学府 学際情報学専攻

方 詩涛

東京大学大学院工学系研究科 電気系工学専攻

採択金額

2,736,000

成果報告会

関連リンク