2024年度未踏IT

機械学習を用いた語源的英単語分割手法の開発

プロジェクト概要

本プロジェクトでは、機械学習を用いて任意の英単語を語源的に意味のある最小単位に分割する方法を開発する。具体的には英語の先祖の段階での変化を英単語の分解に表面的に対応づけることである。例えば“cohere”はラテン語のレベルでは、“con-”と“haereo”が結合して“cohaereo”になったという語源を踏まえて、英単語の“cohere”を“co-”と“here”に分割する、などである。これを実現するために、まず既存の大規模言語モデルをファインチューニングして、Webから収集した語源の文章から単語間の継承関係を取り出すようにし、収集した語源データを一つのグラフに統合する。次に英単語を入力として、その語源的な分割を返すニューラルネットワークモデルを開発する。この際、シーケンスデータの処理技術を用いて単語内の配置や前後の文字との関係の情報も含めるようモデル構造を研究する。

加えて、本方法で学習したモデルを使い、任意の英単語に対し、どの部分が何と同語源なのかをひと目で学習することができるアプリケーションを開発する。また、語源的分割を言語モデルに活用することも目指す。

採択理由

本プロジェクトは、英単語を対象として語源的に意味のある最小単位に分割する機械学習モデルを開発する提案である。英単語を語源で着目しなおし、一般ユーザにわかりやすくそれを提示することで、単語を知らなくてもその意味を推測できるセンスが積めるようになる支援にもつながるアプリケーションも開発する。すでに語源データの解析部分を開発し、ファインチューニングのプロトタイプもできていたことで、プロジェクト期間中に開発するシステムの技術的側面や乗り越えるべき課題も明確であったことと、本手法によりユーザの英語学習の幅が広がりそうなことに期待して採択とした。英語だけでなく、語学全般に使える技術に展開できる可能性にも期待する。

PM

五十嵐悠紀

お茶の水女子大学理学部情報科学科准教授

クリエータ

中澤正樹

東京大学大学院理学系研究科物理学専攻

採択金額

2,880,000円

未踏プロジェクトダッシュボード

機械学習を用いた語源的英単語分割手法の開発

プロジェクト概要

採択理由

PM

クリエータ

採択金額

成果報告会

関連リンク