アイヌ語の復興と最新テクノロジー
先週の金曜日ですが、お誘いをいただきまして
駐日ポーランド大使館で行われた
「アイヌ語の研究及び再活性化のためのコンピューター技術の活用
~人工知能・自然言語処理の応用によって危機言語を救出することは可能か~」
という講演会に行きました。
ご存知のとおり、アイヌの方への日本政府による同化政策により
現在、アイヌ語を話せる方がとても少なくなっており、
存続の危機を迎えています。
今回の講演会は、講師に北見工業大学 准教授 ミハウ・プタシンスキ氏と
同大学 博士後期課程 カロル・ノヴァコフスキ氏をお迎えして行われました。
両氏ともにポーランドの方です。
そして、この講演は、ポーランド日本の国交樹立100周年記念事業の一環のもので
日本とポーランドの結びつきは意外に深いです。
ポーランド独立の父と呼ばれるヨゼフ・ピウスツキ氏の兄、
ブロニスワフ・ピウスツキ氏が独立運動、活動期にロシア帝国に極東へ
流刑され、サハリン滞在中にアイヌと出会いました。
そして、アイヌの女性と結婚し、アイヌの村にいる間に
アイヌ語をロウ管に録音したり、口承文芸の翻訳を記しました。
それらの資料は、その後人類学や言語学の研究に頻繁に利用されるようになりました。
今回の研究発表講演では、今まで手作業で行ってきていた、
アイヌ語の翻訳作業をコンピューター・人工知能をつかって飛躍的に作業スピードを向上させ、
しかも、音声認識や、音声合成を行うことにより、
アイヌ語を活性化するためのツールを開発するというものでした。
この研究に対する問題点は
①そもそもアイヌ語の大量データがない(音声もふくめ)
②アイヌ語を話せる、使うことができる専門家がいない
③アイヌ語に対する統一表記がない。これはアイヌ語が口承で伝わってきたため
ということで、これらに対するアプローチは
①デジタル化されていないデータの処理をすすめコーパスの作成をおこなう
40万語をこえるアイヌ語テキストを集め(これはこの研究者の方々のデータが突出して多いことを示している)
そしてこれらを日本語に翻訳、自然言語技術の開発を行う
②専門家の作業を自動化する
コンピュータ、機械による翻訳・音声認識・コーパスの精度
アイヌ語の合成
③アイヌ語の表記がまちまちなので、例えば古いタイプの表記で記された
文章を現代風に出力するアルゴリズムの開発を行う
今後の課題として
コーパスの拡大
自然言語処理技術の向上
方言の分析
口語と文語の違いを考慮する
ということで、コンピュータを使って翻訳作業をすると、
人力での作業に比べて各段の作業効率を図ることができ
また音声認識や、音声合成の技術により
アイヌ語の保存、そして再活性化を促進できるということに驚き
静かに感動しました。
また、実際にコンピュータを使った、形態要素解析の例が示されて
ある文章を
入力
↓
単語分割
↓
品詞タグ付け
↓
形態要素解析
↓
単語翻訳付与
出力として
①品詞タグ付け
②形態要素解析
③品詞基準
など
詳細にデータが示されていました。
和人はアイヌの文化を壊しました。
ですが、遠くポーランドの研究者がこのような研究を行い、
アイヌ語の復興に力を注いでいることに本当に頭が下がりました。
私は、ミハウ氏に、どうしてこのような研究をされているのですか?
と聞きました。
彼の答えは
「ポーランドの建国の父、ヨゼフは日本でいう聖徳太子?(笑)みたいな
人なんです。その兄のブロニスワフがアイヌ研究者であり、彼の奥さんがアイヌの方ということは、
我々ポーランド人にとって、いわば、アイヌ民族は親戚であり、同胞なんです。
だから、このような研究をして復興に尽力しているんです。」
ほとんどのポーランドの方はアイヌのことは知りませんが
このようにポーランドの研究者の方達で、歴史の経緯を知っている方たちは
とても親日であり、またアイヌのことを知っています。
今回の講演会で、自分達ができることをやるしかない、とあらためて思いました。