音声認識・音声合成の”イマ”って何しているの?(音声認識編)

音声認識・音声合成の”イマ”って何しているの?(音声認識編)

“ほんやくコンニャク”の実現はいつ? 音声認識・翻訳技術は「言語」の壁を取り払うか (1/4)

音声認識ソフト+音声合成ソフトタイプのバーチャルYoutuberは音声入力ソフトで声を入力して文字を起こし、その起こした文字を音声合成ソフトで発声させたり、字幕として表示したりしています。そんなのらきゃっとやアナトの動画を見ていて、ふと思ったのです、音声認識、音声合成それぞれの最新はこれより何が出来るんだろうか、なんて。

異言語を繋ぐ

上記のリンクにある記事では音声認識ソフトは異言語への変換をメインの研究としているようです。ネット上の翻訳を言葉で丸々変換出来るようになったら便利ですよね。そんな世の中になったら外国語の授業とか無くなったりするんだろうか。また、翻訳の処理をクラウド側で人海戦術みたいな形で行う方法から「ニューラルネットワーク」という人の脳構造のような形で学習していくタイプへと変化しているみたいです。まだまだ課題はあるみたいですがこのまま進んでいけばGoogleアシスタントやSiriのような音声認識アシスタントが通訳として会話に参加する未来もあるかもしれないですね。

まだ「オンライン」限定

「ニューラルネットワーク」はクラウドを利用することで大規模な処理をこなしています。それはインターネットとの接続が不可欠でもある、ということです。異言語への出力、つまり翻訳を利用したい場面というのはぱっと思いつくのが国外旅行です。しかし、使用したい時の環境が常にWi-fiなどを利用できないとは限らないのでまだまだ汎用的では無く課題が残っています。ですが、この課題もスマホの処理能力が向上していけばクラウドを介することなく利用できる日が来るかもしれません。

まとめ

ぶっちゃけて言えば紹介したリンクの内容は難しく、出てきた単語の半数以上ほとんどを理解出来てません。ですが、このような技術が出来つつある、ということを片隅にでも思ってもらえれば幸いです。この「ニューラルネットワーク」の技術が普及したらどう変わるんでしょうかね。もしかしたらそんなに変わらないかもしれません。だって習慣の違いでもすれ違いは起こるので国外旅行の敷居がちょっと下がっただけ、なんていう未来もあってもおかしくないですよね。

テクノロジーカテゴリの最新記事