多分、この記事はあまり一般的には取り上げられないと思うのですが^^;、個人的にはかなり感動したのでご紹介。
GizmodeさんでMultiple Speech Recognition To Make Sex Dolls More Funというエントリーがありました。
タイトルは、ちょっと???(というか、ギズモさんらしいタイトルのつけ方?)なのですが、エントリーに載っているビデオを見て感激。
3方向から同時に話す人の言葉を、音声認識(ロボット、システムWhatever)が方向と内容を認識しているのです。
その昔、仕事でマルチメディア(あ~、今となっては死語ですね^^;)を勉強していたときに、とある研究所で音声認識を研究されている方からお話を聞くチャンスがありました。
その時、音声認識の "技術的に難しいポイント" を教えて戴いたのですが、その中に、
同性による二人以上の音声の認識
距離・方角の違いによる音声の認識
がありました。
が、このビデオでは、同性による認識も方角による認識も見事に認識されています。
いや~、感動。
アメリカで暮らしていると、電話での問い合わせに音声認識システムが多く使われていることに気がつきます。 はじめは、『私の日本語訛りのカタカナ英語認識してくれるかしらん・・・・』と、不安なのですが、慣れてくると、この音声認識は、限られた単語をアクセントを強調して発音すれば、日本語訛りのカタカナ英語だろうが、スペイン語訛りの英語だろうが、フランス語訛りの英語だろうが、中国語訛りの英語だろうが、ほとんど正確に認識してくれます。
が、その一方で、周りの雑音が少しでも入ると、ネイティブスピーカに何度でも言い直しを繰り返します。
勿論、実用化されている技術と、研究途上の技術には大きな差があるとは思いますが、日本の音声技術(アクセントのない単語、センテンス、会話)の認識技術に加えて、複数人(同性)の同時認識、さらに方角の違いによる認識は、日本の音声認識技術の高さを充分示していると思います。
と、いうことで、個人的に感動したエントリーでした♥





