音声認識システムを利用するために知っておくべきこと①:ハーバード・ビジネス・レビューの記事から学ぶ
音声認識システムの利用は危険?
皆さんはスマホで検索するときに、”Siri”や”OKgoogle”を使ったりしますか?
私はたま~にします。おそらく数%くらい。私はiPhoneなのでSiriを使いますが、以前よりは音声の認識が良くなったなと思います。でも正しく認識されないとめんどくさくなってポチポチ入力しています。
スマホの検索だけでなく、Amazon EchoやGoogle HomeなどAIスピーカーも増えてきましたね。といっても日本のスマートスピーカー普及率は2018年末で5.9%(電通デジタル調べ)。アメリカの世帯普及率が41%というデータがあることを考えると(TechCrunch Japan 2018/12/29 記事より)まだ普及率は高くありません。
ただし音声認識システムについてはいろいろな課題がありここ最近ハーバード・ビジネス・レビュー(HBR)でそれに特化した記事がいくつか紹介されていました。ですので今回は2つの記事から音声認識システムのどういうところが課題と指摘されているのかをご紹介したいと思います。
一つ目の記事が”Voice Regognition Still Has Significant Race and Gender Biases (音声認識システムにはまだ重大な人種や性別認識についての偏りがある)”
もう一つの記事が”The Ethics of Smart Devices That Analyze How we Speak(スマートスピーカーが話し方を分析する倫理)” です。
*記事の購読は定期購読者以外は3本まで無料。その後は1記事当たり約9ドル課金されます。
タイトルを見たら課題はお分かりいただけるかと思うのですが、そこ課題の根本にあるのは音声認識システムは完璧ではないということです。それは音声認識システムに限らず画像認識やテキスト解析などビッグデータをベースとしたアルゴリズムを使うすべてのことに言えます。採用活動のAIの問題について取り上げた記事を以前ご紹介しましたが、既存のデータベースを「正」とするために白人男性が優秀と認識する、会社から近い人が適正だと判断するということが起こります。
では、この2つの記事から音声認識システム特有で問題なのはどういうことかというと3つ挙げられると思います。
1.性別・人種により認識レベルが異なること
2.声により、その人の属性まで推論しようとすること
3.(スマートスピーカーの場合とりわけ)気づかない間にデータが集められてること
Googleの白人男性の音声認識率は女性よりも13%高い!
1番目の記事によると、一番音声認識システムのレベルが高いといわれているGoogle(同社が公表している認識率は95%)でも女性と男性、人種による認識率が異なっているということです。
実際、NACCLという協会がテストしたところによると、Googleの音声認識システムによる認識率は男性のほうが女性よりも13%正確であったという結果を発表しました。またインド人の英語での認識率は78%、スコットランド人の英語の認識率は53%しかありません。
何故こういうことが起こるのでしょうか?答えはおそらく、マシーンラーニング(音声認識システムのベースとなる仕組み)はデータのパターンから認識し、実際のデータの量が一番多いのは男性であり女性や(アメリカから見た)マイノリティの人のデータが少ないからということなのです。
以下原文
Machine learning is a technique that finds patterns within data. The underlying reason may be that databases have lots of white male data, and less data on female and minority voices.
この問題は、個人的にスマホなどで検索がしにくいという問題だけならいいのかもしれませんが、その機会が読み取ったデータが自分の人生に関わることだと大きな問題になります。実際アイルランド人の女性はオーストラリアに移住をしようと英語の語学力のテストを受けたところ不合格になりました。アイルランド人なので英語はネイティブといっていいはずです。
「システムが認識するためのデータが少ないからあなたは不合格でした」といわれても納得できないですよね。でも実際に効率化のために音声認識システムで判断をし始めると、そういうことが起きるということなのです。
声で性的嗜好を判断されたらどう思いますか?
2つ目の記事で驚いたことが、音声認識システムを開発している会社が単にその言葉だけを理解しようとしているのではなく、声から様々なことを見抜き(detect)、その理由まで知ろうとしているところです。実際にアマゾンは、その人の特性(性別、年齢、人種)や、健康状態、感情の特徴を集められる特許を持っているということなのです。
問題は、アルゴリズムが不完全でかつ声によって発せられるシグナルはあいまいでかつ時によって変わるということなのです。例として挙げられているのが性的嗜好。ゲイの人の声は高く起伏があるという典型的なイメージがありますが、ゲイでない人でもそういうしゃべり方をする人はいます。実際の実験によると、声を聴いてこの人がゲイだと人間が認識できる確率が60%、機械が写真を見てその人の性的嗜好を認識できる確率は70%ということです。
自分事でなければ「ふーん、結構機械もやるな」と思えるのでしょうが、自分が間違って判断される確率が30%となると「不完全すぎる!」と思いますよね。ちなみに声の認識率は画像よりも難しいためさらに確率が下がるだろうということです。
既に2つ目でかなりの文章量になりましたので、3点目(気づかない間にデータが集められていること)は次回ご紹介したいと思います。