2018/11/29

AI活用で精度抜群!音声認識サービス8選

サポートサービスに使用するツールが電話の場合、そこでのやりとりは蓄積されず流れていってしまうのが通常です。しかしながら、そのやりとりは、テキストベースのものよりも情報の濃度が高いという特徴も持っています。淡々と質問/相談事項が並ぶテキストとは異なり、電話での質問/相談には、「顧客感情」が表れることが多いからです。
とはいえ、通話を録音していたとしても、通話後には「文字起こし」「問い合わせ内容の要約」という作業が待っています。このような手間を省くため、何をすればよいのでしょう。

昨今、AI普及により音声認識の精度は上がっています。音声テキスト化のためにどのようなツールを取り入れればよいのでしょうか。
今回は、AIによりぐっと精度を上げた音声認識サービスを8つご紹介します。最後までお読みいただくことで、「もしも使うならこれ」というツールにめぐり合えるかもしれません。

優れた音声認識サービス8選

1970年代には、アメリカ国防高等研究計画局やアメリカ企業で音声認識の研究が始まりました。そして、現在では、あなたの手の中に収まるスマートフォンにも装備されています。この40余年の間に私たちの生活に浸透するようになったのは、AIの普及が背景にあります。

わかりやすくいうと、同じ言語でも
・イントネーションが違う(なまりなど)
・同じことを指す言葉が複数ある
・話すスピードが違う
といった点で、「ディープラーニング」が必要だったからです。
では、現在利用できるようになっているツールの中で、特に際立った特徴を持つサービスを8つご紹介しましょう。

■1.AmiVoice
株式会社アドバンスト・メディアの音声認識「 AmiVoice」は、さすが日本国内の企業が提供するサービスだけあって、日本語の認識精度が高いのが特徴です。

音響分析データを下敷きにし、
・音響モデル(声の周波数や発音時間の統計データ)
・言語モデル(あらゆる文書から、文字や単語の並びを集めた統計データ)
・発音辞書(哀れ=a・wa・reのように、最小音素をモデル化)
といった各種辞書を活用、さらには医療や金融などの専門辞書をも用いながら、音声をテキストにしていきます。
さらに、これらの辞書/モデルを「ディープラーニング」させていきます。この仕組みで、音声データをテキスト化し、「音声+テキスト」で残せるのです。

■2.Google Cloud Speech API

Google」は、いわずと知れたワールドワイドな企業です。120もの言語や方言さえも自動的に認識し、即座に音声データをテキスト化してくれます。
単に音声認識できるだけでなく、「自然な話し言葉」に強いのも特徴。それを利用して、複数人数での電話やビデオ会議の録音をチャンネル別に文字変換することさえできます(2018年11月現在ベータ版)。
この音声認識サービスは、今回取り上げるものの中で最も低コストで導入できます。

■3.Watson Speech to Text

IBM社の「 Watson」については、ご存知の方も多いのではないでしょうか。
このWatsonの音声認識の特徴は、
・ブラジルポルトガル語、フランス語、日本語、中国語(標準)、アラビア語、スペイン語、イギリス英語、アメリカ英語に対応
・専門用語等の語彙拡張が可能
であること。

その上、単にテキスト化するだけでなく、話し手の
・言いよどみ/ためらい
・確信的かどうか
といった、「より感情に近い部分」もテキストへ出力されます。
また、音声データから引き出したキーワードを、他のWatson APIへの入力に使ったりなど、幅広い使い方ができるのが特徴です。

■4.Being Speech API

Microsoft社の提供する音声認識サービスが、「 Being Speech API」です。話し手の言葉をテキストに起こすに留まらず、コマンドとしても利用できます。
返答が必要なシーンにおいては、クライアントライブラリ活用で対応することができます。
・15秒以下の音声をコマンド利用
・15秒以上の音声をテキストに変換
・音声のストリーミング
・音声からテキスト化されたものの意味を解釈
これらは、クライアントライブラリ活用で実現できることですが、Windows/Android/iOSアプリで使えるよう、JavaやJavaScript、C#、objectiveCなどの幅広いプログラミング言語に対応していて、多くのシステムに導入しやすいのが特徴です。

■5.VoiceRex

VoiceRex」は、「NTTメディアインテリジェンス研究所」が開発したものです。2017年にはNTTテクノクロスがこのVoiceRex搭載したSpeechRecをバージョンアップし、コンタクトセンターやIVR(音声自動応答装置)への導入をスムーズに行えるようにしています。

VoiceRex搭載SpeechRecは、サーバクライアント型のサービス。海外からの来訪者ニーズに応えるため、英語はもちろんのこと、アジア系10言語に対応しています。さらには、日本語の場合、認識率が92%であるなど、効率の良い対応を目指すことができます。
参照: https://www.ntt-tx.co.jp/whatsnew/2017/170622.html

■6.VBox

VBox」は、日本のベンチャー企業であるHmcomm株式会社が開発した音声認識サービスです。
VBoxの特徴は以下の通りです。
・Microsoft Innovation Award2016ファイナルピッチでの受賞
・音声認識装置及び方法ならびにプログラム/音声データ検索用WEBサイトシステム/音声認識システム及び音声認識システム用プログラム特許取得
・インタビュー音源から自動で書き起こし
・動画データ内音声のテキスト化(編集も可能)

VBoxの“応用編”である「VContact」(コールセンター向け音声テキスト化システム)を2018年3月に正式リリースしました。これにより、オペレーターと顧客/見込み客の会話を自動テキスト化、FAQ自動表示、自動要約からFAQ自動作成までをも担う内容となりました。

■7.DragonNaturallySpeaking

音声認識により、パソコンへの入力作業を大幅に削減してくれるのが「 DragonNaturallySpeaking」です。
音声からテキストを自動的に起こしてくれますので、タイピングの約3倍のスピードで、しかも99%の正確さでパソコン操作を可能にしてくれます。
マイクからの入力、WAV、MP3、WMAなどの音声ファイルからの文字起こしなどに対応。さらには、ワードやエクセルへ音声入力も可能です。

「音声認識力」で、障がいをお持ちの方でもスムーズなパソコン操作ができることから、多くの方に利用されています。この“実力”で、会話開始から問題解決までの時間がシビアな金融サービス/通信業/保険会社などへのオムニチャネルプラットフォーム提供もしています。

■8.OPTiM AI Voice

タイピングが苦手な方でも、声や音声ファイルをテキストデータに変換できる「 OPTiM AI Voice」。特別な機器やプログラミングの必要がなく、WEBベースでの利用ができますので、どのようなシーンでも利便性が高いことが特徴です。

コールセンターでは、
・顧客/見込み客の声をAIが解析、オペレーター向け関連FAQを表示
・通話テキスト化で、通話後ログ取得
・AIチャットボットが24時間対応、通話可能時間外でも回答を提示
といった使い方も可能です。
顧客/見込み客の声のトーンを判別し、“感情”をも記録できますので、情報の振り返りの際にも活躍してくれます。

まとめ

コンタクトセンター/コールセンターで日々飛び交う会話は、基本的に「流れていってしまうもの」です。それらの貴重な情報を蓄積するために、テキスト化は欠かせません。

会話をしながらのタイピングは、その音で顧客/見込み客に気取られるものです。また、会話後の記録も、オペレーターによって要約内容の水準が異なり、均一化できないことも後の問題となることがあるでしょう。
この点で、AIを活用した音声認識サービスは有利です。会話のほとんどを自動でテキスト化できます。また、サービスによっては、自動でオペレーター向けFAQを自動生成するものもあります。顧客/見込み客の感情を「読み取る」サービスまで存在するのです。

いかがでしたでしょうか。会話に時間を取られる、回答を探し出すのに時間がかかる、対応内容の記録にも時間が必要…これらの「時間=コスト」の問題を解消するために、音声認識サービスの導入は、今すぐにでも検討しなければならないことかもしれません。