導入事例・ブログ

blog

音声認識とは?導入にあたって必要な知識をわかりやすく解説

2019/08/09

カスタマーサポート ブログ

あなたは、以下のような悩みや疑問を抱いていませんか?

「音声認識って、どんな仕組みで動いているんだろう…」
「そもそも、音声認識が何なのかわからないから、わかりやすく教えて欲しい」

仕事の現場でこれから音声認識技術を導入するにあたって、これらそもそもの部分がわからないと、何を選んでいいのかわかりませんよね。
この記事では、このような悩みを解決することができますので、最後まで読んでみてください。

音声認識とは?

音声認識とは、コンピューターが人の発する声を言語として認識し、テキスト化する技術のことです。
単にテキスト化するだけでなく、個人の音色から話す人の特定、感情を解析することも含んでいます。
ある人の言いたいことだけでなく、感情まで判定できるようになった音声認識は、今やコールセンターをはじめとした各種ビジネスシーンで欠かせないものとなっています。

音声認識システムの構成

では、音声認識はどのように働いているのでしょう。
まず、以下の図をご覧ください。

このように音声認識は、3つの技術の掛け合わせで成り立っています。

  1. 前処理部
  2. 特徴抽出部
  3. 識別部

これら技術の内容を、わかりやすくご説明しましょう。

1.前処理部
音声認識に適するデータにするのが、音声認識の「前処理」です。
音声は、もともとアナログですので、デジタル化する必要があります。
このデータ変換を、「音声認識の前処理」と呼びます。

2.特徴抽出部
デジタル化された音声から、その音独特の特徴を拾うのが「特徴抽出」です。
データ処理をするときに必要な音声が、どのような音で構成されているか、音の波形はどうか、一音一音の間の時間はどうか、などの面が音声認識では重要です。

音響モデル
音響モデルは、特徴抽出の中でも特に重要な役割を担います。
たとえば、「いった(言った/行った)」ということばは、「い」「っ(ちいさな“つ”=促音)」「た」で構成されます。
これを音声分析ソフトで一音一音分析すると、「い」「た」の間の「っ」は空白部として表示されますが、確かに「っ」に該当する時間は存在しているのです。
このように、音と時間とは大きな関連性がありますので、音と時間の特徴を認識する「特徴抽出」は、音声認識に欠かせない技術です。
参考:https://www.mirai-kougaku.jp/laboratory/pages/131226.php

3.識別部
識別部は、一音一音を組み合わせ、単語にし、文章として成り立たせるために必要なパートです。
この段階では、「発音辞書」と「言語モデル」の組み合わせが必要です。

発音辞書
膨大な情報データベースの中から、音の組み合わせをピックアップし、単語として認識する働きをするのが「発音辞書」です。

  • こんばんは=ko・n・ba・n・ha
  • おねがい=o・ne・ga・i

音の組み合わせで「単語」にしていくのが、発音辞書の役割となっています。

言語モデル
単語のつながりを予測判定し、より正確な文章を組み立てるのが言語モデルです。
同じことを伝えたいときでも、人により使うことばは違いますし、主語述語の位置関係が異なることもありますので、言語モデルは音声認識において欠かせません。
言語モデルでは、膨大な量のデータ(サンプル)の用意が必要で、使用する単語の出現度をパーセンテージ化しておかなければなりません。

一般的な単語同士のつながり確率を定義しているのが、言語モデルでポピュラーに利用される「隠れマルコフモデル」と呼ばれるものです。
次の2文を比較してみてください。

  • 「私」「は(60%)」「鈴木(80%)」「だ(70%)」
  • 「私」「は(60%)」「釈迦(20%)」「です(30%)」

「私」と「鈴木」は、「私」と「釈迦」よりも密接であるのが自然だとわかっていただけるでしょう。
参考:https://future-tech-association.org/2018/01/16/onse-ninshiki/

言語モデルが正しく機能することで、より正確な音声認識が可能となります。

音声認識はどのように活用されているのか

音声認識は、ビジネスシーンならコールセンターなどで活用されますが、もっと身近なところでも活躍しています。
たとえば、パソコン(操作や文章作成)、スマートフォン(メール作成)、カーナビ(操作)でも活用されていることはご存じかもしれませんね。

わたしたちの生活にも浸透し、今では多くの人が口にする「Hey Siri」や、「OK! Google」も、スマートフォンの音声認識を起動するためのトリガー(命令)です。

近年では、音声認識機能を使うことで、身体的ハンディキャップを負う方でも、パソコンでの仕事に取り組むことができるようになっています。

音声認識は、既に「生活に欠かせないもの」となっている、といってもよいのではないでしょうか?

まとめ

そもそもの音声認識についてご説明してきましたが、イメージすることはできましたでしょうか?
過去に公開した以下の記事では、音声認識を利用できるサービスを8個ご紹介しています。
より、理解を深めるために読んでみてください。
AI活用で精度抜群!音声認識サービス8選