コールセンターオペレーターの音声品質評価の自動化の研究
コールセンターオペレーターの音声品質評価の自動化研究
1. 研究の背景と目的
この研究は、コールセンターにおけるオペレーターの音声品質を自動的に評価するシステムの開発を目指しています。
近年、消費者の価値観が多様化する中で、企業と顧客の接点における「体験価値」の向上が重要な差別化要素となっています。コールセンターは顧客ニーズを直接ヒアリングできる重要な場であり、顧客にとっては企業のブランドイメージを決定づける場でもあります。
ビーウィズ株式会社(コールセンター運営企業)は滋賀大学と連携協定を締結し、コールセンターオペレーターの「声の印象評価システム」についてデータ解析を活用した研究を開始しました。
従来、コールセンターでは「モニタリング」という手法でオペレーターの応対音声を統一基準で評価し、品質維持・改善を行ってきました。すでにAIによる応対音声のリアルタイムテキスト化を活用した「応対評価の全件自動化」も始まっていますが、「発声や発音」「声の表情」などテキストでは表現されない評価項目はまだ自動化されていませんでした。
本研究では、これまで人が評価してきた「声から感じる応対の印象」を科学的に解析し、応対評価と教育のサイクルを高速化することを目的としています。具体的には、表1に示す20項目のうち、1〜18の項目(声の大きさ、語頭、語尾、滑舌、抑揚、スピード)の自動化に向けた研究を行いました。
応対品質評価の自動化には以下のようなメリットがあります: - 全数評価の実現(人手では不可能な全通話の評価が可能に) - 一定の基準による評価(人による評価のばらつきを排除) - 人が行う作業の肩代わり
これらにより、オペレーターのスキルの正確な把握、客観的で公平な評価によるモチベーション維持・向上、管理者の負担軽減、サービス品質向上、コスト削減などの効果が期待できます。
2. 音響特徴量と実験環境
2.1 パラ言語について
音声から得られる情報は大きく3つに分けられます: 1. 言語情報(話の内容) 2. パラ言語情報(話し方の特徴) 3. 非言語情報(話者の個性など)
パラ言語とは、コミュニケーションの際に言語情報を補う言語以外の音声のことで、話す速さ、声の強さ・高さ、イントネーション、沈黙などを指します。非言語行動(ノンバーバル・コミュニケーション)の一種で、コミュニケーションで伝えられる情報の70%を占めるとする研究もあります。
本研究では、言語情報だけでなくパラ言語情報が相手に与える印象がとても重要と考えています。
2.2 音響特徴量
本研究では、openSMILE(音声信号から特徴量を抽出できるオープンソースのツールキット)から取得できるIS09、IS10特徴量を利用しています。
音声からテキスト情報を抽出する通常の音声認識では、MFCC(メル周波数ケプストラム係数)などの特徴量が標準的に用いられますが、音響解析では様々な特徴量が使用されます。具体的には: - 基本周波数(声の高さ) - 音量 - 音声波形の揺らぎを表すシマーやジッタなど
INTERSPEECH 2009 Emotion Challenge(IS09)特徴量セットやINTERSPEECH 2010 Paralinguistic Challenge(IS10)特徴量セットは、音声感情認識などでよく用いられています。これらの特徴量では、各LLD(Low Level Descriptor)に対して発話全体の平均や分散などの統計量を計算したものを機械学習モデルの入力として使用します。
2.3 Wekaについて
本研究では、データマイニングツールWekaを使用しています。Wekaは、ニュージーランドのワイカト大学の研究者によって開発された、Java言語によるオープンソースのデータマイニングのフリーソフトです。
Wekaは、データの前処理、分類と予測、クラスタリング、相関ルール、視覚化に関するアルゴリズムの集合体で、GUIベースの操作が可能です。
3. コールセンター音声の分析
3.1 コールセンターの応対品質評価について
本研究の主題であるコールセンターオペレーターの応対品質評価は、現在、人手で以下のような3段階の評点を付与しています: - 評点「1」:相手の心情を害するおそれがある - 評点「2」:改善ポイントあり - 評点「3」:適切な応対範囲
3.2 使用したデータ
ビーウィズ社から以下のデータを受領しました: 1. コールセンターの応対を録音したwav形式の音声ファイル 2. Excel形式のラベルデータ(発話の開始・終了時刻、発話内容、文意情報、話者情報、評価項目ごとの評点)
3.3 応対品質評価の自動推定
3.3.1 音量の自動推定
声の大きさは音圧として現れるため、IS09特徴量のRMSenergyを使用しました。また、評価者のコメントから「全体の音量に対してその発話の音量が大きいか」「お客様の声に対して発話の音量が大きいか」が重要であることがわかったため、以下の特徴量を作成しました: 1. オペレーター個別発話音量/オペレーター全体発話平均音量 2. オペレーター個別発話音量/カスタマー全体発話平均音量 3. オペレーター個別発話音量
これらの特徴量と評点の相関を確認したところ、評点が低くなるほど特徴量が大きくなり、相関があることがわかりました。
決定木を用いた実験の結果、「声が大きすぎないか」の自動推定で正解率94.8%を達成しました。ただし、評点1の再現率が低いという課題があります。
3.3.2 語尾系の自動推定
語尾は聞き手の印象に非常に重要な要素です。「聞き取りにくい語尾」や「雑な語尾」は相手に悪い印象を与えます。
語尾系の評価項目(語尾跳ね、語尾消え、語尾伸び、語尾上がり、語尾下がり、語尾の強さ)について、WaveSurferというツールを使って分析したところ、発話末尾0.3秒〜1秒間のピッチや音量の変化が影響していることがわかりました。
そこで、SoXというツールを使用して発話末尾から時間指定でファイルを切り出し、その切り出したファイルから特徴量を作成しました。基本的には末尾音声ファイルの音量やF0(ピッチ)の変化を捉えられるような特徴量としています。
Adaboostと決定木を組み合わせたモデルで実験した結果、語尾系評価項目の自動推定で一定の精度を達成することができました。語尾伸びの正解率が59.2%と低めですが、その他の項目は80%以上の正解率でした。
さらに精度向上のため、文意による層別分析と単語クラスによる層別分析を行いました。特に、単語クラスによる層別分析では、「です」「ます」「しょうか」などの語尾の特定単語に着目し、評点1が多い単語クラスに限定してモデルを構築することで、評点1の再現率を改善することができました。
3.3.3 語頭の自動推定
語頭については、発話開始0.5秒の音量が重要であることがわかりました。以下の特徴量を使用しました: - 発話開始0.5秒音量平均 - 発話開始0.5秒音量最小 - 発話開始0.5秒音量最大 - 発話開始0.5秒音量平均/発話全体音量平均
Adaboostと決定木を組み合わせたモデルで実験した結果、正解率88.1%を達成しましたが、評点1の再現率が低いという課題があります。
3.3.4 滑舌の自動推定
滑舌(かつぜつ)とは、舌の動きを滑らかにしてはっきりと聞き取りやすい発音をしている状態のことです。滑舌の良し悪しは、MFCC(メルフィルターケプストラム)の変化で捉えられると考えました。
評点1(滑舌が悪い)と評点3(滑舌が良い)のデータのMFCC時間変化ヒートマップを比較したところ、評点1はMFCCの時間変化が小さく、評点3はMFCCの時間変化が大きいことがわかりました。
MFCCの1次から24次の各平均、分散、1階微分Δ分散を特徴量として使用した結果、滑舌の自動推定で正解率85.7%を達成し、評点1も含め全体的に高い精度で推定できました。
3.3.5 抑揚の自動推定
抑揚は声の高さの変化で表されるため、「抑揚が極端ではないか」「抑揚が小さすぎないか」についての判定モデルとして、F0分散値、F0最大値、F0最小値、F0Δ分散値を特徴量として考えました。
Adaboostと決定木を組み合わせたモデルで実験した結果、抑揚が極端ではないかの自動推定で正解率94.1%、抑揚が小さすぎないかの自動推定で正解率86.0%を達成しましたが、評点1の精度に課題が残りました。
3.3.6 話速の自動推定
話速は発話のモーラ数をその発話の持続時間で割った値で測定されます。モーラとは、音韻論上の一定の時間的長さをもった音の分節単位です(日本語の仮名1文字が基本的に1モーラに相当)。
話速の自動推定のため、発話テキスト情報からモーラ数を算出し、以下の特徴量を使用しました: - 発話継続時間 - モーラ数 - モーラ数/発話継続時間(単位時間あたりのモーラ数)
実験の結果、話速の自動推定で正解率69.1%を達成しましたが、全体的な正解率と評点1の再現率に課題が残りました。これは、文章中の句読点に対するポーズ長が考慮できていないことが原因と考えられます。
3.4 まとめと考察
第3章では、声の大きさ、語頭、語尾、滑舌、抑揚、話速の評価項目に対する自動推定方法とその実験結果について述べました。各節で説明した音響特徴量がそれぞれの評価項目の自動推定において一定程度有効であることがわかりました。
課題としては、全体的に評点1の再現率が低いことがあり、これは評点クラスのデータ不均衡が影響している可能性があります。また、語頭、語尾、話速の評価項目については音声データから時間方向の音素アライメントを取得し、より正確に特徴量を生成する必要があります。
4. 不均衡対策について
4.1 回帰分析の活用提案
第3章の実験では、各評価項目に対するデータ件数が不均衡(評点3の件数が多く、評点1の件数が少ない)であり、精度向上のボトルネックとなっていました。そこで、回帰分析を活用した不均衡解消策を提案しました。
まず、評点1、2、3を分類ラベルとしてではなく、評点1〜3の間の連続量ととらえ、回帰分析により連続的な評点値を推論しました。そして、相対評価得点(評点×相対評価係数)を目的変数として回帰分析を行い、得られた連続回帰値に基づいて一部のデータをリラベル(評点2の一部を評点1へ変更など)しました。
この方法により、評点1の再現率を改善することができました。例えば、「声が大きすぎないか」の評価において、リラベル前は評点1の再現率が0.261だったのが、リラベル後は0.609に向上しました。
4.2 コスト考慮型学習の提案
もう一つの不均衡対策として、コスト考慮型学習(Cost-Sensitive Learning)を提案しました。通常の分類問題では各クラスを等価に扱いますが、本研究では評点1(相手に悪い印象を与えるケース)が評点3(問題ないケース)に誤分類されるのを極力防ぎたいという要求があります。
そこで、Wekaに実装されているCostSensitiveClassifierを使用し、少数派クラス(評点1)の誤分類コストを高く設定する実験を行いました。さらに、評点1が評点3へ誤分類されるときのコストを特に高く設定することで、評点1の再現率を改善し、評点1が評点3へ誤分類される件数を減らすことができました。
5. 結論
本研究では、コールセンターにおけるオペレーターの応対品質評価のうち、自動化されていない評価項目(声の大きさ、語頭、語尾、滑舌、抑揚、話速)について、音響解析型技術を応用した自動推定方法を提案し、その有効性を確認しました。
また、データ不均衡問題に対しては、回帰分析の活用とコスト考慮型学習という2つの手法を提案し、評点1(問題ありと判定される重要な評点)の再現率を改善することができました。
今後の課題としては、語頭、語尾、話速の評価項目については音声データから時間方向の音素アライメントを取得し、より正確に特徴量を生成する必要があります。
本研究の成果が、コールセンターの応対品質評価の自動化に貢献し、オペレーターの教育や顧客満足度の向上につながることを期待します。