コンテンツにスキップ

Call Center

コールセンターオペレーターの音声品質評価の自動化の研究


コールセンターオペレーターの音声品質評価の自動化研究

1. 研究の背景と目的

この研究は、コールセンターにおけるオペレーターの音声品質を自動的に評価するシステムの開発を目指しています。

近年、消費者の価値観が多様化する中で、企業と顧客の接点における「体験価値」の向上が重要な差別化要素となっています。コールセンターは顧客ニーズを直接ヒアリングできる重要な場であり、顧客にとっては企業のブランドイメージを決定づける場でもあります。

ビーウィズ株式会社(コールセンター運営企業)は滋賀大学と連携協定を締結し、コールセンターオペレーターの「声の印象評価システム」についてデータ解析を活用した研究を開始しました。

従来、コールセンターでは「モニタリング」という手法でオペレーターの応対音声を統一基準で評価し、品質維持・改善を行ってきました。すでにAIによる応対音声のリアルタイムテキスト化を活用した「応対評価の全件自動化」も始まっていますが、「発声や発音」「声の表情」などテキストでは表現されない評価項目はまだ自動化されていませんでした。

本研究では、これまで人が評価してきた「声から感じる応対の印象」を科学的に解析し、応対評価と教育のサイクルを高速化することを目的としています。具体的には、表1に示す20項目のうち、1〜18の項目(声の大きさ、語頭、語尾、滑舌、抑揚、スピード)の自動化に向けた研究を行いました。

表1 コールセンターの応対品質評価の項目

応対品質評価の自動化には以下のようなメリットがあります: - 全数評価の実現(人手では不可能な全通話の評価が可能に) - 一定の基準による評価(人による評価のばらつきを排除) - 人が行う作業の肩代わり

これらにより、オペレーターのスキルの正確な把握、客観的で公平な評価によるモチベーション維持・向上、管理者の負担軽減、サービス品質向上、コスト削減などの効果が期待できます。

2. 音響特徴量と実験環境

2.1 パラ言語について

音声から得られる情報は大きく3つに分けられます: 1. 言語情報(話の内容) 2. パラ言語情報(話し方の特徴) 3. 非言語情報(話者の個性など)

パラ言語とは、コミュニケーションの際に言語情報を補う言語以外の音声のことで、話す速さ、声の強さ・高さ、イントネーション、沈黙などを指します。非言語行動(ノンバーバル・コミュニケーション)の一種で、コミュニケーションで伝えられる情報の70%を占めるとする研究もあります。

本研究では、言語情報だけでなくパラ言語情報が相手に与える印象がとても重要と考えています。

図1 音声の持つ情報

2.2 音響特徴量

本研究では、openSMILE(音声信号から特徴量を抽出できるオープンソースのツールキット)から取得できるIS09、IS10特徴量を利用しています。

音声からテキスト情報を抽出する通常の音声認識では、MFCC(メル周波数ケプストラム係数)などの特徴量が標準的に用いられますが、音響解析では様々な特徴量が使用されます。具体的には: - 基本周波数(声の高さ) - 音量 - 音声波形の揺らぎを表すシマーやジッタなど

INTERSPEECH 2009 Emotion Challenge(IS09)特徴量セットやINTERSPEECH 2010 Paralinguistic Challenge(IS10)特徴量セットは、音声感情認識などでよく用いられています。これらの特徴量では、各LLD(Low Level Descriptor)に対して発話全体の平均や分散などの統計量を計算したものを機械学習モデルの入力として使用します。

2.3 Wekaについて

本研究では、データマイニングツールWekaを使用しています。Wekaは、ニュージーランドのワイカト大学の研究者によって開発された、Java言語によるオープンソースのデータマイニングのフリーソフトです。

Wekaは、データの前処理、分類と予測、クラスタリング、相関ルール、視覚化に関するアルゴリズムの集合体で、GUIベースの操作が可能です。

3. コールセンター音声の分析

3.1 コールセンターの応対品質評価について

本研究の主題であるコールセンターオペレーターの応対品質評価は、現在、人手で以下のような3段階の評点を付与しています: - 評点「1」:相手の心情を害するおそれがある - 評点「2」:改善ポイントあり - 評点「3」:適切な応対範囲

3.2 使用したデータ

ビーウィズ社から以下のデータを受領しました: 1. コールセンターの応対を録音したwav形式の音声ファイル 2. Excel形式のラベルデータ(発話の開始・終了時刻、発話内容、文意情報、話者情報、評価項目ごとの評点)

3.3 応対品質評価の自動推定

3.3.1 音量の自動推定

声の大きさは音圧として現れるため、IS09特徴量のRMSenergyを使用しました。また、評価者のコメントから「全体の音量に対してその発話の音量が大きいか」「お客様の声に対して発話の音量が大きいか」が重要であることがわかったため、以下の特徴量を作成しました: 1. オペレーター個別発話音量/オペレーター全体発話平均音量 2. オペレーター個別発話音量/カスタマー全体発話平均音量 3. オペレーター個別発話音量

これらの特徴量と評点の相関を確認したところ、評点が低くなるほど特徴量が大きくなり、相関があることがわかりました。

図7 オペレーター個別発話音量/オペレーター全体発話平均音量

決定木を用いた実験の結果、「声が大きすぎないか」の自動推定で正解率94.8%を達成しました。ただし、評点1の再現率が低いという課題があります。

3.3.2 語尾系の自動推定

語尾は聞き手の印象に非常に重要な要素です。「聞き取りにくい語尾」や「雑な語尾」は相手に悪い印象を与えます。

語尾系の評価項目(語尾跳ね、語尾消え、語尾伸び、語尾上がり、語尾下がり、語尾の強さ)について、WaveSurferというツールを使って分析したところ、発話末尾0.3秒〜1秒間のピッチや音量の変化が影響していることがわかりました。

図10 WaveSurferの表示例(語尾跳ね評点1)

そこで、SoXというツールを使用して発話末尾から時間指定でファイルを切り出し、その切り出したファイルから特徴量を作成しました。基本的には末尾音声ファイルの音量やF0(ピッチ)の変化を捉えられるような特徴量としています。

図16 SOXによる末尾0.5秒の抽出・分析

Adaboostと決定木を組み合わせたモデルで実験した結果、語尾系評価項目の自動推定で一定の精度を達成することができました。語尾伸びの正解率が59.2%と低めですが、その他の項目は80%以上の正解率でした。

さらに精度向上のため、文意による層別分析と単語クラスによる層別分析を行いました。特に、単語クラスによる層別分析では、「です」「ます」「しょうか」などの語尾の特定単語に着目し、評点1が多い単語クラスに限定してモデルを構築することで、評点1の再現率を改善することができました。

3.3.3 語頭の自動推定

語頭については、発話開始0.5秒の音量が重要であることがわかりました。以下の特徴量を使用しました: - 発話開始0.5秒音量平均 - 発話開始0.5秒音量最小 - 発話開始0.5秒音量最大 - 発話開始0.5秒音量平均/発話全体音量平均

Adaboostと決定木を組み合わせたモデルで実験した結果、正解率88.1%を達成しましたが、評点1の再現率が低いという課題があります。

3.3.4 滑舌の自動推定

滑舌(かつぜつ)とは、舌の動きを滑らかにしてはっきりと聞き取りやすい発音をしている状態のことです。滑舌の良し悪しは、MFCC(メルフィルターケプストラム)の変化で捉えられると考えました。

評点1(滑舌が悪い)と評点3(滑舌が良い)のデータのMFCC時間変化ヒートマップを比較したところ、評点1はMFCCの時間変化が小さく、評点3はMFCCの時間変化が大きいことがわかりました。

図24 滑舌良し悪しに対するMFCCのヒートマップ

MFCCの1次から24次の各平均、分散、1階微分Δ分散を特徴量として使用した結果、滑舌の自動推定で正解率85.7%を達成し、評点1も含め全体的に高い精度で推定できました。

3.3.5 抑揚の自動推定

抑揚は声の高さの変化で表されるため、「抑揚が極端ではないか」「抑揚が小さすぎないか」についての判定モデルとして、F0分散値、F0最大値、F0最小値、F0Δ分散値を特徴量として考えました。

Adaboostと決定木を組み合わせたモデルで実験した結果、抑揚が極端ではないかの自動推定で正解率94.1%、抑揚が小さすぎないかの自動推定で正解率86.0%を達成しましたが、評点1の精度に課題が残りました。

3.3.6 話速の自動推定

話速は発話のモーラ数をその発話の持続時間で割った値で測定されます。モーラとは、音韻論上の一定の時間的長さをもった音の分節単位です(日本語の仮名1文字が基本的に1モーラに相当)。

話速の自動推定のため、発話テキスト情報からモーラ数を算出し、以下の特徴量を使用しました: - 発話継続時間 - モーラ数 - モーラ数/発話継続時間(単位時間あたりのモーラ数)

実験の結果、話速の自動推定で正解率69.1%を達成しましたが、全体的な正解率と評点1の再現率に課題が残りました。これは、文章中の句読点に対するポーズ長が考慮できていないことが原因と考えられます。

3.4 まとめと考察

第3章では、声の大きさ、語頭、語尾、滑舌、抑揚、話速の評価項目に対する自動推定方法とその実験結果について述べました。各節で説明した音響特徴量がそれぞれの評価項目の自動推定において一定程度有効であることがわかりました。

課題としては、全体的に評点1の再現率が低いことがあり、これは評点クラスのデータ不均衡が影響している可能性があります。また、語頭、語尾、話速の評価項目については音声データから時間方向の音素アライメントを取得し、より正確に特徴量を生成する必要があります。

4. 不均衡対策について

4.1 回帰分析の活用提案

第3章の実験では、各評価項目に対するデータ件数が不均衡(評点3の件数が多く、評点1の件数が少ない)であり、精度向上のボトルネックとなっていました。そこで、回帰分析を活用した不均衡解消策を提案しました。

まず、評点1、2、3を分類ラベルとしてではなく、評点1〜3の間の連続量ととらえ、回帰分析により連続的な評点値を推論しました。そして、相対評価得点(評点×相対評価係数)を目的変数として回帰分析を行い、得られた連続回帰値に基づいて一部のデータをリラベル(評点2の一部を評点1へ変更など)しました。

図26 相対評価得点による回帰分析

この方法により、評点1の再現率を改善することができました。例えば、「声が大きすぎないか」の評価において、リラベル前は評点1の再現率が0.261だったのが、リラベル後は0.609に向上しました。

4.2 コスト考慮型学習の提案

もう一つの不均衡対策として、コスト考慮型学習(Cost-Sensitive Learning)を提案しました。通常の分類問題では各クラスを等価に扱いますが、本研究では評点1(相手に悪い印象を与えるケース)が評点3(問題ないケース)に誤分類されるのを極力防ぎたいという要求があります。

そこで、Wekaに実装されているCostSensitiveClassifierを使用し、少数派クラス(評点1)の誤分類コストを高く設定する実験を行いました。さらに、評点1が評点3へ誤分類されるときのコストを特に高く設定することで、評点1の再現率を改善し、評点1が評点3へ誤分類される件数を減らすことができました。

5. 結論

本研究では、コールセンターにおけるオペレーターの応対品質評価のうち、自動化されていない評価項目(声の大きさ、語頭、語尾、滑舌、抑揚、話速)について、音響解析型技術を応用した自動推定方法を提案し、その有効性を確認しました。

また、データ不均衡問題に対しては、回帰分析の活用とコスト考慮型学習という2つの手法を提案し、評点1(問題ありと判定される重要な評点)の再現率を改善することができました。

今後の課題としては、語頭、語尾、話速の評価項目については音声データから時間方向の音素アライメントを取得し、より正確に特徴量を生成する必要があります。

本研究の成果が、コールセンターの応対品質評価の自動化に貢献し、オペレーターの教育や顧客満足度の向上につながることを期待します。

音声感情データ解析によるコールセンターの応対評価


音声感情データ解析によるコールセンターの応対評価

1. 研究の概要と背景

この論文は、コールセンターにおけるオペレータと顧客の会話の質を自動的に評価するための手法を提案しています。コールセンターでは日々膨大な数の会話が行われており、すべての会話を人力で評価することは困難です。そこで著者らは、音声から抽出された感情データを解析し、オペレータと顧客の感情状態の遷移パターンを抽出することで、応対評価を効率化する方法を提案しています。

研究の背景

コールセンターは企業と顧客の重要な接点であり、その応対の質は顧客満足度に大きく影響します。良い応対は顧客の好感度を上げ、再購入や紹介につながる一方、悪い応対は解約や悪い口コミにつながりかねません。そのため、応対品質の確保は非常に重要です。

しかし、オペレータの応対を評価する際に次のような問題があります:

  1. 会話数が膨大で人力での評価コストが高い
  2. すべての業務で明確な応対結果(購入/非購入など)があるわけではない
  3. 結果が非購入でも、オペレータの応対が良く顧客が満足していたケースは適切に評価されるべき
  4. 顧客アンケートはコストがかかり、回答の信頼性も不明

2. 提案手法

著者らは音声感情値を用いて、感情状態の遷移に着目したオペレータの応対評価手法を提案しています。

手法の概要

提案手法の流れは以下の通りです:

  1. 前処理: 音声感情データの正規化
  2. データの要約1: 隠れマルコフモデル(HMM)による感情状態系列の抽出
  3. データの要約2: 状態系列からの遷移確率行列の作成
  4. 会話のクラスタリング: オペレータの遷移確率行列に基づく会話のクラスタリング
  5. 類似度計算: オペレータと顧客の感情遷移パターンの類似度計算

提案手法

使用データと問題定義

論文では次のようなデータを扱っています:

  • 会話データ: オペレータと顧客の音声から抽出された感情パラメータの時系列データ
  • 感情パラメータ: Energy(エネルギー)、Stress(緊張)、Embarrassment(不快感)、Hesitation(快適さ)、Uncertainty(自信の度合い)、Excitement(興奮・高揚)、Concentration(集中度)など

これらのパラメータを用いて、各会話をクラスタリングし、クラスタの特徴を発見することが目的です。

3. 手法の詳細

3.1 前処理

オリジナルデータの各パラメータは取りうる範囲が異なるため、正規化処理を行います。すべての会話データを縦に結合した場合の各列について最大値・最小値を求め、Y = (X - xmin)/(xmax - xmin)の式で正規化します。これにより、各列の値域が0〜1に統一されます。

3.2 データの要約1(隠れマルコフモデルによる状態系列抽出)

正規化したデータに対して隠れマルコフモデル(HMM)を適用し、各セグメントがどの隠れ状態に属するかを示す状態系列を得ます。これにより、複数の感情パラメータの変化を1次元の状態系列として要約できます。

3.3 データの要約2(状態遷移確率行列の作成)

得られた状態系列から、状態間の遷移確率を計算し、状態遷移確率行列を作成します。例えば、状態系列が{0, 0, 1, 2, 2, 3, 0}の場合、状態0から状態0への遷移が1回、状態0から状態1への遷移が1回、といった具合に計数し、遷移確率行列を作成します。

ZtmiOP = [
  [0.5, 0.5, 0,   0  ],
  [0,   0,   1,   0  ],
  [0,   0,   0.5, 0.5],
  [1,   0,   0,   0  ]
]

3.4 会話のクラスタリング

オペレータの状態遷移確率行列を1次元ベクトルに変換し、k-means法によりクラスタリングを行います。これにより、類似した感情遷移パターンを持つ会話をグループ化できます。

3.5 オペレータ/顧客の類似度算出

各会話について、オペレータと顧客の状態遷移確率行列の類似度を平均二乗平方根誤差(RMSE)で計算します。この値が小さいほど両者の感情遷移パターンが類似していることを示します。

4. 実験

4.1 データセット

実験には、コールセンターにおけるオペレータと顧客の1,577会話を含む音声感情値データを使用しています。データに含まれるオペレータは計12人で、会話内容は通信販売における定期購入の既存顧客からの入電対応業務です。各会話には次の3種類のラベルが付与されています:

  • (解約阻止)成功
  • 問い合わせ
  • (解約阻止)失敗

4.2 実験条件

実験では、隠れマルコフモデルの状態数(hk)を4、k-meansのクラスタ数(ck)を4に設定しています。

4.3 実験結果

クラスタ毎の会話数

クラスタリングの結果、各クラスタに含まれる会話数は以下のようになりました:

各クラスタの会話数

クラスタ毎のRMSE分布

各クラスタにおけるオペレータと顧客の感情遷移の類似度(RMSE)の分布は以下の通りです:

各クラスタのRMSEヒストグラム

クラスタ毎のラベル分布

各クラスタに含まれる会話のラベル分布は以下の通りです:

クラスタ毎のラベル分布

表形式では:

クラスタ 失敗 問合せ 成功
0 241 137 6
1 337 122 12
2 218 91 7
3 289 111 6
オペレータ毎のクラスタ分布/クラスタ毎のラベル分布

各オペレータの会話がどのクラスタに分類されているか、また各クラスタ内でのラベル分布は以下の図で示されています:

オペレータ毎のクラスタ分布/クラスタ毎のラベル分布

この図では、各オペレータが2本の棒グラフで表されています: - 上段:当該オペレータの会話が各クラスタに割り当てられた数 - 下段:各クラスタに割り当てられた会話の応対結果ラベルの分布

5. 考察

5.1 クラスタ毎のRMSE分布に関する考察

クラスタリングにより、オペレータの状態遷移が似たものを持つ会話の集合は得られましたが、各クラスタにおけるRMSE分布に有意な差は見られませんでした。これは、オペレータと顧客の感情遷移の差の分布がクラスタ間で大きな違いがないことを示しています。

考えられる原因として、著者らは以下の3点を挙げています:

  1. パラメータ数(d)が適切でなく、HMMの状態を上手く捉えられていない
  2. HMM状態数(hk)が適切でなく、感情状態の遷移を上手く捉えられていない
  3. クラスタ数(ck)が適切でなく、会話のクラスタが上手く分類できていない

2と3については、異なる値(2,4,8,16)で実験を行いましたが、大きな差は見られなかったとのことです。1については、感情把握に適切なパラメータ選定をさらに行う必要があると考えられます。

5.2 クラスタ毎のラベル分布に関する考察

クラスタ毎のラベル分布についても、有意な差は見られませんでした。これは、すべてのオペレータの会話を分類した結果では、解約阻止成功となった会話の感情遷移パターンが特に類似しているというわけではないことを示しています。

5.3 オペレータ毎の分析

オペレータ毎のクラスタ分布においても大きな差は見られませんでしたが、各オペレータの成功ラベルの分布を見ると、特定のクラスタに偏っているオペレータがいることが分かりました。例えば:

  • OP Dの場合:解約阻止成功となった会話はすべてクラスタ3に属している
  • OP Eの場合:解約阻止成功となった会話はクラスタ0と3に属している

これは、オペレータ毎に解約阻止成功の際の感情遷移が類似しており、そのため成功となった会話が同じクラスタに属したと考えられます。

6. まとめと今後の課題

本研究では、コールセンターの音声感情データを解析することにより、オペレータと顧客の会話の応対評価を効率化する手法を提案しました。具体的には:

  1. 隠れマルコフモデルを用いて感情パラメータの値の遷移を隠れ状態の遷移として捉え
  2. 状態遷移確率行列を作成し
  3. k-meansクラスタリングを用いて会話を分類

実験結果からは、クラスタ間のRMSE分布や全体的なラベル分布に有意差は見られませんでしたが、オペレータ個人レベルでは、成功会話が特定のクラスタに偏る傾向が確認できました。

今後の課題

今後の研究方針として、著者らは以下の点を挙げています:

  1. 解析するデータ数の追加
  2. 使用するパラメータの適切な選定
  3. 応対結果以外の管理者の主観評価などでのクラスタリング評価
  4. オペレータの顧客に対する共感の姿勢を隠れ状態の遷移で検出する可能性の検討

これらの改善により、より有用な会話分類が可能になると期待されています。