日本語多数話者音声コーパスを用いた混合感情音声合成の性能向上

Performance improvement of mixed emotion speech synthesis using a Japanese multi-speaker speech corpus

☆坂田一成, 小坂哲夫 (山形大院・理工学研)

Abstract

  • 我々はこれまで End-To-End モデルの TTS を用いて, 日本語を対象とした混合感情音声合成について検討を行ってきた.
  • しかし, 2 ヶ国語で学習された事前学習済みモデルの性能が低く, 合成音声の発音が不明瞭であるなど, 自然性が不十分であった.
  • 本研究では, 日本語多数話者コーパスで学習された事前学習済みモデルを用いることによる合成音声の自然性向上, 及び先行研究で検討されていない混合感情について評価を行った.
  • MOS による主観評価では提案法が従来法より高い自然性を示した.
  • MCD による客観評価では提案法がよりGround Truth に近い結果が得られた.

  • Configuration

    MOS (↑)

    MCD (↓)

    Ground Truth

    4.57

    -

    従来法

    該当発話

    1.68

    11.04

    本人平均

    1.74

    10.92

    他人平均

    1.57

    11.58

    提案法

    該当発話

    2.90

    7.69

    本人平均

    3.12

    7.85

    他人平均

    3.04

    8.22

    Audio Samples

    従来法と提案法の合成音声の比較

    該当発話

    従来法 提案法
    怒り
    嫌悪
    恐れ
    喜び
    悲しみ
    驚き

    本人平均

    従来法 提案法
    怒り
    嫌悪
    恐れ
    喜び
    悲しみ
    驚き

    他人平均

    従来法 提案法
    怒り
    嫌悪
    恐れ
    喜び
    悲しみ
    驚き

    混合感情合成音声

    喜びと驚きの混合

    混合手法: 喜び × α + 驚き × (1 - α)

    acc_sad_surprise_with_text.drawio

    ← 驚き 喜び →

    α 0.00 0.25 0.50 0.75 1.00

    悲しみと驚きの混合

    混合手法: 喜び × α + 悲しみ × (1 - α)

    acc_sad_surprise_with_text.drawio

    ← 驚き 悲しみ →

    α 0.00 0.25 0.50 0.75 1.00

    1次感情合成音声

    JVNV-Vのテキストを用いた合成音声

    GT 本人平均 他人平均
    怒り
    嫌悪
    恐れ
    喜び
    悲しみ
    驚き

    平文を用いた合成音声

    本人平均 他人平均
    怒り
    嫌悪
    恐れ
    喜び
    悲しみ
    驚き