日本語多数話者音声コーパスを用いた混合感情音声合成の性能向上

Performance improvement of mixed emotion speech synthesis using a Japanese multi-speaker speech corpus

☆坂田一成, 小坂哲夫 (山形大院・理工学研)

Abstract

我々はこれまで End-To-End モデルの TTS を用いて, 日本語を対象とした混合感情音声合成について検討を行ってきた.

しかし, 2 ヶ国語で学習された事前学習済みモデルの性能が低く, 合成音声の発音が不明瞭であるなど, 自然性が不十分であった.

本研究では, 日本語多数話者コーパスで学習された事前学習済みモデルを用いることによる合成音声の自然性向上, 及び先行研究で検討されていない混合感情について評価を行った.

MOS による主観評価では提案法が従来法より高い自然性を示した.

MCD による客観評価では提案法がよりGround Truth に近い結果が得られた.

Configuration		MOS (↑)	MCD (↓)
Ground Truth		4.57	-
従来法	該当発話	1.68	11.04
	本人平均	1.74	10.92
	他人平均	1.57	11.58
提案法	該当発話	2.90	7.69
	本人平均	3.12	7.85
	他人平均	3.04	8.22

Audio Samples

従来法と提案法の合成音声の比較

該当発話

	従来法	提案法
怒り
嫌悪
恐れ
喜び
悲しみ
驚き

本人平均

	従来法	提案法
怒り
嫌悪
恐れ
喜び
悲しみ
驚き

他人平均

	従来法	提案法
怒り
嫌悪
恐れ
喜び
悲しみ
驚き

混合感情合成音声

喜びと驚きの混合

混合手法: 喜び × α + 驚き × (1 - α)

acc_sad_surprise_with_text.drawio

← 驚き喜び →

α	0.00	0.25	0.50	0.75	1.00

悲しみと驚きの混合

混合手法: 喜び × α + 悲しみ × (1 - α)

acc_sad_surprise_with_text.drawio

← 驚き悲しみ →

α	0.00	0.25	0.50	0.75	1.00

1次感情合成音声

JVNV-Vのテキストを用いた合成音声

	GT	本人平均	他人平均
怒り
嫌悪
恐れ
喜び
悲しみ
驚き

平文を用いた合成音声

	本人平均	他人平均
怒り
嫌悪
恐れ
喜び
悲しみ
驚き