Abstract
Configuration |
MOS (↑) |
MCD (↓) |
|
---|---|---|---|
Ground Truth |
4.57 |
- |
|
従来法 |
該当発話 |
1.68 |
11.04 |
本人平均 |
1.74 |
10.92 |
|
他人平均 |
1.57 |
11.58 |
|
提案法 |
該当発話 |
2.90 |
7.69 |
本人平均 |
3.12 |
7.85 |
|
他人平均 |
3.04 |
8.22 |
Audio Samples
従来法と提案法の合成音声の比較
該当発話
従来法 | 提案法 | |
---|---|---|
怒り | ||
嫌悪 | ||
恐れ | ||
喜び | ||
悲しみ | ||
驚き |
本人平均
従来法 | 提案法 | |
---|---|---|
怒り | ||
嫌悪 | ||
恐れ | ||
喜び | ||
悲しみ | ||
驚き |
他人平均
従来法 | 提案法 | |
---|---|---|
怒り | ||
嫌悪 | ||
恐れ | ||
喜び | ||
悲しみ | ||
驚き |
混合感情合成音声
喜びと驚きの混合
混合手法: 喜び × α + 驚き × (1 - α)

← 驚き 喜び →
α | 0.00 | 0.25 | 0.50 | 0.75 | 1.00 |
---|---|---|---|---|---|
悲しみと驚きの混合
混合手法: 喜び × α + 悲しみ × (1 - α)

← 驚き 悲しみ →
α | 0.00 | 0.25 | 0.50 | 0.75 | 1.00 |
---|---|---|---|---|---|
1次感情合成音声
JVNV-Vのテキストを用いた合成音声
GT | 本人平均 | 他人平均 | |
---|---|---|---|
怒り | |||
嫌悪 | |||
恐れ | |||
喜び | |||
悲しみ | |||
驚き |
平文を用いた合成音声
本人平均 | 他人平均 | |
---|---|---|
怒り | ||
嫌悪 | ||
恐れ | ||
喜び | ||
悲しみ | ||
驚き |