AI-MGR歌声変換汎化性能試験

AI-MGR歌声変換汎化性能試験

#0:00 ベノム #3:23 ハッピーシンセサイザ#7:18 中国語-如约而至#11:33 中国語-明天你好#16:05 英語-Lemon Tree#19:06 英語-Without Youモデル(so-vits-svc4.1に基づく)とデータセット: https://mega.nz/folder/MGcwCCAZ#9Kaimb7HsYSIlFgSO_88Bw 左飴さんも半年前に似たようなことをしていました。 私はいつも他の人たちに遅れを取っています。歌などの重い韻律的特徴を持つオブジェクトを処理する場合、音声変換では、元の歌のリズムとターゲット話者のリズミカルな習慣の間で選択を行う必要があります。調子を外さないことと話者の類似性は相反する目標です。 曲を基本的にうまく再構築するには、多くの場合、後者を犠牲にする必要があります。 きれいな歌声データセットを使用して、歌声の韻律的特徴を分離できる中間表現をトレーニングすることは現実的ではないと推定されています。 一方で、そのようなコーパスはまれであり、標準化することが困難です。 一方で汎化性能が問題となる。一般に、日本語は MGR の母国語であるため、きれいなコーパスがある限り満足のいく結果が得られます。 言語間の変換では一貫した表現が得られますが、話者の特徴がどの程度保存されているかを判断するのは困難です。 異なる言語には異なる韻律生成規則があり、話者の韻律の習慣は彼女が使用する言語から切り離せないことを考えると、私は言語間 SMOS の効果をあまり信じていません。ちなみに、元の話者が男性の場合、実際に変換後の音色の類似性は女性の場合よりも優れています。 おそらく MGR は実際にはニュートラルな声に適しているのかもしれません。

http://www.nicovideo.jp/watch/sm42813354