【AI式HALC@LOID】レイニーブーツ【NNSVS-WORLD v4(自己回帰モデル)+ParallelWaveGAN】

【AI式HALC@LOID】レイニーブーツ【NNSVS-WORLD v4(自己回帰モデル)+ParallelWaveGAN】

原曲: 稲葉曇『レイニーブーツ』Vo. 歌愛ユキ sm38927801 参考にしたust: ばにらあいす氏の ust https://lit.link/Vanilla9831 学習モデル生成, 歌声合成, ミキシング: Heimatlosイラスト: かづき(@kAduk0)----NNSVSの最近の音響モデルに関して得られた知見・2021年頃のAI式HALC@LOIDで採用していたRMDNと比較して大量の学習データが必要. NNSVS-WORLD v4(自己回帰モデル)で1h, NNSVS-WORLD v5(拡散モデル)で2h以上・学習データ量が足りないと音程の他に音量(低次のmgcが関係)も不安定になり音痴に聴こえる・学習データ量が足りない場合は pitch-shift data augmentation (以下PSDAと省略)という手法で学習データを拡張することで音程や音量が安定化させることができる(場合がある) (参考: https://github.com/nnsvs/nnsvs/blob/master/utils/pitch_augmentation.py )・PSDA で学習データを拡張しても元の学習データ量が30分程度だと NNSVS-WORLD v5で良好な結果を得ることは難しい・有声/無声の誤推定が目立つ場合は vuv_model から mgc に対する依存を外した方が良い・新しく採用されたニューラルボコーダである HN-uSFGAN, SiFiGAN はどちらも素晴しい出力が得られるが, 学習データにリバーブ等のノイズが乗っている場合は ParallelWaveGAN(Hn-sinc-NSF)の方がノイズに対して堅牢である(気がする)

http://www.nicovideo.jp/watch/sm42337928