遅延時間約0.32秒のリアルタイムボイスチェンジャーを作ってみた

遅延時間約0.32秒のリアルタイムボイスチェンジャーを作ってみた

2021年に音声合成の手法として提案されたVITS(Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech)を用いた低遅延リアルタイムボイスチェンジャーを作成しました。2022/01/30に行われた「OV2L EVOLVING SUMMIT 2022」にて「VITSを用いた低遅延REALTIME-VC」という題目で登壇した時のアーカイブを編集したものです。(最優秀賞頂きました!!)3月末~4月中旬くらいにはOSSの方も公開できそうな進捗になってきたので、改めて編集しました!3/26(土) リリース予定!!リリースしました > sm40230761 ・VITS https://arxiv.org/abs/2106.06103 ・OV2L EVOLVING SUMMIT 2022 https://www.ov2levolvingsummit2022.com/ 他の登壇者様のセッション一覧 https://youtube.com/playlist?list=PL6q9s3S2J0lEjOTKjXk98anZZoFsQpEVA ・Twitter https://twitter.com/IsleTennos ※2022/03/18 19:36 追記実際にプレゼンで使用した資料です。画質が悪かったのでこちらにアップロードしておきます。 https://docs.google.com/presentation/d/1I9ceFnnH5R2CMKMhX5GF8CTh6SU3DPKTyhIO7Dg6yH0/edit?usp=sharing

http://www.nicovideo.jp/watch/sm40189392