野獣先輩インタビュー音声リマスター.voicefixer

野獣先輩インタビュー音声リマスター.voicefixer

音声復元は,音声信号の歪みを取り除くことを目的としています。従来の手法は、音声ノイズ除去や音声デクリップなどのシングルタスク音声復元(SSR)に主眼を置いていました。しかし、SSRシステムは1つのタスクにのみ焦点を当てており、一般的な音声復元問題には対応していません。また、これまでのSSRシステムは、音声の超解像などの一部の音声復元タスクにおいて、限られた性能しか発揮できませんでした。これらの限界を克服するために、我々は、複数の歪みを同時に除去しようとする一般的な音声復元(GSR)タスクを提案する。さらに、このGSRタスクに対応する生成フレームワークであるVoiceFixerを提案する。VoiceFixerは、人間の聴覚システムの音声分析と理解を模倣するために、分析段階と合成段階から構成されています。解析段階のモデルにはResUNetを、合成段階のモデルにはニューラル・ボコーダを採用しています。VoiceFixerは、付加的なノイズ、室内残響、低解像度、クリッピングの各歪みで評価します。ベースラインのGSRモデルは、スピーチエンハンスメントのSSRモデルよりも0.499高い平均オピニオンスコア(MOS)を達成しました。VoiceFixerは、GSRベースラインモデルのMOSスコアを0.256上回る結果となりました。さらに、VoiceFixerは劣化の激しい実話音声に対しても一般化しており、古い映画や歴史的なスピーチの復元にも有効であることがわかりました。www.DeepL.com/Translator(無料版)で翻訳しました。

http://www.nicovideo.jp/watch/sm39613294