深層学習による声質変換を目指す。
基本的なアプローチは、音声データを一度スペクトログラムに変換し、unpaird な pix2pix の domain-transform を行う。
目標となる要件は以下。
入力と出力で言語情報が維持される
(同じ言葉を発していると感じることができる)
出力が目標のドメインに属すと認識できる
要するにめっちゃ強いボイチェンを作りたいという話。