module:vox

深層学習による声質変換を目指す。

基本的なアプローチは、音声データを一度スペクトログラムに変換し、unpaird な pix2pix の domain-transform を行う。

目標となる要件は以下。

要するにめっちゃ強いボイチェンを作りたいという話。