の自由帳

module:vox

深層学習による声質変換を目指す。

基本的なアプローチは、音声データを一度スペクトログラムに変換し、unpaird な pix2pix の domain-transform を行う。

目標となる要件は以下。

  1. 入力と出力で言語情報が維持される

    (同じ言葉を発していると感じることができる)

  2. 出力が目標のドメインに属すと認識できる

要するにめっちゃ強いボイチェンを作りたいという話。