Issues
module:vox.lve
さすがにそろそろ心が折れてきたので違うアプローチを試していきたい。 以下走り書き AutoEncoder とかでベクトル圧縮をする 潜在変数を編集する x’ = ax + b の a と b を学習するとか Conditional GAN
module:vox
深層学習による声質変換を目指す。 基本的なアプローチは、音声データを一度スペクトログラムに変換し、unpaird な pix2pix の domain-transform を行う。 目標となる要件は以下。 入力と出力で言語情報が維持される (同じ言葉を発していると感じることができる) 出力が目標のドメインに属すと認識できる 要する...