の自由帳

実験記録

実験記録 ae244bb7: Griffin-Lim の二次元拡張

びっくりするほど成果が出ないので、現実逃避に別のことをする。 今回試すのは、Griffin-Lim1 と呼ばれるアルゴリズムを画像に応用できるかということ。 やること STFT を2次元に拡張する 位相を捨てる Griffin-Lim で位相推定 画像を復元する STFT の二次元拡張 STFT を...

Apr 17, 2019 — Apr 18, 2019 closed

実験記録 bc7db4a2: AutoEncoder の修正

前回の実験で、周波数方向に全結合しようとしていたが、勘違いのため全結合できていなかった。 今回は、全結合を含めたモデルに変更し、潜在変数を時間方向に16、周波数方向に4096要素のベクトルとして得る。 モデル graph TD input("&laquo;Input&raquo;<br/>Spectrogram<br/>1 x 32 x 256...

Mar 20, 2019 — Mar 20, 2019 module:vox module:vox.lve closed satisfied

実験記録 c9335bce: AutoEncoder の実装

声質変換のための AutoEncoder を実装する。 方針としては、以下の通り。 周波数方向への全結合を含む 時間に沿った複数の潜在変数を得る。 入力 入力スペクトログラムは、以下の手順で生成する。 16000Hz, 1ch にリサンプリングする。 任意の1689サンプル(約1秒間)を抽出し、[-1,...

Mar 19, 2019 — Mar 19, 2019 module:vox module:vox.lve closed unsatisfied

実験記録 cfcefd21

現在のモデルでは、VRAM 不足により、minibatch size を2のような小さい値1にしなければ学習できない。 そこで、入力のスペクトログラムのサイズを時間方向に小さくすることによって、必要な VRAM の大きさを減らすことができるのではないかと考えた。 特に、今までの実験では1枚のスペクトログラムで約4秒分の音声を表していた。これは声質変換目的では過剰だと考えられる。 今回は...

Mar 12, 2019 — Mar 13, 2019 module:vox closed satisfied

実験記録 fbf548f6

今までは記録されている全てのラベルを学習に使用していた。今回は、Data Augmentation として、確率でラベルを欠けさせることにした。 具体的には、指定した確率(デフォルトでは0.5)でどれか一つのラベルが欠け、これをラベルの数-1回だけ繰り返す。ラベルは最低でも1つ残る。 学習の方法は前回の実験と揃えた。 学習パラメータ optimizer: RMSpro...

Mar 10, 2019 — Mar 12, 2019 module:vox closed unsatisfied

実験記録 9ada9179

StarGAN によって声質変換を試みる。 これまでの実験では、CycleGAN に倣って Identity Mapping Loss が導入されていたが、これがどのように働いているか不明なため、いちど取り除いて実験する。 入力データ等は以前の実験と同じ。 モデル Discriminator のモデル 以前の実験と同じ。 Generator のモデル graph TD sub...

Mar 8, 2019 — Mar 9, 2019 module:vox closed unsatisfied

実験記録 31f31449

StarGAN によって声質変換を試みる。 前回の実験の結果を踏まえ、Generator モデルの ResBlock で横長のフィルタを使うことにした。 また、ただフィルタを横に広げるだけでは VRAM 不足に陥ってしまったため、Downsampling/Upsampling を一段深くすることにした。 入力データ、Discriminator モデル、学習方法は 前回の実験 と同じにな...

Mar 5, 2019 — Mar 6, 2019 module:vox closed unsatisfied

実験記録 47c97768

StarGAN によって声質変換を試みる。 StarGAN 論文 に近い形での実装をしたかったが、GPU で学習しようとした際に VRAM 不足により落ちてしまった。 そこで、VRAM 内に収めるためにネットワークを縮小した。これにより表現空間が小さくなりすぎている可能性がある。 入力データ スペクトログラム(音声データ)とラベル(教師データ)の二種類を扱う。 スペクトログラム 以...

Mar 4, 2019 — Mar 5, 2019 module:vox closed unsatisfied

実験記録 e19098ab

StarGAN (Conditional GAN) の実装にあたって、Discriminator にクラス分類できるだけの表現力があることを予め示したい。 以前の実験での話者分類精度の低さはある程度改善されたが、もう少し精度を上げたい。 今回は、StarGAN 論文での Discriminator 実装に準拠した classifier を実験する。 モデル graph TD inp...

Mar 4, 2019 — Mar 4, 2019 module:vox closed satisfied

実験記録 7a184ccb

StarGAN (Conditional GAN) の実装にあたって、Discriminator にクラス分類できるだけの表現力があることを予め示したい。 以前の実験では、話者を分類する能力が著しく低かったため、それを改善することが目標になる。 モデル graph TD input("&laquo;Input&raquo;<br/>Spectrogram&...

Mar 3, 2019 — Mar 4, 2019 module:vox closed

実験記録 54314b33

StarGAN もどきによる声質変換。 モデル graph TD subgraph Input input-spectrogram("&laquo;Input&raquo;<br/>Spectrogram<br/>1 x 256 x 256<br/>[0, 1]") input-speaker("&laquo;...

Mar 1, 2019 — Mar 2, 2019 module:vox closed unsatisfied