kp-forks
/

MegaTTS3

+acous_params:
+- - 480
+  - 1200
+  - 80
+- - 240
+  - 1200
+  - 160
+amp: false
+audio_num_mel_bins: 160
+audio_sample_rate: 24000
+c_spk_enc: 512
+char_dict_size: 15000
+conv_use_pos: false
+dec0_dilations:
+- 1
+- 2
+- 4
+- 1
+- 2
+- 4
+- 1
+dec0_kernel_size: 3
+dec_dilations:
+- 1
+- 2
+- 1
+- 2
+- 1
+dec_ffn_kernel_size: 9
+dec_inp_add_noise: false
+dec_kernel_size: 5
+dec_layers: 4
+dec_post_net_kernel: 3
+decoder_rnn_dim: 0
+decoder_type: conv
+dropout: 0.0
+ds_add_pitch_embed: false
+dur_alpha: 1.0
+dur_context_enc: true
+dur_log: true
+dur_predictor_kernel: 3
+dur_predictor_layers: 2
+dur_use_char: true
+dur_use_spk: true
+enc_dec_norm: ln
+enc_dilations:
+- 1
+- 1
+- 1
+- 1
+enc_ffn_kernel_size: 5
+enc_kernel_size: 5
+enc_layers: 8
+enc_post_net_kernel: 3
+enc_pre_ln: true
+enc_prenet: true
+encoder_K: 8
+encoder_type: rel_fft
+f0_max: 600
+f0_min: 60
+ffn_act: gelu
+ffn_hidden_size: 1024
+fft_size: 1200
+fg_spk_enc_hidden: 256
+fmax: 12000
+fmin: 0
+frames_multiple: 8
+hidden_size: 512
+hop_size: 240
+ignore_begin_end_sil: false
+keep_c0_init: true
+kl_min: 0
+kl_start_steps: 1
+lat_for_dur: false
+latent_dim: 16
+latent_size: 256
+layers_in_block: 2
+ling_label_dict_size:
+- 20
+- 4
+- 5
+- 2
+- 3
+- 3
+- 3
+- 6
+- 15
+ling_labels:
+- tone
+load_ckpt: ''
+loud_norm: false
+mel_vmax: 0.5
+mel_vmin: -6
+min_frames: 50
+mixed_precision: bf16
+no_text_enc: false
+nsf_type: none
+num_heads: 2
+out_wav_norm: true
+pad_frames: false
+precision: fp16
+predict_pitch: false
+resblock: '1'
+resblock_dilation_sizes:
+- - 1
+  - 3
+  - 5
+- - 1
+  - 3
+  - 5
+- - 1
+  - 3
+  - 5
+resblock_kernel_sizes:
+- 3
+- 7
+- 11
+train_spk_embed_only: false
+upsample_initial_channel: 512
+upsample_kernel_sizes:
+- 12
+- 11
+- 8
+- 4
+upsample_rates:
+- 6
+- 5
+- 4
+- 2
+use_bert_input: false
+use_cfg: true
+use_char: true
+use_cur_global: false
+use_cur_global_dec: true
+use_dur_embed: true
+use_dur_mask_embed: true
+use_ema: false
+use_expand_ph: true
+use_finegrained_spk: false
+use_global_lat: false
+use_gt_dur: false
+use_gt_f0: false
+use_mix_spk_embed: false
+use_new_vae: false
+use_ph_level_f0: false
+use_ph_pos_embed: true
+use_pitch_embed: false
+use_pitch_embed_dec: false
+use_pitch_pred: true
+use_pos_embed: true
+use_qk_norm: true
+use_random_spk_embed: false
+use_seq_cfg: true
+use_spk_embed: false
+use_spk_enc: true
+use_spk_id: false
+use_uv: true
+use_vae: true
+use_vpcfm: true
+use_vqvae: true
+use_word_encoder: true
+use_word_input: false
+vae_dur_grad: 0.1
+vae_enc_hidden_size: 384
+vae_stride: 4
+vae_word_conder_layers: 0
+vq_stride: 8
+win_size: 1200
+word_dict_size: 10000
+melgan_config:
+  all_noise: false
+  backbone_resampling: librosa_kaiser_best
+  batch_size: 8
+  cond_disc: false
+  dim_pitch_condition: 1
+  downsamp_factor: 4
+  epochs: 1000
+  frame_shift: 240
+  lambda_feat: 0.0
+  lambda_log_pitch: 0.4
+  lambda_voiced: 1.0
+  load_D: 1
+  log_interval: 100
+  loss_pitch: 1.0
+  loss_speaker: 1.0
+  loss_stft: 0.0
+  lr: 0.0005
+  mode_pitch_condition: singgan_torch
+  multi_resolution: 0
+  n_layers_D: 4
+  n_mel_channels: 160
+  n_residual_layers: 4
+  n_test_samples: 5
+  ndf: 16
+  noise_index: 1.0
+  nr: 0
+  num_D: 3
+  num_band: 1
+  num_workers: 0
+  offset: 0
+  pretrain_steps: 0
+  res_layers: 1
+  run_hdfs: 0
+  sampling_rate: 24000
+  save_interval: 5000
+  seq_len: 100
+  single_stft: 0
+  sub_dis: 1
+  tf: 1
+  tf_end_ratio: 0.0
+  tf_end_step: 0
+  tf_start_ratio: 0.0
+  tf_start_step: 0
+  up_sample:
+  - 5
+  - 4
+  - 4
+  - 3
+  use_F_dis: 0
+  use_aug_pitch: 0
+  use_interpolate: 0
+  use_lsgan: 1
+  use_mel_loss: 1
+  use_melnorm: 0
+  use_msg_gan: 0
+  use_pitch_condition: false
+  use_pitch_prediction: 1
+  use_sbd: 0
+  use_speaker_prediction: 0
+  use_tanh: true
+  use_time_loss: 1

wavvae/decoder.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f309a09fa0c629551d86b0bc68f5d0c4a24448c5fea6bbed421fb3772977a363
+size 904541298