MU-NLPC
/

F0_Energy_joint_VQVAE_embeddings

+from transformers import PretrainedConfig
+from typing import List, Optional
+class QuantizerConfig(PretrainedConfig):
+    model_type = "prosody_quantizer"
+    def __init__(
+        self,
+        # VQ parameters
+        l_bins: int = 320,
+        emb_width: int = 64,
+        mu: float = 0.99,
+        levels: int = 1,
+        # Encoder parameters
+        encoder_input_emb_width: int = 3,
+        encoder_output_emb_width: int = 64,
+        encoder_levels: int = 1,
+        encoder_downs_t: List[int] = [4],
+        encoder_strides_t: List[int] = [2],
+        encoder_width: int = 32,
+        encoder_depth: int = 4,
+        encoder_m_conv: float = 1.0,
+        encoder_dilation_growth_rate: int = 3,
+        # Decoder parameters
+        decoder_input_emb_width: int = 3,
+        decoder_output_emb_width: int = 64,
+        decoder_levels: int = 1,
+        decoder_downs_t: List[int] = [4],
+        decoder_strides_t: List[int] = [2],
+        decoder_width: int = 32,
+        decoder_depth: int = 4,
+        decoder_m_conv: float = 1.0,
+        decoder_dilation_growth_rate: int = 3,
+        # Training parameters
+        lambda_commit: float = 0.02,
+        f0_normalize: bool = True,
+        intensity_normalize: bool = True,
+        multispkr: str = "single",
+        f0_feats: bool = False,
+        f0_median: bool = False,
+        # Optional training hyperparameters
+        learning_rate: float = 0.0002,
+        adam_b1: float = 0.8,
+        adam_b2: float = 0.99,
+        lr_decay: float = 0.999,
+        **kwargs
+    ):
+        super().__init__(**kwargs)
+        # VQ parameters
+        self.l_bins = l_bins
+        self.emb_width = emb_width
+        self.mu = mu
+        self.levels = levels
+        # Encoder parameters
+        self.encoder_input_emb_width = encoder_input_emb_width
+        self.encoder_output_emb_width = encoder_output_emb_width
+        self.encoder_levels = encoder_levels
+        self.encoder_downs_t = encoder_downs_t
+        self.encoder_strides_t = encoder_strides_t
+        self.encoder_width = encoder_width
+        self.encoder_depth = encoder_depth
+        self.encoder_m_conv = encoder_m_conv
+        self.encoder_dilation_growth_rate = encoder_dilation_growth_rate
+        # Decoder parameters
+        self.decoder_input_emb_width = decoder_input_emb_width
+        self.decoder_output_emb_width = decoder_output_emb_width
+        self.decoder_levels = decoder_levels
+        self.decoder_downs_t = decoder_downs_t
+        self.decoder_strides_t = decoder_strides_t
+        self.decoder_width = decoder_width
+        self.decoder_depth = decoder_depth
+        self.decoder_m_conv = decoder_m_conv
+        self.decoder_dilation_growth_rate = decoder_dilation_growth_rate
+        # Training parameters
+        self.lambda_commit = lambda_commit
+        self.f0_normalize = f0_normalize
+        self.intensity_normalize = intensity_normalize
+        self.multispkr = multispkr
+        self.f0_feats = f0_feats
+        self.f0_median = f0_median
+        # Training hyperparameters
+        self.learning_rate = learning_rate
+        self.adam_b1 = adam_b1
+        self.adam_b2 = adam_b2
+        self.lr_decay = lr_decay
+    @property
+    def f0_vq_params(self):
+        return {
+            "l_bins": self.l_bins,
+            "emb_width": self.emb_width,
+            "mu": self.mu,
+            "levels": self.levels
+        }
+    @property
+    def f0_encoder_params(self):
+        return {
+            "input_emb_width": self.encoder_input_emb_width,
+            "output_emb_width": self.encoder_output_emb_width,
+            "levels": self.encoder_levels,
+            "downs_t": self.encoder_downs_t,
+            "strides_t": self.encoder_strides_t,
+            "width": self.encoder_width,
+            "depth": self.encoder_depth,
+            "m_conv": self.encoder_m_conv,
+            "dilation_growth_rate": self.encoder_dilation_growth_rate
+        }
+    @property
+    def f0_decoder_params(self):
+        return {
+            "input_emb_width": self.decoder_input_emb_width,
+            "output_emb_width": self.decoder_output_emb_width,
+            "levels": self.decoder_levels,
+            "downs_t": self.decoder_downs_t,
+            "strides_t": self.decoder_strides_t,
+            "width": self.decoder_width,
+            "depth": self.decoder_depth,
+            "m_conv": self.decoder_m_conv,
+            "dilation_growth_rate": self.decoder_dilation_growth_rate
+        }
+    @classmethod
+    def from_yaml(cls, yaml_path: str):
+        """Load config from yaml file"""
+        import yaml
+        with open(yaml_path, 'r') as f:
+            config = yaml.safe_load(f)
+        # Convert yaml config to kwargs
+        kwargs = {
+            # VQ params
+            **{k: v for k, v in config['f0_vq_params'].items()},
+            # Encoder params
+            **{f"encoder_{k}": v for k, v in config['f0_encoder_params'].items()},
+            # Decoder params
+            **{f"decoder_{k}": v for k, v in config['f0_decoder_params'].items()},
+            # Training params
+            "lambda_commit": config.get('lambda_commit', 0.02),
+            "f0_normalize": config.get('f0_normalize', True),
+            "intensity_normalize": config.get('intensity_normalize', True),
+            "multispkr": config.get('multispkr', "single"),
+            "f0_feats": config.get('f0_feats', False),
+            "f0_median": config.get('f0_median', False),
+            # Training hyperparams
+            "learning_rate": config.get('learning_rate', 0.0002),
+            "adam_b1": config.get('adam_b1', 0.8),
+            "adam_b2": config.get('adam_b2', 0.99),
+            "lr_decay": config.get('lr_decay', 0.999),
+        }
+        return cls(**kwargs)