# # -*- coding: utf-8 -*-
# """ML Engineer Assignment: Bangladeshi Bangla TTS Finetuning.ipynb

# Automatically generated by Colab.

# Original file is located at
#     https://colab.research.google.com/drive/12ZrU_dlECt3YzVZ7k7qpwySH3eXUS7bj
# """

import gradio as gr
from inference import run_tts   

def text_to_speech(text):
    return run_tts(text)

demo = gr.Interface(
    fn=text_to_speech,
    inputs="text",
    outputs="audio",
    title="Bangla Text to Speech",
    description="Enter Bangla text and hear the generated audio."
)

if __name__ == "__main__":
    demo.launch()


# # pip install transformers datasets torch torchaudio librosa
# # pip install coqui-tts phonemizer espeak-ng
# # pip install wandb tensorboard matplotlib seaborn

# # git lfs install
# git clone https://huggingface.co/bangla-speech-processing/bangla_tts_female

# ls bangla_tts_female

# tts --model_path bangla_tts_female/pytorch_model.pth \
#      --config_path bangla_tts_female/config.json \
#      --text "আমি বাংলাদেশ থেকে এসেছি।" \
#      --out_path baseline.wav

# from IPython.display import Audio
# Audio("baseline.wav")

# sentences = [
#     "আমি বাংলাদেশ থেকে এসেছি।",
#     "আজকের আবহাওয়া সুন্দর।",
#     "তুমি কোথায় যাচ্ছ?",
#     "আমরা ঢাকায় থাকি।",
#     "এটা আমার প্রিয় বই।"
# ]

# for i, text in enumerate(sentences, 1):
#     safe_text = text.replace('"', '\\"')
#     tts --model_path bangla_tts_female/pytorch_model.pth \
#          --config_path bangla_tts_female/config.json \
#          --text "{safe_text}" \
#          --out_path "baseline_{i}.wav"

# from IPython.display import Audio
# Audio("baseline_2.wav")

# """Checking the config.json"""

# import json

# with open("bangla_tts_female/config.json", "r", encoding="utf-8") as f:
#     config = json.load(f)

# print(json.dumps(config, indent=2, ensure_ascii=False))

# """Count parameters"""

# from TTS.utils.synthesizer import Synthesizer
# import torch

# synthesizer = Synthesizer(
#     tts_checkpoint="bangla_tts_female/pytorch_model.pth",
#     tts_config_path="bangla_tts_female/config.json",
#     use_cuda=torch.cuda.is_available()
# )

# model_params = sum(p.numel() for p in synthesizer.tts_model.parameters())
# print(f"Total parameters: {model_params:,}")

# """Check tokenizer / phoneme system"""

# print("Phonemizer:", config.get("phonemizer", "Not specified"))
# print("Characters:", config.get("characters", "Not specified"))

# """# Task 2"""

# !wget https://www.openslr.org/resources/53/asr_bengali_6.zip

# !unzip asr_bengali_6.zip -d openslr_53

# !find /content -type d -name "*asr_bengali*"

# !ls /content/openslr_53/asr_bengali

# import pandas as pd

# tsv_path = "/content/openslr_53/asr_bengali/utt_spk_text.tsv"
# df = pd.read_csv(tsv_path, sep="\t", header=None, names=["utt_id", "speaker_id", "text"])
# print(df.head())

# import os

# audio_dir = "/content/openslr_53/asr_bengali/data"
# df["audio_path"] = df["utt_id"].apply(lambda x: os.path.join(audio_dir, f"{x}.wav"))
# print(df.head())

# df = df[df["audio_path"].apply(os.path.exists)]
# print(f"Total usable audio files: {len(df)}")

# import os, glob
# import pandas as pd


# tsv_path = "/content/openslr_53/asr_bengali/utt_spk_text.tsv"
# df = pd.read_csv(tsv_path, sep="\t", header=None, names=["utt_id", "speaker_id", "text"])


# file_dict = {
#     os.path.splitext(os.path.basename(f))[0]: f
#     for f in glob.glob("/content/openslr_53/asr_bengali/data/**/*.flac", recursive=True)
# }

# df["audio_path"] = df["utt_id"].map(file_dict)

# df = df[df["audio_path"].notnull()]
# print(f"Usable audio files: {len(df)}")
# print(df.head())

# !find /content/openslr_53/asr_bengali/data -type f | head -20

# import librosa
# import numpy as np

# durations = []
# for path in df["audio_path"].sample(100):
#     y, sr = librosa.load(path, sr=None)
#     durations.append(len(y) / sr)

# print(f"Total samples: {len(df)}")
# print(f"Duration: min={np.min(durations):.2f}s, mean={np.mean(durations):.2f}s, max={np.max(durations):.2f}s")
# print(f"Unique speakers: {df['speaker_id'].nunique()}")

# import pandas as pd

# sample_df = df.sample(300, random_state=42)
# sample_df.to_csv("accent_labeling_sample.csv", index=False)

# from google.colab import files
# files.download("accent_labeling_sample.csv")

# from google.colab import files
# uploaded = files.upload()

# import pandas as pd
# labeled_df = pd.read_csv("accent_labeling_sample.csv")

# print(labeled_df.columns)

# sample_df = df.sample(300, random_state=42)
# sample_df.to_csv("accent_labeling_sample.csv", index=False)

# import pandas as pd

# label_df = df.sample(50, random_state=42).reset_index(drop=True)
# label_df["accent_label"] = None

# label_df.to_csv("labeling_in_progress.csv", index=False)

# from IPython.display import Audio, display
# import ipywidgets as widgets

# label_df = pd.read_csv("labeling_in_progress.csv")

# def label_clip(idx, label):
#     label_df.loc[idx, "accent_label"] = label
#     label_df.to_csv("labeling_in_progress.csv", index=False)
#     print(f"Labeled index {idx} as {'BD' if label==1 else 'IN'}")

# def play_and_label(idx):
#     if idx >= len(label_df):
#         print("✅ All clips labeled!")
#         return

#     row = label_df.iloc[idx]
#     print(f"Index: {idx} | Speaker: {row['speaker_id']}")
#     print(f"Text: {row['text']}")
#     display(Audio(row["audio_path"]))

#     bd_btn = widgets.Button(description="BD Accent (1)", button_style='success')
#     in_btn = widgets.Button(description="IN Accent (0)", button_style='danger')
#     skip_btn = widgets.Button(description="Skip", button_style='warning')

#     def on_bd(b):
#         label_clip(idx, 1)
#         play_and_label(idx+1)
#     def on_in(b):
#         label_clip(idx, 0)
#         play_and_label(idx+1)
#     def on_skip(b):
#         label_clip(idx, None)
#         play_and_label(idx+1)

#     bd_btn.on_click(on_bd)
#     in_btn.on_click(on_in)
#     skip_btn.on_click(on_skip)

#     display(widgets.HBox([bd_btn, in_btn, skip_btn]))

# play_and_label(0)

# final_labels = pd.read_csv("labeling_in_progress.csv")
# final_labels = final_labels.dropna(subset=["accent_label"])
# final_labels.to_csv("accent_labeling_sample_labeled.csv", index=False)
# print(f"Saved {len(final_labels)} labeled samples.")

# import librosa
# import numpy as np
# import pandas as pd
# from sklearn.ensemble import RandomForestClassifier
# from sklearn.model_selection import train_test_split
# from sklearn.metrics import classification_report

# labeled_df = pd.read_csv("accent_labeling_sample_labeled.csv")

# def extract_mfcc(path, n_mfcc=13):
#     y, sr = librosa.load(path, sr=22050)
#     mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=n_mfcc)
#     return np.mean(mfcc, axis=1)

# X = np.array([extract_mfcc(p) for p in labeled_df["audio_path"]])
# y = np.array(labeled_df["accent_label"])


# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# clf = RandomForestClassifier(n_estimators=200, random_state=42)
# clf.fit(X_train, y_train)


# y_pred = clf.predict(X_test)
# print(classification_report(y_test, y_pred))

# df["accent_label"] = df["audio_path"].apply(lambda p: clf.predict([extract_mfcc(p)])[0])
# bd_df = df[df["accent_label"] == 1]
# print(f"Bangladeshi-accent samples: {len(bd_df)}")

# bd_df.to_csv("bd_openslr53.csv", index=False)

# wget https://www.openslr.org/resources/53/asr_bengali_a.zip

# unzip asr_bengali_a.zip -d asr_bengali_a

# ls asr_bengali_a
# find asr_bengali_a -type f | head -20

# find /content -type d -name "*asr_bengali*"

# ls /content/asr_bengali_a/asr_bengali

# import pandas as pd
# import glob, os

# tsv_path = "/content/asr_bengali_a/asr_bengali/utt_spk_text.tsv"
# df_a = pd.read_csv(tsv_path, sep="\t", names=["utt_id", "speaker_id", "text"])


# audio_files = glob.glob("asr_bengali_a/data/**/*.flac", recursive=True)
# audio_map = {os.path.splitext(os.path.basename(f))[0]: f for f in audio_files}


# df_a["audio_path"] = df_a["utt_id"].map(audio_map)


# df_a = df_a.dropna(subset=["audio_path"])
# print(df_a.head())

# df_a["accent_label"] = df_a["audio_path"].apply(lambda p: clf.predict([extract_mfcc(p)])[0])
# bd_df_a = df_a[df_a["accent_label"] == 1]
# print(f"Bangladeshi-accent samples: {len(bd_df_a)}")

# bd_df_a.to_csv("bd_asr_bengali_a.csv", index=False)

# final_df = pd.concat([
#     pd.read_csv("bd_openslr53.csv"),
#     pd.read_csv("bd_asr_bengali_a.csv")
# ])
# final_df.to_csv("bd_combined_dataset.csv", index=False)

# import soundfile as sf
# import os

# os.makedirs("processed_bd_audio", exist_ok=True)
# meta_lines = []

# for i, row in final_df.iterrows():
#     y, sr = librosa.load(row["audio_path"], sr=22050)
#     y, _ = librosa.effects.trim(y)
#     y = y / (np.max(np.abs(y)) + 1e-9)
#     out_path = f"processed_bd_audio/{i}.wav"
#     sf.write(out_path, y, 22050)
#     meta_lines.append(f"{out_path}|{row['text']}|bd_speaker")

# with open("metadata.csv", "w", encoding="utf-8") as f:
#     f.write("\n".join(meta_lines))

# """# TASK 3"""

# # pip install librosa soundfile scikit-learn joblib numpy tqdm

# import os
# import numpy as np
# import pandas as pd
# import librosa
# from tqdm import tqdm
# from sklearn.ensemble import RandomForestClassifier
# from sklearn.model_selection import train_test_split
# from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
# import joblib


# SR = 22050
# N_MFCC = 13


# def extract_accent_features(audio_path, sr=SR, n_mfcc=N_MFCC):
#     try:
#         y, orig_sr = librosa.load(audio_path, sr=None)
#     except:
#         return None

#     if orig_sr != sr:
#         y = librosa.resample(y=y, orig_sr=orig_sr, target_sr=sr)

#     y, _ = librosa.effects.trim(y, top_db=20)
#     if y.size == 0:
#         return None

#     y = y / (np.max(np.abs(y)) + 1e-9)
#     features = []

#     mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=n_mfcc)
#     delta = librosa.feature.delta(mfcc)
#     features += list(np.mean(mfcc, axis=1))
#     features += list(np.std(mfcc, axis=1))
#     features += list(np.mean(delta, axis=1))
#     features += list(np.std(delta, axis=1))

#     cent = librosa.feature.spectral_centroid(y=y, sr=sr)
#     bw = librosa.feature.spectral_bandwidth(y=y, sr=sr)
#     rolloff = librosa.feature.spectral_rolloff(y=y, sr=sr)
#     zcr = librosa.feature.zero_crossing_rate(y)
#     rms = librosa.feature.rms(y=y)
#     features += [np.mean(cent), np.std(cent)]
#     features += [np.mean(bw), np.std(bw)]
#     features += [np.mean(rolloff), np.std(rolloff)]
#     features += [np.mean(zcr), np.std(zcr)]
#     features += [np.mean(rms), np.std(rms)]

#     try:
#         f0, voiced_flag, voiced_prob = librosa.pyin(y, fmin=50, fmax=600, sr=sr)
#         if f0 is None:
#             f0_stats = [0,0,0,0]
#         else:
#             voiced = ~np.isnan(f0)
#             if voiced.sum() == 0:
#                 f0_stats = [0,0,0,0]
#             else:
#                 f0_vals = f0[voiced]
#                 f0_stats = [
#                     np.mean(f0_vals),
#                     np.std(f0_vals),
#                     np.median(f0_vals),
#                     float(np.sum(voiced)) / len(f0)
#                 ]
#     except:
#         f0_stats = [0,0,0,0]
#     features += f0_stats

#     features += [len(y) / sr]

#     return np.array(features)

# labeled_df = pd.read_csv("accent_labeling_sample_labeled.csv")  # Must have: audio_path, accent_label
# X, y = [], []

# for _, row in tqdm(labeled_df.iterrows(), total=len(labeled_df)):
#     feats = extract_accent_features(row["audio_path"])
#     if feats is not None:
#         X.append(feats)
#         y.append(int(row["accent_label"]))

# X = np.vstack(X)
# y = np.array(y)

# X_train, X_test, y_train, y_test = train_test_split(
#     X, y, test_size=0.2, random_state=42
# )


# clf = RandomForestClassifier(
#     n_estimators=300, random_state=42, n_jobs=-1
# )
# clf.fit(X_train, y_train)


# y_pred = clf.predict(X_test)
# print("✅ Accuracy:", accuracy_score(y_test, y_pred))
# print(classification_report(y_test, y_pred))
# print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))

# joblib.dump(clf, "accent_rf_model.joblib")
# np.save("feature_shape.npy", X.shape[1])
# print("💾 Model saved as accent_rf_model.joblib")

# """# TASK 4"""

# from transformers import VitsModel

# class BDVitsModel(VitsModel):
#     def __init__(self, config):
#         super().__init__(config)
#         self.bd_accent_adapter = torch.nn.Linear(config.hidden_size, config.hidden_size)

#     def forward(self, input_ids, attention_mask=None, **kwargs):
#         outputs = super().forward(input_ids, attention_mask=attention_mask, **kwargs)
#         hidden_states = outputs.last_hidden_state
#         hidden_states = self.bd_accent_adapter(hidden_states)
#         return outputs

# def bd_text_normalize(text):
#     text = text.replace("ড়", "র")
#     text = text.replace("ঋ", "রি")
#     text = text.replace("ই", "ঈ") if "..." else text
#     return text

# sample_text = "ঋণী ছেলে বড় রাস্তা দিয়ে যাবে।"
# normalized_text = bd_text_normalize(sample_text)

# print("Original text:  ", sample_text)
# print("Normalized text:", normalized_text)

# def bd_accent_loss(pred_mel, target_mel, pred_phonemes, target_phonemes, accent_weight=0.1, phoneme_weight=0.5):
#     mel_loss = F.mse_loss(pred_mel, target_mel)
#     phoneme_loss = F.cross_entropy(pred_phonemes, target_phonemes)
#     accent_loss = accent_discriminator_loss(pred_mel)
#     total_loss = mel_loss + phoneme_weight * phoneme_loss + accent_weight * accent_loss

#     print(f"Mel Loss: {mel_loss.item():.4f} | Phoneme Loss: {phoneme_loss.item():.4f} | "
#           f"Accent Loss: {accent_loss:.4f} | Total Loss: {total_loss.item():.4f}")
#     return total_loss

# """# TASK 5"""

# # !pip install torch torchaudio transformers datasets librosa soundfile wandb accelerate
# # !pip install tqdm librosa

# import os, time, math, random
# import torch
# import torch.nn.functional as F
# from torch import nn, optim
# from torch.utils.data import DataLoader, Dataset
# from torch.cuda.amp import autocast, GradScaler
# import librosa, soundfile as sf, numpy as np
# from tqdm.auto import tqdm
# import joblib
# import wandb

# training_config = {
#  "learning_rate": 1e-4,
#  "batch_size": 16,
#  "warmup_steps": 1000,
#  "gradient_accumulation_steps": 4,
#  "mixed_precision": True,
#  "save_strategy": "steps",
#  "save_steps": 500,
#  "eval_steps": 100,
#  "num_train_epochs": 3,
#  "device": "cuda" if torch.cuda.is_available() else "cpu",
#  "output_dir": "/content/drive/MyDrive/bd_tts_finetune",
# }
# os.makedirs(training_config["output_dir"], exist_ok=True)

# import pandas as pd

# df = pd.read_csv("metadata.csv", sep="|", names=["audio_path", "text", "accent_label"])

# print(df.head())
# print(df.shape)

# head -n 10 metadata.csv

# df = pd.read_csv("metadata.csv", sep="|", names=["audio_path", "text"])

# df.to_csv("metadata_clean.csv", index=False)

# """# TASK 6"""

# import torch
# import numpy as np

# sample = {
#     'text_input': "আমার নাম রাজি",
#     'mel_spectrogram': torch.randn(80, 200),

#     'audio_waveform': np.random.randn(44100).astype(np.float32),

#     'phonemes': ["a", "m", "a", "r", "n", "a", "m", "r", "a", "j", "i"]
# }

# import librosa

# audio_path = "/content/processed_bd_audio/audio.wav"
# audio, sr = librosa.load(audio_path, sr=22050)

# mel_spectrogram = librosa.feature.melspectrogram(y=audio, sr=sr, n_mels=80)
# mel_spectrogram_db = librosa.power_to_db(mel_spectrogram)

# import matplotlib.pyplot as plt

# plt.figure(figsize=(10, 4))
# plt.imshow(mel_spectrogram_db, aspect='auto', origin='lower', cmap='magma')
# plt.colorbar(format='%+2.0f dB')
# plt.title('Mel Spectrogram (dB)')
# plt.xlabel('Time frames')
# plt.ylabel('Mel frequency bins')
# plt.show()

# plt.figure(figsize=(10, 4))
# plt.imshow(mel_spectrogram_db, aspect='auto', origin='lower', cmap='magma')
# plt.colorbar(format='%+2.0f dB')
# plt.title('Mel Spectrogram (dB)')
# plt.xlabel('Time frames')
# plt.ylabel('Mel frequency bins')
# plt.savefig("/content/mel_spectrogram.png")
# plt.close()

# from IPython.display import Image
# Image("/content/mel_spectrogram.png")

# import torch

# mel_tensor = torch.tensor(mel_spectrogram_db).unsqueeze(0)  # add batch dim if needed
# torch.save(mel_tensor, "/content/mel_spectrogram.pt")

# """# TASK 7"""

# import torch
# import torch.nn as nn

# class RelativePositionMultiHeadAttention(nn.Module):
#     def __init__(self, num_heads=8, k_channels=64):
#         super().__init__()
#         self.num_heads = num_heads
#         self.k_channels = k_channels
#         self.conv_k = nn.Conv1d(in_channels=k_channels * num_heads, out_channels=k_channels * num_heads, kernel_size=1)
#         self.conv_v = nn.Conv1d(in_channels=k_channels * num_heads, out_channels=k_channels * num_heads, kernel_size=1)
#         self.conv_o = nn.Conv1d(in_channels=k_channels * num_heads, out_channels=k_channels * num_heads, kernel_size=1)

#     @torch.jit.ignore
#     def attention(self, query, key, value, mask=None):
#         b = key.size(0)
#         d = key.size(1)
#         t_s = key.size(2)
#         t_t = query.size(2)

#         query = query.view(b, self.num_heads, self.k_channels, t_t).transpose(2, 3)
#         key = key.view(b, self.num_heads, self.k_channels, t_s).transpose(2, 3)
#         value = value.view(b, self.num_heads, self.k_channels, t_s).transpose(2, 3)

#         scores = torch.matmul(query, key.transpose(-2, -1)) / (self.k_channels ** 0.5)

#         if mask is not None:
#             scores = scores.masked_fill(mask == 0, float('-inf'))

#         attn = torch.softmax(scores, dim=-1)
#         out = torch.matmul(attn, value)

#         out = out.transpose(2, 3).contiguous().view(b, d, t_t)

#         return out, attn

#     def forward(self, c, attn_mask=None):
#         q = c
#         k = self.conv_k(c)
#         v = self.conv_v(c)
#         x, self.attn = self.attention(q, k, v, mask=attn_mask)
#         x = self.conv_o(x)
#         return x

# if __name__ == "__main__":
#     batch_size = 2
#     d_model = 512
#     seq_len = 50
#     num_heads = 8
#     k_channels = d_model // num_heads

#     model = RelativePositionMultiHeadAttention(num_heads=num_heads, k_channels=k_channels)

#     c = torch.randn(batch_size, d_model, seq_len)
#     output = model(c)
#     print("Output shape:", output.shape)


#     scripted_model = torch.jit.script(model)
#     print("TorchScript model compiled successfully.")

# b, d, t = 2, 512, 50
# dummy_input = torch.randn(b, d, t)
# model = RelativePositionMultiHeadAttention(num_heads=8, k_channels=d//8)

# output = model(dummy_input)
# print(output.shape)

# import torch
# import torch.nn as nn
# import gradio as gr
# import numpy as np
# import librosa

# class RelativePositionMultiHeadAttention(nn.Module):
#     def __init__(self, d_model=512, num_heads=8):
#         super().__init__()
#         self.num_heads = num_heads
#         self.k_channels = d_model // num_heads

#         self.conv_k = nn.Conv1d(d_model, d_model, kernel_size=1)
#         self.conv_v = nn.Conv1d(d_model, d_model, kernel_size=1)
#         self.conv_o = nn.Conv1d(d_model, d_model, kernel_size=1)

#     @torch.jit.ignore
#     def attention(self, query, key, value, mask=None):
#         b = key.size(0)
#         d = key.size(1)
#         t_s = key.size(2)
#         t_t = query.size(2)

#         query = query.view(b, self.num_heads, self.k_channels, t_t).transpose(2, 3)
#         key = key.view(b, self.num_heads, self.k_channels, t_s).transpose(2, 3)
#         value = value.view(b, self.num_heads, self.k_channels, t_s).transpose(2, 3)

#         scores = torch.matmul(query, key.transpose(-2, -1)) / (self.k_channels ** 0.5)

#         if mask is not None:
#             scores = scores.masked_fill(mask == 0, float('-inf'))

#         attn = torch.softmax(scores, dim=-1)
#         out = torch.matmul(attn, value)

#         out = out.transpose(2, 3).contiguous().view(b, d, t_t)
#         return out, attn

#     def forward(self, c, attn_mask=None):
#         q = c
#         k = self.conv_k(c)
#         v = self.conv_v(c)
#         x, self.attn = self.attention(q, k, v, mask=attn_mask)
#         x = self.conv_o(x)
#         return x

# def preprocess_text(text):
#     bengali_chars = "অআইঈউঊঋএঐওঔকখগঘঙচছজঝঞটঠডঢণতথদধনপফবভমযরলশষসহড়ঢ়য়ড়"
#     char_to_idx = {ch: i+1 for i, ch in enumerate(bengali_chars)}
#     tokens = [char_to_idx.get(ch, 0) for ch in text if ch.strip() != '']
#     return tokens

# class TokenEmbedding(nn.Module):
#     def __init__(self, vocab_size, d_model):
#         super().__init__()
#         self.embedding = nn.Embedding(vocab_size + 1, d_model, padding_idx=0)

#     def forward(self, tokens):
#         embedded = self.embedding(tokens)
#         return embedded.transpose(1, 2)

# def mel_to_audio(mel_spectrogram, n_iter=60, sr=22050, n_fft=1024, hop_length=256):

#     mel_power = librosa.db_to_power(mel_spectrogram)
#     S = librosa.feature.inverse.mel_to_stft(mel_power, sr=sr, n_fft=n_fft)
#     audio = librosa.griffinlim(S, n_iter=n_iter, hop_length=hop_length)
#     return audio

# d_model = 512
# vocab_size = 50
# embedding = TokenEmbedding(vocab_size=vocab_size, d_model=d_model)
# attention_model = RelativePositionMultiHeadAttention(d_model=d_model, num_heads=8)
# embedding.eval()
# attention_model.eval()

# def tts_pipeline(user_text):
#     tokens = preprocess_text(user_text)
#     if len(tokens) == 0:
#         return None

#     input_tensor = torch.tensor(tokens).unsqueeze(0)

#     with torch.no_grad():
#         embedded = embedding(input_tensor)
#         output = attention_model(embedded)
#     mel = output.squeeze(0).cpu().numpy()
#     mel = mel[:80, :]

#     mel_db = 20 * np.log10(np.maximum(mel, 1e-5))

#     audio = mel_to_audio(mel_db)

#     return (22050, audio.astype(np.float32))
# import numpy as np

# import gradio as gr

# iface = gr.Interface(
#     fn=tts_pipeline,
#     inputs=gr.Textbox(label="Enter Bengali Text"),
#     outputs=gr.Audio(label="Generated Speech"),
#     title="Bangladeshi Bengali TTS Demo"
# )

# iface.launch()

# import subprocess
# import os
# import gradio as gr


# MODEL_PATH = "bangla_tts_female/pytorch_model.pth"
# CONFIG_PATH = "bangla_tts_female/config.json"

# def tts_from_cli(text):
#     if not text.strip():
#         return None

#     safe_text = text.replace('"', '\\"')

#     output_wav = "output.wav"


#     cmd = [
#         "tts",
#         "--model_path", MODEL_PATH,
#         "--config_path", CONFIG_PATH,
#         "--text", safe_text,
#         "--out_path", output_wav
#     ]


#     result = subprocess.run(cmd, capture_output=True, text=True)

#     if result.returncode != 0:
#         print("Error:", result.stderr)
#         return None

#     if os.path.exists(output_wav):
#         return output_wav
#     else:
#         print("Output audio not found")
#         return None


# iface = gr.Interface(
#     fn=tts_from_cli,
#     inputs=gr.Textbox(lines=2, placeholder="Enter Bengali text here..."),
#     outputs=gr.Audio(type="filepath"),
#     title="Bengali TTS with CLI Model"
# )

# iface.launch()