Spaces:

rohanmiriyala
/

Audio_Translate

Running

App Files Files Community

rohanmiriyala commited on Jul 21

Commit

467303b

verified ·

1 Parent(s): bb3697e

Update app.py

Browse files

Files changed (1) hide show

app.py +1 -12

app.py CHANGED Viewed

@@ -16,15 +16,12 @@ import nltk
 from parler_tts import ParlerTTSForConditionalGeneration
 from lang_list import LANGUAGE_NAME_TO_CODE, ASR_TARGET_LANGUAGE_NAMES, S2TT_TARGET_LANGUAGE_NAMES
-# Download punkt for sentence splitting
 nltk.download('punkt_tab')
-# Device and dtype
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 DTYPE = torch.bfloat16 if DEVICE != "cpu" else torch.float32
 SAMPLE_RATE = 16000
-# Load speech-to-text model
 stt_model = SeamlessM4Tv2ForSpeechToText.from_pretrained(
     "ai4bharat/indic-seamless",
     torch_dtype=DTYPE
@@ -36,7 +33,6 @@ tt_tokenizer = SeamlessM4TTokenizer.from_pretrained(
     "ai4bharat/indic-seamless"
 )
-# Load TTS models
 repo_id = "ai4bharat/indic-parler-tts-pretrained"
 finetuned_repo_id = "ai4bharat/indic-parler-tts"
@@ -55,10 +51,8 @@ tts_tokenizer = AutoTokenizer.from_pretrained(repo_id)
 description_tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-large")
 tts_feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
-# Voice options - example speakers
 VOICES = ["Sunita", "Suresh", "Aditi", "Prakash", "Rohit", "Anjali", "Jaya"]
-# Dark theme CSS
 CSS = '''
 body { background-color: #1e1e2f; color: #ececec; }
 .gradio-container { max-width: 1000px; margin: auto; padding: 20px; }
@@ -68,7 +62,6 @@ body { background-color: #1e1e2f; color: #ececec; }
 .gradio-row .column { display: inline-block; vertical-align: top; }
 '''
-# Helpers
 def numpy_to_mp3(audio_array, sampling_rate):
     if np.issubdtype(audio_array.dtype, np.floating):
         max_val = np.max(np.abs(audio_array))
@@ -82,7 +75,6 @@ def numpy_to_mp3(audio_array, sampling_rate):
     segment.export(mp3_io, format="mp3", bitrate="320k")
     return mp3_io.getvalue()
-# STT / Translation
 def transcribe_and_translate(audio_path, source_language, target_language):
     wav, orig_sr = torchaudio.load(audio_path)
     wav = torchaudio.functional.resample(wav, orig_freq=orig_sr, new_freq=SAMPLE_RATE)
@@ -91,7 +83,6 @@ def transcribe_and_translate(audio_path, source_language, target_language):
     gen = stt_model.generate(**inputs, tgt_lang=tgt)[0]
     return tt_tokenizer.decode(gen, skip_special_tokens=True, clean_up_tokenization_spaces=True)
-# TTS generation
 def generate_tts(text, voice, finetuned=False):
     description = f"{voice} speaks in a neutral tone with clear audio."
     sentences = nltk.sent_tokenize(text)
@@ -115,13 +106,11 @@ def generate_tts(text, voice, finetuned=False):
     combined = np.concatenate(all_audio)
     return numpy_to_mp3(combined, tts_feature_extractor.sampling_rate)
-# Pipeline
 def pipeline(audio_path, source_language, target_language, voice, finetuned):
     text = transcribe_and_translate(audio_path, source_language, target_language)
     audio_bytes = generate_tts(text, voice, finetuned)
     return text, audio_bytes
-# Gradio UI
 def build_ui():
     with gr.Blocks(css=CSS) as demo:
         gr.Markdown("# IndicSeamless + Parler-TTS Demo")
@@ -144,7 +133,7 @@ def build_ui():
                 audio_out = gr.Audio(label="Synthesized Speech", format="mp3")
         run_btn.click(fn=pipeline, inputs=[audio_in, src, tgt, voice, finetune], outputs=[text_out, audio_out])
     return demo
 if __name__ == "__main__":
     ui = build_ui()
     ui.launch(share=True)

 from parler_tts import ParlerTTSForConditionalGeneration
 from lang_list import LANGUAGE_NAME_TO_CODE, ASR_TARGET_LANGUAGE_NAMES, S2TT_TARGET_LANGUAGE_NAMES
 nltk.download('punkt_tab')
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 DTYPE = torch.bfloat16 if DEVICE != "cpu" else torch.float32
 SAMPLE_RATE = 16000
 stt_model = SeamlessM4Tv2ForSpeechToText.from_pretrained(
     "ai4bharat/indic-seamless",
     torch_dtype=DTYPE
     "ai4bharat/indic-seamless"
 )
 repo_id = "ai4bharat/indic-parler-tts-pretrained"
 finetuned_repo_id = "ai4bharat/indic-parler-tts"
 description_tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-large")
 tts_feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
 VOICES = ["Sunita", "Suresh", "Aditi", "Prakash", "Rohit", "Anjali", "Jaya"]
 CSS = '''
 body { background-color: #1e1e2f; color: #ececec; }
 .gradio-container { max-width: 1000px; margin: auto; padding: 20px; }
 .gradio-row .column { display: inline-block; vertical-align: top; }
 '''
 def numpy_to_mp3(audio_array, sampling_rate):
     if np.issubdtype(audio_array.dtype, np.floating):
         max_val = np.max(np.abs(audio_array))
     segment.export(mp3_io, format="mp3", bitrate="320k")
     return mp3_io.getvalue()
 def transcribe_and_translate(audio_path, source_language, target_language):
     wav, orig_sr = torchaudio.load(audio_path)
     wav = torchaudio.functional.resample(wav, orig_freq=orig_sr, new_freq=SAMPLE_RATE)
     gen = stt_model.generate(**inputs, tgt_lang=tgt)[0]
     return tt_tokenizer.decode(gen, skip_special_tokens=True, clean_up_tokenization_spaces=True)
 def generate_tts(text, voice, finetuned=False):
     description = f"{voice} speaks in a neutral tone with clear audio."
     sentences = nltk.sent_tokenize(text)
     combined = np.concatenate(all_audio)
     return numpy_to_mp3(combined, tts_feature_extractor.sampling_rate)
 def pipeline(audio_path, source_language, target_language, voice, finetuned):
     text = transcribe_and_translate(audio_path, source_language, target_language)
     audio_bytes = generate_tts(text, voice, finetuned)
     return text, audio_bytes
 def build_ui():
     with gr.Blocks(css=CSS) as demo:
         gr.Markdown("# IndicSeamless + Parler-TTS Demo")
                 audio_out = gr.Audio(label="Synthesized Speech", format="mp3")
         run_btn.click(fn=pipeline, inputs=[audio_in, src, tgt, voice, finetune], outputs=[text_out, audio_out])
     return demo
 if __name__ == "__main__":
     ui = build_ui()
     ui.launch(share=True)