Spaces:

rohanmiriyala
/

Audio_Translate

Running

App Files Files Community

rohanmiriyala commited on Jul 21

Commit

46ad6e3

verified ·

1 Parent(s): 467303b

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -28

app.py CHANGED Viewed

@@ -51,16 +51,9 @@ tts_tokenizer = AutoTokenizer.from_pretrained(repo_id)
 description_tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-large")
 tts_feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
-VOICES = ["Sunita", "Suresh", "Aditi", "Prakash", "Rohit", "Anjali", "Jaya"]
-CSS = '''
-body { background-color: #1e1e2f; color: #ececec; }
-.gradio-container { max-width: 1000px; margin: auto; padding: 20px; }
-.left-panel { width: 40%; background: #252538; padding: 20px; border-radius: 8px; }
-.right-panel { width: 58%; }
-.gradio-row { display: flex; gap: 2%; }
-.gradio-row .column { display: inline-block; vertical-align: top; }
-'''
 def numpy_to_mp3(audio_array, sampling_rate):
     if np.issubdtype(audio_array.dtype, np.floating):
@@ -68,8 +61,10 @@ def numpy_to_mp3(audio_array, sampling_rate):
         audio_array = (audio_array / max_val) * 32767
         audio_array = audio_array.astype(np.int16)
     segment = AudioSegment(
-        audio_array.tobytes(), frame_rate=sampling_rate,
-        sample_width=audio_array.dtype.itemsize, channels=1
     )
     mp3_io = io.BytesIO()
     segment.export(mp3_io, format="mp3", bitrate="320k")
@@ -81,7 +76,8 @@ def transcribe_and_translate(audio_path, source_language, target_language):
     inputs = feature_extractor(wav, sampling_rate=SAMPLE_RATE, return_tensors="pt").to(DEVICE, DTYPE)
     tgt = LANGUAGE_NAME_TO_CODE[target_language]
     gen = stt_model.generate(**inputs, tgt_lang=tgt)[0]
-    return tt_tokenizer.decode(gen, skip_special_tokens=True, clean_up_tokenization_spaces=True)
 def generate_tts(text, voice, finetuned=False):
     description = f"{voice} speaks in a neutral tone with clear audio."
@@ -112,28 +108,34 @@ def pipeline(audio_path, source_language, target_language, voice, finetuned):
     return text, audio_bytes
 def build_ui():
-    with gr.Blocks(css=CSS) as demo:
-        gr.Markdown("# IndicSeamless + Parler-TTS Demo")
         with gr.Row():
-            with gr.Column(elem_classes="left-panel column"):
-                gr.Markdown("**How to Use:**")
-                gr.Markdown("1. Upload or record your audio clip.")
-                gr.Markdown("2. Select source & target languages.")
-                gr.Markdown("3. Choose a voice persona.")
-                gr.Markdown("4. (Optional) Toggle fine-tuned TTS.")
-                gr.Markdown("5. Click **Run** to see text & hear speech.")
-            with gr.Column(elem_classes="right-panel column"):
                 audio_in = gr.Audio(label="Input Audio", type="filepath")
                 src = gr.Dropdown(ASR_TARGET_LANGUAGE_NAMES, label="Source Language", value="English")
                 tgt = gr.Dropdown(S2TT_TARGET_LANGUAGE_NAMES, label="Target Language", value="English")
-                voice = gr.Dropdown(VOICES, label="Voice Persona", value=VOICES[0])
-                finetune = gr.Checkbox(label="Use Fine-tuned TTS", value=False)
-                run_btn = gr.Button("Run", variant="primary")
                 text_out = gr.Textbox(label="Translated Text")
                 audio_out = gr.Audio(label="Synthesized Speech", format="mp3")
-        run_btn.click(fn=pipeline, inputs=[audio_in, src, tgt, voice, finetune], outputs=[text_out, audio_out])
     return demo
 if __name__ == "__main__":
     ui = build_ui()
     ui.launch(share=True)

 description_tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-large")
 tts_feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
+VOICES = [
+    "Sunita", "Suresh", "Aditi", "Prakash", "Rohit", "Anjali", "Jaya"
+]
 def numpy_to_mp3(audio_array, sampling_rate):
     if np.issubdtype(audio_array.dtype, np.floating):
         audio_array = (audio_array / max_val) * 32767
         audio_array = audio_array.astype(np.int16)
     segment = AudioSegment(
+        audio_array.tobytes(),
+        frame_rate=sampling_rate,
+        sample_width=audio_array.dtype.itemsize,
+        channels=1
     )
     mp3_io = io.BytesIO()
     segment.export(mp3_io, format="mp3", bitrate="320k")
     inputs = feature_extractor(wav, sampling_rate=SAMPLE_RATE, return_tensors="pt").to(DEVICE, DTYPE)
     tgt = LANGUAGE_NAME_TO_CODE[target_language]
     gen = stt_model.generate(**inputs, tgt_lang=tgt)[0]
+    text = tt_tokenizer.decode(gen, skip_special_tokens=True, clean_up_tokenization_spaces=True)
+    return text
 def generate_tts(text, voice, finetuned=False):
     description = f"{voice} speaks in a neutral tone with clear audio."
     return text, audio_bytes
 def build_ui():
+    with gr.Blocks() as demo:
+        gr.Markdown("🎙AUDIO TRANSLATOR🎙")
+        gr.Markdown(" ")
+        gr.Markdown("How to Use:")
+        gr.Markdown("1. Upload or record your audio clip.")
+        gr.Markdown("2. Select source & target languages.")
+        gr.Markdown("3. Choose a voice persona.")
+        gr.Markdown("4. (Optional) Toggle fine-tuned TTS (for better speech).")
+        gr.Markdown("5. Click \"Run\" for translated text & speech.")
         with gr.Row():
+            with gr.Column():
                 audio_in = gr.Audio(label="Input Audio", type="filepath")
                 src = gr.Dropdown(ASR_TARGET_LANGUAGE_NAMES, label="Source Language", value="English")
                 tgt = gr.Dropdown(S2TT_TARGET_LANGUAGE_NAMES, label="Target Language", value="English")
+                voice = gr.Dropdown(VOICES, label="Voice", value=VOICES[0])
+                finetune = gr.Checkbox(label="Use Finetuned TTS", value=False)
+                run_btn = gr.Button("Run")
+            with gr.Column():
                 text_out = gr.Textbox(label="Translated Text")
                 audio_out = gr.Audio(label="Synthesized Speech", format="mp3")
+        run_btn.click(
+            fn=pipeline,
+            inputs=[audio_in, src, tgt, voice, finetune],
+            outputs=[text_out, audio_out]
+        )
     return demo
 if __name__ == "__main__":
     ui = build_ui()
     ui.launch(share=True)