Spaces:

rohanmiriyala
/

Audio_Translate

Running

App Files Files Community

rohanmiriyala commited on Jul 21

Commit

bb3697e

verified ·

1 Parent(s): 22824ee

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -30

app.py CHANGED Viewed

@@ -56,15 +56,16 @@ description_tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-large")
 tts_feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
 # Voice options - example speakers
-VOICES = [
-    "Sunita", "Suresh", "Aditi", "Prakash", "Rohit", "Anjali", "Jaya"
-]
-# Custom CSS for visual styling
 CSS = '''
-body { background-color: #f9fafb; }
-.gradio-container { max-width: 900px; margin: auto; padding: 20px; }
-.step-box { background: #ffffff; border-radius: 12px; padding: 16px; margin-bottom: 12px; box-shadow: 0 2px 8px rgba(0,0,0,0.1); }
 '''
 # Helpers
@@ -74,10 +75,8 @@ def numpy_to_mp3(audio_array, sampling_rate):
         audio_array = (audio_array / max_val) * 32767
         audio_array = audio_array.astype(np.int16)
     segment = AudioSegment(
-        audio_array.tobytes(),
-        frame_rate=sampling_rate,
-        sample_width=audio_array.dtype.itemsize,
-        channels=1
     )
     mp3_io = io.BytesIO()
     segment.export(mp3_io, format="mp3", bitrate="320k")
@@ -90,8 +89,7 @@ def transcribe_and_translate(audio_path, source_language, target_language):
     inputs = feature_extractor(wav, sampling_rate=SAMPLE_RATE, return_tensors="pt").to(DEVICE, DTYPE)
     tgt = LANGUAGE_NAME_TO_CODE[target_language]
     gen = stt_model.generate(**inputs, tgt_lang=tgt)[0]
-    text = tt_tokenizer.decode(gen, skip_special_tokens=True, clean_up_tokenization_spaces=True)
-    return text
 # TTS generation
 def generate_tts(text, voice, finetuned=False):
@@ -117,40 +115,34 @@ def generate_tts(text, voice, finetuned=False):
     combined = np.concatenate(all_audio)
     return numpy_to_mp3(combined, tts_feature_extractor.sampling_rate)
-# Combined pipeline to reduce duplicate STT calls
 def pipeline(audio_path, source_language, target_language, voice, finetuned):
     text = transcribe_and_translate(audio_path, source_language, target_language)
     audio_bytes = generate_tts(text, voice, finetuned)
     return text, audio_bytes
 # Gradio UI
 def build_ui():
     with gr.Blocks(css=CSS) as demo:
-        gr.Markdown("🎙️ AUDIO TRANSLATION 🎙️")
-        # Usage Steps
-        with gr.Column():
-            gr.HTML("<div class='step-box'><strong>Step 1:</strong> Upload or record your audio clip.</div>")
-            gr.HTML("<div class='step-box'><strong>Step 2:</strong> Select the source and target languages.</div>")
-            gr.HTML("<div class='step-box'><strong>Step 3:</strong> Choose a voice persona.</div>")
-            gr.HTML("<div class='step-box'><strong>Step 4:</strong> (Optional) Toggle fine-tuned TTS for more natural speech.</div>")
-            gr.HTML("<div class='step-box'><strong>Step 5:</strong> Click <em>Run</em> and view your text & audio results on the right.</div>")
         with gr.Row():
-            with gr.Column(scale=1):
                 audio_in = gr.Audio(label="Input Audio", type="filepath")
                 src = gr.Dropdown(ASR_TARGET_LANGUAGE_NAMES, label="Source Language", value="English")
                 tgt = gr.Dropdown(S2TT_TARGET_LANGUAGE_NAMES, label="Target Language", value="English")
                 voice = gr.Dropdown(VOICES, label="Voice Persona", value=VOICES[0])
                 finetune = gr.Checkbox(label="Use Fine-tuned TTS", value=False)
                 run_btn = gr.Button("Run", variant="primary")
-            with gr.Column(scale=1):
                 text_out = gr.Textbox(label="Translated Text")
                 audio_out = gr.Audio(label="Synthesized Speech", format="mp3")
-        run_btn.click(
-            fn=pipeline,
-            inputs=[audio_in, src, tgt, voice, finetune],
-            outputs=[text_out, audio_out]
-        )
     return demo
 if __name__ == "__main__":

 tts_feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
 # Voice options - example speakers
+VOICES = ["Sunita", "Suresh", "Aditi", "Prakash", "Rohit", "Anjali", "Jaya"]
+# Dark theme CSS
 CSS = '''
+body { background-color: #1e1e2f; color: #ececec; }
+.gradio-container { max-width: 1000px; margin: auto; padding: 20px; }
+.left-panel { width: 40%; background: #252538; padding: 20px; border-radius: 8px; }
+.right-panel { width: 58%; }
+.gradio-row { display: flex; gap: 2%; }
+.gradio-row .column { display: inline-block; vertical-align: top; }
 '''
 # Helpers
         audio_array = (audio_array / max_val) * 32767
         audio_array = audio_array.astype(np.int16)
     segment = AudioSegment(
+        audio_array.tobytes(), frame_rate=sampling_rate,
+        sample_width=audio_array.dtype.itemsize, channels=1
     )
     mp3_io = io.BytesIO()
     segment.export(mp3_io, format="mp3", bitrate="320k")
     inputs = feature_extractor(wav, sampling_rate=SAMPLE_RATE, return_tensors="pt").to(DEVICE, DTYPE)
     tgt = LANGUAGE_NAME_TO_CODE[target_language]
     gen = stt_model.generate(**inputs, tgt_lang=tgt)[0]
+    return tt_tokenizer.decode(gen, skip_special_tokens=True, clean_up_tokenization_spaces=True)
 # TTS generation
 def generate_tts(text, voice, finetuned=False):
     combined = np.concatenate(all_audio)
     return numpy_to_mp3(combined, tts_feature_extractor.sampling_rate)
+# Pipeline
 def pipeline(audio_path, source_language, target_language, voice, finetuned):
     text = transcribe_and_translate(audio_path, source_language, target_language)
     audio_bytes = generate_tts(text, voice, finetuned)
     return text, audio_bytes
 # Gradio UI
 def build_ui():
     with gr.Blocks(css=CSS) as demo:
+        gr.Markdown("# IndicSeamless + Parler-TTS Demo")
         with gr.Row():
+            with gr.Column(elem_classes="left-panel column"):
+                gr.Markdown("**How to Use:**")
+                gr.Markdown("1. Upload or record your audio clip.")
+                gr.Markdown("2. Select source & target languages.")
+                gr.Markdown("3. Choose a voice persona.")
+                gr.Markdown("4. (Optional) Toggle fine-tuned TTS.")
+                gr.Markdown("5. Click **Run** to see text & hear speech.")
+            with gr.Column(elem_classes="right-panel column"):
                 audio_in = gr.Audio(label="Input Audio", type="filepath")
                 src = gr.Dropdown(ASR_TARGET_LANGUAGE_NAMES, label="Source Language", value="English")
                 tgt = gr.Dropdown(S2TT_TARGET_LANGUAGE_NAMES, label="Target Language", value="English")
                 voice = gr.Dropdown(VOICES, label="Voice Persona", value=VOICES[0])
                 finetune = gr.Checkbox(label="Use Fine-tuned TTS", value=False)
                 run_btn = gr.Button("Run", variant="primary")
                 text_out = gr.Textbox(label="Translated Text")
                 audio_out = gr.Audio(label="Synthesized Speech", format="mp3")
+        run_btn.click(fn=pipeline, inputs=[audio_in, src, tgt, voice, finetune], outputs=[text_out, audio_out])
     return demo
 if __name__ == "__main__":