Spaces:

Luigi
/

Whisper-vs-Sensevoice-Small

Runtime error

Luigi commited on Jun 2

Commit

b71a9e5

1 Parent(s): 2dc5e25

apply gain normalization to each segment we input to whisper

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import tempfile
 import torch
 import gradio as gr
 from faster_whisper import BatchedInferencePipeline, WhisperModel
-from pydub import AudioSegment
 from pyannote.audio import Pipeline as DiarizationPipeline
 import opencc
@@ -164,6 +164,7 @@ def _transcribe_fwhisper_cpu_stream(model_id, language, audio_path, whisper_mult
         end_ms = int(turn.end * 1000)
         segment = AudioSegment.from_file(audio_path)[start_ms:end_ms]
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
             segment.export(tmp.name, format="wav")
             segments, _ = pipe.transcribe(
                 tmp.name,
@@ -205,6 +206,7 @@ def _transcribe_fwhisper_gpu_stream(model_id, language, audio_path, whisper_mult
         end_ms = int(turn.end * 1000)
         segment = AudioSegment.from_file(audio_path)[start_ms:end_ms]
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
             segment.export(tmp.name, format="wav")
             segments, _ = pipe.transcribe(
                 tmp.name,

 import torch
 import gradio as gr
 from faster_whisper import BatchedInferencePipeline, WhisperModel
+from pydub import AudioSegment, effects
 from pyannote.audio import Pipeline as DiarizationPipeline
 import opencc
         end_ms = int(turn.end * 1000)
         segment = AudioSegment.from_file(audio_path)[start_ms:end_ms]
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
+            segment = effects.normalize(segment)
             segment.export(tmp.name, format="wav")
             segments, _ = pipe.transcribe(
                 tmp.name,
         end_ms = int(turn.end * 1000)
         segment = AudioSegment.from_file(audio_path)[start_ms:end_ms]
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
+            segment = effects.normalize(segment)
             segment.export(tmp.name, format="wav")
             segments, _ = pipe.transcribe(
                 tmp.name,