MoYoYoTech
/

Translator

Model card Files Files and versions

daihui.zhang commited on Apr 22

Commit

bdb9da4

·

1 Parent(s): d3badad

fix bug of loss segemnts

Files changed (2) hide show

config.py +1 -1
transcribe/pipelines/pipe_vad.py +3 -3

config.py CHANGED Viewed

@@ -21,7 +21,7 @@ console_handler.setFormatter(console_formatter)
 logging.getLogger().addHandler(console_handler)
 # 文字输出长度阈值
-TEXT_THREHOLD = 16
 BASE_DIR = pathlib.Path(__file__).parent
 MODEL_DIR = BASE_DIR / "moyoyo_asr_models"

 logging.getLogger().addHandler(console_handler)
 # 文字输出长度阈值
+TEXT_THREHOLD = 6
 BASE_DIR = pathlib.Path(__file__).parent
 MODEL_DIR = BASE_DIR / "moyoyo_asr_models"

transcribe/pipelines/pipe_vad.py CHANGED Viewed

@@ -62,15 +62,15 @@ class VadPipe(BasePipe):
         if speech_data: # 表示有音频的变化点出现
             rel_start_frame, rel_end_frame = speech_data
-            if rel_start_frame and not rel_end_frame:
                 self._status = "START" # 语音开始
                 target_audio = source_audio[rel_start_frame:]
                 logging.debug("🫸 Speech start frame: {}".format(rel_start_frame))
-            elif not rel_start_frame and rel_end_frame:
                 self._status = "END" # 音频结束
                 target_audio = source_audio[:rel_end_frame]
                 logging.debug(" 🫷Speech ended, capturing audio up to frame: {}".format(rel_end_frame))
-            elif rel_start_frame and rel_end_frame:
                 self._status = 'END'
                 target_audio = source_audio[rel_start_frame:rel_end_frame]
                 logging.debug(" 🔄 Speech segment captured from frame {} to frame {}".format(rel_start_frame, rel_end_frame))

         if speech_data: # 表示有音频的变化点出现
             rel_start_frame, rel_end_frame = speech_data
+            if rel_start_frame is not None and rel_end_frame is None:
                 self._status = "START" # 语音开始
                 target_audio = source_audio[rel_start_frame:]
                 logging.debug("🫸 Speech start frame: {}".format(rel_start_frame))
+            elif rel_start_frame is None and rel_end_frame is not None:
                 self._status = "END" # 音频结束
                 target_audio = source_audio[:rel_end_frame]
                 logging.debug(" 🫷Speech ended, capturing audio up to frame: {}".format(rel_end_frame))
+            elif rel_start_frame is not None and rel_end_frame is not None:
                 self._status = 'END'
                 target_audio = source_audio[rel_start_frame:rel_end_frame]
                 logging.debug(" 🔄 Speech segment captured from frame {} to frame {}".format(rel_start_frame, rel_end_frame))