MoYoYoTech
/

Translator

daihui.zhang commited on Apr 15

Commit

0a036e5

1 Parent(s): 2c5a26c

drop anly puncation audio chunk in analysis

Files changed (1) hide show

transcribe/strategy.py CHANGED Viewed

@@ -76,10 +76,15 @@ class TranscriptChunk:
         # 每个切分点向后移一个索引，表示“分隔符归前段”
         cut_points = [0] + sorted(i + 1 for i in indexes) + [len(self.items)]
-        return [
             TranscriptChunk(items=self.items[start:end], separator=self.separator)
             for start, end in zip(cut_points, cut_points[1:])
         ]
     def get_split_first_rest(self,  mode: SplitMode):
@@ -109,6 +114,9 @@ class TranscriptChunk:
         logger.debug(f"Compare: {self.join()} vs {chunk.join()} : {score}")
         return score
     def has_punctuation(self) -> bool:
         return any(seg.is_punctuation() for seg in self.items)

         # 每个切分点向后移一个索引，表示“分隔符归前段”
         cut_points = [0] + sorted(i + 1 for i in indexes) + [len(self.items)]
+        chunks =  [
             TranscriptChunk(items=self.items[start:end], separator=self.separator)
             for start, end in zip(cut_points, cut_points[1:])
         ]
+        return [
+            ck
+            for ck in chunks
+            if not ck.only_punctuation()
+        ]
     def get_split_first_rest(self,  mode: SplitMode):
         logger.debug(f"Compare: {self.join()} vs {chunk.join()} : {score}")
         return score
+    def only_punctuation(self)->bool:
+        return all(seg.is_punctuation() for seg in self.items)
     def has_punctuation(self) -> bool:
         return any(seg.is_punctuation() for seg in self.items)