Spaces:

ixxan
/

uyghur-speech-models

Running

Irpan commited on Dec 25, 2024

Commit

499b2c1

1 Parent(s): c492cbb

asr

Files changed (3) hide show

asr.py CHANGED Viewed

@@ -13,13 +13,13 @@ import util
 # Load processor and model
 models_info = {
-    "OpenAI-Whisper-Uzbek": {
         "processor": WhisperProcessor.from_pretrained("openai/whisper-small", language="uzbek", task="transcribe"),
         "model": AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-small"),
         "ctc_model": False,
         "arabic_script": False
     },
-    "Meta-MMS-Uyghur": {
         "processor": AutoProcessor.from_pretrained("facebook/mms-1b-all", target_lang='uig-script_arabic'),
         "model": AutoModelForCTC.from_pretrained("facebook/mms-1b-all", target_lang='uig-script_arabic', ignore_mismatched_sizes=True),
         "ctc_model": True,
@@ -63,10 +63,10 @@ def transcribe(audio_data, model_id) -> str:
     else:
         return "<<ERROR: Invalid Audio Input Instance: {}>>".format(type(audio_data)), None
-    # Check audio duration
-    duration = audio_input.shape[1] / sampling_rate
-    if duration > 10:
-        return f"<<ERROR: Audio duration ({duration:.2f}s) exceeds 10 seconds. Please upload a shorter audio clip for faster processing.>>", None
     model = models_info[model_id]["model"]
     processor = models_info[model_id]["processor"]

 # Load processor and model
 models_info = {
+    "OpenAI-Whisper": {
         "processor": WhisperProcessor.from_pretrained("openai/whisper-small", language="uzbek", task="transcribe"),
         "model": AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-small"),
         "ctc_model": False,
         "arabic_script": False
     },
+    "Meta-MMS": {
         "processor": AutoProcessor.from_pretrained("facebook/mms-1b-all", target_lang='uig-script_arabic'),
         "model": AutoModelForCTC.from_pretrained("facebook/mms-1b-all", target_lang='uig-script_arabic', ignore_mismatched_sizes=True),
         "ctc_model": True,
     else:
         return "<<ERROR: Invalid Audio Input Instance: {}>>".format(type(audio_data)), None
+    # # Check audio duration
+    # duration = audio_input.shape[1] / sampling_rate
+    # if duration > 10:
+    #     return f"<<ERROR: Audio duration ({duration:.2f}s) exceeds 10 seconds. Please upload a shorter audio clip for faster processing.>>", None
     model = models_info[model_id]["model"]
     processor = models_info[model_id]["processor"]

tts.py CHANGED Viewed

@@ -49,8 +49,8 @@ text2speech.spc2wav = None  ### disable griffin-lim
 def synthesize(text, model_id):
     print(text)
-    if len(text) > 200:
-        raise ValueError(f"Input text exceeds 200 characters. Please provide a shorter input text for faster processing.")
     if model_id == 'IS2AI-TurkicTTS':
         return synthesize_turkic_tts(text)

 def synthesize(text, model_id):
     print(text)
+    # if len(text) > 200:
+    #     raise ValueError(f"Input text exceeds 200 characters. Please provide a shorter input text for faster processing.")
     if model_id == 'IS2AI-TurkicTTS':
         return synthesize_turkic_tts(text)

util.py CHANGED Viewed

@@ -4,14 +4,25 @@ from umsc import UgMultiScriptConverter
 ug_arab_to_latn = UgMultiScriptConverter('UAS', 'ULS')
 ug_latn_to_arab = UgMultiScriptConverter('ULS', 'UAS')
-asr_examples = [['examples/1.wav', 'ixxan/wav2vec2-large-mms-1b-uyghur-latin'],
-                ['examples/2.wav', 'ixxan/wav2vec2-large-mms-1b-uyghur-latin']]
 tts_examples = [
-    ["قىلىچ قان تامغۇزسا، بەگ ئەل ئالىدۇ؛ قەلەمدىن سىياھتانسا، ئالتۇن كېلىدۇ.", "Meta-MMS"],
     ["قىلىچ قان تامغۇزسا، بەگ ئەل ئالىدۇ؛ قەلەمدىن سىياھتانسا، ئالتۇن كېلىدۇ.", "IS2AI-TurkicTTS"],
-    ["Bu putbol musabiqisining axirlishishi", "Meta-MMS"],
-    ["Bu putbol musabiqisining axirlishishi", "IS2AI-TurkicTTS"],
     ["Yaxshimusiz?", "Meta-MMS"],
-    ["Yaxshimusiz?", "IS2AI-TurkicTTS"]
 ]

 ug_arab_to_latn = UgMultiScriptConverter('UAS', 'ULS')
 ug_latn_to_arab = UgMultiScriptConverter('ULS', 'UAS')
+asr_examples = [
+    ['examples/1.wav', 'OpenAI-Whisper'],
+    ['examples/1.wav', 'Meta-MMS'],
+    ['examples/1.wav', 'Ixxan-FineTuned-Whisper'],
+    ['examples/1.wav', 'Ixxan-FineTuned-MMS'],
+    ['examples/2.wav', 'OpenAI-Whisper'],
+    ['examples/2.wav', 'Meta-MMS'],
+    ['examples/2.wav', 'Ixxan-FineTuned-Whisper'],
+    ['examples/2.wav', 'Ixxan-FineTuned-MMS']
+]
 tts_examples = [
     ["قىلىچ قان تامغۇزسا، بەگ ئەل ئالىدۇ؛ قەلەمدىن سىياھتانسا، ئالتۇن كېلىدۇ.", "IS2AI-TurkicTTS"],
+    ["قىلىچ قان تامغۇزسا، بەگ ئەل ئالىدۇ؛ قەلەمدىن سىياھتانسا، ئالتۇن كېلىدۇ.", "Meta-MMS"],
+    ["قىلىچ قان تامغۇزسا، بەگ ئەل ئالىدۇ؛ قەلەمدىن سىياھتانسا، ئالتۇن كېلىدۇ.", "Ixxan-FineTuned-MMS"],
+    ["Bu putbol musabiqisining axirlishishi bilen, bu musabiqe pesli axirlashti.", "IS2AI-TurkicTTS"],
+    ["Bu putbol musabiqisining axirlishishi bilen, bu musabiqe pesli axirlashti.", "Meta-MMS"],
+    ["Bu putbol musabiqisining axirlishishi bilen, bu musabiqe pesli axirlashti.", "Ixxan-FineTuned-MMS"],
+    ["Yaxshimusiz?", "IS2AI-TurkicTTS"],
     ["Yaxshimusiz?", "Meta-MMS"],
+    ["Yaxshimusiz?", "Ixxan-FineTuned-MMS"]
 ]