Adding `safetensors` variant of this model

by SFconvertbot - opened Aug 15

←

Files changed (6) hide show

README.md CHANGED Viewed

@@ -10,7 +10,6 @@ datasets:
 - mozilla-foundation/common_voice_8_0
 metrics:
 - wer
-- cer
 base_model: facebook/wav2vec2-xls-r-300m
 model-index:
 - name: wav2vec2-large-xls-r-300m-Urdu
@@ -30,7 +29,6 @@ model-index:
       value: 16.7
       name: Test CER
 new_version: kingabzpro/whisper-large-v3-turbo-urdu
-pipeline_tag: automatic-speech-recognition
 ---
@@ -56,8 +54,6 @@ python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-300m-Urdu --dataset mo
 ### Inference With LM
 ```python
-#pip install pyctcdecode kenlm
 from datasets import load_dataset, Audio
 from transformers import pipeline
 model = "kingabzpro/wav2vec2-large-xls-r-300m-Urdu"
@@ -65,18 +61,18 @@ data = load_dataset("mozilla-foundation/common_voice_8_0",
                      "ur",
                      split="test",
                      streaming=True,
-                     trust_remote_code=True)
-sample_iter = iter(data.cast_column("audio",
                     Audio(sampling_rate=16_000)))
 sample = next(sample_iter)
 asr = pipeline("automatic-speech-recognition", model=model)
-prediction = asr(sample["audio"]["array"],
                   chunk_length_s=5,
                   stride_length_s=1)
 prediction
-# => {'text': 'مزدور تے کہ علاوہ سرکاری اور کاروباری لوگ ن ڈرپجے کام شروع کرتے'}
 ```

 - mozilla-foundation/common_voice_8_0
 metrics:
 - wer
 base_model: facebook/wav2vec2-xls-r-300m
 model-index:
 - name: wav2vec2-large-xls-r-300m-Urdu
       value: 16.7
       name: Test CER
 new_version: kingabzpro/whisper-large-v3-turbo-urdu
 ---
 ### Inference With LM
 ```python
 from datasets import load_dataset, Audio
 from transformers import pipeline
 model = "kingabzpro/wav2vec2-large-xls-r-300m-Urdu"
                      "ur",
                      split="test",
                      streaming=True,
+                     use_auth_token=True)
+sample_iter = iter(data.cast_column("path",
                     Audio(sampling_rate=16_000)))
 sample = next(sample_iter)
 asr = pipeline("automatic-speech-recognition", model=model)
+prediction = asr(sample["path"]["array"],
                   chunk_length_s=5,
                   stride_length_s=1)
 prediction
+# => {'text': 'اب یہ ونگین لمحاتانکھار دلمیں میںفوث کریلیا اجائ'}
 ```

language_model/5gram.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a51741105f0d3b54ac8ede33500c8f80fcd6b03900080a45a5661ec8e58b776f
-size 165145481

language_model/unigrams.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9281f8afcaaff6f9774595749c225cf30ab5a7377644eed35079e46c6d770cfd
-size 1262041132

preprocessor_config.json CHANGED Viewed

@@ -1,10 +1,10 @@
-{
-  "do_normalize": true,
-  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
-  "feature_size": 1,
-  "padding_side": "right",
-  "padding_value": 0.0,
-  "processor_class": "Wav2Vec2ProcessorWithLM",
-  "return_attention_mask": true,
-  "sampling_rate": 16000
-}

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Wav2Vec2ProcessorWithLM",
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:dc727bffccba0121b0f32f9c8f5cb9e2f6fed08733925ad5fae6f9ce5c0de681
-size 1262157361