nielsr HF Staff commited on
Commit
2aa8f1a
·
verified ·
1 Parent(s): 73932a3

Add link to paper and project page

Browse files

This PR adds a link to the paper [GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training](https://huggingface.co/papers/2505.24581) and the project page to the model card.

Files changed (1) hide show
  1. README.md +49 -48
README.md CHANGED
@@ -6,6 +6,7 @@ datasets:
6
  language:
7
  - ar
8
  library_name: sentence-transformers
 
9
  metrics:
10
  - pearson_cosine
11
  - spearman_cosine
@@ -28,15 +29,45 @@ tags:
28
  - loss:SoftmaxLoss
29
  - loss:CosineSimilarityLoss
30
  - transformers
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
31
  model-index:
32
  - name: Omartificial-Intelligence-Space/GATE-AraBert-v1
33
  results:
34
- - dataset:
35
- config: ar-ar
 
36
  name: MTEB STS17 (ar-ar)
37
- revision: faeb762787bd10488a50c8b5be4a3b82e411949c
38
- split: test
39
  type: mteb/sts17-crosslingual-sts
 
 
 
40
  metrics:
41
  - type: cosine_pearson
42
  value: 82.06597171670848
@@ -52,14 +83,14 @@ model-index:
52
  value: 78.95407006608013
53
  - type: manhattan_spearman
54
  value: 81.15109493737467
55
- task:
56
  type: STS
57
- - dataset:
58
- config: ar
59
  name: MTEB STS22.v2 (ar)
60
- revision: d31f33a128469b20e357535c39b82fb3c3f6f2bd
61
- split: test
62
  type: mteb/sts22-crosslingual-sts
 
 
 
63
  metrics:
64
  - type: cosine_pearson
65
  value: 54.912880452465004
@@ -75,14 +106,14 @@ model-index:
75
  value: 58.0736648155273
76
  - type: manhattan_spearman
77
  value: 62.94190582776664
78
- task:
79
  type: STS
80
- - dataset:
81
- config: ar
82
  name: MTEB STS22 (ar)
83
- revision: de9d86b3b84231dc21f76c7b7af1f28e2f57f6e3
84
- split: test
85
  type: mteb/sts22-crosslingual-sts
 
 
 
86
  metrics:
87
  - type: cosine_pearson
88
  value: 51.72534929358701
@@ -98,42 +129,13 @@ model-index:
98
  value: 54.076675975406985
99
  - type: manhattan_spearman
100
  value: 59.610061143235725
101
- task:
102
- type: STS
103
- widget:
104
- - source_sentence: امرأة تكتب شيئاً
105
- sentences:
106
- - مراهق يتحدث إلى فتاة عبر كاميرا الإنترنت
107
- - امرأة تقطع البصل الأخضر.
108
- - مجموعة من كبار السن يتظاهرون حول طاولة الطعام.
109
- - source_sentence: تتشكل النجوم في مناطق تكوين النجوم، والتي تنشأ نفسها من السحب الجزيئية.
110
- sentences:
111
- - لاعب كرة السلة على وشك تسجيل نقاط لفريقه.
112
- - المقال التالي مأخوذ من نسختي من "أطلس البطريق الجديد للتاريخ الوسطى"
113
- - قد يكون من الممكن أن يوجد نظام شمسي مثل نظامنا خارج المجرة
114
- - source_sentence: >-
115
- تحت السماء الزرقاء مع الغيوم البيضاء، يصل طفل لمس مروحة طائرة واقفة على حقل
116
- من العشب.
117
- sentences:
118
- - امرأة تحمل كأساً
119
- - طفل يحاول لمس مروحة طائرة
120
- - اثنان من عازبين عن الشرب يستعدون للعشاء
121
- - source_sentence: رجل في منتصف العمر يحلق لحيته في غرفة ذات جدران بيضاء والتي لا تبدو كحمام
122
- sentences:
123
- - فتى يخطط اسمه على مكتبه
124
- - رجل ينام
125
- - المرأة وحدها وهي نائمة في غرفة نومه��
126
- - source_sentence: الكلب البني مستلقي على جانبه على سجادة بيج، مع جسم أخضر في المقدمة.
127
- sentences:
128
- - شخص طويل القامة
129
- - المرأة تنظر من النافذة.
130
- - لقد مات الكلب
131
- license: apache-2.0
132
  ---
133
 
134
  # GATE-AraBert-V1
135
 
136
- This is **GATE | General Arabic Text Embedding** trained using SentenceTransformers in a **multi-task** setup. The system trains on the **AllNLI** and on the **STS** dataset.
 
 
137
 
138
  ## Model Details
139
 
@@ -238,5 +240,4 @@ If you use the GATE, please cite it as follows:
238
  note={Submitted to COLING 2025},
239
  url={https://huggingface.co/Omartificial-Intelligence-Space/GATE-AraBert-v1},
240
  }
241
-
242
-
 
6
  language:
7
  - ar
8
  library_name: sentence-transformers
9
+ license: apache-2.0
10
  metrics:
11
  - pearson_cosine
12
  - spearman_cosine
 
29
  - loss:SoftmaxLoss
30
  - loss:CosineSimilarityLoss
31
  - transformers
32
+ widget:
33
+ - source_sentence: امرأة تكتب شيئاً
34
+ sentences:
35
+ - مراهق يتحدث إلى فتاة عبر كاميرا الإنترنت
36
+ - امرأة تقطع البصل الأخضر.
37
+ - مجموعة من كبار السن يتظاهرون حول طاولة الطعام.
38
+ - source_sentence: تتشكل النجوم في مناطق تكوين النجوم، والتي تنشأ نفسها من السحب الجزيئية.
39
+ sentences:
40
+ - لاعب كرة السلة على وشك تسجيل نقاط لفريقه.
41
+ - المقال التالي مأخوذ من نسختي من "أطلس البطريق الجديد للتاريخ الوسطى"
42
+ - قد يكون من الممكن أن يوجد نظام شمسي مثل نظامنا خارج المجرة
43
+ - source_sentence: تحت السماء الزرقاء مع الغيوم البيضاء، يصل طفل لمس مروحة طائرة واقفة
44
+ على حقل من العشب.
45
+ sentences:
46
+ - امرأة تحمل كأساً
47
+ - طفل يحاول لمس مروحة طائرة
48
+ - اثنان من عازبين عن الشرب يستعدون للعشاء
49
+ - source_sentence: رجل في منتصف العمر يحلق لحيته في غرفة ذات جدران بيضاء والتي لا
50
+ تبدو كحمام
51
+ sentences:
52
+ - فتى يخطط اسمه على مكتبه
53
+ - رجل ينام
54
+ - المرأة وحدها وهي نائمة في غرفة نومها
55
+ - source_sentence: الكلب البني مستلقي على جانبه على سجادة بيج، مع جسم أخضر في المقدمة.
56
+ sentences:
57
+ - شخص طويل القامة
58
+ - المرأة تنظر من النافذة.
59
+ - لقد مات الكلب
60
  model-index:
61
  - name: Omartificial-Intelligence-Space/GATE-AraBert-v1
62
  results:
63
+ - task:
64
+ type: STS
65
+ dataset:
66
  name: MTEB STS17 (ar-ar)
 
 
67
  type: mteb/sts17-crosslingual-sts
68
+ config: ar-ar
69
+ split: test
70
+ revision: faeb762787bd10488a50c8b5be4a3b82e411949c
71
  metrics:
72
  - type: cosine_pearson
73
  value: 82.06597171670848
 
83
  value: 78.95407006608013
84
  - type: manhattan_spearman
85
  value: 81.15109493737467
86
+ - task:
87
  type: STS
88
+ dataset:
 
89
  name: MTEB STS22.v2 (ar)
 
 
90
  type: mteb/sts22-crosslingual-sts
91
+ config: ar
92
+ split: test
93
+ revision: d31f33a128469b20e357535c39b82fb3c3f6f2bd
94
  metrics:
95
  - type: cosine_pearson
96
  value: 54.912880452465004
 
106
  value: 58.0736648155273
107
  - type: manhattan_spearman
108
  value: 62.94190582776664
109
+ - task:
110
  type: STS
111
+ dataset:
 
112
  name: MTEB STS22 (ar)
 
 
113
  type: mteb/sts22-crosslingual-sts
114
+ config: ar
115
+ split: test
116
+ revision: de9d86b3b84231dc21f76c7b7af1f28e2f57f6e3
117
  metrics:
118
  - type: cosine_pearson
119
  value: 51.72534929358701
 
129
  value: 54.076675975406985
130
  - type: manhattan_spearman
131
  value: 59.610061143235725
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
132
  ---
133
 
134
  # GATE-AraBert-V1
135
 
136
+ This is **GATE | General Arabic Text Embedding** trained using SentenceTransformers in a **multi-task** setup. The system trains on the **AllNLI** and on the **STS** dataset. It is described in detail in the paper [GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Hybrid Loss Training](https://huggingface.co/papers/2505.24581).
137
+
138
+ **Project page:** https://huggingface.co/collections/Omartificial-Intelligence-Space/arabic-matryoshka-embedding-models-666f764d3b570f44d7f77d4e
139
 
140
  ## Model Details
141
 
 
240
  note={Submitted to COLING 2025},
241
  url={https://huggingface.co/Omartificial-Intelligence-Space/GATE-AraBert-v1},
242
  }
243
+ ```