ai-forever
/

FRIDA

@@ -1547,24 +1547,25 @@ model-index:
       type: PairClassification
 license: mit
 language:
-  - ru
-  - en
 tags:
-  - mteb
-  - transformers
-  - sentence-transformers
 base_model: ai-forever/FRED-T5-1.7B
 ---
----
 # Model Card for FRIDA
-## FRIDA full-scaled finetuned retrieval model inspired by denoising architecture based on T5
 <figure>
   <img src="img.jpg">
 </figure>
-The FRIDA is a general text embedding model for Russian. The model is based on the encoder part of FRED-T5 (https://huggingface.co/ai-forever/FRED-T5-1.7B). It has been pre-trained on a Russian-English dataset and fine-tuned for improved performance on the target task.
-For more model details please refer to our [article](TODO).
 ## Usage
@@ -1575,7 +1576,7 @@ We use the following basic rules to choose a prefix:
 - `"paraphrase: "` prefix is for symmetric paraphrasing related tasks (STS, paraphrase mining, deduplication)
 - `"categorize: "` prefix is for asymmetric matching of document title and body (e.g. news, scientific papers, social posts)
 - `"categorize_sentiment: "` prefix is for any tasks that rely on sentiment features (e.g. hate, toxic, emotion)
-- `"categorize_topic: "` prefix is intended for tasks where you need to group texts by topic
 - `"categorize_entailment: "` prefix is for textual entailment task (NLI)
 To better tailor the model to your needs, you can fine-tune it with relevant high-quality Russian and English datasets.
@@ -1607,7 +1608,7 @@ inputs = [
     "paraphrase: Ярославским баням разрешили работать без посетителей",
     "categorize_entailment: Женщину спасают врачи.",
     "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
-    ]
 tokenizer = AutoTokenizer.from_pretrained("ai-forever/FRIDA")
 model = T5EncoderModel.from_pretrained("ai-forever/FRIDA")
@@ -1626,7 +1627,7 @@ embeddings = pool(
 embeddings = F.normalize(embeddings, p=2, dim=1)
 sim_scores = embeddings[:3] @ embeddings[3:].T
 print(sim_scores.diag().tolist())
-# [0.4796873927116394, 0.9409002065658569, 0.7761015892028809]
 ```
 ### SentenceTransformers
@@ -1643,7 +1644,7 @@ inputs = [
     "paraphrase: Ярославским баням разрешили работать без посетителей",
     "categorize_entailment: Женщину спасают врачи.",
     "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
-    ]
 # loads model with CLS pooling
 model = SentenceTransformer("ai-forever/FRIDA")
@@ -1653,7 +1654,7 @@ embeddings = model.encode(inputs, convert_to_tensor=True)
 sim_scores = embeddings[:3] @ embeddings[3:].T
 print(sim_scores.diag().tolist())
-# [0.47968706488609314, 0.940900444984436, 0.7761018872261047]
 ```
 or using prompts (sentence-transformers>=2.4.0):
@@ -1665,19 +1666,19 @@ from sentence_transformers import SentenceTransformer
 model = SentenceTransformer("ai-forever/FRIDA")
 paraphrase = model.encode(["В Ярославской области разрешили работу бань, но без посетителей", "Ярославским баням разрешили работать без посетителей"], prompt_name="paraphrase")
-print(paraphrase[0] @ paraphrase[1].T) # 0.47968706488609314
 categorize_entailment = model.encode(["Женщину доставили в больницу, за ее жизнь сейчас борются врачи.", "Женщину спасают врачи."], prompt_name="categorize_entailment")
-print(categorize_entailment[0] @ categorize_entailment[1].T) # 0.940900444984436
 query_embedding = model.encode("Сколько программистов нужно, чтобы вкрутить лампочку?", prompt_name="search_query")
 document_embedding = model.encode("Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.", prompt_name="search_document")
-print(query_embedding @ document_embedding.T) # 0.7761018872261047
 ```
-+ # Authors
 + [SaluteDevices](https://sberdevices.ru/) AI for B2C RnD Team.
-+ Artem Snegirev: [HF profile](https://huggingface.co/artemsnegirev);
 + Anna Maksimova [HF profile](https://huggingface.co/anpalmak);
 + Aleksandr Abramov: [HF profile](https://huggingface.co/Andrilko), [Github](https://github.com/Ab1992ao), [Kaggle Competitions Master](https://www.kaggle.com/andrilko)

       type: PairClassification
 license: mit
 language:
+- ru
+- en
 tags:
+- mteb
+- transformers
+- sentence-transformers
 base_model: ai-forever/FRED-T5-1.7B
+pipeline_tag: feature-extraction
 ---
 # Model Card for FRIDA
 <figure>
   <img src="img.jpg">
 </figure>
+FRIDA is a full-scale finetuned general text embedding model inspired by denoising architecture based on T5. The model is based on the encoder part of [FRED-T5](https://arxiv.org/abs/2309.10931) model and continues research of text embedding models ([ruMTEB](https://arxiv.org/abs/2408.12503), [ru-en-RoSBERTa](https://huggingface.co/ai-forever/ru-en-RoSBERTa)). It has been pre-trained on a Russian-English dataset and fine-tuned for improved performance on the target task.
+For more model details please refer to our technical report [TODO].
 ## Usage
 - `"paraphrase: "` prefix is for symmetric paraphrasing related tasks (STS, paraphrase mining, deduplication)
 - `"categorize: "` prefix is for asymmetric matching of document title and body (e.g. news, scientific papers, social posts)
 - `"categorize_sentiment: "` prefix is for any tasks that rely on sentiment features (e.g. hate, toxic, emotion)
+- `"categorize_topic: "` prefix is intended for tasks where you need to group texts by topic
 - `"categorize_entailment: "` prefix is for textual entailment task (NLI)
 To better tailor the model to your needs, you can fine-tune it with relevant high-quality Russian and English datasets.
     "paraphrase: Ярославским баням разрешили работать без посетителей",
     "categorize_entailment: Женщину спасают врачи.",
     "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
+]
 tokenizer = AutoTokenizer.from_pretrained("ai-forever/FRIDA")
 model = T5EncoderModel.from_pretrained("ai-forever/FRIDA")
 embeddings = F.normalize(embeddings, p=2, dim=1)
 sim_scores = embeddings[:3] @ embeddings[3:].T
 print(sim_scores.diag().tolist())
+# [0.9360030293464661, 0.8591322302818298, 0.728583037853241]
 ```
 ### SentenceTransformers
     "paraphrase: Ярославским баням разрешили работать без посетителей",
     "categorize_entailment: Женщину спасают врачи.",
     "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
+]
 # loads model with CLS pooling
 model = SentenceTransformer("ai-forever/FRIDA")
 sim_scores = embeddings[:3] @ embeddings[3:].T
 print(sim_scores.diag().tolist())
+# [0.9360026717185974, 0.8591331243515015, 0.7285830974578857]
 ```
 or using prompts (sentence-transformers>=2.4.0):
 model = SentenceTransformer("ai-forever/FRIDA")
 paraphrase = model.encode(["В Ярославской области разрешили работу бань, но без посетителей", "Ярославским баням разрешили работать без посетителей"], prompt_name="paraphrase")
+print(paraphrase[0] @ paraphrase[1].T) # 0.9360032
 categorize_entailment = model.encode(["Женщину доставили в больницу, за ее жизнь сейчас борются врачи.", "Женщину спасают врачи."], prompt_name="categorize_entailment")
+print(categorize_entailment[0] @ categorize_entailment[1].T) # 0.8591322
 query_embedding = model.encode("Сколько программистов нужно, чтобы вкрутить лампочку?", prompt_name="search_query")
 document_embedding = model.encode("Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.", prompt_name="search_document")
+print(query_embedding @ document_embedding.T) # 0.7285831
 ```
+## Authors
 + [SaluteDevices](https://sberdevices.ru/) AI for B2C RnD Team.
++ Artem Snegirev: [HF profile](https://huggingface.co/artemsnegirev), [Github](https://github.com/artemsnegirev);
 + Anna Maksimova [HF profile](https://huggingface.co/anpalmak);
 + Aleksandr Abramov: [HF profile](https://huggingface.co/Andrilko), [Github](https://github.com/Ab1992ao), [Kaggle Competitions Master](https://www.kaggle.com/andrilko)