cuadron11 commited on
Commit
56557b2
·
verified ·
1 Parent(s): 2c7ea21

Add new CrossEncoder model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,400 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - cross-encoder
5
+ - reranker
6
+ - generated_from_trainer
7
+ - dataset_size:189534
8
+ - loss:BinaryCrossEntropyLoss
9
+ base_model: jinaai/jina-reranker-v2-base-multilingual
10
+ pipeline_tag: text-ranking
11
+ library_name: sentence-transformers
12
+ metrics:
13
+ - map
14
+ - mrr@10
15
+ - ndcg@10
16
+ model-index:
17
+ - name: CrossEncoder based on jinaai/jina-reranker-v2-base-multilingual
18
+ results:
19
+ - task:
20
+ type: cross-encoder-reranking
21
+ name: Cross Encoder Reranking
22
+ dataset:
23
+ name: jina reranker v2 base multilingual binary 50 bopv
24
+ type: jina-reranker-v2-base-multilingual-binary_50_bopv
25
+ metrics:
26
+ - type: map
27
+ value: 0.0082
28
+ name: Map
29
+ - type: mrr@10
30
+ value: 0.0082
31
+ name: Mrr@10
32
+ - type: ndcg@10
33
+ value: 0.0082
34
+ name: Ndcg@10
35
+ ---
36
+
37
+ # CrossEncoder based on jinaai/jina-reranker-v2-base-multilingual
38
+
39
+ This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [jinaai/jina-reranker-v2-base-multilingual](https://huggingface.co/jinaai/jina-reranker-v2-base-multilingual) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
40
+
41
+ ## Model Details
42
+
43
+ ### Model Description
44
+ - **Model Type:** Cross Encoder
45
+ - **Base model:** [jinaai/jina-reranker-v2-base-multilingual](https://huggingface.co/jinaai/jina-reranker-v2-base-multilingual) <!-- at revision eed787badf7784e1a25c0eaa428627c8cbef511e -->
46
+ - **Maximum Sequence Length:** 1024 tokens
47
+ - **Number of Output Labels:** 1 label
48
+ <!-- - **Training Dataset:** Unknown -->
49
+ <!-- - **Language:** Unknown -->
50
+ <!-- - **License:** Unknown -->
51
+
52
+ ### Model Sources
53
+
54
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
55
+ - **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
56
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
57
+ - **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
58
+
59
+ ## Usage
60
+
61
+ ### Direct Usage (Sentence Transformers)
62
+
63
+ First install the Sentence Transformers library:
64
+
65
+ ```bash
66
+ pip install -U sentence-transformers
67
+ ```
68
+
69
+ Then you can load this model and run inference.
70
+ ```python
71
+ from sentence_transformers import CrossEncoder
72
+
73
+ # Download from the 🤗 Hub
74
+ model = CrossEncoder("cuadron11/jina-reranker-v2-base-multilingual-binary_50_bopv")
75
+ # Get scores for pairs of texts
76
+ pairs = [
77
+ ['Zein dira Arratiako Zulaibar Lanbide Ikastegiak 2022-2023 ikasturtean eskaintzen dituen heziketa-zikloak?', '«Arratiako Zulaibar Lanbide Ikastegia» ikastetxe pribatuaren ordezkariak hasarazitako espedientea aztertu da, zeinean eskatzen baitu baimena alda dakiola Lanbide Heziketako heziketa-ziklo berri bat emateko.\nEspediente horren izapideak araudiak ezarritako prozedura jarraituz egin dira; gainera, indarrean dauden arauek eskatzen dituzten agiriak erantsi zaizkio eta arlo horretan eskumena duten erakundeek egin diote txostena.\nArau hauek ikusi dira: apirilaren 3ko 332/1992 Errege Dekretua, araubide orokorreko unibertsitateaz kanpoko irakaskuntzak eskaintzeko baimenak ikastetxe pribatuei emateari buruzkoa (apirilaren 9ko BOE), apirilaren 3ko 332/1992 Errege Dekretua aldatzen duen otsailaren 12ko 131/2020 Errege Dekretua (martxoaren 12ko BOE); 1147/2011 Errege Dekretua, uztailaren 29koa (uztailaren 30eko BOE), hezkuntza-sistemako lanbide-heziketaren antolamendu orokorra ezartzen duena; azaroaren 4ko 1581/2011 Errege Dekretua (abenduaren 15eko BOE), zeinaren bidez Automatizazioa eta Robotika Industriala goi-mailako teknikariaren titulua ezartzen den eta haren gutxieneko irakaskuntzak finkatzen diren eta azaroaren 27ko 254/2012 Dekretua, (otsailaren 25eko EHAA), zeinaren bidez ezartzen den aipaturiko tituluari dagokion curriculuma; uztailaren 13ko 1074/2012 Errege Dekretua (abuztuaren 15eko BOE), zeinaren bidez Gizarteratzea goi-mailako teknikariaren titulua ezartzen den eta haren gutxieneko irakaskuntzak finkatzen diren eta apirilaren 15eko 63/2014 Dekretua, (maiatzaren 23ko EHAA), zeinaren bidez Euskal Autonomia Erkidegoan ezartzen den aipaturiko tituluari dagokion curriculuma eta gai horretan aplikatu beharreko gainerako legeak. Horiek horrela, honako hau\nEBAZTEN DUT\n:\n1. artikulua\nOndoren deskribatzen den ikastetxe pribatuaren baimena aldatzen da 2022-2023 ikasturterako:\nKode zenbakia: 48003990 eta 014723.\nIzen generikoa: Lanbide Heziketako Ikastetxe Pribatu Integratua.'],
78
+ ['Zein dira Arratiako Zulaibar Lanbide Ikastegiak 2022-2023 ikasturtean eskaintzen dituen heziketa-zikloak?', 'Adingabeen Erantzukizun Penala arautzen duen urtarrilaren 12ko 5/2000 Lege Organikoan xedatutakoaren arabera, Euskal Autonomia Erkidegoari dagokio, bere lurralde-eremuan, adingabeen epaitegiek beren epai irmoetan ezarritako neurriak betearaztea. Horretarako, zerbitzu, erakunde eta programa egokiak sortu, zuzendu, antolatu eta kudeatuko ditu, hartara bermatzeko lege horretan aurreikusitako neurriak behar bezala betearazten direla.\nLege horren 45.3 artikuluan aurreikusten denez, Euskal Autonomia Erkidegoak lankidetza-hitzarmenak edo -akordioak egin ahal izango ditu irabazi-asmorik gabeko erakunde pribatuekin, bere eskumenekoak diren neurriak betearazteko, zuzenean gainbegiratuta. Dena dela, horrek ez du esan nahi betearazpen horren ondoriozko titulartasuna eta erantzukizuna lagako direnik.\nLehendakariaren irailaren 6ko 18/2020 Dekretuak (Euskal Autonomia Erkidegoaren Administrazioko sailak sortu, ezabatu eta aldatzen dituenak eta horien egitekoak eta jardun-arloak finkatzen dituenak) 13.1 artikuluan ezarritakoaren arabera, Berdintasun, Justizia eta Gizarte Politiketako Sailari honako eginkizun hauek dagozkio, besteak beste: Botere Judizialarekiko harremanak zaintzea; Justizia Administrazioaren jardunerako baliabideak jartzea; eta adingabe arau-hausleen arloko eskumenak baliatzea, adingabea babesteko eskumena duten gainerako organo eta administrazioekin lankidetzan.'],
79
+ ['Zein dira Arratiako Zulaibar Lanbide Ikastegiak 2022-2023 ikasturtean eskaintzen dituen heziketa-zikloak?', 'Diru-laguntzen programa honen kudeaketan aplikagarria izango den diru-laguntzen erregimen juridikoa honako xedapen hauetan dago jasota: azaroaren 11ko 1/1997 Legegintzako Dekretuak onartutako Euskadiko Ogasun Nagusiaren Antolarauei buruzko Legearen Testu Bategineko VI. Tituluan eta VII. Tituluko III. Kapituluan eta abenduaren 17ko 698/1991 Dekretuan, azken horrek arautu baitzuen Euskal Autonomia Erkidegoaren Aurrekontu Orokorren kargurako diru-laguntzen bermeen eta itzulketen araubide orokorra eta bertan ezarri baitziren horien kudeaketan parte hartzen duten erakunde laguntzaileen eskakizunak, araubidea eta betebeharrak.\nHirugarrena. Lanbide-Euskal Enplegu Zerbitzuko zuzendari nagusiari agintzea erabaki honen berri jakinarazi dezan Euskal Herriko Agintaritzaren Aldizkarian.\n(Ikus .PDF)'],
80
+ ['Zein dira Arratiako Zulaibar Lanbide Ikastegiak 2022-2023 ikasturtean eskaintzen dituen heziketa-zikloak?', 'Laguntzen guztizko bolumenak ez du gaindituko aipatu zenbatekoa edo, indarreko legeriaz bat aurrekontu-aldaketak onartzen badira, zenbateko hori eguneratzetik ateratzen dena. Eguneratzerik izango balitz, horren berri argitara eman beharko litzateke EHAAn, Lanbide-Euskal Enplegu Zerbitzuko zuzendari nagusiaren ebazpen bidez eman ere.\nBigarrena. Diru-laguntza horien kudeaketari buruzko alderdi hauen gaineko informazioa ematea (alderdi horietan eragina izango du Euskal Autonomia Erkidegoko diru-laguntzen antolakuntzakoeta erregimen juridikoko araudiak zuzenean aplikatzeak):\nEbazpen honetan aipatzen diren diru-laguntzak jasotzeko eskabideak eredu ofizialean aurkeztu beharko dira. Deialdi honen eranskinean ageri da eredu hori, eta honako toki hauetan ere eskuratu ahal izango da: http://www.lanbide.net web-orrian; Lanbide-Euskal Enplegu Zerbitzuaren zerbitzu zentraletan (Jose Atxotegi kalea 1, 01009 Vitoria-Gasteiz); eta Lanbide-Euskal Enplegu Zerbitzuaren lurraldeetako enplegu-bulegoetan.\nHorretaz gain, eskaerak Herri Administrazioen Araubide Juridikoaren eta Administrazio Prozedura Erkidearen 30/1992 Legearen 38.4 artikuluan aurreikusitako moduetako edozeinetan aurkeztu ahal izango dira.\nLanbide-Euskal Enplegu Zerbitzuaren Lan Aktibazio Zuzendaritzak hartuko du bere gain eskabideak kudeatzeko eta izapidetzeko ardura, eta Lanbide erakunde autonomoko zuzendari nagusiak izango du ebazteko eskumena.\nEbazteko, gehienez sei hilabeteko epea izango da, diru-laguntza jasotzeko eskaera aurkezten den egunaz geroztik, eta epe hori igarotakoan ebazpenik eman ez bada, eskaera administrazio-isiltasunaren bidez baietsi dela hartuko da kontuan.\nZuzendari nagusiaren ebazpenak amaiera ematen dio administrazio-bideari, eta, beraren aurka, berraztertze-errekurtsoa aurkeztu ahal izango zaio organo horri, hilabeteko epean, ebazpena jakinarazi eta biharamunetik aurrera; bestela, zuzenean, administrazioarekiko auzi-errekurtsoa aurkez daiteke, Gasteizko Administrazioarekiko Auzietako Epaitegian, bi hilabeteko epean, ebazpena jakinarazi eta biharamunetik aurrera.'],
81
+ ['Zein dira Arratiako Zulaibar Lanbide Ikastegiak 2022-2023 ikasturtean eskaintzen dituen heziketa-zikloak?', 'Lan eta Gizarte Segurantza Ministerioaren 1994ko apirilaren 13ko Aginduak indarraldi mugagabea dauka. Bestalde, laguntza horiek emateko prozeduran, ez da lehiaketaren teknika erabiltzen. Esleitutako aurrekontu-kreditua, edo haren eguneratzetik sortzen dena, izango da laguntzak emateko muga, berariaz hala ezarrita baitago aginduaren lehenengo xedapen iragankorrean.\nHori dela-eta, diru-laguntzak emateko prozeduran errespetatu behar den publikotasun-printzipioa betez, eta Euskadiko Ogasun Nagusiaren Antolarauei buruzko Legearen Testu Bategina onartzen duen azaroaren 11ko 1/1997 Legegintzako Dekretuaren 49. artikuluaren 1. eta 2. paragrafoetan xedatutakoarekin bat etorriz, jakinarazi egin behar da zein den aipatutako aginduan aurreikusitako laguntzak finantzatzeko esleitutako kredituen zenbateko osoa, bai eta zenbateko hori eguneratzetik sor litekeen zenbatekoa ere.\nBestalde, diru-laguntza horiek kudeatzen dituen Administrazioa aldatu dela kontuan hartuta, publikotasunaren eta segurtasun juridikoaren printzipioak errespetatzeko, komeni da laguntzenonuradun izan daitezkeenei informazioa ematea, diru-laguntzen prozedurarekin eta aplikatu beharrekoerregimen juridikoarekin zerikusia duten alderdi jakin batzuei buruz.\nHorregatik guztiagatik, Lanbide-Euskal Enplegu Zerbitzuko Administrazio Kontseiluak, 2013ko apirilaren 22ko bilkuran proposamena aztertu ondoren, honako erabaki hau hartu du,\nERABAKIA\nLehenengoa. 500.000 euroko diru-baliabideak esleitzea, 3211-Enplegua programaren kargura, 1994ko apirilaren 13ko Aginduan aurreikusitako laguntzak finantzatzeko. Izan ere, aipatu aginduak arautu zuen Gizarte Segurantzako kuoten ordainketan oinarritutako diru-laguntzak ematea ekainaren 19ko 1044/1985 Errege Dekretuaren 1. artikuluan ezarritako eskubidea baliatzen dutenei, betiere Errege Dekretu horren 4.2 artikuluanezarritakoari jarraikiz.'],
82
+ ]
83
+ scores = model.predict(pairs)
84
+ print(scores.shape)
85
+ # (5,)
86
+
87
+ # Or rank different texts based on similarity to a single text
88
+ ranks = model.rank(
89
+ 'Zein dira Arratiako Zulaibar Lanbide Ikastegiak 2022-2023 ikasturtean eskaintzen dituen heziketa-zikloak?',
90
+ [
91
+ '«Arratiako Zulaibar Lanbide Ikastegia» ikastetxe pribatuaren ordezkariak hasarazitako espedientea aztertu da, zeinean eskatzen baitu baimena alda dakiola Lanbide Heziketako heziketa-ziklo berri bat emateko.\nEspediente horren izapideak araudiak ezarritako prozedura jarraituz egin dira; gainera, indarrean dauden arauek eskatzen dituzten agiriak erantsi zaizkio eta arlo horretan eskumena duten erakundeek egin diote txostena.\nArau hauek ikusi dira: apirilaren 3ko 332/1992 Errege Dekretua, araubide orokorreko unibertsitateaz kanpoko irakaskuntzak eskaintzeko baimenak ikastetxe pribatuei emateari buruzkoa (apirilaren 9ko BOE), apirilaren 3ko 332/1992 Errege Dekretua aldatzen duen otsailaren 12ko 131/2020 Errege Dekretua (martxoaren 12ko BOE); 1147/2011 Errege Dekretua, uztailaren 29koa (uztailaren 30eko BOE), hezkuntza-sistemako lanbide-heziketaren antolamendu orokorra ezartzen duena; azaroaren 4ko 1581/2011 Errege Dekretua (abenduaren 15eko BOE), zeinaren bidez Automatizazioa eta Robotika Industriala goi-mailako teknikariaren titulua ezartzen den eta haren gutxieneko irakaskuntzak finkatzen diren eta azaroaren 27ko 254/2012 Dekretua, (otsailaren 25eko EHAA), zeinaren bidez ezartzen den aipaturiko tituluari dagokion curriculuma; uztailaren 13ko 1074/2012 Errege Dekretua (abuztuaren 15eko BOE), zeinaren bidez Gizarteratzea goi-mailako teknikariaren titulua ezartzen den eta haren gutxieneko irakaskuntzak finkatzen diren eta apirilaren 15eko 63/2014 Dekretua, (maiatzaren 23ko EHAA), zeinaren bidez Euskal Autonomia Erkidegoan ezartzen den aipaturiko tituluari dagokion curriculuma eta gai horretan aplikatu beharreko gainerako legeak. Horiek horrela, honako hau\nEBAZTEN DUT\n:\n1. artikulua\nOndoren deskribatzen den ikastetxe pribatuaren baimena aldatzen da 2022-2023 ikasturterako:\nKode zenbakia: 48003990 eta 014723.\nIzen generikoa: Lanbide Heziketako Ikastetxe Pribatu Integratua.',
92
+ 'Adingabeen Erantzukizun Penala arautzen duen urtarrilaren 12ko 5/2000 Lege Organikoan xedatutakoaren arabera, Euskal Autonomia Erkidegoari dagokio, bere lurralde-eremuan, adingabeen epaitegiek beren epai irmoetan ezarritako neurriak betearaztea. Horretarako, zerbitzu, erakunde eta programa egokiak sortu, zuzendu, antolatu eta kudeatuko ditu, hartara bermatzeko lege horretan aurreikusitako neurriak behar bezala betearazten direla.\nLege horren 45.3 artikuluan aurreikusten denez, Euskal Autonomia Erkidegoak lankidetza-hitzarmenak edo -akordioak egin ahal izango ditu irabazi-asmorik gabeko erakunde pribatuekin, bere eskumenekoak diren neurriak betearazteko, zuzenean gainbegiratuta. Dena dela, horrek ez du esan nahi betearazpen horren ondoriozko titulartasuna eta erantzukizuna lagako direnik.\nLehendakariaren irailaren 6ko 18/2020 Dekretuak (Euskal Autonomia Erkidegoaren Administrazioko sailak sortu, ezabatu eta aldatzen dituenak eta horien egitekoak eta jardun-arloak finkatzen dituenak) 13.1 artikuluan ezarritakoaren arabera, Berdintasun, Justizia eta Gizarte Politiketako Sailari honako eginkizun hauek dagozkio, besteak beste: Botere Judizialarekiko harremanak zaintzea; Justizia Administrazioaren jardunerako baliabideak jartzea; eta adingabe arau-hausleen arloko eskumenak baliatzea, adingabea babesteko eskumena duten gainerako organo eta administrazioekin lankidetzan.',
93
+ 'Diru-laguntzen programa honen kudeaketan aplikagarria izango den diru-laguntzen erregimen juridikoa honako xedapen hauetan dago jasota: azaroaren 11ko 1/1997 Legegintzako Dekretuak onartutako Euskadiko Ogasun Nagusiaren Antolarauei buruzko Legearen Testu Bategineko VI. Tituluan eta VII. Tituluko III. Kapituluan eta abenduaren 17ko 698/1991 Dekretuan, azken horrek arautu baitzuen Euskal Autonomia Erkidegoaren Aurrekontu Orokorren kargurako diru-laguntzen bermeen eta itzulketen araubide orokorra eta bertan ezarri baitziren horien kudeaketan parte hartzen duten erakunde laguntzaileen eskakizunak, araubidea eta betebeharrak.\nHirugarrena. Lanbide-Euskal Enplegu Zerbitzuko zuzendari nagusiari agintzea erabaki honen berri jakinarazi dezan Euskal Herriko Agintaritzaren Aldizkarian.\n(Ikus .PDF)',
94
+ 'Laguntzen guztizko bolumenak ez du gaindituko aipatu zenbatekoa edo, indarreko legeriaz bat aurrekontu-aldaketak onartzen badira, zenbateko hori eguneratzetik ateratzen dena. Eguneratzerik izango balitz, horren berri argitara eman beharko litzateke EHAAn, Lanbide-Euskal Enplegu Zerbitzuko zuzendari nagusiaren ebazpen bidez eman ere.\nBigarrena. Diru-laguntza horien kudeaketari buruzko alderdi hauen gaineko informazioa ematea (alderdi horietan eragina izango du Euskal Autonomia Erkidegoko diru-laguntzen antolakuntzakoeta erregimen juridikoko araudiak zuzenean aplikatzeak):\nEbazpen honetan aipatzen diren diru-laguntzak jasotzeko eskabideak eredu ofizialean aurkeztu beharko dira. Deialdi honen eranskinean ageri da eredu hori, eta honako toki hauetan ere eskuratu ahal izango da: http://www.lanbide.net web-orrian; Lanbide-Euskal Enplegu Zerbitzuaren zerbitzu zentraletan (Jose Atxotegi kalea 1, 01009 Vitoria-Gasteiz); eta Lanbide-Euskal Enplegu Zerbitzuaren lurraldeetako enplegu-bulegoetan.\nHorretaz gain, eskaerak Herri Administrazioen Araubide Juridikoaren eta Administrazio Prozedura Erkidearen 30/1992 Legearen 38.4 artikuluan aurreikusitako moduetako edozeinetan aurkeztu ahal izango dira.\nLanbide-Euskal Enplegu Zerbitzuaren Lan Aktibazio Zuzendaritzak hartuko du bere gain eskabideak kudeatzeko eta izapidetzeko ardura, eta Lanbide erakunde autonomoko zuzendari nagusiak izango du ebazteko eskumena.\nEbazteko, gehienez sei hilabeteko epea izango da, diru-laguntza jasotzeko eskaera aurkezten den egunaz geroztik, eta epe hori igarotakoan ebazpenik eman ez bada, eskaera administrazio-isiltasunaren bidez baietsi dela hartuko da kontuan.\nZuzendari nagusiaren ebazpenak amaiera ematen dio administrazio-bideari, eta, beraren aurka, berraztertze-errekurtsoa aurkeztu ahal izango zaio organo horri, hilabeteko epean, ebazpena jakinarazi eta biharamunetik aurrera; bestela, zuzenean, administrazioarekiko auzi-errekurtsoa aurkez daiteke, Gasteizko Administrazioarekiko Auzietako Epaitegian, bi hilabeteko epean, ebazpena jakinarazi eta biharamunetik aurrera.',
95
+ 'Lan eta Gizarte Segurantza Ministerioaren 1994ko apirilaren 13ko Aginduak indarraldi mugagabea dauka. Bestalde, laguntza horiek emateko prozeduran, ez da lehiaketaren teknika erabiltzen. Esleitutako aurrekontu-kreditua, edo haren eguneratzetik sortzen dena, izango da laguntzak emateko muga, berariaz hala ezarrita baitago aginduaren lehenengo xedapen iragankorrean.\nHori dela-eta, diru-laguntzak emateko prozeduran errespetatu behar den publikotasun-printzipioa betez, eta Euskadiko Ogasun Nagusiaren Antolarauei buruzko Legearen Testu Bategina onartzen duen azaroaren 11ko 1/1997 Legegintzako Dekretuaren 49. artikuluaren 1. eta 2. paragrafoetan xedatutakoarekin bat etorriz, jakinarazi egin behar da zein den aipatutako aginduan aurreikusitako laguntzak finantzatzeko esleitutako kredituen zenbateko osoa, bai eta zenbateko hori eguneratzetik sor litekeen zenbatekoa ere.\nBestalde, diru-laguntza horiek kudeatzen dituen Administrazioa aldatu dela kontuan hartuta, publikotasunaren eta segurtasun juridikoaren printzipioak errespetatzeko, komeni da laguntzenonuradun izan daitezkeenei informazioa ematea, diru-laguntzen prozedurarekin eta aplikatu beharrekoerregimen juridikoarekin zerikusia duten alderdi jakin batzuei buruz.\nHorregatik guztiagatik, Lanbide-Euskal Enplegu Zerbitzuko Administrazio Kontseiluak, 2013ko apirilaren 22ko bilkuran proposamena aztertu ondoren, honako erabaki hau hartu du,\nERABAKIA\nLehenengoa. 500.000 euroko diru-baliabideak esleitzea, 3211-Enplegua programaren kargura, 1994ko apirilaren 13ko Aginduan aurreikusitako laguntzak finantzatzeko. Izan ere, aipatu aginduak arautu zuen Gizarte Segurantzako kuoten ordainketan oinarritutako diru-laguntzak ematea ekainaren 19ko 1044/1985 Errege Dekretuaren 1. artikuluan ezarritako eskubidea baliatzen dutenei, betiere Errege Dekretu horren 4.2 artikuluanezarritakoari jarraikiz.',
96
+ ]
97
+ )
98
+ # [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
99
+ ```
100
+
101
+ <!--
102
+ ### Direct Usage (Transformers)
103
+
104
+ <details><summary>Click to see the direct usage in Transformers</summary>
105
+
106
+ </details>
107
+ -->
108
+
109
+ <!--
110
+ ### Downstream Usage (Sentence Transformers)
111
+
112
+ You can finetune this model on your own dataset.
113
+
114
+ <details><summary>Click to expand</summary>
115
+
116
+ </details>
117
+ -->
118
+
119
+ <!--
120
+ ### Out-of-Scope Use
121
+
122
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
123
+ -->
124
+
125
+ ## Evaluation
126
+
127
+ ### Metrics
128
+
129
+ #### Cross Encoder Reranking
130
+
131
+ * Dataset: `jina-reranker-v2-base-multilingual-binary_50_bopv`
132
+ * Evaluated with [<code>CrossEncoderRerankingEvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CrossEncoderRerankingEvaluator) with these parameters:
133
+ ```json
134
+ {
135
+ "at_k": 10,
136
+ "always_rerank_positives": false
137
+ }
138
+ ```
139
+
140
+ | Metric | Value |
141
+ |:------------|:---------------------|
142
+ | map | 0.0082 (+0.0067) |
143
+ | mrr@10 | 0.0082 (+0.0070) |
144
+ | **ndcg@10** | **0.0082 (+0.0066)** |
145
+
146
+ <!--
147
+ ## Bias, Risks and Limitations
148
+
149
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
150
+ -->
151
+
152
+ <!--
153
+ ### Recommendations
154
+
155
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
156
+ -->
157
+
158
+ ## Training Details
159
+
160
+ ### Training Dataset
161
+
162
+ #### Unnamed Dataset
163
+
164
+ * Size: 189,534 training samples
165
+ * Columns: <code>query</code>, <code>answer</code>, and <code>label</code>
166
+ * Approximate statistics based on the first 1000 samples:
167
+ | | query | answer | label |
168
+ |:--------|:-------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------|:-----------------------------------------------|
169
+ | type | string | string | int |
170
+ | details | <ul><li>min: 30 characters</li><li>mean: 114.25 characters</li><li>max: 219 characters</li></ul> | <ul><li>min: 460 characters</li><li>mean: 1607.2 characters</li><li>max: 2183 characters</li></ul> | <ul><li>0: ~98.00%</li><li>1: ~2.00%</li></ul> |
171
+ * Samples:
172
+ | query | answer | label |
173
+ |:-----------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
174
+ | <code>Zein dira Arratiako Zulaibar Lanbide Ikastegiak 2022-2023 ikasturtean eskaintzen dituen heziketa-zikloak?</code> | <code>«Arratiako Zulaibar Lanbide Ikastegia» ikastetxe pribatuaren ordezkariak hasarazitako espedientea aztertu da, zeinean eskatzen baitu baimena alda dakiola Lanbide Heziketako heziketa-ziklo berri bat emateko.<br>Espediente horren izapideak araudiak ezarritako prozedura jarraituz egin dira; gainera, indarrean dauden arauek eskatzen dituzten agiriak erantsi zaizkio eta arlo horretan eskumena duten erakundeek egin diote txostena.<br>Arau hauek ikusi dira: apirilaren 3ko 332/1992 Errege Dekretua, araubide orokorreko unibertsitateaz kanpoko irakaskuntzak eskaintzeko baimenak ikastetxe pribatuei emateari buruzkoa (apirilaren 9ko BOE), apirilaren 3ko 332/1992 Errege Dekretua aldatzen duen otsailaren 12ko 131/2020 Errege Dekretua (martxoaren 12ko BOE); 1147/2011 Errege Dekretua, uztailaren 29koa (uztailaren 30eko BOE), hezkuntza-sistemako lanbide-heziketaren antolamendu orokorra ezartzen duena; azaroaren 4ko 1581/2011 Errege Dekretua (abenduaren 15eko BOE), zeinaren bidez Automatizazioa eta Robotika I...</code> | <code>1</code> |
175
+ | <code>Zein dira Arratiako Zulaibar Lanbide Ikastegiak 2022-2023 ikasturtean eskaintzen dituen heziketa-zikloak?</code> | <code>Adingabeen Erantzukizun Penala arautzen duen urtarrilaren 12ko 5/2000 Lege Organikoan xedatutakoaren arabera, Euskal Autonomia Erkidegoari dagokio, bere lurralde-eremuan, adingabeen epaitegiek beren epai irmoetan ezarritako neurriak betearaztea. Horretarako, zerbitzu, erakunde eta programa egokiak sortu, zuzendu, antolatu eta kudeatuko ditu, hartara bermatzeko lege horretan aurreikusitako neurriak behar bezala betearazten direla.<br>Lege horren 45.3 artikuluan aurreikusten denez, Euskal Autonomia Erkidegoak lankidetza-hitzarmenak edo -akordioak egin ahal izango ditu irabazi-asmorik gabeko erakunde pribatuekin, bere eskumenekoak diren neurriak betearazteko, zuzenean gainbegiratuta. Dena dela, horrek ez du esan nahi betearazpen horren ondoriozko titulartasuna eta erantzukizuna lagako direnik.<br>Lehendakariaren irailaren 6ko 18/2020 Dekretuak (Euskal Autonomia Erkidegoaren Administrazioko sailak sortu, ezabatu eta aldatzen dituenak eta horien egitekoak eta jardun-arloak finkatzen dituenak) 13....</code> | <code>0</code> |
176
+ | <code>Zein dira Arratiako Zulaibar Lanbide Ikastegiak 2022-2023 ikasturtean eskaintzen dituen heziketa-zikloak?</code> | <code>Diru-laguntzen programa honen kudeaketan aplikagarria izango den diru-laguntzen erregimen juridikoa honako xedapen hauetan dago jasota: azaroaren 11ko 1/1997 Legegintzako Dekretuak onartutako Euskadiko Ogasun Nagusiaren Antolarauei buruzko Legearen Testu Bategineko VI. Tituluan eta VII. Tituluko III. Kapituluan eta abenduaren 17ko 698/1991 Dekretuan, azken horrek arautu baitzuen Euskal Autonomia Erkidegoaren Aurrekontu Orokorren kargurako diru-laguntzen bermeen eta itzulketen araubide orokorra eta bertan ezarri baitziren horien kudeaketan parte hartzen duten erakunde laguntzaileen eskakizunak, araubidea eta betebeharrak.<br>Hirugarrena. Lanbide-Euskal Enplegu Zerbitzuko zuzendari nagusiari agintzea erabaki honen berri jakinarazi dezan Euskal Herriko Agintaritzaren Aldizkarian.<br>(Ikus .PDF)</code> | <code>0</code> |
177
+ * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
178
+ ```json
179
+ {
180
+ "activation_fn": "torch.nn.modules.linear.Identity",
181
+ "pos_weight": null
182
+ }
183
+ ```
184
+
185
+ ### Training Hyperparameters
186
+ #### Non-Default Hyperparameters
187
+
188
+ - `eval_strategy`: steps
189
+ - `per_device_train_batch_size`: 32
190
+ - `per_device_eval_batch_size`: 32
191
+ - `learning_rate`: 2e-05
192
+ - `warmup_ratio`: 0.1
193
+ - `load_best_model_at_end`: True
194
+ - `batch_sampler`: no_duplicates
195
+
196
+ #### All Hyperparameters
197
+ <details><summary>Click to expand</summary>
198
+
199
+ - `overwrite_output_dir`: False
200
+ - `do_predict`: False
201
+ - `eval_strategy`: steps
202
+ - `prediction_loss_only`: True
203
+ - `per_device_train_batch_size`: 32
204
+ - `per_device_eval_batch_size`: 32
205
+ - `per_gpu_train_batch_size`: None
206
+ - `per_gpu_eval_batch_size`: None
207
+ - `gradient_accumulation_steps`: 1
208
+ - `eval_accumulation_steps`: None
209
+ - `torch_empty_cache_steps`: None
210
+ - `learning_rate`: 2e-05
211
+ - `weight_decay`: 0.0
212
+ - `adam_beta1`: 0.9
213
+ - `adam_beta2`: 0.999
214
+ - `adam_epsilon`: 1e-08
215
+ - `max_grad_norm`: 1.0
216
+ - `num_train_epochs`: 3
217
+ - `max_steps`: -1
218
+ - `lr_scheduler_type`: linear
219
+ - `lr_scheduler_kwargs`: {}
220
+ - `warmup_ratio`: 0.1
221
+ - `warmup_steps`: 0
222
+ - `log_level`: passive
223
+ - `log_level_replica`: warning
224
+ - `log_on_each_node`: True
225
+ - `logging_nan_inf_filter`: True
226
+ - `save_safetensors`: True
227
+ - `save_on_each_node`: False
228
+ - `save_only_model`: False
229
+ - `restore_callback_states_from_checkpoint`: False
230
+ - `no_cuda`: False
231
+ - `use_cpu`: False
232
+ - `use_mps_device`: False
233
+ - `seed`: 42
234
+ - `data_seed`: None
235
+ - `jit_mode_eval`: False
236
+ - `use_ipex`: False
237
+ - `bf16`: False
238
+ - `fp16`: False
239
+ - `fp16_opt_level`: O1
240
+ - `half_precision_backend`: auto
241
+ - `bf16_full_eval`: False
242
+ - `fp16_full_eval`: False
243
+ - `tf32`: None
244
+ - `local_rank`: 0
245
+ - `ddp_backend`: None
246
+ - `tpu_num_cores`: None
247
+ - `tpu_metrics_debug`: False
248
+ - `debug`: []
249
+ - `dataloader_drop_last`: False
250
+ - `dataloader_num_workers`: 0
251
+ - `dataloader_prefetch_factor`: None
252
+ - `past_index`: -1
253
+ - `disable_tqdm`: False
254
+ - `remove_unused_columns`: True
255
+ - `label_names`: None
256
+ - `load_best_model_at_end`: True
257
+ - `ignore_data_skip`: False
258
+ - `fsdp`: []
259
+ - `fsdp_min_num_params`: 0
260
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
261
+ - `fsdp_transformer_layer_cls_to_wrap`: None
262
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
263
+ - `deepspeed`: None
264
+ - `label_smoothing_factor`: 0.0
265
+ - `optim`: adamw_torch
266
+ - `optim_args`: None
267
+ - `adafactor`: False
268
+ - `group_by_length`: False
269
+ - `length_column_name`: length
270
+ - `ddp_find_unused_parameters`: None
271
+ - `ddp_bucket_cap_mb`: None
272
+ - `ddp_broadcast_buffers`: False
273
+ - `dataloader_pin_memory`: True
274
+ - `dataloader_persistent_workers`: False
275
+ - `skip_memory_metrics`: True
276
+ - `use_legacy_prediction_loop`: False
277
+ - `push_to_hub`: False
278
+ - `resume_from_checkpoint`: None
279
+ - `hub_model_id`: None
280
+ - `hub_strategy`: every_save
281
+ - `hub_private_repo`: None
282
+ - `hub_always_push`: False
283
+ - `gradient_checkpointing`: False
284
+ - `gradient_checkpointing_kwargs`: None
285
+ - `include_inputs_for_metrics`: False
286
+ - `include_for_metrics`: []
287
+ - `eval_do_concat_batches`: True
288
+ - `fp16_backend`: auto
289
+ - `push_to_hub_model_id`: None
290
+ - `push_to_hub_organization`: None
291
+ - `mp_parameters`:
292
+ - `auto_find_batch_size`: False
293
+ - `full_determinism`: False
294
+ - `torchdynamo`: None
295
+ - `ray_scope`: last
296
+ - `ddp_timeout`: 1800
297
+ - `torch_compile`: False
298
+ - `torch_compile_backend`: None
299
+ - `torch_compile_mode`: None
300
+ - `include_tokens_per_second`: False
301
+ - `include_num_input_tokens_seen`: False
302
+ - `neftune_noise_alpha`: None
303
+ - `optim_target_modules`: None
304
+ - `batch_eval_metrics`: False
305
+ - `eval_on_start`: False
306
+ - `use_liger_kernel`: False
307
+ - `eval_use_gather_object`: False
308
+ - `average_tokens_across_devices`: False
309
+ - `prompts`: None
310
+ - `batch_sampler`: no_duplicates
311
+ - `multi_dataset_batch_sampler`: proportional
312
+ - `router_mapping`: {}
313
+ - `learning_rate_mapping`: {}
314
+
315
+ </details>
316
+
317
+ ### Training Logs
318
+ | Epoch | Step | Training Loss | jina-reranker-v2-base-multilingual-binary_50_bopv_ndcg@10 |
319
+ |:----------:|:-------:|:-------------:|:---------------------------------------------------------:|
320
+ | **0.0844** | **500** | **0.0945** | **0.0082 (+0.0066)** |
321
+ | 0.1688 | 1000 | 0.0386 | 0.0079 (+0.0062) |
322
+ | 0.2533 | 1500 | 0.034 | 0.0082 (+0.0066) |
323
+ | 0.3377 | 2000 | 0.0159 | 0.0082 (+0.0066) |
324
+ | 0.4221 | 2500 | 0.0129 | 0.0082 (+0.0066) |
325
+ | 0.5065 | 3000 | 0.0113 | 0.0082 (+0.0066) |
326
+ | 0.5909 | 3500 | 0.01 | 0.0082 (+0.0066) |
327
+ | 0.6753 | 4000 | 0.0089 | 0.0082 (+0.0066) |
328
+ | 0.7598 | 4500 | 0.0087 | 0.0082 (+0.0066) |
329
+ | 0.8442 | 5000 | 0.0095 | 0.0082 (+0.0066) |
330
+ | 0.9286 | 5500 | 0.0087 | 0.0082 (+0.0066) |
331
+ | 1.0130 | 6000 | 0.007 | 0.0082 (+0.0066) |
332
+ | 1.0974 | 6500 | 0.0087 | 0.0082 (+0.0066) |
333
+ | 1.1818 | 7000 | 0.0065 | 0.0082 (+0.0066) |
334
+ | 1.2663 | 7500 | 0.0095 | 0.0082 (+0.0066) |
335
+ | 1.3507 | 8000 | 0.0063 | 0.0082 (+0.0066) |
336
+ | 1.4351 | 8500 | 0.0082 | 0.0082 (+0.0066) |
337
+ | 1.5195 | 9000 | 0.0071 | 0.0082 (+0.0066) |
338
+ | 1.6039 | 9500 | 0.0073 | 0.0082 (+0.0066) |
339
+ | 1.6883 | 10000 | 0.0069 | 0.0082 (+0.0066) |
340
+ | 1.7728 | 10500 | 0.0064 | 0.0082 (+0.0066) |
341
+ | 1.8572 | 11000 | 0.0082 | 0.0082 (+0.0066) |
342
+ | 1.9416 | 11500 | 0.0078 | 0.0082 (+0.0066) |
343
+ | 2.0260 | 12000 | 0.0063 | 0.0082 (+0.0066) |
344
+ | 2.1104 | 12500 | 0.0068 | 0.0082 (+0.0066) |
345
+ | 2.1948 | 13000 | 0.0073 | 0.0082 (+0.0066) |
346
+ | 2.2793 | 13500 | 0.0094 | 0.0082 (+0.0066) |
347
+ | 2.3637 | 14000 | 0.0065 | 0.0082 (+0.0066) |
348
+ | 2.4481 | 14500 | 0.0064 | 0.0082 (+0.0066) |
349
+ | 2.5325 | 15000 | 0.0067 | 0.0082 (+0.0066) |
350
+ | 2.6169 | 15500 | 0.0067 | 0.0082 (+0.0066) |
351
+ | 2.7013 | 16000 | 0.0075 | 0.0082 (+0.0066) |
352
+ | 2.7858 | 16500 | 0.0101 | 0.0082 (+0.0066) |
353
+ | 2.8702 | 17000 | 0.0053 | 0.0082 (+0.0066) |
354
+ | 2.9546 | 17500 | 0.005 | 0.0082 (+0.0066) |
355
+
356
+ * The bold row denotes the saved checkpoint.
357
+
358
+ ### Framework Versions
359
+ - Python: 3.9.7
360
+ - Sentence Transformers: 5.0.0
361
+ - Transformers: 4.52.4
362
+ - PyTorch: 2.5.1+cu124
363
+ - Accelerate: 1.5.2
364
+ - Datasets: 4.0.0
365
+ - Tokenizers: 0.21.0
366
+
367
+ ## Citation
368
+
369
+ ### BibTeX
370
+
371
+ #### Sentence Transformers
372
+ ```bibtex
373
+ @inproceedings{reimers-2019-sentence-bert,
374
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
375
+ author = "Reimers, Nils and Gurevych, Iryna",
376
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
377
+ month = "11",
378
+ year = "2019",
379
+ publisher = "Association for Computational Linguistics",
380
+ url = "https://arxiv.org/abs/1908.10084",
381
+ }
382
+ ```
383
+
384
+ <!--
385
+ ## Glossary
386
+
387
+ *Clearly define terms in order to be accessible across audiences.*
388
+ -->
389
+
390
+ <!--
391
+ ## Model Card Authors
392
+
393
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
394
+ -->
395
+
396
+ <!--
397
+ ## Model Card Contact
398
+
399
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
400
+ -->
config.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "auto_map": {
7
+ "AutoConfig": "jinaai/jina-reranker-v2-base-multilingual--configuration_xlm_roberta.XLMRobertaFlashConfig",
8
+ "AutoModel": "jinaai/jina-reranker-v2-base-multilingual--modeling_xlm_roberta.XLMRobertaModel",
9
+ "AutoModelForSequenceClassification": "jinaai/jina-reranker-v2-base-multilingual--modeling_xlm_roberta.XLMRobertaForSequenceClassification"
10
+ },
11
+ "bos_token_id": 0,
12
+ "classifier_dropout": null,
13
+ "emb_pooler": null,
14
+ "eos_token_id": 2,
15
+ "hidden_act": "gelu",
16
+ "hidden_dropout_prob": 0.1,
17
+ "hidden_size": 768,
18
+ "id2label": {
19
+ "0": "LABEL_0"
20
+ },
21
+ "initializer_range": 0.02,
22
+ "intermediate_size": 3072,
23
+ "label2id": {
24
+ "LABEL_0": 0
25
+ },
26
+ "layer_norm_eps": 1e-05,
27
+ "load_trained_adapters": false,
28
+ "lora_adaptations": null,
29
+ "lora_alpha": 1,
30
+ "lora_dropout_p": 0.0,
31
+ "lora_main_params_trainable": false,
32
+ "lora_rank": 4,
33
+ "matryoshka_dimensions": null,
34
+ "max_position_embeddings": 1026,
35
+ "num_attention_heads": 12,
36
+ "num_hidden_layers": 12,
37
+ "output_past": true,
38
+ "pad_token_id": 1,
39
+ "position_embedding_type": "absolute",
40
+ "sentence_transformers": {
41
+ "activation_fn": "torch.nn.modules.activation.Sigmoid",
42
+ "version": "5.0.0"
43
+ },
44
+ "torch_dtype": "bfloat16",
45
+ "transformers_version": "4.52.4",
46
+ "truncate_dim": null,
47
+ "type_vocab_size": 1,
48
+ "use_cache": false,
49
+ "use_flash_attn": true,
50
+ "vocab_size": 250002
51
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6b9c2d5492d970a5a83482fe21421d68a7787b638cf885d7f00752f76c49f926
3
+ size 556892306
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e802fe5337779428818439760a1e6161ed36ceed72d4ebcbda9c139a2108fc99
3
+ size 17082988
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 1024,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizerFast",
54
+ "unk_token": "<unk>"
55
+ }