SentenceTransformer based on dangvantuan/vietnamese-document-embedding
This is a sentence-transformers model finetuned from dangvantuan/vietnamese-document-embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: dangvantuan/vietnamese-document-embedding
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: VietnameseModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("phi010402/finetune-alqac-question-generation-2")
# Run inference
sentences = [
'Công dân có quyền lựa chọn nghề nghiệp như thế nào?',
'1. Công dân có quyền làm việc, lựa chọn nghề nghiệp, việc làm và nơi làm việc.\n\n2. Người làm công ăn lương được bảo đảm các điều kiện làm việc công bằng, an toàn; được hưởng lương, chế độ nghỉ ngơi.\n\n3. Nghiêm cấm phân biệt đối xử, cưỡng bức lao động, sử dụng nhân công dưới độ tuổi lao động tối thiểu.',
'Trách nhiệm đánh giá viên chức\n\n1. Người đứng đầu đơn vị sự nghiệp công lập có trách nhiệm tổ chức việc đánh giá viên chức thuộc thẩm quyền quản lý.\n\n2. Căn cứ vào điều kiện cụ thể, người đứng đầu đơn vị sự nghiệp công lập thực hiện việc đánh giá hoặc phân công, phân cấp việc đánh giá viên chức thuộc thẩm quyền quản lý. Người được giao thẩm quyền đánh giá viên chức phải chịu trách nhiệm trước người đứng đầu đơn vị sự nghiệp công lập về kết quả đánh giá.\n\n3. Người có thẩm quyền bổ nhiệm chịu trách nhiệm đánh giá viên chức quản lý trong đơn vị sự nghiệp công lập.\n\n4. Chính phủ quy định chi tiết trình tự, thủ tục đánh giá viên chức quy định tại Điều này.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 3,513 training samples
- Columns:
anchorandpositive - Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 8 tokens
- mean: 23.11 tokens
- max: 74 tokens
- min: 14 tokens
- mean: 269.81 tokens
- max: 3568 tokens
- Samples:
anchor positive Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường là căn cứ để cơ quan có thẩm quyền thực hiện việc cấp giấy phép khai thác khoáng sản đối với dự án đầu tư khai thác khoáng sản?Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường
1. Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường là một trong các căn cứ để cơ quan có thẩm quyền thực hiện các việc sau đây:
a) Cấp, điều chỉnh giấy phép khai thác khoáng sản đối với dự án đầu tư khai thác khoáng sản;
b) Phê duyệt kế hoạch thăm dò, kế hoạch phát triển mỏ đối với dự án đầu tư thăm dò, khai thác dầu khí;
c) Phê duyệt báo cáo nghiên cứu khả thi đối với dự án đầu tư theo phương thức đối tác công tư;
d) Kết luận thẩm định báo cáo nghiên cứu khả thi đối với dự án đầu tư xây dựng;
đ) Cấp giấy phép môi trường;
e) Cấp giấy phép nhận chìm ở biển; quyết định giao khu vực biển;
g) Quyết định đầu tư đối với dự án đầu tư không thuộc đối tượng quy định tại các điểm a, b, c, d, đ và e khoản này.
2. Trừ dự án đầu tư liên quan đến bí mật nhà nước, cơ quan thẩm định gửi quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường cho chủ dự án đầu tư và cơ qu...Các hành vi nào bị nghiêm cấm trong quá trình cung cấp thông tin?Các hành vi bị nghiêm cấm
1. Cố ý cung cấp thông tin sai lệch, không đầy đủ, trì hoãn việc cung cấp thông tin; hủy hoại thông tin; làm giả thông tin.
2. Cung cấp hoặc sử dụng thông tin để chống lại Nhà nước Cộng hòa xã hội chủ nghĩa Việt Nam, phá hoại chính sách đoàn kết, kích động bạo lực.
3. Cung cấp hoặc sử dụng thông tin nhằm xúc phạm danh dự, nhân phẩm, uy tín, gây kỳ thị về giới, gây thiệt hại về tài sản của cá nhân, cơ quan, tổ chức.
4. Cản trở, đe dọa, trù dập người yêu cầu, người cung cấp thông tin.Thời hạn công khai thông báo thụ lý vụ án của Tòa án là bao lâu kể từ ngày Tòa án thụ lý?Công khai thông tin về vụ án dân sự về bảo vệ quyền lợi người tiêu dùng vì lợi ích công cộng do tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng khởi kiện
1. Tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng khởi kiện vụ án dân sự về bảo vệ quyền lợi người tiêu dùng vì lợi ích công cộng có trách nhiệm công khai thông báo thụ lý vụ án của Tòa án về việc khởi kiện trong thời hạn 07 ngày làm việc kể từ ngày Tòa án thụ lý.
2. Việc công khai thông báo thụ lý vụ án được thực hiện bằng hình thức niêm yết tại trụ sở và đăng tải trên trang thông tin điện tử, phần mềm ứng dụng (nếu có) của tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng tối thiểu 15 ngày kể từ ngày niêm yết, đăng tải.
3. Trong thời hạn 07 ngày làm việc kể từ ngày kết thúc vụ án, tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng có trách nhiệm công khai kết quả giải quyết vụ án theo hình thức, thời hạn quy định tại khoản 2 Điều này. - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
Unnamed Dataset
- Size: 100 evaluation samples
- Columns:
anchorandpositive - Approximate statistics based on the first 100 samples:
anchor positive type string string details - min: 11 tokens
- mean: 23.62 tokens
- max: 57 tokens
- min: 27 tokens
- mean: 298.72 tokens
- max: 1338 tokens
- Samples:
anchor positive Hạ tầng bảo vệ môi trường của làng nghề bao gồm những gì?Bảo vệ môi trường làng nghề
1. Làng nghề phải có phương án bảo vệ môi trường, có tổ chức tự quản về bảo vệ môi trường và hạ tầng bảo vệ môi trường. Hạ tầng bảo vệ môi trường của làng nghề bao gồm:
a) Có hệ thống thu gom nước thải, nước mưa bảo đảm nhu cầu tiêu thoát nước của làng nghề;
b) Hệ thống thu gom, thoát nước và xử lý nước thải tập trung (nếu có) bảo đảm nước thải sau xử lý đáp ứng yêu cầu về bảo vệ môi trường;
c) Có điểm tập kết chất thải rắn đáp ứng yêu cầu kỹ thuật về bảo vệ môi trường; khu xử lý chất thải rắn (nếu có) bảo đảm quy định về quản lý chất thải rắn hoặc có phương án vận chuyển chất thải rắn đến khu xử lý chất thải rắn nằm ngoài địa bàn.
2. Cơ sở, hộ gia đình sản xuất trong làng nghề phải xây dựng và thực hiện biện pháp bảo vệ môi trường theo quy định của pháp luật; thực hiện biện pháp giảm thiểu tiếng ồn, độ rung, ánh sáng, bụi, bức xạ nhiệt, khí thải, nước thải và xử lý ô nhiễm tại chỗ; thu gom, phân loại, lưu giữ, xử lý chất thải rắn theo quy định của pháp...Công nhân nào được hưởng chính sách hỗ trợ về nhà lưu trú công nhân trong khu công nghiệp?Đối tượng được hưởng chính sách hỗ trợ về nhà lưu trú công nhân trong khu công nghiệp
1. Công nhân đang làm việc tại doanh nghiệp, hợp tác xã, liên hiệp hợp tác xã sản xuất trong khu công nghiệp.
2. Doanh nghiệp kinh doanh kết cấu hạ tầng khu công nghiệp; doanh nghiệp, hợp tác xã, liên hiệp hợp tác xã sản xuất trong khu công nghiệp đầu tư xây dựng nhà lưu trú công nhân.Khi nào Chủ tọa phiên tòa hỏi các bên có yêu cầu hỏi vấn đề gì nữa không?Kết thúc việc hỏi tại phiên tòa
Khi nhận thấy các tình tiết của vụ án đã được xem xét đầy đủ thì Chủ tọa phiên tòa hỏi Kiểm sát viên, đương sự, người bảo vệ quyền và lợi ích hợp pháp của đương sự và những người tham gia tố tụng khác xem họ có yêu cầu hỏi vấn đề gì nữa không; trường hợp có người yêu cầu và xét thấy yêu cầu đó là có căn cứ thì Chủ tọa phiên tòa quyết định tiếp tục việc hỏi. - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 4per_device_eval_batch_size: 4num_train_epochs: 6warmup_ratio: 0.1fp16: Truebatch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 4per_device_eval_batch_size: 4per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 6max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional
Training Logs
| Epoch | Step | Training Loss | Validation Loss |
|---|---|---|---|
| 0.0011 | 1 | 0.0009 | - |
| 0.1706 | 150 | 0.0062 | 0.0007 |
| 0.3413 | 300 | 0.0051 | 0.0037 |
| 0.5119 | 450 | 0.0081 | 0.0010 |
| 0.6826 | 600 | 0.0059 | 0.0012 |
| 0.8532 | 750 | 0.0096 | 0.0026 |
| 1.0239 | 900 | 0.003 | 0.0023 |
| 1.1945 | 1050 | 0.0007 | 0.0016 |
| 1.3652 | 1200 | 0.0022 | 0.0011 |
| 1.5358 | 1350 | 0.0017 | 0.0033 |
| 1.7065 | 1500 | 0.0029 | 0.0021 |
| 1.8771 | 1650 | 0.0026 | 0.0013 |
| 2.0478 | 1800 | 0.0007 | 0.0007 |
| 2.2184 | 1950 | 0.0006 | 0.0016 |
| 2.3891 | 2100 | 0.0076 | 0.0014 |
| 2.5597 | 2250 | 0.0006 | 0.0019 |
| 2.7304 | 2400 | 0.001 | 0.0018 |
| 2.9010 | 2550 | 0.001 | 0.0023 |
| 3.0717 | 2700 | 0.0005 | 0.0020 |
| 3.2423 | 2850 | 0.0004 | 0.0029 |
| 3.4130 | 3000 | 0.0004 | 0.0013 |
| 3.5836 | 3150 | 0.0005 | 0.0019 |
| 3.7543 | 3300 | 0.0009 | 0.0016 |
| 3.9249 | 3450 | 0.0008 | 0.0015 |
| 4.0956 | 3600 | 0.0004 | 0.0018 |
| 4.2662 | 3750 | 0.0002 | 0.0027 |
| 4.4369 | 3900 | 0.0006 | 0.0024 |
| 4.6075 | 4050 | 0.0001 | 0.0020 |
| 4.7782 | 4200 | 0.0006 | 0.0019 |
| 4.9488 | 4350 | 0.0005 | 0.0019 |
| 5.1195 | 4500 | 0.0024 | 0.0016 |
| 5.2901 | 4650 | 0.0027 | 0.0017 |
| 5.4608 | 4800 | 0.0002 | 0.0018 |
| 5.6314 | 4950 | 0.0004 | 0.0019 |
| 5.8020 | 5100 | 0.0001 | 0.0020 |
| 5.9727 | 5250 | 0.0033 | 0.0019 |
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 3.4.1
- Transformers: 4.51.3
- PyTorch: 2.6.0+cu124
- Accelerate: 1.5.2
- Datasets: 3.6.0
- Tokenizers: 0.21.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 2
Model tree for phi010402/finetune-alqac-question-generation-2
Base model
dangvantuan/vietnamese-document-embedding