SentenceTransformer based on dangvantuan/vietnamese-document-embedding

This is a sentence-transformers model finetuned from dangvantuan/vietnamese-document-embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: dangvantuan/vietnamese-document-embedding
Maximum Sequence Length: 8192 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: VietnameseModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("phi010402/finetune-alqac-question-generation-2")
# Run inference
sentences = [
    'Công dân có quyền lựa chọn nghề nghiệp như thế nào?',
    '1. Công dân có quyền làm việc, lựa chọn nghề nghiệp, việc làm và nơi làm việc.\n\n2. Người làm công ăn lương được bảo đảm các điều kiện làm việc công bằng, an toàn; được hưởng lương, chế độ nghỉ ngơi.\n\n3. Nghiêm cấm phân biệt đối xử, cưỡng bức lao động, sử dụng nhân công dưới độ tuổi lao động tối thiểu.',
    'Trách nhiệm đánh giá viên chức\n\n1. Người đứng đầu đơn vị sự nghiệp công lập có trách nhiệm tổ chức việc đánh giá viên chức thuộc thẩm quyền quản lý.\n\n2. Căn cứ vào điều kiện cụ thể, người đứng đầu đơn vị sự nghiệp công lập thực hiện việc đánh giá hoặc phân công, phân cấp việc đánh giá viên chức thuộc thẩm quyền quản lý. Người được giao thẩm quyền đánh giá viên chức phải chịu trách nhiệm trước người đứng đầu đơn vị sự nghiệp công lập về kết quả đánh giá.\n\n3. Người có thẩm quyền bổ nhiệm chịu trách nhiệm đánh giá viên chức quản lý trong đơn vị sự nghiệp công lập.\n\n4. Chính phủ quy định chi tiết trình tự, thủ tục đánh giá viên chức quy định tại Điều này.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

Size: 3,513 training samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 8 tokens
mean: 23.11 tokens
max: 74 tokens

min: 14 tokens
mean: 269.81 tokens
max: 3568 tokens

	anchor	positive
type	string	string
details	min: 8 tokens mean: 23.11 tokens max: 74 tokens	min: 14 tokens mean: 269.81 tokens max: 3568 tokens

Samples:

anchor	positive
`Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường là căn cứ để cơ quan có thẩm quyền thực hiện việc cấp giấy phép khai thác khoáng sản đối với dự án đầu tư khai thác khoáng sản?`	Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường 1. Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường là một trong các căn cứ để cơ quan có thẩm quyền thực hiện các việc sau đây: a) Cấp, điều chỉnh giấy phép khai thác khoáng sản đối với dự án đầu tư khai thác khoáng sản; b) Phê duyệt kế hoạch thăm dò, kế hoạch phát triển mỏ đối với dự án đầu tư thăm dò, khai thác dầu khí; c) Phê duyệt báo cáo nghiên cứu khả thi đối với dự án đầu tư theo phương thức đối tác công tư; d) Kết luận thẩm định báo cáo nghiên cứu khả thi đối với dự án đầu tư xây dựng; đ) Cấp giấy phép môi trường; e) Cấp giấy phép nhận chìm ở biển; quyết định giao khu vực biển; g) Quyết định đầu tư đối với dự án đầu tư không thuộc đối tượng quy định tại các điểm a, b, c, d, đ và e khoản này. 2. Trừ dự án đầu tư liên quan đến bí mật nhà nước, cơ quan thẩm định gửi quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường cho chủ dự án đầu tư và cơ qu...
`Các hành vi nào bị nghiêm cấm trong quá trình cung cấp thông tin?`	Các hành vi bị nghiêm cấm 1. Cố ý cung cấp thông tin sai lệch, không đầy đủ, trì hoãn việc cung cấp thông tin; hủy hoại thông tin; làm giả thông tin. 2. Cung cấp hoặc sử dụng thông tin để chống lại Nhà nước Cộng hòa xã hội chủ nghĩa Việt Nam, phá hoại chính sách đoàn kết, kích động bạo lực. 3. Cung cấp hoặc sử dụng thông tin nhằm xúc phạm danh dự, nhân phẩm, uy tín, gây kỳ thị về giới, gây thiệt hại về tài sản của cá nhân, cơ quan, tổ chức. 4. Cản trở, đe dọa, trù dập người yêu cầu, người cung cấp thông tin.
`Thời hạn công khai thông báo thụ lý vụ án của Tòa án là bao lâu kể từ ngày Tòa án thụ lý?`	Công khai thông tin về vụ án dân sự về bảo vệ quyền lợi người tiêu dùng vì lợi ích công cộng do tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng khởi kiện 1. Tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng khởi kiện vụ án dân sự về bảo vệ quyền lợi người tiêu dùng vì lợi ích công cộng có trách nhiệm công khai thông báo thụ lý vụ án của Tòa án về việc khởi kiện trong thời hạn 07 ngày làm việc kể từ ngày Tòa án thụ lý. 2. Việc công khai thông báo thụ lý vụ án được thực hiện bằng hình thức niêm yết tại trụ sở và đăng tải trên trang thông tin điện tử, phần mềm ứng dụng (nếu có) của tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng tối thiểu 15 ngày kể từ ngày niêm yết, đăng tải. 3. Trong thời hạn 07 ngày làm việc kể từ ngày kết thúc vụ án, tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng có trách nhiệm công khai kết quả giải quyết vụ án theo hình thức, thời hạn quy định tại khoản 2 Điều này.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Evaluation Dataset

Unnamed Dataset

Size: 100 evaluation samples
Columns: anchor and positive
Approximate statistics based on the first 100 samples:
anchor positive
type string string
details
min: 11 tokens
mean: 23.62 tokens
max: 57 tokens

min: 27 tokens
mean: 298.72 tokens
max: 1338 tokens

	anchor	positive
type	string	string
details	min: 11 tokens mean: 23.62 tokens max: 57 tokens	min: 27 tokens mean: 298.72 tokens max: 1338 tokens

Samples:

anchor	positive
`Hạ tầng bảo vệ môi trường của làng nghề bao gồm những gì?`	Bảo vệ môi trường làng nghề 1. Làng nghề phải có phương án bảo vệ môi trường, có tổ chức tự quản về bảo vệ môi trường và hạ tầng bảo vệ môi trường. Hạ tầng bảo vệ môi trường của làng nghề bao gồm: a) Có hệ thống thu gom nước thải, nước mưa bảo đảm nhu cầu tiêu thoát nước của làng nghề; b) Hệ thống thu gom, thoát nước và xử lý nước thải tập trung (nếu có) bảo đảm nước thải sau xử lý đáp ứng yêu cầu về bảo vệ môi trường; c) Có điểm tập kết chất thải rắn đáp ứng yêu cầu kỹ thuật về bảo vệ môi trường; khu xử lý chất thải rắn (nếu có) bảo đảm quy định về quản lý chất thải rắn hoặc có phương án vận chuyển chất thải rắn đến khu xử lý chất thải rắn nằm ngoài địa bàn. 2. Cơ sở, hộ gia đình sản xuất trong làng nghề phải xây dựng và thực hiện biện pháp bảo vệ môi trường theo quy định của pháp luật; thực hiện biện pháp giảm thiểu tiếng ồn, độ rung, ánh sáng, bụi, bức xạ nhiệt, khí thải, nước thải và xử lý ô nhiễm tại chỗ; thu gom, phân loại, lưu giữ, xử lý chất thải rắn theo quy định của pháp...
`Công nhân nào được hưởng chính sách hỗ trợ về nhà lưu trú công nhân trong khu công nghiệp?`	`Đối tượng được hưởng chính sách hỗ trợ về nhà lưu trú công nhân trong khu công nghiệp 1. Công nhân đang làm việc tại doanh nghiệp, hợp tác xã, liên hiệp hợp tác xã sản xuất trong khu công nghiệp. 2. Doanh nghiệp kinh doanh kết cấu hạ tầng khu công nghiệp; doanh nghiệp, hợp tác xã, liên hiệp hợp tác xã sản xuất trong khu công nghiệp đầu tư xây dựng nhà lưu trú công nhân.`
`Khi nào Chủ tọa phiên tòa hỏi các bên có yêu cầu hỏi vấn đề gì nữa không?`	Kết thúc việc hỏi tại phiên tòa Khi nhận thấy các tình tiết của vụ án đã được xem xét đầy đủ thì Chủ tọa phiên tòa hỏi Kiểm sát viên, đương sự, người bảo vệ quyền và lợi ích hợp pháp của đương sự và những người tham gia tố tụng khác xem họ có yêu cầu hỏi vấn đề gì nữa không; trường hợp có người yêu cầu và xét thấy yêu cầu đó là có căn cứ thì Chủ tọa phiên tòa quyết định tiếp tục việc hỏi.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 4
per_device_eval_batch_size: 4
num_train_epochs: 6
warmup_ratio: 0.1
fp16: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 4
per_device_eval_batch_size: 4
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 6
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
tp_size: 0
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	Training Loss	Validation Loss
0.0011	1	0.0009	-
0.1706	150	0.0062	0.0007
0.3413	300	0.0051	0.0037
0.5119	450	0.0081	0.0010
0.6826	600	0.0059	0.0012
0.8532	750	0.0096	0.0026
1.0239	900	0.003	0.0023
1.1945	1050	0.0007	0.0016
1.3652	1200	0.0022	0.0011
1.5358	1350	0.0017	0.0033
1.7065	1500	0.0029	0.0021
1.8771	1650	0.0026	0.0013
2.0478	1800	0.0007	0.0007
2.2184	1950	0.0006	0.0016
2.3891	2100	0.0076	0.0014
2.5597	2250	0.0006	0.0019
2.7304	2400	0.001	0.0018
2.9010	2550	0.001	0.0023
3.0717	2700	0.0005	0.0020
3.2423	2850	0.0004	0.0029
3.4130	3000	0.0004	0.0013
3.5836	3150	0.0005	0.0019
3.7543	3300	0.0009	0.0016
3.9249	3450	0.0008	0.0015
4.0956	3600	0.0004	0.0018
4.2662	3750	0.0002	0.0027
4.4369	3900	0.0006	0.0024
4.6075	4050	0.0001	0.0020
4.7782	4200	0.0006	0.0019
4.9488	4350	0.0005	0.0019
5.1195	4500	0.0024	0.0016
5.2901	4650	0.0027	0.0017
5.4608	4800	0.0002	0.0018
5.6314	4950	0.0004	0.0019
5.8020	5100	0.0001	0.0020
5.9727	5250	0.0033	0.0019

Framework Versions

Python: 3.11.11
Sentence Transformers: 3.4.1
Transformers: 4.51.3
PyTorch: 2.6.0+cu124
Accelerate: 1.5.2
Datasets: 3.6.0
Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Downloads last month: 2

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for phi010402/finetune-alqac-question-generation-2

Base model

dangvantuan/vietnamese-document-embedding

Finetuned

(7)

this model