SentenceTransformer based on dangvantuan/vietnamese-document-embedding

This is a sentence-transformers model finetuned from dangvantuan/vietnamese-document-embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: VietnameseModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("phi010402/finetune-alqac-question-generation-2")
# Run inference
sentences = [
    'Công dân có quyền lựa chọn nghề nghiệp như thế nào?',
    '1. Công dân có quyền làm việc, lựa chọn nghề nghiệp, việc làm và nơi làm việc.\n\n2. Người làm công ăn lương được bảo đảm các điều kiện làm việc công bằng, an toàn; được hưởng lương, chế độ nghỉ ngơi.\n\n3. Nghiêm cấm phân biệt đối xử, cưỡng bức lao động, sử dụng nhân công dưới độ tuổi lao động tối thiểu.',
    'Trách nhiệm đánh giá viên chức\n\n1. Người đứng đầu đơn vị sự nghiệp công lập có trách nhiệm tổ chức việc đánh giá viên chức thuộc thẩm quyền quản lý.\n\n2. Căn cứ vào điều kiện cụ thể, người đứng đầu đơn vị sự nghiệp công lập thực hiện việc đánh giá hoặc phân công, phân cấp việc đánh giá viên chức thuộc thẩm quyền quản lý. Người được giao thẩm quyền đánh giá viên chức phải chịu trách nhiệm trước người đứng đầu đơn vị sự nghiệp công lập về kết quả đánh giá.\n\n3. Người có thẩm quyền bổ nhiệm chịu trách nhiệm đánh giá viên chức quản lý trong đơn vị sự nghiệp công lập.\n\n4. Chính phủ quy định chi tiết trình tự, thủ tục đánh giá viên chức quy định tại Điều này.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 3,513 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 8 tokens
    • mean: 23.11 tokens
    • max: 74 tokens
    • min: 14 tokens
    • mean: 269.81 tokens
    • max: 3568 tokens
  • Samples:
    anchor positive
    Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường là căn cứ để cơ quan có thẩm quyền thực hiện việc cấp giấy phép khai thác khoáng sản đối với dự án đầu tư khai thác khoáng sản? Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường

    1. Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường là một trong các căn cứ để cơ quan có thẩm quyền thực hiện các việc sau đây:

    a) Cấp, điều chỉnh giấy phép khai thác khoáng sản đối với dự án đầu tư khai thác khoáng sản;

    b) Phê duyệt kế hoạch thăm dò, kế hoạch phát triển mỏ đối với dự án đầu tư thăm dò, khai thác dầu khí;

    c) Phê duyệt báo cáo nghiên cứu khả thi đối với dự án đầu tư theo phương thức đối tác công tư;

    d) Kết luận thẩm định báo cáo nghiên cứu khả thi đối với dự án đầu tư xây dựng;

    đ) Cấp giấy phép môi trường;

    e) Cấp giấy phép nhận chìm ở biển; quyết định giao khu vực biển;

    g) Quyết định đầu tư đối với dự án đầu tư không thuộc đối tượng quy định tại các điểm a, b, c, d, đ và e khoản này.

    2. Trừ dự án đầu tư liên quan đến bí mật nhà nước, cơ quan thẩm định gửi quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường cho chủ dự án đầu tư và cơ qu...
    Các hành vi nào bị nghiêm cấm trong quá trình cung cấp thông tin? Các hành vi bị nghiêm cấm

    1. Cố ý cung cấp thông tin sai lệch, không đầy đủ, trì hoãn việc cung cấp thông tin; hủy hoại thông tin; làm giả thông tin.

    2. Cung cấp hoặc sử dụng thông tin để chống lại Nhà nước Cộng hòa xã hội chủ nghĩa Việt Nam, phá hoại chính sách đoàn kết, kích động bạo lực.

    3. Cung cấp hoặc sử dụng thông tin nhằm xúc phạm danh dự, nhân phẩm, uy tín, gây kỳ thị về giới, gây thiệt hại về tài sản của cá nhân, cơ quan, tổ chức.

    4. Cản trở, đe dọa, trù dập người yêu cầu, người cung cấp thông tin.
    Thời hạn công khai thông báo thụ lý vụ án của Tòa án là bao lâu kể từ ngày Tòa án thụ lý? Công khai thông tin về vụ án dân sự về bảo vệ quyền lợi người tiêu dùng vì lợi ích công cộng do tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng khởi kiện
    1. Tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng khởi kiện vụ án dân sự về bảo vệ quyền lợi người tiêu dùng vì lợi ích công cộng có trách nhiệm công khai thông báo thụ lý vụ án của Tòa án về việc khởi kiện trong thời hạn 07 ngày làm việc kể từ ngày Tòa án thụ lý.
    2. Việc công khai thông báo thụ lý vụ án được thực hiện bằng hình thức niêm yết tại trụ sở và đăng tải trên trang thông tin điện tử, phần mềm ứng dụng (nếu có) của tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng tối thiểu 15 ngày kể từ ngày niêm yết, đăng tải.
    3. Trong thời hạn 07 ngày làm việc kể từ ngày kết thúc vụ án, tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng có trách nhiệm công khai kết quả giải quyết vụ án theo hình thức, thời hạn quy định tại khoản 2 Điều này.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 100 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 100 samples:
    anchor positive
    type string string
    details
    • min: 11 tokens
    • mean: 23.62 tokens
    • max: 57 tokens
    • min: 27 tokens
    • mean: 298.72 tokens
    • max: 1338 tokens
  • Samples:
    anchor positive
    Hạ tầng bảo vệ môi trường của làng nghề bao gồm những gì? Bảo vệ môi trường làng nghề

    1. Làng nghề phải có phương án bảo vệ môi trường, có tổ chức tự quản về bảo vệ môi trường và hạ tầng bảo vệ môi trường. Hạ tầng bảo vệ môi trường của làng nghề bao gồm:

    a) Có hệ thống thu gom nước thải, nước mưa bảo đảm nhu cầu tiêu thoát nước của làng nghề;

    b) Hệ thống thu gom, thoát nước và xử lý nước thải tập trung (nếu có) bảo đảm nước thải sau xử lý đáp ứng yêu cầu về bảo vệ môi trường;

    c) Có điểm tập kết chất thải rắn đáp ứng yêu cầu kỹ thuật về bảo vệ môi trường; khu xử lý chất thải rắn (nếu có) bảo đảm quy định về quản lý chất thải rắn hoặc có phương án vận chuyển chất thải rắn đến khu xử lý chất thải rắn nằm ngoài địa bàn.

    2. Cơ sở, hộ gia đình sản xuất trong làng nghề phải xây dựng và thực hiện biện pháp bảo vệ môi trường theo quy định của pháp luật; thực hiện biện pháp giảm thiểu tiếng ồn, độ rung, ánh sáng, bụi, bức xạ nhiệt, khí thải, nước thải và xử lý ô nhiễm tại chỗ; thu gom, phân loại, lưu giữ, xử lý chất thải rắn theo quy định của pháp...
    Công nhân nào được hưởng chính sách hỗ trợ về nhà lưu trú công nhân trong khu công nghiệp? Đối tượng được hưởng chính sách hỗ trợ về nhà lưu trú công nhân trong khu công nghiệp
    1. Công nhân đang làm việc tại doanh nghiệp, hợp tác xã, liên hiệp hợp tác xã sản xuất trong khu công nghiệp.
    2. Doanh nghiệp kinh doanh kết cấu hạ tầng khu công nghiệp; doanh nghiệp, hợp tác xã, liên hiệp hợp tác xã sản xuất trong khu công nghiệp đầu tư xây dựng nhà lưu trú công nhân.
    Khi nào Chủ tọa phiên tòa hỏi các bên có yêu cầu hỏi vấn đề gì nữa không? Kết thúc việc hỏi tại phiên tòa

    Khi nhận thấy các tình tiết của vụ án đã được xem xét đầy đủ thì Chủ tọa phiên tòa hỏi Kiểm sát viên, đương sự, người bảo vệ quyền và lợi ích hợp pháp của đương sự và những người tham gia tố tụng khác xem họ có yêu cầu hỏi vấn đề gì nữa không; trường hợp có người yêu cầu và xét thấy yêu cầu đó là có căn cứ thì Chủ tọa phiên tòa quyết định tiếp tục việc hỏi.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • num_train_epochs: 6
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 6
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss
0.0011 1 0.0009 -
0.1706 150 0.0062 0.0007
0.3413 300 0.0051 0.0037
0.5119 450 0.0081 0.0010
0.6826 600 0.0059 0.0012
0.8532 750 0.0096 0.0026
1.0239 900 0.003 0.0023
1.1945 1050 0.0007 0.0016
1.3652 1200 0.0022 0.0011
1.5358 1350 0.0017 0.0033
1.7065 1500 0.0029 0.0021
1.8771 1650 0.0026 0.0013
2.0478 1800 0.0007 0.0007
2.2184 1950 0.0006 0.0016
2.3891 2100 0.0076 0.0014
2.5597 2250 0.0006 0.0019
2.7304 2400 0.001 0.0018
2.9010 2550 0.001 0.0023
3.0717 2700 0.0005 0.0020
3.2423 2850 0.0004 0.0029
3.4130 3000 0.0004 0.0013
3.5836 3150 0.0005 0.0019
3.7543 3300 0.0009 0.0016
3.9249 3450 0.0008 0.0015
4.0956 3600 0.0004 0.0018
4.2662 3750 0.0002 0.0027
4.4369 3900 0.0006 0.0024
4.6075 4050 0.0001 0.0020
4.7782 4200 0.0006 0.0019
4.9488 4350 0.0005 0.0019
5.1195 4500 0.0024 0.0016
5.2901 4650 0.0027 0.0017
5.4608 4800 0.0002 0.0018
5.6314 4950 0.0004 0.0019
5.8020 5100 0.0001 0.0020
5.9727 5250 0.0033 0.0019

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.51.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.5.2
  • Datasets: 3.6.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
2
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for phi010402/finetune-alqac-question-generation-2

Finetuned
(7)
this model