YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

PhoBERT Summarization (Vietnamese Extractive Summarization)


Giới thiệu

Dự án này thực hiện tóm tắt văn bản tiếng Việt theo hướng extractive — chọn ra những câu quan trọng từ bản gốc để tạo bản tóm tắt — bằng cách fine-tune mô hình PhoBERT.

  • Dữ liệu thu thập từ 67 chuyên mục trên vnexpress.net.
  • Một phần dữ liệu được gán nhãn thủ công.
  • Phần lớn dữ liệu được gán nhãn tự động bằng phương pháp cosine similarity.
  • Chỉ cần 1 lệnh để train, 1 lệnh để chạy app.

Xử lý dữ liệu

  1. Crawl dữ liệu:
  • crawl_data.py
  1. Làm sạch dữ liệu:
  • clean_data.py
  1. Tự động đánh nhãn:
  • auto_label.py
  • merge_file.py

Cài đặt

  1. Clone repo:
  1. Cài dependencies:
  • pip install -r requirements.txt
  1. Huấn luyện mô hình:
  • python train/train.py
  1. Chạy ứng dụng:
  • python app.py

license: mit

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support