YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
PhoBERT Summarization (Vietnamese Extractive Summarization)
Giới thiệu
Dự án này thực hiện tóm tắt văn bản tiếng Việt theo hướng extractive — chọn ra những câu quan trọng từ bản gốc để tạo bản tóm tắt — bằng cách fine-tune mô hình PhoBERT.
- Dữ liệu thu thập từ 67 chuyên mục trên vnexpress.net.
- Một phần dữ liệu được gán nhãn thủ công.
- Phần lớn dữ liệu được gán nhãn tự động bằng phương pháp cosine similarity.
- Chỉ cần 1 lệnh để train, 1 lệnh để chạy app.
Xử lý dữ liệu
- Crawl dữ liệu:
- crawl_data.py
- Làm sạch dữ liệu:
- clean_data.py
- Tự động đánh nhãn:
- auto_label.py
- merge_file.py
Cài đặt
- Clone repo:
- git clone https://huggingface.co/HieuNg05/PhoBert-Summarization
- cd PhoBert-Summarization
- Cài dependencies:
- pip install -r requirements.txt
- Huấn luyện mô hình:
- python train/train.py
- Chạy ứng dụng:
- python app.py
license: mit
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support