Chattso-GPT
/

DeepSeek-R1-Distill-Qwen-32B-for-lean

Text Generation

Generated from Trainer

theorem-proving

Model card Files Files and versions

Chattso-GPT commited on Aug 12

Commit

8d6b4b2

·

verified ·

1 Parent(s): 297a59e

Update README.md

Files changed (1) hide show

README.md +5 -5

README.md CHANGED Viewed

@@ -45,18 +45,18 @@ This model has been fine-tuned using LoRA (Low-Rank Adaptation) technique on a c
 - **Learning Rate**: 2e-4
 - **Batch Size**: 6 per device
 - **Gradient Accumulation**: 1 step
-- **Warmup Steps**: 10
 - **Weight Decay**: 0.01
 - **LR Scheduler**: linear
 - **Optimizer**: paged_adamw_8bit
 - **Precision**: bfloat16
 ### LoRA Configuration
-- **LoRA Rank**: 16
 - **LoRA Alpha**: 32
-- **Target Modules**: All linear layers
-- **Dropout**: 0.1
-- **Max Sequence Length**: 2048
 ### Dataset
 - **Size**: 25,650 examples

 - **Learning Rate**: 2e-4
 - **Batch Size**: 6 per device
 - **Gradient Accumulation**: 1 step
+- **Warmup Steps**: 5
 - **Weight Decay**: 0.01
 - **LR Scheduler**: linear
 - **Optimizer**: paged_adamw_8bit
 - **Precision**: bfloat16
 ### LoRA Configuration
+- **LoRA Rank**: 32
 - **LoRA Alpha**: 32
+- **Target Modules**: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
+- **Dropout**: 0.05
+- **Max Sequence Length**: 4096
 ### Dataset
 - **Size**: 25,650 examples