AdityaNarayan
/

KAT-Dev-72B-Exp-CPT-LoRA-Adapter-HyperSwitch

Text Generation

Model card Files Files and versions

AdityaNarayan commited on 12 days ago

Commit

668dab7

·

verified ·

1 Parent(s): 3dcceba

updated README.MD

Files changed (1) hide show

README.md +9 -10

README.md CHANGED Viewed

@@ -49,8 +49,7 @@ target_modules:         # Applied to all linear layers
 ```
 ### Training Hyperparameters
-- **Epochs**: 2.3
-- **Steps**: 550
 - **Batch Size**: 2 per device (16 effective with gradient accumulation)
 - **Learning Rate**: 5e-5 (cosine schedule)
 - **Max Context**: 8,192 tokens
@@ -59,14 +58,14 @@ target_modules:         # Applied to all linear layers
 ### Training Results
 ```
-"final_train_loss": 0.2793,
-"final_eval_loss": 0.3765236437320709,
-"final_train_perplexity": 1.322203945559979,
-"final_eval_perplexity": 1.457209992899547,
-"final_token_accuracy": 0.9227368004620076,
-"initial_loss": 1.6654,
-"initial_perplexity": 5.2877879419709135,
-"initial_accuracy": 0.6416946474462748
 ```
 ## 🚀 Usage

 ```
 ### Training Hyperparameters
+- **Epochs**: 3
 - **Batch Size**: 2 per device (16 effective with gradient accumulation)
 - **Learning Rate**: 5e-5 (cosine schedule)
 - **Max Context**: 8,192 tokens
 ### Training Results
 ```
+    "final_train_loss": 0.2641,
+    "final_eval_loss": 0.37574875354766846,
+    "final_train_perplexity": 1.3022584156313823,
+    "final_eval_perplexity": 1.4560812525608204,
+    "final_token_accuracy": 0.9259863365441561,
+    "initial_loss": 1.6648,
+    "initial_perplexity": 5.284616220817229,
+    "initial_accuracy": 0.6015806214883923
 ```
 ## 🚀 Usage