Training in progress, epoch 1

Browse files

Files changed (10) hide show

model.safetensors +1 -1
run-0/checkpoint-840/optimizer.pt +1 -1
run-0/checkpoint-840/rng_state.pth +1 -1
run-1/checkpoint-1678/model.safetensors +1 -1
run-1/checkpoint-1678/optimizer.pt +1 -1
run-1/checkpoint-1678/rng_state.pth +1 -1
run-1/checkpoint-1678/scheduler.pt +1 -1
run-1/checkpoint-1678/trainer_state.json +34 -46
run-1/checkpoint-1678/training_args.bin +1 -1
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f91f93cb88b9e525f62d09557e80a43d9a0fafca8b34615983b234abd823d57f
 size 598442860

 version https://git-lfs.github.com/spec/v1
+oid sha256:09f7b30b1c91eb4fc5bcde57a101edd4f5d5745f7c2121a1c6cd5d993fc6ac0d
 size 598442860

run-0/checkpoint-840/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37789a41472adb35a61a31f3e47889380027afb577757dbea18438e9703ab63b
 size 1196975482

 version https://git-lfs.github.com/spec/v1
+oid sha256:016b3a5455a155ed6846fc988e3bb8c603d5a7153e13239972d47aa4d7f29dc9
 size 1196975482

run-0/checkpoint-840/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:399209c54274067d13fb3c584101a071f31ac1198b71c7ac31aeb2e750b5136b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e73e59b6e5b9056ac0e8920fff852bc272c5c86a3b059cb9c4d16269570f8731
 size 14244

run-1/checkpoint-1678/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8377921634e61cee47c92077de601dfbcc9a23240486c0b902c7dd5a5b41a9e2
 size 598442860

 version https://git-lfs.github.com/spec/v1
+oid sha256:09f7b30b1c91eb4fc5bcde57a101edd4f5d5745f7c2121a1c6cd5d993fc6ac0d
 size 598442860

run-1/checkpoint-1678/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41995bc6a21917b2cb3ee533d2efbfed828f812c61fd5fd165f587fa6bcb161f
 size 1196975482

 version https://git-lfs.github.com/spec/v1
+oid sha256:d309d824c67e3e0400b3bc3cdf4130fb1c6cef145f16479dc1747d2e81b3e546
 size 1196975482

run-1/checkpoint-1678/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e73e59b6e5b9056ac0e8920fff852bc272c5c86a3b059cb9c4d16269570f8731
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8bd53d0fd3ae53de76f4ce4413bda2fac7f45845191ef3f62010be4991b2ff9
 size 14244

run-1/checkpoint-1678/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77378d6ce1a8f3f903aaefb0376510c054e8823dec8ff6df70d9b6f9d3ca2d9f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6ff66996cb8fcb94533441a340b3ea014b1520ea065f0e2365c2e4c21ed5fec
 size 1064

run-1/checkpoint-1678/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.38195738196372986,
   "best_model_checkpoint": "modernbert-financial-sentiment/run-1/checkpoint-1678",
-  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 1678,
   "is_hyper_param_search": true,
@@ -9,53 +9,41 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.5959475566150179,
-      "grad_norm": 3.4977939128875732,
-      "learning_rate": 0.00023796275402835382,
-      "loss": 0.6709,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.833134684147795,
-      "eval_f1": 0.8303703737833891,
-      "eval_loss": 0.4791373908519745,
-      "eval_precision": 0.8296883223434215,
-      "eval_recall": 0.833134684147795,
-      "eval_runtime": 18.2507,
-      "eval_samples_per_second": 91.942,
-      "eval_steps_per_second": 11.506,
-      "step": 839
-    },
-    {
-      "epoch": 1.1918951132300357,
-      "grad_norm": 3.490213632583618,
-      "learning_rate": 0.00013695988729305934,
-      "loss": 0.4573,
       "step": 1000
     },
     {
-      "epoch": 1.7878426698450536,
-      "grad_norm": 3.538949489593506,
-      "learning_rate": 3.595702055776484e-05,
-      "loss": 0.294,
       "step": 1500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.8694874851013111,
-      "eval_f1": 0.8682786483149874,
-      "eval_loss": 0.38195738196372986,
-      "eval_precision": 0.868142253395164,
-      "eval_recall": 0.8694874851013111,
-      "eval_runtime": 18.3643,
-      "eval_samples_per_second": 91.373,
-      "eval_steps_per_second": 11.435,
       "step": 1678
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1678,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
@@ -66,22 +54,22 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 2044305680147712.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "adam_epsilon": 1.658518398119787e-08,
-    "dropout": 0.0017330050952681364,
-    "learning_rate": 0.0002935143307327658,
-    "lr_scheduler_type": "linear",
     "num_train_epochs": 2,
-    "per_device_train_batch_size": 16,
-    "warmup_ratio": 0.13352557567852008,
-    "weight_decay": 0.09108802122030084
   }
 }

 {
+  "best_metric": 0.3714371919631958,
   "best_model_checkpoint": "modernbert-financial-sentiment/run-1/checkpoint-1678",
+  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 1678,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.29797377830750893,
+      "grad_norm": 5.944282531738281,
+      "learning_rate": 2.8367040754379768e-05,
+      "loss": 0.7489,
       "step": 500
     },
     {
+      "epoch": 0.5959475566150179,
+      "grad_norm": 7.314896583557129,
+      "learning_rate": 2.8783421399749905e-05,
+      "loss": 0.494,
       "step": 1000
     },
     {
+      "epoch": 0.8939213349225268,
+      "grad_norm": 9.174110412597656,
+      "learning_rate": 2.2763209312337626e-05,
+      "loss": 0.399,
       "step": 1500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8784266984505363,
+      "eval_f1": 0.8771538940867877,
+      "eval_loss": 0.3714371919631958,
+      "eval_precision": 0.8787001249469087,
+      "eval_recall": 0.8784266984505363,
+      "eval_runtime": 17.0799,
+      "eval_samples_per_second": 98.244,
+      "eval_steps_per_second": 12.295,
       "step": 1678
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3356,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 1022280625152000.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
+    "adam_epsilon": 4.528050525370297e-07,
+    "dropout": 0.2907986120031344,
+    "learning_rate": 3.074987217774767e-05,
+    "lr_scheduler_type": "cosine",
     "num_train_epochs": 2,
+    "per_device_train_batch_size": 8,
+    "warmup_ratio": 0.1614840440413937,
+    "weight_decay": 0.07691241332138511
   }
 }

run-1/checkpoint-1678/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04cf6cefe1f017323156a5a30caf80658f8089fb6b585684f5ac1ae40be4a5c5
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:db5fa3bf0a9ce2f9a5a0913c1298bfdd80544ceba840b21f3da340205c796f9d
 size 5432

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e09ed9adf72eedc40701f01052aa920844eae0235f04830a6574f45c45113830
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:db5fa3bf0a9ce2f9a5a0913c1298bfdd80544ceba840b21f3da340205c796f9d
 size 5432