rbelanec
/

train_wsc_123_1760351015

@@ -41,3 +41,17 @@
 {"current_steps": 190, "total_steps": 1250, "loss": 0.5949, "lr": 0.029761076094987723, "epoch": 1.52, "percentage": 15.2, "elapsed_time": "0:00:28", "remaining_time": "0:02:41", "throughput": 2588.01, "total_tokens": 74752}
 {"current_steps": 195, "total_steps": 1250, "loss": 0.5306, "lr": 0.02972240601650149, "epoch": 1.56, "percentage": 15.6, "elapsed_time": "0:00:29", "remaining_time": "0:02:39", "throughput": 2602.78, "total_tokens": 76640}
 {"current_steps": 200, "total_steps": 1250, "loss": 0.5088, "lr": 0.029680865775791494, "epoch": 1.6, "percentage": 16.0, "elapsed_time": "0:00:30", "remaining_time": "0:02:37", "throughput": 2623.88, "total_tokens": 78784}

 {"current_steps": 190, "total_steps": 1250, "loss": 0.5949, "lr": 0.029761076094987723, "epoch": 1.52, "percentage": 15.2, "elapsed_time": "0:00:28", "remaining_time": "0:02:41", "throughput": 2588.01, "total_tokens": 74752}
 {"current_steps": 195, "total_steps": 1250, "loss": 0.5306, "lr": 0.02972240601650149, "epoch": 1.56, "percentage": 15.6, "elapsed_time": "0:00:29", "remaining_time": "0:02:39", "throughput": 2602.78, "total_tokens": 76640}
 {"current_steps": 200, "total_steps": 1250, "loss": 0.5088, "lr": 0.029680865775791494, "epoch": 1.6, "percentage": 16.0, "elapsed_time": "0:00:30", "remaining_time": "0:02:37", "throughput": 2623.88, "total_tokens": 78784}
+{"current_steps": 205, "total_steps": 1250, "loss": 0.4879, "lr": 0.02963646347120996, "epoch": 1.6400000000000001, "percentage": 16.4, "elapsed_time": "0:00:30", "remaining_time": "0:02:36", "throughput": 2639.2, "total_tokens": 80768}
+{"current_steps": 210, "total_steps": 1250, "loss": 0.5444, "lr": 0.029589207759074154, "epoch": 1.6800000000000002, "percentage": 16.8, "elapsed_time": "0:00:31", "remaining_time": "0:02:34", "throughput": 2656.41, "total_tokens": 82848}
+{"current_steps": 215, "total_steps": 1250, "loss": 0.4531, "lr": 0.029539107851978778, "epoch": 1.72, "percentage": 17.2, "elapsed_time": "0:00:31", "remaining_time": "0:02:32", "throughput": 2669.26, "total_tokens": 84768}
+{"current_steps": 220, "total_steps": 1250, "loss": 0.4487, "lr": 0.02948617351699999, "epoch": 1.76, "percentage": 17.6, "elapsed_time": "0:00:32", "remaining_time": "0:02:31", "throughput": 2685.2, "total_tokens": 86848}
+{"current_steps": 225, "total_steps": 1250, "loss": 0.429, "lr": 0.029430415073791287, "epoch": 1.8, "percentage": 18.0, "elapsed_time": "0:00:32", "remaining_time": "0:02:29", "throughput": 2696.96, "total_tokens": 88736}
+{"current_steps": 230, "total_steps": 1250, "loss": 0.4092, "lr": 0.029371843392571644, "epoch": 1.8399999999999999, "percentage": 18.4, "elapsed_time": "0:00:33", "remaining_time": "0:02:28", "throughput": 2713.46, "total_tokens": 90848}
+{"current_steps": 235, "total_steps": 1250, "loss": 0.4367, "lr": 0.029310469892006367, "epoch": 1.88, "percentage": 18.8, "elapsed_time": "0:00:34", "remaining_time": "0:02:27", "throughput": 2730.36, "total_tokens": 92992}
+{"current_steps": 240, "total_steps": 1250, "loss": 0.4234, "lr": 0.029246306536981, "epoch": 1.92, "percentage": 19.2, "elapsed_time": "0:00:34", "remaining_time": "0:02:25", "throughput": 2740.41, "total_tokens": 94880}
+{"current_steps": 245, "total_steps": 1250, "loss": 0.3853, "lr": 0.02917936583626874, "epoch": 1.96, "percentage": 19.6, "elapsed_time": "0:00:35", "remaining_time": "0:02:24", "throughput": 2750.22, "total_tokens": 96704}
+{"current_steps": 250, "total_steps": 1250, "loss": 0.4384, "lr": 0.029109660840091818, "epoch": 2.0, "percentage": 20.0, "elapsed_time": "0:00:35", "remaining_time": "0:02:23", "throughput": 2746.26, "total_tokens": 98240}
+{"current_steps": 252, "total_steps": 1250, "eval_loss": 0.3677593171596527, "epoch": 2.016, "percentage": 20.16, "elapsed_time": "0:00:37", "remaining_time": "0:02:27", "throughput": 2663.62, "total_tokens": 99136}
+{"current_steps": 255, "total_steps": 1250, "loss": 0.36, "lr": 0.029037205137577363, "epoch": 2.04, "percentage": 20.4, "elapsed_time": "0:00:38", "remaining_time": "0:02:30", "throughput": 2605.71, "total_tokens": 100224}
+{"current_steps": 260, "total_steps": 1250, "loss": 0.4149, "lr": 0.02896201285410813, "epoch": 2.08, "percentage": 20.8, "elapsed_time": "0:00:39", "remaining_time": "0:02:28", "throughput": 2611.62, "total_tokens": 101920}
+{"current_steps": 265, "total_steps": 1250, "loss": 0.3722, "lr": 0.028884098648568782, "epoch": 2.12, "percentage": 21.2, "elapsed_time": "0:00:39", "remaining_time": "0:02:27", "throughput": 2622.6, "total_tokens": 103808}