rbelanec
/

train_wsc_123_1760351015

@@ -136,3 +136,17 @@
 {"current_steps": 630, "total_steps": 1250, "eval_loss": 0.3732368052005768, "epoch": 5.04, "percentage": 50.4, "elapsed_time": "0:01:32", "remaining_time": "0:01:31", "throughput": 2675.4, "total_tokens": 247424}
 {"current_steps": 635, "total_steps": 1250, "loss": 0.3655, "lr": 0.017232675373274282, "epoch": 5.08, "percentage": 50.8, "elapsed_time": "0:01:34", "remaining_time": "0:01:31", "throughput": 2653.07, "total_tokens": 249472}
 {"current_steps": 640, "total_steps": 1250, "loss": 0.2432, "lr": 0.017025358004137486, "epoch": 5.12, "percentage": 51.2, "elapsed_time": "0:01:34", "remaining_time": "0:01:30", "throughput": 2656.85, "total_tokens": 251296}

 {"current_steps": 630, "total_steps": 1250, "eval_loss": 0.3732368052005768, "epoch": 5.04, "percentage": 50.4, "elapsed_time": "0:01:32", "remaining_time": "0:01:31", "throughput": 2675.4, "total_tokens": 247424}
 {"current_steps": 635, "total_steps": 1250, "loss": 0.3655, "lr": 0.017232675373274282, "epoch": 5.08, "percentage": 50.8, "elapsed_time": "0:01:34", "remaining_time": "0:01:31", "throughput": 2653.07, "total_tokens": 249472}
 {"current_steps": 640, "total_steps": 1250, "loss": 0.2432, "lr": 0.017025358004137486, "epoch": 5.12, "percentage": 51.2, "elapsed_time": "0:01:34", "remaining_time": "0:01:30", "throughput": 2656.85, "total_tokens": 251296}
+{"current_steps": 645, "total_steps": 1250, "loss": 0.5144, "lr": 0.016817645787444758, "epoch": 5.16, "percentage": 51.6, "elapsed_time": "0:01:35", "remaining_time": "0:01:29", "throughput": 2662.51, "total_tokens": 253344}
+{"current_steps": 650, "total_steps": 1250, "loss": 0.4451, "lr": 0.0166095792171043, "epoch": 5.2, "percentage": 52.0, "elapsed_time": "0:01:35", "remaining_time": "0:01:28", "throughput": 2665.83, "total_tokens": 255104}
+{"current_steps": 655, "total_steps": 1250, "loss": 0.4395, "lr": 0.01640119885610626, "epoch": 5.24, "percentage": 52.4, "elapsed_time": "0:01:36", "remaining_time": "0:01:27", "throughput": 2668.97, "total_tokens": 256832}
+{"current_steps": 660, "total_steps": 1250, "loss": 0.4452, "lr": 0.016192545328614895, "epoch": 5.28, "percentage": 52.8, "elapsed_time": "0:01:36", "remaining_time": "0:01:26", "throughput": 2673.2, "total_tokens": 258720}
+{"current_steps": 665, "total_steps": 1250, "loss": 0.3978, "lr": 0.015983659312048825, "epoch": 5.32, "percentage": 53.2, "elapsed_time": "0:01:37", "remaining_time": "0:01:25", "throughput": 2676.97, "total_tokens": 260576}
+{"current_steps": 670, "total_steps": 1250, "loss": 0.3766, "lr": 0.015774581529150847, "epoch": 5.36, "percentage": 53.6, "elapsed_time": "0:01:37", "remaining_time": "0:01:24", "throughput": 2680.19, "total_tokens": 262368}
+{"current_steps": 675, "total_steps": 1250, "loss": 0.35, "lr": 0.01556535274004902, "epoch": 5.4, "percentage": 54.0, "elapsed_time": "0:01:38", "remaining_time": "0:01:23", "throughput": 2684.69, "total_tokens": 264320}
+{"current_steps": 680, "total_steps": 1250, "loss": 0.3589, "lr": 0.01535601373431033, "epoch": 5.44, "percentage": 54.4, "elapsed_time": "0:01:39", "remaining_time": "0:01:23", "throughput": 2689.38, "total_tokens": 266304}
+{"current_steps": 685, "total_steps": 1250, "loss": 0.3521, "lr": 0.015146605322988737, "epoch": 5.48, "percentage": 54.8, "elapsed_time": "0:01:39", "remaining_time": "0:01:22", "throughput": 2694.63, "total_tokens": 268384}
+{"current_steps": 690, "total_steps": 1250, "loss": 0.3847, "lr": 0.014937168330668944, "epoch": 5.52, "percentage": 55.2, "elapsed_time": "0:01:40", "remaining_time": "0:01:21", "throughput": 2697.81, "total_tokens": 270208}
+{"current_steps": 693, "total_steps": 1250, "eval_loss": 0.3541419804096222, "epoch": 5.5440000000000005, "percentage": 55.44, "elapsed_time": "0:01:41", "remaining_time": "0:01:21", "throughput": 2671.7, "total_tokens": 271232}
+{"current_steps": 695, "total_steps": 1250, "loss": 0.3409, "lr": 0.014727743587507579, "epoch": 5.5600000000000005, "percentage": 55.6, "elapsed_time": "0:01:42", "remaining_time": "0:01:22", "throughput": 2644.44, "total_tokens": 271840}
+{"current_steps": 700, "total_steps": 1250, "loss": 0.4763, "lr": 0.014518371921273277, "epoch": 5.6, "percentage": 56.0, "elapsed_time": "0:01:43", "remaining_time": "0:01:21", "throughput": 2648.81, "total_tokens": 273888}
+{"current_steps": 705, "total_steps": 1250, "loss": 0.3572, "lr": 0.014309094149387214, "epoch": 5.64, "percentage": 56.4, "elapsed_time": "0:01:43", "remaining_time": "0:01:20", "throughput": 2653.47, "total_tokens": 275904}