rbelanec
/

train_wsc_123_1760351015

@@ -109,3 +109,17 @@
 {"current_steps": 505, "total_steps": 1250, "loss": 0.4676, "lr": 0.022354431180818528, "epoch": 4.04, "percentage": 40.4, "elapsed_time": "0:01:15", "remaining_time": "0:01:50", "throughput": 2645.47, "total_tokens": 199040}
 {"current_steps": 510, "total_steps": 1250, "loss": 0.3955, "lr": 0.022171181903822883, "epoch": 4.08, "percentage": 40.8, "elapsed_time": "0:01:15", "remaining_time": "0:01:50", "throughput": 2648.84, "total_tokens": 200960}
 {"current_steps": 515, "total_steps": 1250, "loss": 0.383, "lr": 0.021986534590706163, "epoch": 4.12, "percentage": 41.2, "elapsed_time": "0:01:16", "remaining_time": "0:01:49", "throughput": 2656.06, "total_tokens": 203008}

 {"current_steps": 505, "total_steps": 1250, "loss": 0.4676, "lr": 0.022354431180818528, "epoch": 4.04, "percentage": 40.4, "elapsed_time": "0:01:15", "remaining_time": "0:01:50", "throughput": 2645.47, "total_tokens": 199040}
 {"current_steps": 510, "total_steps": 1250, "loss": 0.3955, "lr": 0.022171181903822883, "epoch": 4.08, "percentage": 40.8, "elapsed_time": "0:01:15", "remaining_time": "0:01:50", "throughput": 2648.84, "total_tokens": 200960}
 {"current_steps": 515, "total_steps": 1250, "loss": 0.383, "lr": 0.021986534590706163, "epoch": 4.12, "percentage": 41.2, "elapsed_time": "0:01:16", "remaining_time": "0:01:49", "throughput": 2656.06, "total_tokens": 203008}
+{"current_steps": 520, "total_steps": 1250, "loss": 0.3559, "lr": 0.021800525238827927, "epoch": 4.16, "percentage": 41.6, "elapsed_time": "0:01:16", "remaining_time": "0:01:48", "throughput": 2659.39, "total_tokens": 204672}
+{"current_steps": 525, "total_steps": 1250, "loss": 0.3964, "lr": 0.02161319011107988, "epoch": 4.2, "percentage": 42.0, "elapsed_time": "0:01:17", "remaining_time": "0:01:47", "throughput": 2666.78, "total_tokens": 206784}
+{"current_steps": 530, "total_steps": 1250, "loss": 0.3616, "lr": 0.021424565728816354, "epoch": 4.24, "percentage": 42.4, "elapsed_time": "0:01:18", "remaining_time": "0:01:46", "throughput": 2672.12, "total_tokens": 208672}
+{"current_steps": 535, "total_steps": 1250, "loss": 0.3369, "lr": 0.021234688864734418, "epoch": 4.28, "percentage": 42.8, "elapsed_time": "0:01:18", "remaining_time": "0:01:45", "throughput": 2679.02, "total_tokens": 210752}
+{"current_steps": 540, "total_steps": 1250, "loss": 0.3544, "lr": 0.02104359653570494, "epoch": 4.32, "percentage": 43.2, "elapsed_time": "0:01:19", "remaining_time": "0:01:44", "throughput": 2691.58, "total_tokens": 213472}
+{"current_steps": 545, "total_steps": 1250, "loss": 0.3812, "lr": 0.020851325995556093, "epoch": 4.36, "percentage": 43.6, "elapsed_time": "0:01:19", "remaining_time": "0:01:43", "throughput": 2699.07, "total_tokens": 215616}
+{"current_steps": 550, "total_steps": 1250, "loss": 0.4615, "lr": 0.020657914727810648, "epoch": 4.4, "percentage": 44.0, "elapsed_time": "0:01:20", "remaining_time": "0:01:42", "throughput": 2705.57, "total_tokens": 217664}
+{"current_steps": 555, "total_steps": 1250, "loss": 0.4038, "lr": 0.020463400438378472, "epoch": 4.44, "percentage": 44.4, "elapsed_time": "0:01:21", "remaining_time": "0:01:41", "throughput": 2710.79, "total_tokens": 219584}
+{"current_steps": 560, "total_steps": 1250, "loss": 0.3561, "lr": 0.020267821048205698, "epoch": 4.48, "percentage": 44.8, "elapsed_time": "0:01:21", "remaining_time": "0:01:40", "throughput": 2715.88, "total_tokens": 221504}
+{"current_steps": 565, "total_steps": 1250, "loss": 0.355, "lr": 0.02007121468588196, "epoch": 4.52, "percentage": 45.2, "elapsed_time": "0:01:22", "remaining_time": "0:01:39", "throughput": 2720.9, "total_tokens": 223424}
+{"current_steps": 567, "total_steps": 1250, "eval_loss": 0.3839019238948822, "epoch": 4.536, "percentage": 45.36, "elapsed_time": "0:01:23", "remaining_time": "0:01:40", "throughput": 2689.6, "total_tokens": 224032}
+{"current_steps": 570, "total_steps": 1250, "loss": 0.344, "lr": 0.019873619680207146, "epoch": 4.5600000000000005, "percentage": 45.6, "elapsed_time": "0:01:24", "remaining_time": "0:01:40", "throughput": 2664.7, "total_tokens": 225216}
+{"current_steps": 575, "total_steps": 1250, "loss": 0.356, "lr": 0.019675074552719125, "epoch": 4.6, "percentage": 46.0, "elapsed_time": "0:01:25", "remaining_time": "0:01:39", "throughput": 2668.69, "total_tokens": 227008}
+{"current_steps": 580, "total_steps": 1250, "loss": 0.3653, "lr": 0.019475618010183906, "epoch": 4.64, "percentage": 46.4, "elapsed_time": "0:01:25", "remaining_time": "0:01:38", "throughput": 2671.98, "total_tokens": 228736}