rbelanec
/

train_wsc_123_1760351015

@@ -69,3 +69,16 @@
 {"current_steps": 320, "total_steps": 1250, "loss": 0.4243, "lr": 0.02785211291156464, "epoch": 2.56, "percentage": 25.6, "elapsed_time": "0:00:47", "remaining_time": "0:02:18", "throughput": 2633.15, "total_tokens": 125696}
 {"current_steps": 325, "total_steps": 1250, "loss": 0.3746, "lr": 0.027742869020359582, "epoch": 2.6, "percentage": 26.0, "elapsed_time": "0:00:48", "remaining_time": "0:02:17", "throughput": 2640.2, "total_tokens": 127488}
 {"current_steps": 330, "total_steps": 1250, "loss": 0.3832, "lr": 0.027631140881590383, "epoch": 2.64, "percentage": 26.4, "elapsed_time": "0:00:48", "remaining_time": "0:02:16", "throughput": 2652.68, "total_tokens": 129632}

 {"current_steps": 320, "total_steps": 1250, "loss": 0.4243, "lr": 0.02785211291156464, "epoch": 2.56, "percentage": 25.6, "elapsed_time": "0:00:47", "remaining_time": "0:02:18", "throughput": 2633.15, "total_tokens": 125696}
 {"current_steps": 325, "total_steps": 1250, "loss": 0.3746, "lr": 0.027742869020359582, "epoch": 2.6, "percentage": 26.0, "elapsed_time": "0:00:48", "remaining_time": "0:02:17", "throughput": 2640.2, "total_tokens": 127488}
 {"current_steps": 330, "total_steps": 1250, "loss": 0.3832, "lr": 0.027631140881590383, "epoch": 2.64, "percentage": 26.4, "elapsed_time": "0:00:48", "remaining_time": "0:02:16", "throughput": 2652.68, "total_tokens": 129632}
+{"current_steps": 335, "total_steps": 1250, "loss": 0.5008, "lr": 0.027516950276879084, "epoch": 2.68, "percentage": 26.8, "elapsed_time": "0:00:49", "remaining_time": "0:02:15", "throughput": 2663.12, "total_tokens": 131680}
+{"current_steps": 340, "total_steps": 1250, "loss": 0.375, "lr": 0.02740031946791033, "epoch": 2.7199999999999998, "percentage": 27.2, "elapsed_time": "0:00:49", "remaining_time": "0:02:13", "throughput": 2669.82, "total_tokens": 133472}
+{"current_steps": 345, "total_steps": 1250, "loss": 0.5866, "lr": 0.027281271192091415, "epoch": 2.76, "percentage": 27.6, "elapsed_time": "0:00:50", "remaining_time": "0:02:12", "throughput": 2675.38, "total_tokens": 135200}
+{"current_steps": 350, "total_steps": 1250, "loss": 0.4668, "lr": 0.027159828658119597, "epoch": 2.8, "percentage": 28.0, "elapsed_time": "0:00:51", "remaining_time": "0:02:11", "throughput": 2689.31, "total_tokens": 137536}
+{"current_steps": 355, "total_steps": 1250, "loss": 0.5393, "lr": 0.0270360155414575, "epoch": 2.84, "percentage": 28.4, "elapsed_time": "0:00:51", "remaining_time": "0:02:10", "throughput": 2701.24, "total_tokens": 139744}
+{"current_steps": 360, "total_steps": 1250, "loss": 0.5677, "lr": 0.02690985597971753, "epoch": 2.88, "percentage": 28.8, "elapsed_time": "0:00:52", "remaining_time": "0:02:09", "throughput": 2710.11, "total_tokens": 141760}
+{"current_steps": 365, "total_steps": 1250, "loss": 0.355, "lr": 0.026781374567956224, "epoch": 2.92, "percentage": 29.2, "elapsed_time": "0:00:52", "remaining_time": "0:02:08", "throughput": 2720.35, "total_tokens": 143872}
+{"current_steps": 370, "total_steps": 1250, "loss": 0.3541, "lr": 0.026650596353879386, "epoch": 2.96, "percentage": 29.6, "elapsed_time": "0:00:53", "remaining_time": "0:02:07", "throughput": 2729.01, "total_tokens": 145856}
+{"current_steps": 375, "total_steps": 1250, "loss": 0.4165, "lr": 0.026517546832958965, "epoch": 3.0, "percentage": 30.0, "elapsed_time": "0:00:54", "remaining_time": "0:02:06", "throughput": 2729.02, "total_tokens": 147648}
+{"current_steps": 378, "total_steps": 1250, "eval_loss": 0.4323018193244934, "epoch": 3.024, "percentage": 30.24, "elapsed_time": "0:00:55", "remaining_time": "0:02:08", "throughput": 2673.22, "total_tokens": 148736}
+{"current_steps": 380, "total_steps": 1250, "loss": 0.3542, "lr": 0.026382251943462682, "epoch": 3.04, "percentage": 30.4, "elapsed_time": "0:00:56", "remaining_time": "0:02:10", "throughput": 2630.81, "total_tokens": 149472}
+{"current_steps": 385, "total_steps": 1250, "loss": 0.4196, "lr": 0.026244738061397325, "epoch": 3.08, "percentage": 30.8, "elapsed_time": "0:00:57", "remaining_time": "0:02:08", "throughput": 2641.0, "total_tokens": 151552}
+{"current_steps": 390, "total_steps": 1250, "loss": 0.4161, "lr": 0.026105031995366672, "epoch": 3.12, "percentage": 31.2, "elapsed_time": "0:00:57", "remaining_time": "0:02:07", "throughput": 2650.07, "total_tokens": 153568}