{
  "best_metric": 0.8937728937728938,
  "best_model_checkpoint": "vit-msn-small-lateral_flow_ivalidation_train_test_4/checkpoint-1001",
  "epoch": 100.0,
  "eval_steps": 500,
  "global_step": 1300,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07692307692307693,
      "grad_norm": 11.825268745422363,
      "learning_rate": 1.282051282051282e-09,
      "loss": 0.7662,
      "step": 1
    },
    {
      "epoch": 0.15384615384615385,
      "grad_norm": 7.078304290771484,
      "learning_rate": 2.564102564102564e-09,
      "loss": 0.6914,
      "step": 2
    },
    {
      "epoch": 0.23076923076923078,
      "grad_norm": 6.560975074768066,
      "learning_rate": 3.846153846153846e-09,
      "loss": 0.6913,
      "step": 3
    },
    {
      "epoch": 0.3076923076923077,
      "grad_norm": 5.813207626342773,
      "learning_rate": 5.128205128205128e-09,
      "loss": 0.649,
      "step": 4
    },
    {
      "epoch": 0.38461538461538464,
      "grad_norm": 9.118779182434082,
      "learning_rate": 6.41025641025641e-09,
      "loss": 0.7253,
      "step": 5
    },
    {
      "epoch": 0.46153846153846156,
      "grad_norm": 6.279308319091797,
      "learning_rate": 7.692307692307693e-09,
      "loss": 0.7096,
      "step": 6
    },
    {
      "epoch": 0.5384615384615384,
      "grad_norm": 6.718940258026123,
      "learning_rate": 8.974358974358973e-09,
      "loss": 0.7152,
      "step": 7
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 18.14107322692871,
      "learning_rate": 1.0256410256410256e-08,
      "loss": 0.8574,
      "step": 8
    },
    {
      "epoch": 0.6923076923076923,
      "grad_norm": 10.89995288848877,
      "learning_rate": 1.1538461538461538e-08,
      "loss": 0.7329,
      "step": 9
    },
    {
      "epoch": 0.7692307692307693,
      "grad_norm": 6.3305792808532715,
      "learning_rate": 1.282051282051282e-08,
      "loss": 0.6795,
      "step": 10
    },
    {
      "epoch": 0.8461538461538461,
      "grad_norm": 9.68929672241211,
      "learning_rate": 1.4102564102564102e-08,
      "loss": 0.7302,
      "step": 11
    },
    {
      "epoch": 0.9230769230769231,
      "grad_norm": 15.178092956542969,
      "learning_rate": 1.5384615384615385e-08,
      "loss": 0.8323,
      "step": 12
    },
    {
      "epoch": 1.0,
      "grad_norm": 12.392359733581543,
      "learning_rate": 1.6666666666666667e-08,
      "loss": 0.8038,
      "step": 13
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.40293040293040294,
      "eval_loss": 0.8368167877197266,
      "eval_runtime": 1.1319,
      "eval_samples_per_second": 241.197,
      "eval_steps_per_second": 7.952,
      "step": 13
    },
    {
      "epoch": 1.0769230769230769,
      "grad_norm": 11.725589752197266,
      "learning_rate": 1.7948717948717946e-08,
      "loss": 0.7769,
      "step": 14
    },
    {
      "epoch": 1.1538461538461537,
      "grad_norm": 8.77353286743164,
      "learning_rate": 1.923076923076923e-08,
      "loss": 0.6855,
      "step": 15
    },
    {
      "epoch": 1.2307692307692308,
      "grad_norm": 5.938061237335205,
      "learning_rate": 2.0512820512820512e-08,
      "loss": 0.6337,
      "step": 16
    },
    {
      "epoch": 1.3076923076923077,
      "grad_norm": 7.661417007446289,
      "learning_rate": 2.1794871794871794e-08,
      "loss": 0.7331,
      "step": 17
    },
    {
      "epoch": 1.3846153846153846,
      "grad_norm": 8.453286170959473,
      "learning_rate": 2.3076923076923076e-08,
      "loss": 0.7415,
      "step": 18
    },
    {
      "epoch": 1.4615384615384617,
      "grad_norm": 7.856202602386475,
      "learning_rate": 2.4358974358974358e-08,
      "loss": 0.7215,
      "step": 19
    },
    {
      "epoch": 1.5384615384615383,
      "grad_norm": 8.720379829406738,
      "learning_rate": 2.564102564102564e-08,
      "loss": 0.7609,
      "step": 20
    },
    {
      "epoch": 1.6153846153846154,
      "grad_norm": 7.16353178024292,
      "learning_rate": 2.6923076923076925e-08,
      "loss": 0.725,
      "step": 21
    },
    {
      "epoch": 1.6923076923076923,
      "grad_norm": 11.056208610534668,
      "learning_rate": 2.8205128205128203e-08,
      "loss": 0.7574,
      "step": 22
    },
    {
      "epoch": 1.7692307692307692,
      "grad_norm": 12.139315605163574,
      "learning_rate": 2.9487179487179485e-08,
      "loss": 0.7634,
      "step": 23
    },
    {
      "epoch": 1.8461538461538463,
      "grad_norm": 10.188019752502441,
      "learning_rate": 3.076923076923077e-08,
      "loss": 0.7807,
      "step": 24
    },
    {
      "epoch": 1.9230769230769231,
      "grad_norm": 8.845812797546387,
      "learning_rate": 3.2051282051282046e-08,
      "loss": 0.7356,
      "step": 25
    },
    {
      "epoch": 2.0,
      "grad_norm": 6.216264724731445,
      "learning_rate": 3.3333333333333334e-08,
      "loss": 0.6874,
      "step": 26
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.40293040293040294,
      "eval_loss": 0.8356028199195862,
      "eval_runtime": 1.1457,
      "eval_samples_per_second": 238.279,
      "eval_steps_per_second": 7.855,
      "step": 26
    },
    {
      "epoch": 2.076923076923077,
      "grad_norm": 8.02254581451416,
      "learning_rate": 3.4615384615384616e-08,
      "loss": 0.7509,
      "step": 27
    },
    {
      "epoch": 2.1538461538461537,
      "grad_norm": 9.008159637451172,
      "learning_rate": 3.589743589743589e-08,
      "loss": 0.7535,
      "step": 28
    },
    {
      "epoch": 2.230769230769231,
      "grad_norm": 6.762074947357178,
      "learning_rate": 3.717948717948718e-08,
      "loss": 0.6704,
      "step": 29
    },
    {
      "epoch": 2.3076923076923075,
      "grad_norm": 9.039020538330078,
      "learning_rate": 3.846153846153846e-08,
      "loss": 0.7288,
      "step": 30
    },
    {
      "epoch": 2.3846153846153846,
      "grad_norm": 9.131246566772461,
      "learning_rate": 3.9743589743589737e-08,
      "loss": 0.7303,
      "step": 31
    },
    {
      "epoch": 2.4615384615384617,
      "grad_norm": 16.48816680908203,
      "learning_rate": 4.1025641025641025e-08,
      "loss": 0.8144,
      "step": 32
    },
    {
      "epoch": 2.5384615384615383,
      "grad_norm": 9.815580368041992,
      "learning_rate": 4.230769230769231e-08,
      "loss": 0.7308,
      "step": 33
    },
    {
      "epoch": 2.6153846153846154,
      "grad_norm": 9.985247611999512,
      "learning_rate": 4.358974358974359e-08,
      "loss": 0.7336,
      "step": 34
    },
    {
      "epoch": 2.6923076923076925,
      "grad_norm": 12.207132339477539,
      "learning_rate": 4.487179487179487e-08,
      "loss": 0.7562,
      "step": 35
    },
    {
      "epoch": 2.769230769230769,
      "grad_norm": 8.22400188446045,
      "learning_rate": 4.615384615384615e-08,
      "loss": 0.7505,
      "step": 36
    },
    {
      "epoch": 2.8461538461538463,
      "grad_norm": 9.726299285888672,
      "learning_rate": 4.7435897435897434e-08,
      "loss": 0.7349,
      "step": 37
    },
    {
      "epoch": 2.9230769230769234,
      "grad_norm": 7.650056838989258,
      "learning_rate": 4.8717948717948716e-08,
      "loss": 0.7159,
      "step": 38
    },
    {
      "epoch": 3.0,
      "grad_norm": 7.92750358581543,
      "learning_rate": 5e-08,
      "loss": 0.6487,
      "step": 39
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.38095238095238093,
      "eval_loss": 0.8336427807807922,
      "eval_runtime": 1.0896,
      "eval_samples_per_second": 250.553,
      "eval_steps_per_second": 8.26,
      "step": 39
    },
    {
      "epoch": 3.076923076923077,
      "grad_norm": 7.130133628845215,
      "learning_rate": 5.128205128205128e-08,
      "loss": 0.6572,
      "step": 40
    },
    {
      "epoch": 3.1538461538461537,
      "grad_norm": 6.72935152053833,
      "learning_rate": 5.256410256410256e-08,
      "loss": 0.6879,
      "step": 41
    },
    {
      "epoch": 3.230769230769231,
      "grad_norm": 6.816609859466553,
      "learning_rate": 5.384615384615385e-08,
      "loss": 0.7015,
      "step": 42
    },
    {
      "epoch": 3.3076923076923075,
      "grad_norm": 14.282307624816895,
      "learning_rate": 5.5128205128205125e-08,
      "loss": 0.7773,
      "step": 43
    },
    {
      "epoch": 3.3846153846153846,
      "grad_norm": 8.73438549041748,
      "learning_rate": 5.641025641025641e-08,
      "loss": 0.6779,
      "step": 44
    },
    {
      "epoch": 3.4615384615384617,
      "grad_norm": 7.69527530670166,
      "learning_rate": 5.7692307692307695e-08,
      "loss": 0.7089,
      "step": 45
    },
    {
      "epoch": 3.5384615384615383,
      "grad_norm": 7.961818695068359,
      "learning_rate": 5.897435897435897e-08,
      "loss": 0.6794,
      "step": 46
    },
    {
      "epoch": 3.6153846153846154,
      "grad_norm": 10.44491195678711,
      "learning_rate": 6.025641025641025e-08,
      "loss": 0.7426,
      "step": 47
    },
    {
      "epoch": 3.6923076923076925,
      "grad_norm": 14.012895584106445,
      "learning_rate": 6.153846153846154e-08,
      "loss": 0.813,
      "step": 48
    },
    {
      "epoch": 3.769230769230769,
      "grad_norm": 14.739794731140137,
      "learning_rate": 6.282051282051282e-08,
      "loss": 0.7476,
      "step": 49
    },
    {
      "epoch": 3.8461538461538463,
      "grad_norm": 9.020185470581055,
      "learning_rate": 6.410256410256409e-08,
      "loss": 0.7363,
      "step": 50
    },
    {
      "epoch": 3.9230769230769234,
      "grad_norm": 8.319820404052734,
      "learning_rate": 6.538461538461538e-08,
      "loss": 0.7147,
      "step": 51
    },
    {
      "epoch": 4.0,
      "grad_norm": 13.349438667297363,
      "learning_rate": 6.666666666666667e-08,
      "loss": 0.773,
      "step": 52
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.36996336996337,
      "eval_loss": 0.8306711912155151,
      "eval_runtime": 1.099,
      "eval_samples_per_second": 248.412,
      "eval_steps_per_second": 8.189,
      "step": 52
    },
    {
      "epoch": 4.076923076923077,
      "grad_norm": 7.532729625701904,
      "learning_rate": 6.794871794871794e-08,
      "loss": 0.7002,
      "step": 53
    },
    {
      "epoch": 4.153846153846154,
      "grad_norm": 8.158855438232422,
      "learning_rate": 6.923076923076923e-08,
      "loss": 0.7246,
      "step": 54
    },
    {
      "epoch": 4.230769230769231,
      "grad_norm": 6.472417831420898,
      "learning_rate": 7.051282051282051e-08,
      "loss": 0.685,
      "step": 55
    },
    {
      "epoch": 4.3076923076923075,
      "grad_norm": 6.939732551574707,
      "learning_rate": 7.179487179487178e-08,
      "loss": 0.6831,
      "step": 56
    },
    {
      "epoch": 4.384615384615385,
      "grad_norm": 11.658007621765137,
      "learning_rate": 7.307692307692308e-08,
      "loss": 0.7724,
      "step": 57
    },
    {
      "epoch": 4.461538461538462,
      "grad_norm": 10.362598419189453,
      "learning_rate": 7.435897435897436e-08,
      "loss": 0.7593,
      "step": 58
    },
    {
      "epoch": 4.538461538461538,
      "grad_norm": 8.445935249328613,
      "learning_rate": 7.564102564102563e-08,
      "loss": 0.7272,
      "step": 59
    },
    {
      "epoch": 4.615384615384615,
      "grad_norm": 8.527509689331055,
      "learning_rate": 7.692307692307692e-08,
      "loss": 0.7045,
      "step": 60
    },
    {
      "epoch": 4.6923076923076925,
      "grad_norm": 9.107377052307129,
      "learning_rate": 7.82051282051282e-08,
      "loss": 0.7378,
      "step": 61
    },
    {
      "epoch": 4.769230769230769,
      "grad_norm": 6.791406154632568,
      "learning_rate": 7.948717948717947e-08,
      "loss": 0.6529,
      "step": 62
    },
    {
      "epoch": 4.846153846153846,
      "grad_norm": 14.12457275390625,
      "learning_rate": 8.076923076923077e-08,
      "loss": 0.7431,
      "step": 63
    },
    {
      "epoch": 4.923076923076923,
      "grad_norm": 6.899061679840088,
      "learning_rate": 8.205128205128205e-08,
      "loss": 0.6959,
      "step": 64
    },
    {
      "epoch": 5.0,
      "grad_norm": 7.9619526863098145,
      "learning_rate": 8.333333333333333e-08,
      "loss": 0.7002,
      "step": 65
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.34798534798534797,
      "eval_loss": 0.8270196318626404,
      "eval_runtime": 1.129,
      "eval_samples_per_second": 241.809,
      "eval_steps_per_second": 7.972,
      "step": 65
    },
    {
      "epoch": 5.076923076923077,
      "grad_norm": 7.7031426429748535,
      "learning_rate": 8.461538461538461e-08,
      "loss": 0.7066,
      "step": 66
    },
    {
      "epoch": 5.153846153846154,
      "grad_norm": 15.828374862670898,
      "learning_rate": 8.589743589743589e-08,
      "loss": 0.8086,
      "step": 67
    },
    {
      "epoch": 5.230769230769231,
      "grad_norm": 14.059815406799316,
      "learning_rate": 8.717948717948718e-08,
      "loss": 0.7508,
      "step": 68
    },
    {
      "epoch": 5.3076923076923075,
      "grad_norm": 6.549792766571045,
      "learning_rate": 8.846153846153847e-08,
      "loss": 0.6624,
      "step": 69
    },
    {
      "epoch": 5.384615384615385,
      "grad_norm": 11.543883323669434,
      "learning_rate": 8.974358974358974e-08,
      "loss": 0.77,
      "step": 70
    },
    {
      "epoch": 5.461538461538462,
      "grad_norm": 6.944629192352295,
      "learning_rate": 9.102564102564102e-08,
      "loss": 0.6727,
      "step": 71
    },
    {
      "epoch": 5.538461538461538,
      "grad_norm": 7.672135353088379,
      "learning_rate": 9.23076923076923e-08,
      "loss": 0.7118,
      "step": 72
    },
    {
      "epoch": 5.615384615384615,
      "grad_norm": 7.508388519287109,
      "learning_rate": 9.358974358974358e-08,
      "loss": 0.7035,
      "step": 73
    },
    {
      "epoch": 5.6923076923076925,
      "grad_norm": 9.746411323547363,
      "learning_rate": 9.487179487179487e-08,
      "loss": 0.7388,
      "step": 74
    },
    {
      "epoch": 5.769230769230769,
      "grad_norm": 5.34724235534668,
      "learning_rate": 9.615384615384616e-08,
      "loss": 0.6676,
      "step": 75
    },
    {
      "epoch": 5.846153846153846,
      "grad_norm": 7.4027533531188965,
      "learning_rate": 9.743589743589743e-08,
      "loss": 0.6776,
      "step": 76
    },
    {
      "epoch": 5.923076923076923,
      "grad_norm": 5.9196600914001465,
      "learning_rate": 9.871794871794871e-08,
      "loss": 0.6496,
      "step": 77
    },
    {
      "epoch": 6.0,
      "grad_norm": 9.185264587402344,
      "learning_rate": 1e-07,
      "loss": 0.6991,
      "step": 78
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.34065934065934067,
      "eval_loss": 0.822251558303833,
      "eval_runtime": 1.1053,
      "eval_samples_per_second": 246.986,
      "eval_steps_per_second": 8.142,
      "step": 78
    },
    {
      "epoch": 6.076923076923077,
      "grad_norm": 12.898451805114746,
      "learning_rate": 1.0128205128205128e-07,
      "loss": 0.7511,
      "step": 79
    },
    {
      "epoch": 6.153846153846154,
      "grad_norm": 8.163904190063477,
      "learning_rate": 1.0256410256410256e-07,
      "loss": 0.7087,
      "step": 80
    },
    {
      "epoch": 6.230769230769231,
      "grad_norm": 11.064409255981445,
      "learning_rate": 1.0384615384615385e-07,
      "loss": 0.7392,
      "step": 81
    },
    {
      "epoch": 6.3076923076923075,
      "grad_norm": 7.729458332061768,
      "learning_rate": 1.0512820512820512e-07,
      "loss": 0.6895,
      "step": 82
    },
    {
      "epoch": 6.384615384615385,
      "grad_norm": 10.194966316223145,
      "learning_rate": 1.064102564102564e-07,
      "loss": 0.7307,
      "step": 83
    },
    {
      "epoch": 6.461538461538462,
      "grad_norm": 8.71014404296875,
      "learning_rate": 1.076923076923077e-07,
      "loss": 0.7016,
      "step": 84
    },
    {
      "epoch": 6.538461538461538,
      "grad_norm": 5.449409008026123,
      "learning_rate": 1.0897435897435897e-07,
      "loss": 0.6902,
      "step": 85
    },
    {
      "epoch": 6.615384615384615,
      "grad_norm": 6.427290916442871,
      "learning_rate": 1.1025641025641025e-07,
      "loss": 0.7096,
      "step": 86
    },
    {
      "epoch": 6.6923076923076925,
      "grad_norm": 8.389752388000488,
      "learning_rate": 1.1153846153846154e-07,
      "loss": 0.6796,
      "step": 87
    },
    {
      "epoch": 6.769230769230769,
      "grad_norm": 7.476161003112793,
      "learning_rate": 1.1282051282051281e-07,
      "loss": 0.6667,
      "step": 88
    },
    {
      "epoch": 6.846153846153846,
      "grad_norm": 7.568350791931152,
      "learning_rate": 1.1410256410256409e-07,
      "loss": 0.6715,
      "step": 89
    },
    {
      "epoch": 6.923076923076923,
      "grad_norm": 8.625706672668457,
      "learning_rate": 1.1538461538461539e-07,
      "loss": 0.636,
      "step": 90
    },
    {
      "epoch": 7.0,
      "grad_norm": 5.82112979888916,
      "learning_rate": 1.1666666666666667e-07,
      "loss": 0.6809,
      "step": 91
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.34798534798534797,
      "eval_loss": 0.8163912296295166,
      "eval_runtime": 1.0813,
      "eval_samples_per_second": 252.467,
      "eval_steps_per_second": 8.323,
      "step": 91
    },
    {
      "epoch": 7.076923076923077,
      "grad_norm": 10.13252067565918,
      "learning_rate": 1.1794871794871794e-07,
      "loss": 0.7575,
      "step": 92
    },
    {
      "epoch": 7.153846153846154,
      "grad_norm": 8.741361618041992,
      "learning_rate": 1.1923076923076923e-07,
      "loss": 0.648,
      "step": 93
    },
    {
      "epoch": 7.230769230769231,
      "grad_norm": 7.56840705871582,
      "learning_rate": 1.205128205128205e-07,
      "loss": 0.6463,
      "step": 94
    },
    {
      "epoch": 7.3076923076923075,
      "grad_norm": 8.051764488220215,
      "learning_rate": 1.2179487179487178e-07,
      "loss": 0.6638,
      "step": 95
    },
    {
      "epoch": 7.384615384615385,
      "grad_norm": 9.078740119934082,
      "learning_rate": 1.2307692307692308e-07,
      "loss": 0.6532,
      "step": 96
    },
    {
      "epoch": 7.461538461538462,
      "grad_norm": 6.47438907623291,
      "learning_rate": 1.2435897435897436e-07,
      "loss": 0.6865,
      "step": 97
    },
    {
      "epoch": 7.538461538461538,
      "grad_norm": 19.186744689941406,
      "learning_rate": 1.2564102564102563e-07,
      "loss": 0.7857,
      "step": 98
    },
    {
      "epoch": 7.615384615384615,
      "grad_norm": 6.243631839752197,
      "learning_rate": 1.269230769230769e-07,
      "loss": 0.6497,
      "step": 99
    },
    {
      "epoch": 7.6923076923076925,
      "grad_norm": 11.06851577758789,
      "learning_rate": 1.2820512820512818e-07,
      "loss": 0.7393,
      "step": 100
    },
    {
      "epoch": 7.769230769230769,
      "grad_norm": 6.238231182098389,
      "learning_rate": 1.2948717948717948e-07,
      "loss": 0.648,
      "step": 101
    },
    {
      "epoch": 7.846153846153846,
      "grad_norm": 7.018065929412842,
      "learning_rate": 1.3076923076923076e-07,
      "loss": 0.6985,
      "step": 102
    },
    {
      "epoch": 7.923076923076923,
      "grad_norm": 6.59433650970459,
      "learning_rate": 1.3205128205128206e-07,
      "loss": 0.6425,
      "step": 103
    },
    {
      "epoch": 8.0,
      "grad_norm": 15.792468070983887,
      "learning_rate": 1.3333333333333334e-07,
      "loss": 0.7359,
      "step": 104
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.3516483516483517,
      "eval_loss": 0.809272825717926,
      "eval_runtime": 1.123,
      "eval_samples_per_second": 243.109,
      "eval_steps_per_second": 8.015,
      "step": 104
    },
    {
      "epoch": 8.076923076923077,
      "grad_norm": 5.732429027557373,
      "learning_rate": 1.346153846153846e-07,
      "loss": 0.6671,
      "step": 105
    },
    {
      "epoch": 8.153846153846153,
      "grad_norm": 8.492462158203125,
      "learning_rate": 1.3589743589743589e-07,
      "loss": 0.6791,
      "step": 106
    },
    {
      "epoch": 8.23076923076923,
      "grad_norm": 7.260557651519775,
      "learning_rate": 1.371794871794872e-07,
      "loss": 0.6792,
      "step": 107
    },
    {
      "epoch": 8.307692307692308,
      "grad_norm": 6.956895351409912,
      "learning_rate": 1.3846153846153846e-07,
      "loss": 0.6594,
      "step": 108
    },
    {
      "epoch": 8.384615384615385,
      "grad_norm": 8.899503707885742,
      "learning_rate": 1.3974358974358974e-07,
      "loss": 0.6844,
      "step": 109
    },
    {
      "epoch": 8.461538461538462,
      "grad_norm": 9.356163024902344,
      "learning_rate": 1.4102564102564101e-07,
      "loss": 0.6823,
      "step": 110
    },
    {
      "epoch": 8.538461538461538,
      "grad_norm": 5.070780277252197,
      "learning_rate": 1.423076923076923e-07,
      "loss": 0.6587,
      "step": 111
    },
    {
      "epoch": 8.615384615384615,
      "grad_norm": 6.451420307159424,
      "learning_rate": 1.4358974358974356e-07,
      "loss": 0.6634,
      "step": 112
    },
    {
      "epoch": 8.692307692307692,
      "grad_norm": 10.156645774841309,
      "learning_rate": 1.4487179487179487e-07,
      "loss": 0.6924,
      "step": 113
    },
    {
      "epoch": 8.76923076923077,
      "grad_norm": 6.450173377990723,
      "learning_rate": 1.4615384615384617e-07,
      "loss": 0.6747,
      "step": 114
    },
    {
      "epoch": 8.846153846153847,
      "grad_norm": 6.027273654937744,
      "learning_rate": 1.4743589743589744e-07,
      "loss": 0.6494,
      "step": 115
    },
    {
      "epoch": 8.923076923076923,
      "grad_norm": 8.349352836608887,
      "learning_rate": 1.4871794871794872e-07,
      "loss": 0.6403,
      "step": 116
    },
    {
      "epoch": 9.0,
      "grad_norm": 18.18368148803711,
      "learning_rate": 1.5e-07,
      "loss": 0.771,
      "step": 117
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.3443223443223443,
      "eval_loss": 0.8017431497573853,
      "eval_runtime": 1.0902,
      "eval_samples_per_second": 250.408,
      "eval_steps_per_second": 8.255,
      "step": 117
    },
    {
      "epoch": 9.076923076923077,
      "grad_norm": 8.11916732788086,
      "learning_rate": 1.5128205128205127e-07,
      "loss": 0.6626,
      "step": 118
    },
    {
      "epoch": 9.153846153846153,
      "grad_norm": 7.791807651519775,
      "learning_rate": 1.5256410256410257e-07,
      "loss": 0.6976,
      "step": 119
    },
    {
      "epoch": 9.23076923076923,
      "grad_norm": 5.970644474029541,
      "learning_rate": 1.5384615384615385e-07,
      "loss": 0.6504,
      "step": 120
    },
    {
      "epoch": 9.307692307692308,
      "grad_norm": 7.936901569366455,
      "learning_rate": 1.5512820512820512e-07,
      "loss": 0.6254,
      "step": 121
    },
    {
      "epoch": 9.384615384615385,
      "grad_norm": 9.733453750610352,
      "learning_rate": 1.564102564102564e-07,
      "loss": 0.6942,
      "step": 122
    },
    {
      "epoch": 9.461538461538462,
      "grad_norm": 7.078396797180176,
      "learning_rate": 1.5769230769230767e-07,
      "loss": 0.6693,
      "step": 123
    },
    {
      "epoch": 9.538461538461538,
      "grad_norm": 7.963113784790039,
      "learning_rate": 1.5897435897435895e-07,
      "loss": 0.6801,
      "step": 124
    },
    {
      "epoch": 9.615384615384615,
      "grad_norm": 8.167120933532715,
      "learning_rate": 1.6025641025641027e-07,
      "loss": 0.6815,
      "step": 125
    },
    {
      "epoch": 9.692307692307692,
      "grad_norm": 10.073902130126953,
      "learning_rate": 1.6153846153846155e-07,
      "loss": 0.5788,
      "step": 126
    },
    {
      "epoch": 9.76923076923077,
      "grad_norm": 11.61005973815918,
      "learning_rate": 1.6282051282051282e-07,
      "loss": 0.6963,
      "step": 127
    },
    {
      "epoch": 9.846153846153847,
      "grad_norm": 8.669663429260254,
      "learning_rate": 1.641025641025641e-07,
      "loss": 0.6606,
      "step": 128
    },
    {
      "epoch": 9.923076923076923,
      "grad_norm": 6.1367902755737305,
      "learning_rate": 1.6538461538461538e-07,
      "loss": 0.6611,
      "step": 129
    },
    {
      "epoch": 10.0,
      "grad_norm": 10.469046592712402,
      "learning_rate": 1.6666666666666665e-07,
      "loss": 0.6855,
      "step": 130
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.3443223443223443,
      "eval_loss": 0.793373703956604,
      "eval_runtime": 1.165,
      "eval_samples_per_second": 234.342,
      "eval_steps_per_second": 7.726,
      "step": 130
    },
    {
      "epoch": 10.076923076923077,
      "grad_norm": 5.35909366607666,
      "learning_rate": 1.6794871794871793e-07,
      "loss": 0.6251,
      "step": 131
    },
    {
      "epoch": 10.153846153846153,
      "grad_norm": 10.427489280700684,
      "learning_rate": 1.6923076923076923e-07,
      "loss": 0.6966,
      "step": 132
    },
    {
      "epoch": 10.23076923076923,
      "grad_norm": 5.611694812774658,
      "learning_rate": 1.705128205128205e-07,
      "loss": 0.6269,
      "step": 133
    },
    {
      "epoch": 10.307692307692308,
      "grad_norm": 6.193531036376953,
      "learning_rate": 1.7179487179487178e-07,
      "loss": 0.6368,
      "step": 134
    },
    {
      "epoch": 10.384615384615385,
      "grad_norm": 8.017634391784668,
      "learning_rate": 1.7307692307692305e-07,
      "loss": 0.6621,
      "step": 135
    },
    {
      "epoch": 10.461538461538462,
      "grad_norm": 10.72907829284668,
      "learning_rate": 1.7435897435897435e-07,
      "loss": 0.6864,
      "step": 136
    },
    {
      "epoch": 10.538461538461538,
      "grad_norm": 6.352747917175293,
      "learning_rate": 1.7564102564102563e-07,
      "loss": 0.6565,
      "step": 137
    },
    {
      "epoch": 10.615384615384615,
      "grad_norm": 7.856233596801758,
      "learning_rate": 1.7692307692307693e-07,
      "loss": 0.6121,
      "step": 138
    },
    {
      "epoch": 10.692307692307692,
      "grad_norm": 5.864201068878174,
      "learning_rate": 1.782051282051282e-07,
      "loss": 0.6459,
      "step": 139
    },
    {
      "epoch": 10.76923076923077,
      "grad_norm": 7.608394145965576,
      "learning_rate": 1.7948717948717948e-07,
      "loss": 0.657,
      "step": 140
    },
    {
      "epoch": 10.846153846153847,
      "grad_norm": 8.372591018676758,
      "learning_rate": 1.8076923076923076e-07,
      "loss": 0.6237,
      "step": 141
    },
    {
      "epoch": 10.923076923076923,
      "grad_norm": 11.936747550964355,
      "learning_rate": 1.8205128205128203e-07,
      "loss": 0.5957,
      "step": 142
    },
    {
      "epoch": 11.0,
      "grad_norm": 7.490809440612793,
      "learning_rate": 1.833333333333333e-07,
      "loss": 0.6674,
      "step": 143
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.34798534798534797,
      "eval_loss": 0.7850834727287292,
      "eval_runtime": 1.1156,
      "eval_samples_per_second": 244.707,
      "eval_steps_per_second": 8.067,
      "step": 143
    },
    {
      "epoch": 11.076923076923077,
      "grad_norm": 6.380209922790527,
      "learning_rate": 1.846153846153846e-07,
      "loss": 0.6687,
      "step": 144
    },
    {
      "epoch": 11.153846153846153,
      "grad_norm": 9.784966468811035,
      "learning_rate": 1.8589743589743588e-07,
      "loss": 0.5944,
      "step": 145
    },
    {
      "epoch": 11.23076923076923,
      "grad_norm": 6.177420139312744,
      "learning_rate": 1.8717948717948716e-07,
      "loss": 0.6216,
      "step": 146
    },
    {
      "epoch": 11.307692307692308,
      "grad_norm": 8.557212829589844,
      "learning_rate": 1.8846153846153846e-07,
      "loss": 0.588,
      "step": 147
    },
    {
      "epoch": 11.384615384615385,
      "grad_norm": 7.8158698081970215,
      "learning_rate": 1.8974358974358974e-07,
      "loss": 0.678,
      "step": 148
    },
    {
      "epoch": 11.461538461538462,
      "grad_norm": 6.817122936248779,
      "learning_rate": 1.91025641025641e-07,
      "loss": 0.6578,
      "step": 149
    },
    {
      "epoch": 11.538461538461538,
      "grad_norm": 6.473201751708984,
      "learning_rate": 1.9230769230769231e-07,
      "loss": 0.5925,
      "step": 150
    },
    {
      "epoch": 11.615384615384615,
      "grad_norm": 7.937005043029785,
      "learning_rate": 1.935897435897436e-07,
      "loss": 0.6075,
      "step": 151
    },
    {
      "epoch": 11.692307692307692,
      "grad_norm": 7.399307727813721,
      "learning_rate": 1.9487179487179486e-07,
      "loss": 0.6422,
      "step": 152
    },
    {
      "epoch": 11.76923076923077,
      "grad_norm": 5.2583417892456055,
      "learning_rate": 1.9615384615384614e-07,
      "loss": 0.632,
      "step": 153
    },
    {
      "epoch": 11.846153846153847,
      "grad_norm": 5.878222465515137,
      "learning_rate": 1.9743589743589741e-07,
      "loss": 0.6132,
      "step": 154
    },
    {
      "epoch": 11.923076923076923,
      "grad_norm": 9.431600570678711,
      "learning_rate": 1.987179487179487e-07,
      "loss": 0.6752,
      "step": 155
    },
    {
      "epoch": 12.0,
      "grad_norm": 11.3587007522583,
      "learning_rate": 2e-07,
      "loss": 0.6296,
      "step": 156
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.38095238095238093,
      "eval_loss": 0.7746027708053589,
      "eval_runtime": 1.0784,
      "eval_samples_per_second": 253.151,
      "eval_steps_per_second": 8.346,
      "step": 156
    },
    {
      "epoch": 12.076923076923077,
      "grad_norm": 13.487508773803711,
      "learning_rate": 2.012820512820513e-07,
      "loss": 0.6484,
      "step": 157
    },
    {
      "epoch": 12.153846153846153,
      "grad_norm": 6.343132019042969,
      "learning_rate": 2.0256410256410257e-07,
      "loss": 0.6176,
      "step": 158
    },
    {
      "epoch": 12.23076923076923,
      "grad_norm": 6.916377544403076,
      "learning_rate": 2.0384615384615384e-07,
      "loss": 0.6203,
      "step": 159
    },
    {
      "epoch": 12.307692307692308,
      "grad_norm": 5.082144260406494,
      "learning_rate": 2.0512820512820512e-07,
      "loss": 0.6118,
      "step": 160
    },
    {
      "epoch": 12.384615384615385,
      "grad_norm": 7.097628593444824,
      "learning_rate": 2.064102564102564e-07,
      "loss": 0.6209,
      "step": 161
    },
    {
      "epoch": 12.461538461538462,
      "grad_norm": 4.947141170501709,
      "learning_rate": 2.076923076923077e-07,
      "loss": 0.6167,
      "step": 162
    },
    {
      "epoch": 12.538461538461538,
      "grad_norm": 7.4713568687438965,
      "learning_rate": 2.0897435897435897e-07,
      "loss": 0.6366,
      "step": 163
    },
    {
      "epoch": 12.615384615384615,
      "grad_norm": 5.943190097808838,
      "learning_rate": 2.1025641025641025e-07,
      "loss": 0.5884,
      "step": 164
    },
    {
      "epoch": 12.692307692307692,
      "grad_norm": 7.075766563415527,
      "learning_rate": 2.1153846153846152e-07,
      "loss": 0.6174,
      "step": 165
    },
    {
      "epoch": 12.76923076923077,
      "grad_norm": 6.404934406280518,
      "learning_rate": 2.128205128205128e-07,
      "loss": 0.5991,
      "step": 166
    },
    {
      "epoch": 12.846153846153847,
      "grad_norm": 6.4050374031066895,
      "learning_rate": 2.1410256410256407e-07,
      "loss": 0.5949,
      "step": 167
    },
    {
      "epoch": 12.923076923076923,
      "grad_norm": 6.361465930938721,
      "learning_rate": 2.153846153846154e-07,
      "loss": 0.6041,
      "step": 168
    },
    {
      "epoch": 13.0,
      "grad_norm": 8.524773597717285,
      "learning_rate": 2.1666666666666667e-07,
      "loss": 0.5597,
      "step": 169
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.3956043956043956,
      "eval_loss": 0.7642745971679688,
      "eval_runtime": 1.0836,
      "eval_samples_per_second": 251.932,
      "eval_steps_per_second": 8.305,
      "step": 169
    },
    {
      "epoch": 13.076923076923077,
      "grad_norm": 6.53005313873291,
      "learning_rate": 2.1794871794871795e-07,
      "loss": 0.5907,
      "step": 170
    },
    {
      "epoch": 13.153846153846153,
      "grad_norm": 9.942926406860352,
      "learning_rate": 2.1923076923076922e-07,
      "loss": 0.6257,
      "step": 171
    },
    {
      "epoch": 13.23076923076923,
      "grad_norm": 6.534128665924072,
      "learning_rate": 2.205128205128205e-07,
      "loss": 0.6071,
      "step": 172
    },
    {
      "epoch": 13.307692307692308,
      "grad_norm": 7.146810531616211,
      "learning_rate": 2.2179487179487178e-07,
      "loss": 0.6034,
      "step": 173
    },
    {
      "epoch": 13.384615384615385,
      "grad_norm": 9.57970142364502,
      "learning_rate": 2.2307692307692308e-07,
      "loss": 0.5989,
      "step": 174
    },
    {
      "epoch": 13.461538461538462,
      "grad_norm": 7.740459442138672,
      "learning_rate": 2.2435897435897435e-07,
      "loss": 0.6127,
      "step": 175
    },
    {
      "epoch": 13.538461538461538,
      "grad_norm": 6.141212463378906,
      "learning_rate": 2.2564102564102563e-07,
      "loss": 0.6053,
      "step": 176
    },
    {
      "epoch": 13.615384615384615,
      "grad_norm": 9.628805160522461,
      "learning_rate": 2.269230769230769e-07,
      "loss": 0.6233,
      "step": 177
    },
    {
      "epoch": 13.692307692307692,
      "grad_norm": 7.1237359046936035,
      "learning_rate": 2.2820512820512818e-07,
      "loss": 0.5464,
      "step": 178
    },
    {
      "epoch": 13.76923076923077,
      "grad_norm": 9.79202938079834,
      "learning_rate": 2.2948717948717948e-07,
      "loss": 0.5903,
      "step": 179
    },
    {
      "epoch": 13.846153846153847,
      "grad_norm": 10.249642372131348,
      "learning_rate": 2.3076923076923078e-07,
      "loss": 0.5775,
      "step": 180
    },
    {
      "epoch": 13.923076923076923,
      "grad_norm": 8.622888565063477,
      "learning_rate": 2.3205128205128206e-07,
      "loss": 0.5674,
      "step": 181
    },
    {
      "epoch": 14.0,
      "grad_norm": 7.990379810333252,
      "learning_rate": 2.3333333333333333e-07,
      "loss": 0.5636,
      "step": 182
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.4065934065934066,
      "eval_loss": 0.7519221901893616,
      "eval_runtime": 1.1646,
      "eval_samples_per_second": 234.411,
      "eval_steps_per_second": 7.728,
      "step": 182
    },
    {
      "epoch": 14.076923076923077,
      "grad_norm": 6.738072395324707,
      "learning_rate": 2.346153846153846e-07,
      "loss": 0.5964,
      "step": 183
    },
    {
      "epoch": 14.153846153846153,
      "grad_norm": 6.587930679321289,
      "learning_rate": 2.3589743589743588e-07,
      "loss": 0.5959,
      "step": 184
    },
    {
      "epoch": 14.23076923076923,
      "grad_norm": 8.863685607910156,
      "learning_rate": 2.3717948717948716e-07,
      "loss": 0.6179,
      "step": 185
    },
    {
      "epoch": 14.307692307692308,
      "grad_norm": 8.31081771850586,
      "learning_rate": 2.3846153846153846e-07,
      "loss": 0.5781,
      "step": 186
    },
    {
      "epoch": 14.384615384615385,
      "grad_norm": 6.629979610443115,
      "learning_rate": 2.3974358974358973e-07,
      "loss": 0.5905,
      "step": 187
    },
    {
      "epoch": 14.461538461538462,
      "grad_norm": 6.239142417907715,
      "learning_rate": 2.41025641025641e-07,
      "loss": 0.5835,
      "step": 188
    },
    {
      "epoch": 14.538461538461538,
      "grad_norm": 9.24789047241211,
      "learning_rate": 2.423076923076923e-07,
      "loss": 0.5311,
      "step": 189
    },
    {
      "epoch": 14.615384615384615,
      "grad_norm": 5.913294792175293,
      "learning_rate": 2.4358974358974356e-07,
      "loss": 0.5696,
      "step": 190
    },
    {
      "epoch": 14.692307692307692,
      "grad_norm": 5.466041088104248,
      "learning_rate": 2.4487179487179483e-07,
      "loss": 0.5834,
      "step": 191
    },
    {
      "epoch": 14.76923076923077,
      "grad_norm": 8.735718727111816,
      "learning_rate": 2.4615384615384616e-07,
      "loss": 0.5894,
      "step": 192
    },
    {
      "epoch": 14.846153846153847,
      "grad_norm": 9.893664360046387,
      "learning_rate": 2.4743589743589744e-07,
      "loss": 0.5986,
      "step": 193
    },
    {
      "epoch": 14.923076923076923,
      "grad_norm": 11.7261323928833,
      "learning_rate": 2.487179487179487e-07,
      "loss": 0.6052,
      "step": 194
    },
    {
      "epoch": 15.0,
      "grad_norm": 5.431432247161865,
      "learning_rate": 2.5e-07,
      "loss": 0.5718,
      "step": 195
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.4432234432234432,
      "eval_loss": 0.7382447123527527,
      "eval_runtime": 1.2226,
      "eval_samples_per_second": 223.292,
      "eval_steps_per_second": 7.361,
      "step": 195
    },
    {
      "epoch": 15.076923076923077,
      "grad_norm": 11.50497817993164,
      "learning_rate": 2.5128205128205126e-07,
      "loss": 0.5458,
      "step": 196
    },
    {
      "epoch": 15.153846153846153,
      "grad_norm": 6.202509880065918,
      "learning_rate": 2.5256410256410254e-07,
      "loss": 0.568,
      "step": 197
    },
    {
      "epoch": 15.23076923076923,
      "grad_norm": 7.735499858856201,
      "learning_rate": 2.538461538461538e-07,
      "loss": 0.5498,
      "step": 198
    },
    {
      "epoch": 15.307692307692308,
      "grad_norm": 6.378796577453613,
      "learning_rate": 2.551282051282051e-07,
      "loss": 0.5684,
      "step": 199
    },
    {
      "epoch": 15.384615384615385,
      "grad_norm": 7.309218406677246,
      "learning_rate": 2.5641025641025636e-07,
      "loss": 0.5542,
      "step": 200
    },
    {
      "epoch": 15.461538461538462,
      "grad_norm": 6.49953556060791,
      "learning_rate": 2.5769230769230764e-07,
      "loss": 0.5231,
      "step": 201
    },
    {
      "epoch": 15.538461538461538,
      "grad_norm": 7.93926477432251,
      "learning_rate": 2.5897435897435897e-07,
      "loss": 0.598,
      "step": 202
    },
    {
      "epoch": 15.615384615384615,
      "grad_norm": 7.975804805755615,
      "learning_rate": 2.6025641025641024e-07,
      "loss": 0.5603,
      "step": 203
    },
    {
      "epoch": 15.692307692307692,
      "grad_norm": 7.7549567222595215,
      "learning_rate": 2.615384615384615e-07,
      "loss": 0.6205,
      "step": 204
    },
    {
      "epoch": 15.76923076923077,
      "grad_norm": 5.829622745513916,
      "learning_rate": 2.628205128205128e-07,
      "loss": 0.5317,
      "step": 205
    },
    {
      "epoch": 15.846153846153847,
      "grad_norm": 8.449727058410645,
      "learning_rate": 2.641025641025641e-07,
      "loss": 0.5441,
      "step": 206
    },
    {
      "epoch": 15.923076923076923,
      "grad_norm": 5.6499924659729,
      "learning_rate": 2.653846153846154e-07,
      "loss": 0.564,
      "step": 207
    },
    {
      "epoch": 16.0,
      "grad_norm": 7.8772501945495605,
      "learning_rate": 2.6666666666666667e-07,
      "loss": 0.5527,
      "step": 208
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.45787545787545786,
      "eval_loss": 0.7255610823631287,
      "eval_runtime": 1.1886,
      "eval_samples_per_second": 229.677,
      "eval_steps_per_second": 7.572,
      "step": 208
    },
    {
      "epoch": 16.076923076923077,
      "grad_norm": 6.204710960388184,
      "learning_rate": 2.6794871794871795e-07,
      "loss": 0.5586,
      "step": 209
    },
    {
      "epoch": 16.153846153846153,
      "grad_norm": 7.166380882263184,
      "learning_rate": 2.692307692307692e-07,
      "loss": 0.5284,
      "step": 210
    },
    {
      "epoch": 16.23076923076923,
      "grad_norm": 6.236649990081787,
      "learning_rate": 2.705128205128205e-07,
      "loss": 0.5321,
      "step": 211
    },
    {
      "epoch": 16.307692307692307,
      "grad_norm": 12.156338691711426,
      "learning_rate": 2.7179487179487177e-07,
      "loss": 0.5318,
      "step": 212
    },
    {
      "epoch": 16.384615384615383,
      "grad_norm": 13.153219223022461,
      "learning_rate": 2.7307692307692305e-07,
      "loss": 0.6007,
      "step": 213
    },
    {
      "epoch": 16.46153846153846,
      "grad_norm": 10.926055908203125,
      "learning_rate": 2.743589743589744e-07,
      "loss": 0.5838,
      "step": 214
    },
    {
      "epoch": 16.53846153846154,
      "grad_norm": 7.563294410705566,
      "learning_rate": 2.7564102564102565e-07,
      "loss": 0.5408,
      "step": 215
    },
    {
      "epoch": 16.615384615384617,
      "grad_norm": 7.09330940246582,
      "learning_rate": 2.7692307692307693e-07,
      "loss": 0.5488,
      "step": 216
    },
    {
      "epoch": 16.692307692307693,
      "grad_norm": 9.458847999572754,
      "learning_rate": 2.782051282051282e-07,
      "loss": 0.5311,
      "step": 217
    },
    {
      "epoch": 16.76923076923077,
      "grad_norm": 13.9017333984375,
      "learning_rate": 2.794871794871795e-07,
      "loss": 0.6234,
      "step": 218
    },
    {
      "epoch": 16.846153846153847,
      "grad_norm": 7.479183197021484,
      "learning_rate": 2.8076923076923075e-07,
      "loss": 0.5141,
      "step": 219
    },
    {
      "epoch": 16.923076923076923,
      "grad_norm": 7.135406970977783,
      "learning_rate": 2.8205128205128203e-07,
      "loss": 0.5351,
      "step": 220
    },
    {
      "epoch": 17.0,
      "grad_norm": 10.270779609680176,
      "learning_rate": 2.833333333333333e-07,
      "loss": 0.5646,
      "step": 221
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.5054945054945055,
      "eval_loss": 0.7115433216094971,
      "eval_runtime": 1.1244,
      "eval_samples_per_second": 242.789,
      "eval_steps_per_second": 8.004,
      "step": 221
    },
    {
      "epoch": 17.076923076923077,
      "grad_norm": 7.797209739685059,
      "learning_rate": 2.846153846153846e-07,
      "loss": 0.5202,
      "step": 222
    },
    {
      "epoch": 17.153846153846153,
      "grad_norm": 5.579799652099609,
      "learning_rate": 2.8589743589743585e-07,
      "loss": 0.5997,
      "step": 223
    },
    {
      "epoch": 17.23076923076923,
      "grad_norm": 6.3761749267578125,
      "learning_rate": 2.8717948717948713e-07,
      "loss": 0.5476,
      "step": 224
    },
    {
      "epoch": 17.307692307692307,
      "grad_norm": 5.818968296051025,
      "learning_rate": 2.884615384615384e-07,
      "loss": 0.5162,
      "step": 225
    },
    {
      "epoch": 17.384615384615383,
      "grad_norm": 6.494726657867432,
      "learning_rate": 2.8974358974358973e-07,
      "loss": 0.5205,
      "step": 226
    },
    {
      "epoch": 17.46153846153846,
      "grad_norm": 5.092429161071777,
      "learning_rate": 2.91025641025641e-07,
      "loss": 0.564,
      "step": 227
    },
    {
      "epoch": 17.53846153846154,
      "grad_norm": 5.863589763641357,
      "learning_rate": 2.9230769230769234e-07,
      "loss": 0.5697,
      "step": 228
    },
    {
      "epoch": 17.615384615384617,
      "grad_norm": 10.323057174682617,
      "learning_rate": 2.935897435897436e-07,
      "loss": 0.477,
      "step": 229
    },
    {
      "epoch": 17.692307692307693,
      "grad_norm": 7.20986795425415,
      "learning_rate": 2.948717948717949e-07,
      "loss": 0.5148,
      "step": 230
    },
    {
      "epoch": 17.76923076923077,
      "grad_norm": 18.213329315185547,
      "learning_rate": 2.9615384615384616e-07,
      "loss": 0.5473,
      "step": 231
    },
    {
      "epoch": 17.846153846153847,
      "grad_norm": 8.811955451965332,
      "learning_rate": 2.9743589743589744e-07,
      "loss": 0.4683,
      "step": 232
    },
    {
      "epoch": 17.923076923076923,
      "grad_norm": 7.749662399291992,
      "learning_rate": 2.987179487179487e-07,
      "loss": 0.5176,
      "step": 233
    },
    {
      "epoch": 18.0,
      "grad_norm": 10.274603843688965,
      "learning_rate": 3e-07,
      "loss": 0.4843,
      "step": 234
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.5274725274725275,
      "eval_loss": 0.6966360211372375,
      "eval_runtime": 1.1257,
      "eval_samples_per_second": 242.513,
      "eval_steps_per_second": 7.995,
      "step": 234
    },
    {
      "epoch": 18.076923076923077,
      "grad_norm": 9.47718334197998,
      "learning_rate": 3.0128205128205126e-07,
      "loss": 0.4973,
      "step": 235
    },
    {
      "epoch": 18.153846153846153,
      "grad_norm": 7.548341274261475,
      "learning_rate": 3.0256410256410254e-07,
      "loss": 0.5218,
      "step": 236
    },
    {
      "epoch": 18.23076923076923,
      "grad_norm": 6.783023834228516,
      "learning_rate": 3.038461538461538e-07,
      "loss": 0.4947,
      "step": 237
    },
    {
      "epoch": 18.307692307692307,
      "grad_norm": 8.87128734588623,
      "learning_rate": 3.0512820512820514e-07,
      "loss": 0.5249,
      "step": 238
    },
    {
      "epoch": 18.384615384615383,
      "grad_norm": 7.065760135650635,
      "learning_rate": 3.064102564102564e-07,
      "loss": 0.5283,
      "step": 239
    },
    {
      "epoch": 18.46153846153846,
      "grad_norm": 11.265542030334473,
      "learning_rate": 3.076923076923077e-07,
      "loss": 0.4786,
      "step": 240
    },
    {
      "epoch": 18.53846153846154,
      "grad_norm": 6.168418884277344,
      "learning_rate": 3.0897435897435897e-07,
      "loss": 0.4766,
      "step": 241
    },
    {
      "epoch": 18.615384615384617,
      "grad_norm": 6.631145477294922,
      "learning_rate": 3.1025641025641024e-07,
      "loss": 0.5519,
      "step": 242
    },
    {
      "epoch": 18.692307692307693,
      "grad_norm": 14.090798377990723,
      "learning_rate": 3.115384615384615e-07,
      "loss": 0.5589,
      "step": 243
    },
    {
      "epoch": 18.76923076923077,
      "grad_norm": 6.385359287261963,
      "learning_rate": 3.128205128205128e-07,
      "loss": 0.5374,
      "step": 244
    },
    {
      "epoch": 18.846153846153847,
      "grad_norm": 5.19016170501709,
      "learning_rate": 3.1410256410256407e-07,
      "loss": 0.5051,
      "step": 245
    },
    {
      "epoch": 18.923076923076923,
      "grad_norm": 12.009491920471191,
      "learning_rate": 3.1538461538461534e-07,
      "loss": 0.5361,
      "step": 246
    },
    {
      "epoch": 19.0,
      "grad_norm": 10.213377952575684,
      "learning_rate": 3.166666666666666e-07,
      "loss": 0.492,
      "step": 247
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.5787545787545788,
      "eval_loss": 0.6805005073547363,
      "eval_runtime": 1.114,
      "eval_samples_per_second": 245.071,
      "eval_steps_per_second": 8.079,
      "step": 247
    },
    {
      "epoch": 19.076923076923077,
      "grad_norm": 6.6728410720825195,
      "learning_rate": 3.179487179487179e-07,
      "loss": 0.4847,
      "step": 248
    },
    {
      "epoch": 19.153846153846153,
      "grad_norm": 5.376976013183594,
      "learning_rate": 3.1923076923076917e-07,
      "loss": 0.5605,
      "step": 249
    },
    {
      "epoch": 19.23076923076923,
      "grad_norm": 6.053426265716553,
      "learning_rate": 3.2051282051282055e-07,
      "loss": 0.5036,
      "step": 250
    },
    {
      "epoch": 19.307692307692307,
      "grad_norm": 11.020733833312988,
      "learning_rate": 3.217948717948718e-07,
      "loss": 0.4991,
      "step": 251
    },
    {
      "epoch": 19.384615384615383,
      "grad_norm": 8.633938789367676,
      "learning_rate": 3.230769230769231e-07,
      "loss": 0.5052,
      "step": 252
    },
    {
      "epoch": 19.46153846153846,
      "grad_norm": 10.136222839355469,
      "learning_rate": 3.243589743589744e-07,
      "loss": 0.4906,
      "step": 253
    },
    {
      "epoch": 19.53846153846154,
      "grad_norm": 6.60783052444458,
      "learning_rate": 3.2564102564102565e-07,
      "loss": 0.4136,
      "step": 254
    },
    {
      "epoch": 19.615384615384617,
      "grad_norm": 7.291572570800781,
      "learning_rate": 3.269230769230769e-07,
      "loss": 0.5449,
      "step": 255
    },
    {
      "epoch": 19.692307692307693,
      "grad_norm": 7.477088451385498,
      "learning_rate": 3.282051282051282e-07,
      "loss": 0.4729,
      "step": 256
    },
    {
      "epoch": 19.76923076923077,
      "grad_norm": 8.833659172058105,
      "learning_rate": 3.294871794871795e-07,
      "loss": 0.5092,
      "step": 257
    },
    {
      "epoch": 19.846153846153847,
      "grad_norm": 7.74336576461792,
      "learning_rate": 3.3076923076923075e-07,
      "loss": 0.48,
      "step": 258
    },
    {
      "epoch": 19.923076923076923,
      "grad_norm": 7.234033584594727,
      "learning_rate": 3.32051282051282e-07,
      "loss": 0.495,
      "step": 259
    },
    {
      "epoch": 20.0,
      "grad_norm": 7.723305702209473,
      "learning_rate": 3.333333333333333e-07,
      "loss": 0.4865,
      "step": 260
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.6117216117216118,
      "eval_loss": 0.6630329489707947,
      "eval_runtime": 1.1698,
      "eval_samples_per_second": 233.366,
      "eval_steps_per_second": 7.693,
      "step": 260
    },
    {
      "epoch": 20.076923076923077,
      "grad_norm": 5.413351535797119,
      "learning_rate": 3.346153846153846e-07,
      "loss": 0.4827,
      "step": 261
    },
    {
      "epoch": 20.153846153846153,
      "grad_norm": 7.8579816818237305,
      "learning_rate": 3.3589743589743585e-07,
      "loss": 0.4466,
      "step": 262
    },
    {
      "epoch": 20.23076923076923,
      "grad_norm": 7.612974643707275,
      "learning_rate": 3.371794871794872e-07,
      "loss": 0.5158,
      "step": 263
    },
    {
      "epoch": 20.307692307692307,
      "grad_norm": 15.019853591918945,
      "learning_rate": 3.3846153846153845e-07,
      "loss": 0.4722,
      "step": 264
    },
    {
      "epoch": 20.384615384615383,
      "grad_norm": 8.76220703125,
      "learning_rate": 3.3974358974358973e-07,
      "loss": 0.5196,
      "step": 265
    },
    {
      "epoch": 20.46153846153846,
      "grad_norm": 6.312363624572754,
      "learning_rate": 3.41025641025641e-07,
      "loss": 0.4554,
      "step": 266
    },
    {
      "epoch": 20.53846153846154,
      "grad_norm": 5.805747985839844,
      "learning_rate": 3.423076923076923e-07,
      "loss": 0.5072,
      "step": 267
    },
    {
      "epoch": 20.615384615384617,
      "grad_norm": 6.9610724449157715,
      "learning_rate": 3.4358974358974356e-07,
      "loss": 0.4525,
      "step": 268
    },
    {
      "epoch": 20.692307692307693,
      "grad_norm": 12.762723922729492,
      "learning_rate": 3.4487179487179483e-07,
      "loss": 0.5111,
      "step": 269
    },
    {
      "epoch": 20.76923076923077,
      "grad_norm": 8.62962532043457,
      "learning_rate": 3.461538461538461e-07,
      "loss": 0.4807,
      "step": 270
    },
    {
      "epoch": 20.846153846153847,
      "grad_norm": 9.346989631652832,
      "learning_rate": 3.474358974358974e-07,
      "loss": 0.4979,
      "step": 271
    },
    {
      "epoch": 20.923076923076923,
      "grad_norm": 15.555782318115234,
      "learning_rate": 3.487179487179487e-07,
      "loss": 0.4056,
      "step": 272
    },
    {
      "epoch": 21.0,
      "grad_norm": 10.441695213317871,
      "learning_rate": 3.5e-07,
      "loss": 0.4198,
      "step": 273
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.6410256410256411,
      "eval_loss": 0.6448166370391846,
      "eval_runtime": 1.1175,
      "eval_samples_per_second": 244.291,
      "eval_steps_per_second": 8.054,
      "step": 273
    },
    {
      "epoch": 21.076923076923077,
      "grad_norm": 5.691461086273193,
      "learning_rate": 3.5128205128205126e-07,
      "loss": 0.4638,
      "step": 274
    },
    {
      "epoch": 21.153846153846153,
      "grad_norm": 14.508380889892578,
      "learning_rate": 3.525641025641026e-07,
      "loss": 0.4985,
      "step": 275
    },
    {
      "epoch": 21.23076923076923,
      "grad_norm": 12.202231407165527,
      "learning_rate": 3.5384615384615386e-07,
      "loss": 0.497,
      "step": 276
    },
    {
      "epoch": 21.307692307692307,
      "grad_norm": 15.489521980285645,
      "learning_rate": 3.5512820512820514e-07,
      "loss": 0.5172,
      "step": 277
    },
    {
      "epoch": 21.384615384615383,
      "grad_norm": 20.749950408935547,
      "learning_rate": 3.564102564102564e-07,
      "loss": 0.4571,
      "step": 278
    },
    {
      "epoch": 21.46153846153846,
      "grad_norm": 6.904932498931885,
      "learning_rate": 3.576923076923077e-07,
      "loss": 0.4339,
      "step": 279
    },
    {
      "epoch": 21.53846153846154,
      "grad_norm": 7.791825294494629,
      "learning_rate": 3.5897435897435896e-07,
      "loss": 0.4596,
      "step": 280
    },
    {
      "epoch": 21.615384615384617,
      "grad_norm": 11.479272842407227,
      "learning_rate": 3.6025641025641024e-07,
      "loss": 0.4132,
      "step": 281
    },
    {
      "epoch": 21.692307692307693,
      "grad_norm": 6.066389083862305,
      "learning_rate": 3.615384615384615e-07,
      "loss": 0.4877,
      "step": 282
    },
    {
      "epoch": 21.76923076923077,
      "grad_norm": 6.857686519622803,
      "learning_rate": 3.628205128205128e-07,
      "loss": 0.4667,
      "step": 283
    },
    {
      "epoch": 21.846153846153847,
      "grad_norm": 7.722848415374756,
      "learning_rate": 3.6410256410256406e-07,
      "loss": 0.4813,
      "step": 284
    },
    {
      "epoch": 21.923076923076923,
      "grad_norm": 13.457776069641113,
      "learning_rate": 3.6538461538461534e-07,
      "loss": 0.4487,
      "step": 285
    },
    {
      "epoch": 22.0,
      "grad_norm": 7.361783027648926,
      "learning_rate": 3.666666666666666e-07,
      "loss": 0.4203,
      "step": 286
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.673992673992674,
      "eval_loss": 0.6280221343040466,
      "eval_runtime": 1.1233,
      "eval_samples_per_second": 243.04,
      "eval_steps_per_second": 8.012,
      "step": 286
    },
    {
      "epoch": 22.076923076923077,
      "grad_norm": 7.982437610626221,
      "learning_rate": 3.6794871794871794e-07,
      "loss": 0.3835,
      "step": 287
    },
    {
      "epoch": 22.153846153846153,
      "grad_norm": 8.191405296325684,
      "learning_rate": 3.692307692307692e-07,
      "loss": 0.403,
      "step": 288
    },
    {
      "epoch": 22.23076923076923,
      "grad_norm": 7.132065773010254,
      "learning_rate": 3.705128205128205e-07,
      "loss": 0.449,
      "step": 289
    },
    {
      "epoch": 22.307692307692307,
      "grad_norm": 9.5360689163208,
      "learning_rate": 3.7179487179487177e-07,
      "loss": 0.4818,
      "step": 290
    },
    {
      "epoch": 22.384615384615383,
      "grad_norm": 5.826380252838135,
      "learning_rate": 3.7307692307692304e-07,
      "loss": 0.4913,
      "step": 291
    },
    {
      "epoch": 22.46153846153846,
      "grad_norm": 6.3125224113464355,
      "learning_rate": 3.743589743589743e-07,
      "loss": 0.3858,
      "step": 292
    },
    {
      "epoch": 22.53846153846154,
      "grad_norm": 6.589355945587158,
      "learning_rate": 3.7564102564102565e-07,
      "loss": 0.4081,
      "step": 293
    },
    {
      "epoch": 22.615384615384617,
      "grad_norm": 10.27885913848877,
      "learning_rate": 3.769230769230769e-07,
      "loss": 0.3662,
      "step": 294
    },
    {
      "epoch": 22.692307692307693,
      "grad_norm": 22.70269775390625,
      "learning_rate": 3.782051282051282e-07,
      "loss": 0.4747,
      "step": 295
    },
    {
      "epoch": 22.76923076923077,
      "grad_norm": 7.965424060821533,
      "learning_rate": 3.7948717948717947e-07,
      "loss": 0.4219,
      "step": 296
    },
    {
      "epoch": 22.846153846153847,
      "grad_norm": 9.335782051086426,
      "learning_rate": 3.8076923076923075e-07,
      "loss": 0.4949,
      "step": 297
    },
    {
      "epoch": 22.923076923076923,
      "grad_norm": 6.3502068519592285,
      "learning_rate": 3.82051282051282e-07,
      "loss": 0.4197,
      "step": 298
    },
    {
      "epoch": 23.0,
      "grad_norm": 14.538491249084473,
      "learning_rate": 3.8333333333333335e-07,
      "loss": 0.4547,
      "step": 299
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.6923076923076923,
      "eval_loss": 0.6083258390426636,
      "eval_runtime": 1.1286,
      "eval_samples_per_second": 241.9,
      "eval_steps_per_second": 7.975,
      "step": 299
    },
    {
      "epoch": 23.076923076923077,
      "grad_norm": 8.00650405883789,
      "learning_rate": 3.8461538461538463e-07,
      "loss": 0.4248,
      "step": 300
    },
    {
      "epoch": 23.153846153846153,
      "grad_norm": 9.609583854675293,
      "learning_rate": 3.858974358974359e-07,
      "loss": 0.5025,
      "step": 301
    },
    {
      "epoch": 23.23076923076923,
      "grad_norm": 10.113896369934082,
      "learning_rate": 3.871794871794872e-07,
      "loss": 0.4279,
      "step": 302
    },
    {
      "epoch": 23.307692307692307,
      "grad_norm": 9.352895736694336,
      "learning_rate": 3.8846153846153845e-07,
      "loss": 0.463,
      "step": 303
    },
    {
      "epoch": 23.384615384615383,
      "grad_norm": 7.641350269317627,
      "learning_rate": 3.8974358974358973e-07,
      "loss": 0.4973,
      "step": 304
    },
    {
      "epoch": 23.46153846153846,
      "grad_norm": 13.583499908447266,
      "learning_rate": 3.91025641025641e-07,
      "loss": 0.4425,
      "step": 305
    },
    {
      "epoch": 23.53846153846154,
      "grad_norm": 13.153800010681152,
      "learning_rate": 3.923076923076923e-07,
      "loss": 0.4166,
      "step": 306
    },
    {
      "epoch": 23.615384615384617,
      "grad_norm": 6.695108413696289,
      "learning_rate": 3.9358974358974355e-07,
      "loss": 0.4612,
      "step": 307
    },
    {
      "epoch": 23.692307692307693,
      "grad_norm": 10.276588439941406,
      "learning_rate": 3.9487179487179483e-07,
      "loss": 0.3395,
      "step": 308
    },
    {
      "epoch": 23.76923076923077,
      "grad_norm": 13.412437438964844,
      "learning_rate": 3.961538461538461e-07,
      "loss": 0.3782,
      "step": 309
    },
    {
      "epoch": 23.846153846153847,
      "grad_norm": 7.38794469833374,
      "learning_rate": 3.974358974358974e-07,
      "loss": 0.421,
      "step": 310
    },
    {
      "epoch": 23.923076923076923,
      "grad_norm": 12.986778259277344,
      "learning_rate": 3.987179487179487e-07,
      "loss": 0.4215,
      "step": 311
    },
    {
      "epoch": 24.0,
      "grad_norm": 8.133084297180176,
      "learning_rate": 4e-07,
      "loss": 0.3916,
      "step": 312
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.7142857142857143,
      "eval_loss": 0.5908603072166443,
      "eval_runtime": 1.1338,
      "eval_samples_per_second": 240.784,
      "eval_steps_per_second": 7.938,
      "step": 312
    },
    {
      "epoch": 24.076923076923077,
      "grad_norm": 14.348731994628906,
      "learning_rate": 4.0128205128205126e-07,
      "loss": 0.4171,
      "step": 313
    },
    {
      "epoch": 24.153846153846153,
      "grad_norm": 14.487777709960938,
      "learning_rate": 4.025641025641026e-07,
      "loss": 0.4202,
      "step": 314
    },
    {
      "epoch": 24.23076923076923,
      "grad_norm": 6.379238605499268,
      "learning_rate": 4.0384615384615386e-07,
      "loss": 0.397,
      "step": 315
    },
    {
      "epoch": 24.307692307692307,
      "grad_norm": 13.767078399658203,
      "learning_rate": 4.0512820512820514e-07,
      "loss": 0.5115,
      "step": 316
    },
    {
      "epoch": 24.384615384615383,
      "grad_norm": 9.105932235717773,
      "learning_rate": 4.064102564102564e-07,
      "loss": 0.4457,
      "step": 317
    },
    {
      "epoch": 24.46153846153846,
      "grad_norm": 9.524789810180664,
      "learning_rate": 4.076923076923077e-07,
      "loss": 0.4103,
      "step": 318
    },
    {
      "epoch": 24.53846153846154,
      "grad_norm": 13.790160179138184,
      "learning_rate": 4.0897435897435896e-07,
      "loss": 0.394,
      "step": 319
    },
    {
      "epoch": 24.615384615384617,
      "grad_norm": 9.257014274597168,
      "learning_rate": 4.1025641025641024e-07,
      "loss": 0.3825,
      "step": 320
    },
    {
      "epoch": 24.692307692307693,
      "grad_norm": 11.023274421691895,
      "learning_rate": 4.115384615384615e-07,
      "loss": 0.4068,
      "step": 321
    },
    {
      "epoch": 24.76923076923077,
      "grad_norm": 11.978690147399902,
      "learning_rate": 4.128205128205128e-07,
      "loss": 0.3575,
      "step": 322
    },
    {
      "epoch": 24.846153846153847,
      "grad_norm": 24.065654754638672,
      "learning_rate": 4.141025641025641e-07,
      "loss": 0.4209,
      "step": 323
    },
    {
      "epoch": 24.923076923076923,
      "grad_norm": 18.457355499267578,
      "learning_rate": 4.153846153846154e-07,
      "loss": 0.4089,
      "step": 324
    },
    {
      "epoch": 25.0,
      "grad_norm": 23.196453094482422,
      "learning_rate": 4.1666666666666667e-07,
      "loss": 0.4329,
      "step": 325
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.7289377289377289,
      "eval_loss": 0.5768271088600159,
      "eval_runtime": 1.1737,
      "eval_samples_per_second": 232.59,
      "eval_steps_per_second": 7.668,
      "step": 325
    },
    {
      "epoch": 25.076923076923077,
      "grad_norm": 10.090895652770996,
      "learning_rate": 4.1794871794871794e-07,
      "loss": 0.3858,
      "step": 326
    },
    {
      "epoch": 25.153846153846153,
      "grad_norm": 7.058983325958252,
      "learning_rate": 4.192307692307692e-07,
      "loss": 0.4509,
      "step": 327
    },
    {
      "epoch": 25.23076923076923,
      "grad_norm": 15.012165069580078,
      "learning_rate": 4.205128205128205e-07,
      "loss": 0.3803,
      "step": 328
    },
    {
      "epoch": 25.307692307692307,
      "grad_norm": 7.033972263336182,
      "learning_rate": 4.2179487179487177e-07,
      "loss": 0.3454,
      "step": 329
    },
    {
      "epoch": 25.384615384615383,
      "grad_norm": 16.557861328125,
      "learning_rate": 4.2307692307692304e-07,
      "loss": 0.4945,
      "step": 330
    },
    {
      "epoch": 25.46153846153846,
      "grad_norm": 11.891509056091309,
      "learning_rate": 4.243589743589743e-07,
      "loss": 0.4586,
      "step": 331
    },
    {
      "epoch": 25.53846153846154,
      "grad_norm": 13.517719268798828,
      "learning_rate": 4.256410256410256e-07,
      "loss": 0.3787,
      "step": 332
    },
    {
      "epoch": 25.615384615384617,
      "grad_norm": 7.714040756225586,
      "learning_rate": 4.2692307692307687e-07,
      "loss": 0.3353,
      "step": 333
    },
    {
      "epoch": 25.692307692307693,
      "grad_norm": 19.116331100463867,
      "learning_rate": 4.2820512820512814e-07,
      "loss": 0.3884,
      "step": 334
    },
    {
      "epoch": 25.76923076923077,
      "grad_norm": 22.57918930053711,
      "learning_rate": 4.294871794871794e-07,
      "loss": 0.3541,
      "step": 335
    },
    {
      "epoch": 25.846153846153847,
      "grad_norm": 15.388579368591309,
      "learning_rate": 4.307692307692308e-07,
      "loss": 0.4095,
      "step": 336
    },
    {
      "epoch": 25.923076923076923,
      "grad_norm": 36.620399475097656,
      "learning_rate": 4.320512820512821e-07,
      "loss": 0.3544,
      "step": 337
    },
    {
      "epoch": 26.0,
      "grad_norm": 40.44240188598633,
      "learning_rate": 4.3333333333333335e-07,
      "loss": 0.4645,
      "step": 338
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.73992673992674,
      "eval_loss": 0.5628760457038879,
      "eval_runtime": 1.138,
      "eval_samples_per_second": 239.887,
      "eval_steps_per_second": 7.908,
      "step": 338
    },
    {
      "epoch": 26.076923076923077,
      "grad_norm": 10.840441703796387,
      "learning_rate": 4.346153846153846e-07,
      "loss": 0.3925,
      "step": 339
    },
    {
      "epoch": 26.153846153846153,
      "grad_norm": 10.15983772277832,
      "learning_rate": 4.358974358974359e-07,
      "loss": 0.4028,
      "step": 340
    },
    {
      "epoch": 26.23076923076923,
      "grad_norm": 16.885847091674805,
      "learning_rate": 4.371794871794872e-07,
      "loss": 0.4183,
      "step": 341
    },
    {
      "epoch": 26.307692307692307,
      "grad_norm": 19.386564254760742,
      "learning_rate": 4.3846153846153845e-07,
      "loss": 0.4576,
      "step": 342
    },
    {
      "epoch": 26.384615384615383,
      "grad_norm": 16.065343856811523,
      "learning_rate": 4.397435897435897e-07,
      "loss": 0.5109,
      "step": 343
    },
    {
      "epoch": 26.46153846153846,
      "grad_norm": 14.560235977172852,
      "learning_rate": 4.41025641025641e-07,
      "loss": 0.3454,
      "step": 344
    },
    {
      "epoch": 26.53846153846154,
      "grad_norm": 14.464798927307129,
      "learning_rate": 4.423076923076923e-07,
      "loss": 0.4305,
      "step": 345
    },
    {
      "epoch": 26.615384615384617,
      "grad_norm": 8.955643653869629,
      "learning_rate": 4.4358974358974355e-07,
      "loss": 0.3782,
      "step": 346
    },
    {
      "epoch": 26.692307692307693,
      "grad_norm": 15.314674377441406,
      "learning_rate": 4.448717948717948e-07,
      "loss": 0.4059,
      "step": 347
    },
    {
      "epoch": 26.76923076923077,
      "grad_norm": 28.534278869628906,
      "learning_rate": 4.4615384615384615e-07,
      "loss": 0.3658,
      "step": 348
    },
    {
      "epoch": 26.846153846153847,
      "grad_norm": 11.051998138427734,
      "learning_rate": 4.4743589743589743e-07,
      "loss": 0.3345,
      "step": 349
    },
    {
      "epoch": 26.923076923076923,
      "grad_norm": 8.929450988769531,
      "learning_rate": 4.487179487179487e-07,
      "loss": 0.3808,
      "step": 350
    },
    {
      "epoch": 27.0,
      "grad_norm": 9.350576400756836,
      "learning_rate": 4.5e-07,
      "loss": 0.3376,
      "step": 351
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.7435897435897436,
      "eval_loss": 0.553607165813446,
      "eval_runtime": 1.1039,
      "eval_samples_per_second": 247.313,
      "eval_steps_per_second": 8.153,
      "step": 351
    },
    {
      "epoch": 27.076923076923077,
      "grad_norm": 10.083361625671387,
      "learning_rate": 4.5128205128205125e-07,
      "loss": 0.3062,
      "step": 352
    },
    {
      "epoch": 27.153846153846153,
      "grad_norm": 9.399284362792969,
      "learning_rate": 4.5256410256410253e-07,
      "loss": 0.3331,
      "step": 353
    },
    {
      "epoch": 27.23076923076923,
      "grad_norm": 26.109487533569336,
      "learning_rate": 4.538461538461538e-07,
      "loss": 0.4184,
      "step": 354
    },
    {
      "epoch": 27.307692307692307,
      "grad_norm": 10.490219116210938,
      "learning_rate": 4.551282051282051e-07,
      "loss": 0.3615,
      "step": 355
    },
    {
      "epoch": 27.384615384615383,
      "grad_norm": 8.839354515075684,
      "learning_rate": 4.5641025641025636e-07,
      "loss": 0.3419,
      "step": 356
    },
    {
      "epoch": 27.46153846153846,
      "grad_norm": 11.07351303100586,
      "learning_rate": 4.5769230769230763e-07,
      "loss": 0.3505,
      "step": 357
    },
    {
      "epoch": 27.53846153846154,
      "grad_norm": 9.37104606628418,
      "learning_rate": 4.5897435897435896e-07,
      "loss": 0.3937,
      "step": 358
    },
    {
      "epoch": 27.615384615384617,
      "grad_norm": 14.981828689575195,
      "learning_rate": 4.6025641025641023e-07,
      "loss": 0.4393,
      "step": 359
    },
    {
      "epoch": 27.692307692307693,
      "grad_norm": 17.68867301940918,
      "learning_rate": 4.6153846153846156e-07,
      "loss": 0.3617,
      "step": 360
    },
    {
      "epoch": 27.76923076923077,
      "grad_norm": 25.921714782714844,
      "learning_rate": 4.6282051282051284e-07,
      "loss": 0.4178,
      "step": 361
    },
    {
      "epoch": 27.846153846153847,
      "grad_norm": 16.296762466430664,
      "learning_rate": 4.641025641025641e-07,
      "loss": 0.3786,
      "step": 362
    },
    {
      "epoch": 27.923076923076923,
      "grad_norm": 15.241218566894531,
      "learning_rate": 4.653846153846154e-07,
      "loss": 0.3523,
      "step": 363
    },
    {
      "epoch": 28.0,
      "grad_norm": 25.014873504638672,
      "learning_rate": 4.6666666666666666e-07,
      "loss": 0.4417,
      "step": 364
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.7728937728937729,
      "eval_loss": 0.5416675806045532,
      "eval_runtime": 1.1309,
      "eval_samples_per_second": 241.404,
      "eval_steps_per_second": 7.958,
      "step": 364
    },
    {
      "epoch": 28.076923076923077,
      "grad_norm": 13.15807819366455,
      "learning_rate": 4.6794871794871794e-07,
      "loss": 0.4852,
      "step": 365
    },
    {
      "epoch": 28.153846153846153,
      "grad_norm": 13.730020523071289,
      "learning_rate": 4.692307692307692e-07,
      "loss": 0.386,
      "step": 366
    },
    {
      "epoch": 28.23076923076923,
      "grad_norm": 14.523706436157227,
      "learning_rate": 4.705128205128205e-07,
      "loss": 0.3511,
      "step": 367
    },
    {
      "epoch": 28.307692307692307,
      "grad_norm": 14.1108980178833,
      "learning_rate": 4.7179487179487176e-07,
      "loss": 0.3688,
      "step": 368
    },
    {
      "epoch": 28.384615384615383,
      "grad_norm": 11.570619583129883,
      "learning_rate": 4.7307692307692304e-07,
      "loss": 0.3716,
      "step": 369
    },
    {
      "epoch": 28.46153846153846,
      "grad_norm": 17.205739974975586,
      "learning_rate": 4.743589743589743e-07,
      "loss": 0.3222,
      "step": 370
    },
    {
      "epoch": 28.53846153846154,
      "grad_norm": 15.910602569580078,
      "learning_rate": 4.756410256410256e-07,
      "loss": 0.4028,
      "step": 371
    },
    {
      "epoch": 28.615384615384617,
      "grad_norm": 13.396916389465332,
      "learning_rate": 4.769230769230769e-07,
      "loss": 0.3011,
      "step": 372
    },
    {
      "epoch": 28.692307692307693,
      "grad_norm": 21.910579681396484,
      "learning_rate": 4.782051282051282e-07,
      "loss": 0.3807,
      "step": 373
    },
    {
      "epoch": 28.76923076923077,
      "grad_norm": 16.9005184173584,
      "learning_rate": 4.794871794871795e-07,
      "loss": 0.3561,
      "step": 374
    },
    {
      "epoch": 28.846153846153847,
      "grad_norm": 20.11018180847168,
      "learning_rate": 4.807692307692307e-07,
      "loss": 0.313,
      "step": 375
    },
    {
      "epoch": 28.923076923076923,
      "grad_norm": 18.270910263061523,
      "learning_rate": 4.82051282051282e-07,
      "loss": 0.3174,
      "step": 376
    },
    {
      "epoch": 29.0,
      "grad_norm": 25.686630249023438,
      "learning_rate": 4.833333333333333e-07,
      "loss": 0.3908,
      "step": 377
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.7619047619047619,
      "eval_loss": 0.5261558294296265,
      "eval_runtime": 1.0759,
      "eval_samples_per_second": 253.737,
      "eval_steps_per_second": 8.365,
      "step": 377
    },
    {
      "epoch": 29.076923076923077,
      "grad_norm": 16.533443450927734,
      "learning_rate": 4.846153846153846e-07,
      "loss": 0.3884,
      "step": 378
    },
    {
      "epoch": 29.153846153846153,
      "grad_norm": 24.23883628845215,
      "learning_rate": 4.858974358974358e-07,
      "loss": 0.3816,
      "step": 379
    },
    {
      "epoch": 29.23076923076923,
      "grad_norm": 7.533974647521973,
      "learning_rate": 4.871794871794871e-07,
      "loss": 0.4425,
      "step": 380
    },
    {
      "epoch": 29.307692307692307,
      "grad_norm": 12.888740539550781,
      "learning_rate": 4.884615384615384e-07,
      "loss": 0.2624,
      "step": 381
    },
    {
      "epoch": 29.384615384615383,
      "grad_norm": 12.380077362060547,
      "learning_rate": 4.897435897435897e-07,
      "loss": 0.4108,
      "step": 382
    },
    {
      "epoch": 29.46153846153846,
      "grad_norm": 8.256909370422363,
      "learning_rate": 4.910256410256409e-07,
      "loss": 0.3522,
      "step": 383
    },
    {
      "epoch": 29.53846153846154,
      "grad_norm": 24.682785034179688,
      "learning_rate": 4.923076923076923e-07,
      "loss": 0.3988,
      "step": 384
    },
    {
      "epoch": 29.615384615384617,
      "grad_norm": 16.963102340698242,
      "learning_rate": 4.935897435897436e-07,
      "loss": 0.3729,
      "step": 385
    },
    {
      "epoch": 29.692307692307693,
      "grad_norm": 8.790273666381836,
      "learning_rate": 4.948717948717949e-07,
      "loss": 0.3826,
      "step": 386
    },
    {
      "epoch": 29.76923076923077,
      "grad_norm": 10.286639213562012,
      "learning_rate": 4.961538461538462e-07,
      "loss": 0.2515,
      "step": 387
    },
    {
      "epoch": 29.846153846153847,
      "grad_norm": 41.11250305175781,
      "learning_rate": 4.974358974358974e-07,
      "loss": 0.3087,
      "step": 388
    },
    {
      "epoch": 29.923076923076923,
      "grad_norm": 18.802030563354492,
      "learning_rate": 4.987179487179487e-07,
      "loss": 0.3866,
      "step": 389
    },
    {
      "epoch": 30.0,
      "grad_norm": 74.90814971923828,
      "learning_rate": 5e-07,
      "loss": 0.3715,
      "step": 390
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.7728937728937729,
      "eval_loss": 0.5129971504211426,
      "eval_runtime": 1.1497,
      "eval_samples_per_second": 237.455,
      "eval_steps_per_second": 7.828,
      "step": 390
    },
    {
      "epoch": 30.076923076923077,
      "grad_norm": 12.801321029663086,
      "learning_rate": 4.994505494505494e-07,
      "loss": 0.3343,
      "step": 391
    },
    {
      "epoch": 30.153846153846153,
      "grad_norm": 13.809499740600586,
      "learning_rate": 4.989010989010989e-07,
      "loss": 0.3999,
      "step": 392
    },
    {
      "epoch": 30.23076923076923,
      "grad_norm": 12.438189506530762,
      "learning_rate": 4.983516483516484e-07,
      "loss": 0.3614,
      "step": 393
    },
    {
      "epoch": 30.307692307692307,
      "grad_norm": 19.338361740112305,
      "learning_rate": 4.978021978021977e-07,
      "loss": 0.4194,
      "step": 394
    },
    {
      "epoch": 30.384615384615383,
      "grad_norm": 13.270342826843262,
      "learning_rate": 4.972527472527472e-07,
      "loss": 0.3366,
      "step": 395
    },
    {
      "epoch": 30.46153846153846,
      "grad_norm": 15.51993179321289,
      "learning_rate": 4.967032967032967e-07,
      "loss": 0.3833,
      "step": 396
    },
    {
      "epoch": 30.53846153846154,
      "grad_norm": 6.882688999176025,
      "learning_rate": 4.961538461538462e-07,
      "loss": 0.3395,
      "step": 397
    },
    {
      "epoch": 30.615384615384617,
      "grad_norm": 37.22320556640625,
      "learning_rate": 4.956043956043956e-07,
      "loss": 0.3541,
      "step": 398
    },
    {
      "epoch": 30.692307692307693,
      "grad_norm": 15.705167770385742,
      "learning_rate": 4.950549450549451e-07,
      "loss": 0.3359,
      "step": 399
    },
    {
      "epoch": 30.76923076923077,
      "grad_norm": 43.6968994140625,
      "learning_rate": 4.945054945054945e-07,
      "loss": 0.3856,
      "step": 400
    },
    {
      "epoch": 30.846153846153847,
      "grad_norm": 12.748406410217285,
      "learning_rate": 4.939560439560439e-07,
      "loss": 0.3281,
      "step": 401
    },
    {
      "epoch": 30.923076923076923,
      "grad_norm": 16.994281768798828,
      "learning_rate": 4.934065934065934e-07,
      "loss": 0.3613,
      "step": 402
    },
    {
      "epoch": 31.0,
      "grad_norm": 16.692779541015625,
      "learning_rate": 4.928571428571429e-07,
      "loss": 0.438,
      "step": 403
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.7912087912087912,
      "eval_loss": 0.5059021711349487,
      "eval_runtime": 1.1235,
      "eval_samples_per_second": 242.996,
      "eval_steps_per_second": 8.011,
      "step": 403
    },
    {
      "epoch": 31.076923076923077,
      "grad_norm": 16.241756439208984,
      "learning_rate": 4.923076923076923e-07,
      "loss": 0.3104,
      "step": 404
    },
    {
      "epoch": 31.153846153846153,
      "grad_norm": 32.54018783569336,
      "learning_rate": 4.917582417582417e-07,
      "loss": 0.3983,
      "step": 405
    },
    {
      "epoch": 31.23076923076923,
      "grad_norm": 9.206646919250488,
      "learning_rate": 4.912087912087912e-07,
      "loss": 0.3232,
      "step": 406
    },
    {
      "epoch": 31.307692307692307,
      "grad_norm": 10.04745101928711,
      "learning_rate": 4.906593406593406e-07,
      "loss": 0.3376,
      "step": 407
    },
    {
      "epoch": 31.384615384615383,
      "grad_norm": 16.86339569091797,
      "learning_rate": 4.901098901098901e-07,
      "loss": 0.3184,
      "step": 408
    },
    {
      "epoch": 31.46153846153846,
      "grad_norm": 13.251344680786133,
      "learning_rate": 4.895604395604396e-07,
      "loss": 0.2668,
      "step": 409
    },
    {
      "epoch": 31.53846153846154,
      "grad_norm": 9.430797576904297,
      "learning_rate": 4.890109890109889e-07,
      "loss": 0.3981,
      "step": 410
    },
    {
      "epoch": 31.615384615384617,
      "grad_norm": 11.08668041229248,
      "learning_rate": 4.884615384615384e-07,
      "loss": 0.289,
      "step": 411
    },
    {
      "epoch": 31.692307692307693,
      "grad_norm": 9.442129135131836,
      "learning_rate": 4.879120879120879e-07,
      "loss": 0.4016,
      "step": 412
    },
    {
      "epoch": 31.76923076923077,
      "grad_norm": 29.748586654663086,
      "learning_rate": 4.873626373626373e-07,
      "loss": 0.2986,
      "step": 413
    },
    {
      "epoch": 31.846153846153847,
      "grad_norm": 31.005922317504883,
      "learning_rate": 4.868131868131868e-07,
      "loss": 0.3693,
      "step": 414
    },
    {
      "epoch": 31.923076923076923,
      "grad_norm": 14.048943519592285,
      "learning_rate": 4.862637362637363e-07,
      "loss": 0.3945,
      "step": 415
    },
    {
      "epoch": 32.0,
      "grad_norm": 25.343652725219727,
      "learning_rate": 4.857142857142857e-07,
      "loss": 0.2937,
      "step": 416
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.8021978021978022,
      "eval_loss": 0.4937283992767334,
      "eval_runtime": 1.2735,
      "eval_samples_per_second": 214.364,
      "eval_steps_per_second": 7.067,
      "step": 416
    },
    {
      "epoch": 32.07692307692308,
      "grad_norm": 13.346230506896973,
      "learning_rate": 4.851648351648351e-07,
      "loss": 0.4432,
      "step": 417
    },
    {
      "epoch": 32.15384615384615,
      "grad_norm": 27.04726219177246,
      "learning_rate": 4.846153846153846e-07,
      "loss": 0.2816,
      "step": 418
    },
    {
      "epoch": 32.23076923076923,
      "grad_norm": 17.723981857299805,
      "learning_rate": 4.84065934065934e-07,
      "loss": 0.3807,
      "step": 419
    },
    {
      "epoch": 32.30769230769231,
      "grad_norm": 31.232942581176758,
      "learning_rate": 4.835164835164835e-07,
      "loss": 0.3843,
      "step": 420
    },
    {
      "epoch": 32.38461538461539,
      "grad_norm": 17.328598022460938,
      "learning_rate": 4.82967032967033e-07,
      "loss": 0.4386,
      "step": 421
    },
    {
      "epoch": 32.46153846153846,
      "grad_norm": 16.24860191345215,
      "learning_rate": 4.824175824175824e-07,
      "loss": 0.3137,
      "step": 422
    },
    {
      "epoch": 32.53846153846154,
      "grad_norm": 10.27988338470459,
      "learning_rate": 4.818681318681318e-07,
      "loss": 0.3247,
      "step": 423
    },
    {
      "epoch": 32.61538461538461,
      "grad_norm": 31.06844711303711,
      "learning_rate": 4.813186813186813e-07,
      "loss": 0.2306,
      "step": 424
    },
    {
      "epoch": 32.69230769230769,
      "grad_norm": 13.982779502868652,
      "learning_rate": 4.807692307692307e-07,
      "loss": 0.4566,
      "step": 425
    },
    {
      "epoch": 32.76923076923077,
      "grad_norm": 20.909690856933594,
      "learning_rate": 4.802197802197802e-07,
      "loss": 0.3361,
      "step": 426
    },
    {
      "epoch": 32.84615384615385,
      "grad_norm": 26.170412063598633,
      "learning_rate": 4.796703296703297e-07,
      "loss": 0.3384,
      "step": 427
    },
    {
      "epoch": 32.92307692307692,
      "grad_norm": 15.06697940826416,
      "learning_rate": 4.791208791208791e-07,
      "loss": 0.3328,
      "step": 428
    },
    {
      "epoch": 33.0,
      "grad_norm": 64.3323745727539,
      "learning_rate": 4.785714285714286e-07,
      "loss": 0.2944,
      "step": 429
    },
    {
      "epoch": 33.0,
      "eval_accuracy": 0.8021978021978022,
      "eval_loss": 0.48713523149490356,
      "eval_runtime": 1.1547,
      "eval_samples_per_second": 236.421,
      "eval_steps_per_second": 7.794,
      "step": 429
    },
    {
      "epoch": 33.07692307692308,
      "grad_norm": 23.12489128112793,
      "learning_rate": 4.78021978021978e-07,
      "loss": 0.4388,
      "step": 430
    },
    {
      "epoch": 33.15384615384615,
      "grad_norm": 12.216055870056152,
      "learning_rate": 4.774725274725274e-07,
      "loss": 0.3461,
      "step": 431
    },
    {
      "epoch": 33.23076923076923,
      "grad_norm": 42.46044158935547,
      "learning_rate": 4.769230769230769e-07,
      "loss": 0.3132,
      "step": 432
    },
    {
      "epoch": 33.30769230769231,
      "grad_norm": 22.846012115478516,
      "learning_rate": 4.7637362637362633e-07,
      "loss": 0.3639,
      "step": 433
    },
    {
      "epoch": 33.38461538461539,
      "grad_norm": 29.05877685546875,
      "learning_rate": 4.758241758241758e-07,
      "loss": 0.3598,
      "step": 434
    },
    {
      "epoch": 33.46153846153846,
      "grad_norm": 7.339046001434326,
      "learning_rate": 4.752747252747252e-07,
      "loss": 0.32,
      "step": 435
    },
    {
      "epoch": 33.53846153846154,
      "grad_norm": 22.681198120117188,
      "learning_rate": 4.747252747252747e-07,
      "loss": 0.3077,
      "step": 436
    },
    {
      "epoch": 33.61538461538461,
      "grad_norm": 12.962333679199219,
      "learning_rate": 4.7417582417582415e-07,
      "loss": 0.236,
      "step": 437
    },
    {
      "epoch": 33.69230769230769,
      "grad_norm": 64.40145111083984,
      "learning_rate": 4.7362637362637357e-07,
      "loss": 0.3282,
      "step": 438
    },
    {
      "epoch": 33.76923076923077,
      "grad_norm": 21.237106323242188,
      "learning_rate": 4.7307692307692304e-07,
      "loss": 0.3544,
      "step": 439
    },
    {
      "epoch": 33.84615384615385,
      "grad_norm": 18.166589736938477,
      "learning_rate": 4.725274725274725e-07,
      "loss": 0.3989,
      "step": 440
    },
    {
      "epoch": 33.92307692307692,
      "grad_norm": 17.355575561523438,
      "learning_rate": 4.719780219780219e-07,
      "loss": 0.2711,
      "step": 441
    },
    {
      "epoch": 34.0,
      "grad_norm": 17.9642391204834,
      "learning_rate": 4.714285714285714e-07,
      "loss": 0.3474,
      "step": 442
    },
    {
      "epoch": 34.0,
      "eval_accuracy": 0.8058608058608059,
      "eval_loss": 0.48195549845695496,
      "eval_runtime": 1.096,
      "eval_samples_per_second": 249.093,
      "eval_steps_per_second": 8.212,
      "step": 442
    },
    {
      "epoch": 34.07692307692308,
      "grad_norm": 34.73284149169922,
      "learning_rate": 4.7087912087912086e-07,
      "loss": 0.2319,
      "step": 443
    },
    {
      "epoch": 34.15384615384615,
      "grad_norm": 9.461256980895996,
      "learning_rate": 4.703296703296703e-07,
      "loss": 0.297,
      "step": 444
    },
    {
      "epoch": 34.23076923076923,
      "grad_norm": 13.637334823608398,
      "learning_rate": 4.6978021978021974e-07,
      "loss": 0.232,
      "step": 445
    },
    {
      "epoch": 34.30769230769231,
      "grad_norm": 49.01478576660156,
      "learning_rate": 4.692307692307692e-07,
      "loss": 0.2911,
      "step": 446
    },
    {
      "epoch": 34.38461538461539,
      "grad_norm": 11.262832641601562,
      "learning_rate": 4.686813186813187e-07,
      "loss": 0.362,
      "step": 447
    },
    {
      "epoch": 34.46153846153846,
      "grad_norm": 25.91771697998047,
      "learning_rate": 4.681318681318681e-07,
      "loss": 0.3682,
      "step": 448
    },
    {
      "epoch": 34.53846153846154,
      "grad_norm": 58.95195770263672,
      "learning_rate": 4.6758241758241757e-07,
      "loss": 0.4535,
      "step": 449
    },
    {
      "epoch": 34.61538461538461,
      "grad_norm": 17.73717498779297,
      "learning_rate": 4.6703296703296704e-07,
      "loss": 0.3396,
      "step": 450
    },
    {
      "epoch": 34.69230769230769,
      "grad_norm": 39.37255859375,
      "learning_rate": 4.6648351648351645e-07,
      "loss": 0.3529,
      "step": 451
    },
    {
      "epoch": 34.76923076923077,
      "grad_norm": 27.01266098022461,
      "learning_rate": 4.659340659340659e-07,
      "loss": 0.2456,
      "step": 452
    },
    {
      "epoch": 34.84615384615385,
      "grad_norm": 32.16396713256836,
      "learning_rate": 4.653846153846154e-07,
      "loss": 0.469,
      "step": 453
    },
    {
      "epoch": 34.92307692307692,
      "grad_norm": 20.046613693237305,
      "learning_rate": 4.648351648351648e-07,
      "loss": 0.3364,
      "step": 454
    },
    {
      "epoch": 35.0,
      "grad_norm": 16.51773452758789,
      "learning_rate": 4.6428571428571427e-07,
      "loss": 0.2302,
      "step": 455
    },
    {
      "epoch": 35.0,
      "eval_accuracy": 0.7948717948717948,
      "eval_loss": 0.477615624666214,
      "eval_runtime": 1.1719,
      "eval_samples_per_second": 232.962,
      "eval_steps_per_second": 7.68,
      "step": 455
    },
    {
      "epoch": 35.07692307692308,
      "grad_norm": 34.225013732910156,
      "learning_rate": 4.6373626373626374e-07,
      "loss": 0.3255,
      "step": 456
    },
    {
      "epoch": 35.15384615384615,
      "grad_norm": 43.41081619262695,
      "learning_rate": 4.631868131868132e-07,
      "loss": 0.2944,
      "step": 457
    },
    {
      "epoch": 35.23076923076923,
      "grad_norm": 55.04907989501953,
      "learning_rate": 4.626373626373626e-07,
      "loss": 0.3666,
      "step": 458
    },
    {
      "epoch": 35.30769230769231,
      "grad_norm": 48.509300231933594,
      "learning_rate": 4.620879120879121e-07,
      "loss": 0.3133,
      "step": 459
    },
    {
      "epoch": 35.38461538461539,
      "grad_norm": 38.946868896484375,
      "learning_rate": 4.6153846153846156e-07,
      "loss": 0.3461,
      "step": 460
    },
    {
      "epoch": 35.46153846153846,
      "grad_norm": 35.57908248901367,
      "learning_rate": 4.60989010989011e-07,
      "loss": 0.3115,
      "step": 461
    },
    {
      "epoch": 35.53846153846154,
      "grad_norm": 39.09822463989258,
      "learning_rate": 4.604395604395604e-07,
      "loss": 0.4256,
      "step": 462
    },
    {
      "epoch": 35.61538461538461,
      "grad_norm": 13.389962196350098,
      "learning_rate": 4.5989010989010986e-07,
      "loss": 0.3258,
      "step": 463
    },
    {
      "epoch": 35.69230769230769,
      "grad_norm": 19.543228149414062,
      "learning_rate": 4.593406593406593e-07,
      "loss": 0.3115,
      "step": 464
    },
    {
      "epoch": 35.76923076923077,
      "grad_norm": 8.40325927734375,
      "learning_rate": 4.5879120879120875e-07,
      "loss": 0.2072,
      "step": 465
    },
    {
      "epoch": 35.84615384615385,
      "grad_norm": 40.34423828125,
      "learning_rate": 4.582417582417582e-07,
      "loss": 0.362,
      "step": 466
    },
    {
      "epoch": 35.92307692307692,
      "grad_norm": 46.973514556884766,
      "learning_rate": 4.5769230769230763e-07,
      "loss": 0.4925,
      "step": 467
    },
    {
      "epoch": 36.0,
      "grad_norm": 24.052297592163086,
      "learning_rate": 4.571428571428571e-07,
      "loss": 0.3543,
      "step": 468
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.8021978021978022,
      "eval_loss": 0.4690166115760803,
      "eval_runtime": 1.143,
      "eval_samples_per_second": 238.841,
      "eval_steps_per_second": 7.874,
      "step": 468
    },
    {
      "epoch": 36.07692307692308,
      "grad_norm": 24.328731536865234,
      "learning_rate": 4.5659340659340657e-07,
      "loss": 0.3651,
      "step": 469
    },
    {
      "epoch": 36.15384615384615,
      "grad_norm": 11.459765434265137,
      "learning_rate": 4.5604395604395604e-07,
      "loss": 0.3029,
      "step": 470
    },
    {
      "epoch": 36.23076923076923,
      "grad_norm": 34.600738525390625,
      "learning_rate": 4.5549450549450545e-07,
      "loss": 0.3964,
      "step": 471
    },
    {
      "epoch": 36.30769230769231,
      "grad_norm": 8.59355354309082,
      "learning_rate": 4.549450549450549e-07,
      "loss": 0.3018,
      "step": 472
    },
    {
      "epoch": 36.38461538461539,
      "grad_norm": 17.886491775512695,
      "learning_rate": 4.543956043956044e-07,
      "loss": 0.3416,
      "step": 473
    },
    {
      "epoch": 36.46153846153846,
      "grad_norm": 18.700742721557617,
      "learning_rate": 4.538461538461538e-07,
      "loss": 0.2645,
      "step": 474
    },
    {
      "epoch": 36.53846153846154,
      "grad_norm": 14.236011505126953,
      "learning_rate": 4.532967032967033e-07,
      "loss": 0.2838,
      "step": 475
    },
    {
      "epoch": 36.61538461538461,
      "grad_norm": 16.3547306060791,
      "learning_rate": 4.5274725274725274e-07,
      "loss": 0.3704,
      "step": 476
    },
    {
      "epoch": 36.69230769230769,
      "grad_norm": 20.42416763305664,
      "learning_rate": 4.5219780219780216e-07,
      "loss": 0.2269,
      "step": 477
    },
    {
      "epoch": 36.76923076923077,
      "grad_norm": 46.72260284423828,
      "learning_rate": 4.5164835164835163e-07,
      "loss": 0.3104,
      "step": 478
    },
    {
      "epoch": 36.84615384615385,
      "grad_norm": 40.6906852722168,
      "learning_rate": 4.510989010989011e-07,
      "loss": 0.4714,
      "step": 479
    },
    {
      "epoch": 36.92307692307692,
      "grad_norm": 8.849618911743164,
      "learning_rate": 4.5054945054945056e-07,
      "loss": 0.2636,
      "step": 480
    },
    {
      "epoch": 37.0,
      "grad_norm": 20.973413467407227,
      "learning_rate": 4.5e-07,
      "loss": 0.3325,
      "step": 481
    },
    {
      "epoch": 37.0,
      "eval_accuracy": 0.8058608058608059,
      "eval_loss": 0.46397653222084045,
      "eval_runtime": 1.1214,
      "eval_samples_per_second": 243.443,
      "eval_steps_per_second": 8.026,
      "step": 481
    },
    {
      "epoch": 37.07692307692308,
      "grad_norm": 14.828864097595215,
      "learning_rate": 4.4945054945054945e-07,
      "loss": 0.3108,
      "step": 482
    },
    {
      "epoch": 37.15384615384615,
      "grad_norm": 11.297054290771484,
      "learning_rate": 4.489010989010989e-07,
      "loss": 0.2869,
      "step": 483
    },
    {
      "epoch": 37.23076923076923,
      "grad_norm": 35.245582580566406,
      "learning_rate": 4.4835164835164833e-07,
      "loss": 0.3578,
      "step": 484
    },
    {
      "epoch": 37.30769230769231,
      "grad_norm": 12.874252319335938,
      "learning_rate": 4.478021978021978e-07,
      "loss": 0.3062,
      "step": 485
    },
    {
      "epoch": 37.38461538461539,
      "grad_norm": 6.828347206115723,
      "learning_rate": 4.4725274725274727e-07,
      "loss": 0.2896,
      "step": 486
    },
    {
      "epoch": 37.46153846153846,
      "grad_norm": 36.981414794921875,
      "learning_rate": 4.467032967032967e-07,
      "loss": 0.4196,
      "step": 487
    },
    {
      "epoch": 37.53846153846154,
      "grad_norm": 28.463153839111328,
      "learning_rate": 4.4615384615384615e-07,
      "loss": 0.3901,
      "step": 488
    },
    {
      "epoch": 37.61538461538461,
      "grad_norm": 12.483724594116211,
      "learning_rate": 4.456043956043956e-07,
      "loss": 0.3407,
      "step": 489
    },
    {
      "epoch": 37.69230769230769,
      "grad_norm": 11.189248085021973,
      "learning_rate": 4.45054945054945e-07,
      "loss": 0.3895,
      "step": 490
    },
    {
      "epoch": 37.76923076923077,
      "grad_norm": 30.99187469482422,
      "learning_rate": 4.4450549450549445e-07,
      "loss": 0.2405,
      "step": 491
    },
    {
      "epoch": 37.84615384615385,
      "grad_norm": 21.151941299438477,
      "learning_rate": 4.439560439560439e-07,
      "loss": 0.2091,
      "step": 492
    },
    {
      "epoch": 37.92307692307692,
      "grad_norm": 23.06659698486328,
      "learning_rate": 4.434065934065934e-07,
      "loss": 0.3478,
      "step": 493
    },
    {
      "epoch": 38.0,
      "grad_norm": 52.44134521484375,
      "learning_rate": 4.428571428571428e-07,
      "loss": 0.4004,
      "step": 494
    },
    {
      "epoch": 38.0,
      "eval_accuracy": 0.8095238095238095,
      "eval_loss": 0.45840567350387573,
      "eval_runtime": 1.1627,
      "eval_samples_per_second": 234.801,
      "eval_steps_per_second": 7.741,
      "step": 494
    },
    {
      "epoch": 38.07692307692308,
      "grad_norm": 19.044342041015625,
      "learning_rate": 4.423076923076923e-07,
      "loss": 0.2893,
      "step": 495
    },
    {
      "epoch": 38.15384615384615,
      "grad_norm": 38.251869201660156,
      "learning_rate": 4.4175824175824174e-07,
      "loss": 0.3527,
      "step": 496
    },
    {
      "epoch": 38.23076923076923,
      "grad_norm": 11.231649398803711,
      "learning_rate": 4.4120879120879116e-07,
      "loss": 0.3652,
      "step": 497
    },
    {
      "epoch": 38.30769230769231,
      "grad_norm": 13.892407417297363,
      "learning_rate": 4.4065934065934063e-07,
      "loss": 0.2495,
      "step": 498
    },
    {
      "epoch": 38.38461538461539,
      "grad_norm": 64.00056457519531,
      "learning_rate": 4.401098901098901e-07,
      "loss": 0.378,
      "step": 499
    },
    {
      "epoch": 38.46153846153846,
      "grad_norm": 30.013063430786133,
      "learning_rate": 4.395604395604395e-07,
      "loss": 0.4089,
      "step": 500
    },
    {
      "epoch": 38.53846153846154,
      "grad_norm": 20.18489646911621,
      "learning_rate": 4.39010989010989e-07,
      "loss": 0.4019,
      "step": 501
    },
    {
      "epoch": 38.61538461538461,
      "grad_norm": 42.64606475830078,
      "learning_rate": 4.3846153846153845e-07,
      "loss": 0.4545,
      "step": 502
    },
    {
      "epoch": 38.69230769230769,
      "grad_norm": 12.87722396850586,
      "learning_rate": 4.3791208791208787e-07,
      "loss": 0.2412,
      "step": 503
    },
    {
      "epoch": 38.76923076923077,
      "grad_norm": 34.425437927246094,
      "learning_rate": 4.3736263736263733e-07,
      "loss": 0.3154,
      "step": 504
    },
    {
      "epoch": 38.84615384615385,
      "grad_norm": 32.04761505126953,
      "learning_rate": 4.368131868131868e-07,
      "loss": 0.2651,
      "step": 505
    },
    {
      "epoch": 38.92307692307692,
      "grad_norm": 14.059944152832031,
      "learning_rate": 4.3626373626373627e-07,
      "loss": 0.2811,
      "step": 506
    },
    {
      "epoch": 39.0,
      "grad_norm": 18.253536224365234,
      "learning_rate": 4.357142857142857e-07,
      "loss": 0.3031,
      "step": 507
    },
    {
      "epoch": 39.0,
      "eval_accuracy": 0.8131868131868132,
      "eval_loss": 0.45476073026657104,
      "eval_runtime": 1.0996,
      "eval_samples_per_second": 248.263,
      "eval_steps_per_second": 8.184,
      "step": 507
    },
    {
      "epoch": 39.07692307692308,
      "grad_norm": 45.304443359375,
      "learning_rate": 4.3516483516483516e-07,
      "loss": 0.1963,
      "step": 508
    },
    {
      "epoch": 39.15384615384615,
      "grad_norm": 43.03276062011719,
      "learning_rate": 4.346153846153846e-07,
      "loss": 0.2421,
      "step": 509
    },
    {
      "epoch": 39.23076923076923,
      "grad_norm": 24.120267868041992,
      "learning_rate": 4.3406593406593404e-07,
      "loss": 0.2649,
      "step": 510
    },
    {
      "epoch": 39.30769230769231,
      "grad_norm": 13.130450248718262,
      "learning_rate": 4.335164835164835e-07,
      "loss": 0.3178,
      "step": 511
    },
    {
      "epoch": 39.38461538461539,
      "grad_norm": 57.43672561645508,
      "learning_rate": 4.32967032967033e-07,
      "loss": 0.4336,
      "step": 512
    },
    {
      "epoch": 39.46153846153846,
      "grad_norm": 24.841590881347656,
      "learning_rate": 4.324175824175824e-07,
      "loss": 0.2753,
      "step": 513
    },
    {
      "epoch": 39.53846153846154,
      "grad_norm": 12.529874801635742,
      "learning_rate": 4.3186813186813186e-07,
      "loss": 0.3356,
      "step": 514
    },
    {
      "epoch": 39.61538461538461,
      "grad_norm": 22.464630126953125,
      "learning_rate": 4.3131868131868133e-07,
      "loss": 0.3753,
      "step": 515
    },
    {
      "epoch": 39.69230769230769,
      "grad_norm": 12.545809745788574,
      "learning_rate": 4.307692307692308e-07,
      "loss": 0.2259,
      "step": 516
    },
    {
      "epoch": 39.76923076923077,
      "grad_norm": 29.47608757019043,
      "learning_rate": 4.302197802197802e-07,
      "loss": 0.2883,
      "step": 517
    },
    {
      "epoch": 39.84615384615385,
      "grad_norm": 32.44270706176758,
      "learning_rate": 4.2967032967032963e-07,
      "loss": 0.4366,
      "step": 518
    },
    {
      "epoch": 39.92307692307692,
      "grad_norm": 32.9162483215332,
      "learning_rate": 4.291208791208791e-07,
      "loss": 0.4093,
      "step": 519
    },
    {
      "epoch": 40.0,
      "grad_norm": 29.072330474853516,
      "learning_rate": 4.285714285714285e-07,
      "loss": 0.4862,
      "step": 520
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.8095238095238095,
      "eval_loss": 0.4520099461078644,
      "eval_runtime": 1.1278,
      "eval_samples_per_second": 242.06,
      "eval_steps_per_second": 7.98,
      "step": 520
    },
    {
      "epoch": 40.07692307692308,
      "grad_norm": 12.505836486816406,
      "learning_rate": 4.28021978021978e-07,
      "loss": 0.4142,
      "step": 521
    },
    {
      "epoch": 40.15384615384615,
      "grad_norm": 12.669483184814453,
      "learning_rate": 4.2747252747252745e-07,
      "loss": 0.367,
      "step": 522
    },
    {
      "epoch": 40.23076923076923,
      "grad_norm": 29.673282623291016,
      "learning_rate": 4.2692307692307687e-07,
      "loss": 0.2413,
      "step": 523
    },
    {
      "epoch": 40.30769230769231,
      "grad_norm": 12.944839477539062,
      "learning_rate": 4.2637362637362634e-07,
      "loss": 0.2448,
      "step": 524
    },
    {
      "epoch": 40.38461538461539,
      "grad_norm": 16.52200698852539,
      "learning_rate": 4.258241758241758e-07,
      "loss": 0.3858,
      "step": 525
    },
    {
      "epoch": 40.46153846153846,
      "grad_norm": 21.543298721313477,
      "learning_rate": 4.252747252747252e-07,
      "loss": 0.2842,
      "step": 526
    },
    {
      "epoch": 40.53846153846154,
      "grad_norm": 17.067216873168945,
      "learning_rate": 4.247252747252747e-07,
      "loss": 0.3,
      "step": 527
    },
    {
      "epoch": 40.61538461538461,
      "grad_norm": 36.27104568481445,
      "learning_rate": 4.2417582417582416e-07,
      "loss": 0.3117,
      "step": 528
    },
    {
      "epoch": 40.69230769230769,
      "grad_norm": 20.31726837158203,
      "learning_rate": 4.236263736263736e-07,
      "loss": 0.3723,
      "step": 529
    },
    {
      "epoch": 40.76923076923077,
      "grad_norm": 16.683298110961914,
      "learning_rate": 4.2307692307692304e-07,
      "loss": 0.2183,
      "step": 530
    },
    {
      "epoch": 40.84615384615385,
      "grad_norm": 39.76879119873047,
      "learning_rate": 4.225274725274725e-07,
      "loss": 0.2702,
      "step": 531
    },
    {
      "epoch": 40.92307692307692,
      "grad_norm": 23.948213577270508,
      "learning_rate": 4.21978021978022e-07,
      "loss": 0.2939,
      "step": 532
    },
    {
      "epoch": 41.0,
      "grad_norm": 27.588979721069336,
      "learning_rate": 4.214285714285714e-07,
      "loss": 0.2609,
      "step": 533
    },
    {
      "epoch": 41.0,
      "eval_accuracy": 0.8278388278388278,
      "eval_loss": 0.44983965158462524,
      "eval_runtime": 1.1092,
      "eval_samples_per_second": 246.116,
      "eval_steps_per_second": 8.114,
      "step": 533
    },
    {
      "epoch": 41.07692307692308,
      "grad_norm": 19.64771842956543,
      "learning_rate": 4.2087912087912086e-07,
      "loss": 0.3192,
      "step": 534
    },
    {
      "epoch": 41.15384615384615,
      "grad_norm": 49.729244232177734,
      "learning_rate": 4.2032967032967033e-07,
      "loss": 0.3524,
      "step": 535
    },
    {
      "epoch": 41.23076923076923,
      "grad_norm": 33.870086669921875,
      "learning_rate": 4.1978021978021975e-07,
      "loss": 0.2883,
      "step": 536
    },
    {
      "epoch": 41.30769230769231,
      "grad_norm": 15.227173805236816,
      "learning_rate": 4.192307692307692e-07,
      "loss": 0.2953,
      "step": 537
    },
    {
      "epoch": 41.38461538461539,
      "grad_norm": 37.41476821899414,
      "learning_rate": 4.186813186813187e-07,
      "loss": 0.242,
      "step": 538
    },
    {
      "epoch": 41.46153846153846,
      "grad_norm": 21.999134063720703,
      "learning_rate": 4.181318681318681e-07,
      "loss": 0.3391,
      "step": 539
    },
    {
      "epoch": 41.53846153846154,
      "grad_norm": 13.469117164611816,
      "learning_rate": 4.1758241758241757e-07,
      "loss": 0.194,
      "step": 540
    },
    {
      "epoch": 41.61538461538461,
      "grad_norm": 23.914093017578125,
      "learning_rate": 4.1703296703296704e-07,
      "loss": 0.3087,
      "step": 541
    },
    {
      "epoch": 41.69230769230769,
      "grad_norm": 13.676068305969238,
      "learning_rate": 4.164835164835165e-07,
      "loss": 0.3236,
      "step": 542
    },
    {
      "epoch": 41.76923076923077,
      "grad_norm": 17.684938430786133,
      "learning_rate": 4.159340659340659e-07,
      "loss": 0.3864,
      "step": 543
    },
    {
      "epoch": 41.84615384615385,
      "grad_norm": 13.952432632446289,
      "learning_rate": 4.153846153846154e-07,
      "loss": 0.3476,
      "step": 544
    },
    {
      "epoch": 41.92307692307692,
      "grad_norm": 46.66703796386719,
      "learning_rate": 4.1483516483516486e-07,
      "loss": 0.4621,
      "step": 545
    },
    {
      "epoch": 42.0,
      "grad_norm": 52.22838592529297,
      "learning_rate": 4.142857142857143e-07,
      "loss": 0.1859,
      "step": 546
    },
    {
      "epoch": 42.0,
      "eval_accuracy": 0.8461538461538461,
      "eval_loss": 0.44503140449523926,
      "eval_runtime": 1.1678,
      "eval_samples_per_second": 233.772,
      "eval_steps_per_second": 7.707,
      "step": 546
    },
    {
      "epoch": 42.07692307692308,
      "grad_norm": 28.011089324951172,
      "learning_rate": 4.137362637362637e-07,
      "loss": 0.3442,
      "step": 547
    },
    {
      "epoch": 42.15384615384615,
      "grad_norm": 45.09172058105469,
      "learning_rate": 4.1318681318681316e-07,
      "loss": 0.2707,
      "step": 548
    },
    {
      "epoch": 42.23076923076923,
      "grad_norm": 11.747811317443848,
      "learning_rate": 4.126373626373626e-07,
      "loss": 0.1723,
      "step": 549
    },
    {
      "epoch": 42.30769230769231,
      "grad_norm": 12.750053405761719,
      "learning_rate": 4.1208791208791204e-07,
      "loss": 0.3872,
      "step": 550
    },
    {
      "epoch": 42.38461538461539,
      "grad_norm": 17.412620544433594,
      "learning_rate": 4.115384615384615e-07,
      "loss": 0.2787,
      "step": 551
    },
    {
      "epoch": 42.46153846153846,
      "grad_norm": 18.985485076904297,
      "learning_rate": 4.1098901098901093e-07,
      "loss": 0.2938,
      "step": 552
    },
    {
      "epoch": 42.53846153846154,
      "grad_norm": 31.459341049194336,
      "learning_rate": 4.104395604395604e-07,
      "loss": 0.3496,
      "step": 553
    },
    {
      "epoch": 42.61538461538461,
      "grad_norm": 27.678665161132812,
      "learning_rate": 4.0989010989010986e-07,
      "loss": 0.2896,
      "step": 554
    },
    {
      "epoch": 42.69230769230769,
      "grad_norm": 53.57835388183594,
      "learning_rate": 4.0934065934065933e-07,
      "loss": 0.3058,
      "step": 555
    },
    {
      "epoch": 42.76923076923077,
      "grad_norm": 13.127477645874023,
      "learning_rate": 4.0879120879120875e-07,
      "loss": 0.3965,
      "step": 556
    },
    {
      "epoch": 42.84615384615385,
      "grad_norm": 20.83461570739746,
      "learning_rate": 4.082417582417582e-07,
      "loss": 0.3292,
      "step": 557
    },
    {
      "epoch": 42.92307692307692,
      "grad_norm": 43.557552337646484,
      "learning_rate": 4.076923076923077e-07,
      "loss": 0.3541,
      "step": 558
    },
    {
      "epoch": 43.0,
      "grad_norm": 21.552248001098633,
      "learning_rate": 4.071428571428571e-07,
      "loss": 0.2712,
      "step": 559
    },
    {
      "epoch": 43.0,
      "eval_accuracy": 0.8461538461538461,
      "eval_loss": 0.44078484177589417,
      "eval_runtime": 1.098,
      "eval_samples_per_second": 248.629,
      "eval_steps_per_second": 8.197,
      "step": 559
    },
    {
      "epoch": 43.07692307692308,
      "grad_norm": 38.38877487182617,
      "learning_rate": 4.0659340659340657e-07,
      "loss": 0.3088,
      "step": 560
    },
    {
      "epoch": 43.15384615384615,
      "grad_norm": 22.17215919494629,
      "learning_rate": 4.0604395604395604e-07,
      "loss": 0.2516,
      "step": 561
    },
    {
      "epoch": 43.23076923076923,
      "grad_norm": 14.838505744934082,
      "learning_rate": 4.0549450549450545e-07,
      "loss": 0.3921,
      "step": 562
    },
    {
      "epoch": 43.30769230769231,
      "grad_norm": 14.619174003601074,
      "learning_rate": 4.049450549450549e-07,
      "loss": 0.3489,
      "step": 563
    },
    {
      "epoch": 43.38461538461539,
      "grad_norm": 12.56376838684082,
      "learning_rate": 4.043956043956044e-07,
      "loss": 0.2744,
      "step": 564
    },
    {
      "epoch": 43.46153846153846,
      "grad_norm": 38.22209548950195,
      "learning_rate": 4.0384615384615386e-07,
      "loss": 0.2285,
      "step": 565
    },
    {
      "epoch": 43.53846153846154,
      "grad_norm": 11.853838920593262,
      "learning_rate": 4.032967032967033e-07,
      "loss": 0.337,
      "step": 566
    },
    {
      "epoch": 43.61538461538461,
      "grad_norm": 14.193585395812988,
      "learning_rate": 4.0274725274725274e-07,
      "loss": 0.29,
      "step": 567
    },
    {
      "epoch": 43.69230769230769,
      "grad_norm": 57.809810638427734,
      "learning_rate": 4.021978021978022e-07,
      "loss": 0.4178,
      "step": 568
    },
    {
      "epoch": 43.76923076923077,
      "grad_norm": 25.03615379333496,
      "learning_rate": 4.0164835164835163e-07,
      "loss": 0.2266,
      "step": 569
    },
    {
      "epoch": 43.84615384615385,
      "grad_norm": 11.70556926727295,
      "learning_rate": 4.010989010989011e-07,
      "loss": 0.3185,
      "step": 570
    },
    {
      "epoch": 43.92307692307692,
      "grad_norm": 17.9630069732666,
      "learning_rate": 4.0054945054945057e-07,
      "loss": 0.43,
      "step": 571
    },
    {
      "epoch": 44.0,
      "grad_norm": 20.628416061401367,
      "learning_rate": 4e-07,
      "loss": 0.221,
      "step": 572
    },
    {
      "epoch": 44.0,
      "eval_accuracy": 0.8424908424908425,
      "eval_loss": 0.43865466117858887,
      "eval_runtime": 1.1422,
      "eval_samples_per_second": 239.011,
      "eval_steps_per_second": 7.879,
      "step": 572
    },
    {
      "epoch": 44.07692307692308,
      "grad_norm": 35.04546356201172,
      "learning_rate": 3.9945054945054945e-07,
      "loss": 0.3212,
      "step": 573
    },
    {
      "epoch": 44.15384615384615,
      "grad_norm": 18.54471778869629,
      "learning_rate": 3.989010989010989e-07,
      "loss": 0.3482,
      "step": 574
    },
    {
      "epoch": 44.23076923076923,
      "grad_norm": 7.781414031982422,
      "learning_rate": 3.983516483516483e-07,
      "loss": 0.2791,
      "step": 575
    },
    {
      "epoch": 44.30769230769231,
      "grad_norm": 40.74549865722656,
      "learning_rate": 3.9780219780219775e-07,
      "loss": 0.4179,
      "step": 576
    },
    {
      "epoch": 44.38461538461539,
      "grad_norm": 32.22798156738281,
      "learning_rate": 3.972527472527472e-07,
      "loss": 0.2724,
      "step": 577
    },
    {
      "epoch": 44.46153846153846,
      "grad_norm": 38.42926025390625,
      "learning_rate": 3.967032967032967e-07,
      "loss": 0.2048,
      "step": 578
    },
    {
      "epoch": 44.53846153846154,
      "grad_norm": 59.316646575927734,
      "learning_rate": 3.961538461538461e-07,
      "loss": 0.3139,
      "step": 579
    },
    {
      "epoch": 44.61538461538461,
      "grad_norm": 18.17076873779297,
      "learning_rate": 3.9560439560439557e-07,
      "loss": 0.4381,
      "step": 580
    },
    {
      "epoch": 44.69230769230769,
      "grad_norm": 20.287384033203125,
      "learning_rate": 3.9505494505494504e-07,
      "loss": 0.2952,
      "step": 581
    },
    {
      "epoch": 44.76923076923077,
      "grad_norm": 20.253217697143555,
      "learning_rate": 3.9450549450549446e-07,
      "loss": 0.4327,
      "step": 582
    },
    {
      "epoch": 44.84615384615385,
      "grad_norm": 54.484066009521484,
      "learning_rate": 3.939560439560439e-07,
      "loss": 0.3466,
      "step": 583
    },
    {
      "epoch": 44.92307692307692,
      "grad_norm": 26.077239990234375,
      "learning_rate": 3.934065934065934e-07,
      "loss": 0.2664,
      "step": 584
    },
    {
      "epoch": 45.0,
      "grad_norm": 24.904905319213867,
      "learning_rate": 3.928571428571428e-07,
      "loss": 0.2328,
      "step": 585
    },
    {
      "epoch": 45.0,
      "eval_accuracy": 0.8498168498168498,
      "eval_loss": 0.43706080317497253,
      "eval_runtime": 1.0804,
      "eval_samples_per_second": 252.678,
      "eval_steps_per_second": 8.33,
      "step": 585
    },
    {
      "epoch": 45.07692307692308,
      "grad_norm": 16.95549201965332,
      "learning_rate": 3.923076923076923e-07,
      "loss": 0.3512,
      "step": 586
    },
    {
      "epoch": 45.15384615384615,
      "grad_norm": 22.653656005859375,
      "learning_rate": 3.9175824175824175e-07,
      "loss": 0.3233,
      "step": 587
    },
    {
      "epoch": 45.23076923076923,
      "grad_norm": 25.171283721923828,
      "learning_rate": 3.912087912087912e-07,
      "loss": 0.2719,
      "step": 588
    },
    {
      "epoch": 45.30769230769231,
      "grad_norm": 27.863115310668945,
      "learning_rate": 3.9065934065934063e-07,
      "loss": 0.3367,
      "step": 589
    },
    {
      "epoch": 45.38461538461539,
      "grad_norm": 21.76424217224121,
      "learning_rate": 3.901098901098901e-07,
      "loss": 0.3164,
      "step": 590
    },
    {
      "epoch": 45.46153846153846,
      "grad_norm": 9.927742958068848,
      "learning_rate": 3.8956043956043957e-07,
      "loss": 0.2701,
      "step": 591
    },
    {
      "epoch": 45.53846153846154,
      "grad_norm": 64.17103576660156,
      "learning_rate": 3.89010989010989e-07,
      "loss": 0.3106,
      "step": 592
    },
    {
      "epoch": 45.61538461538461,
      "grad_norm": 19.873645782470703,
      "learning_rate": 3.8846153846153845e-07,
      "loss": 0.4358,
      "step": 593
    },
    {
      "epoch": 45.69230769230769,
      "grad_norm": 29.047571182250977,
      "learning_rate": 3.879120879120879e-07,
      "loss": 0.3797,
      "step": 594
    },
    {
      "epoch": 45.76923076923077,
      "grad_norm": 22.249204635620117,
      "learning_rate": 3.8736263736263734e-07,
      "loss": 0.2235,
      "step": 595
    },
    {
      "epoch": 45.84615384615385,
      "grad_norm": 36.382347106933594,
      "learning_rate": 3.868131868131868e-07,
      "loss": 0.3691,
      "step": 596
    },
    {
      "epoch": 45.92307692307692,
      "grad_norm": 15.581422805786133,
      "learning_rate": 3.862637362637363e-07,
      "loss": 0.3035,
      "step": 597
    },
    {
      "epoch": 46.0,
      "grad_norm": 51.89204025268555,
      "learning_rate": 3.857142857142857e-07,
      "loss": 0.3004,
      "step": 598
    },
    {
      "epoch": 46.0,
      "eval_accuracy": 0.8424908424908425,
      "eval_loss": 0.4339163601398468,
      "eval_runtime": 1.1287,
      "eval_samples_per_second": 241.864,
      "eval_steps_per_second": 7.974,
      "step": 598
    },
    {
      "epoch": 46.07692307692308,
      "grad_norm": 59.95323181152344,
      "learning_rate": 3.8516483516483516e-07,
      "loss": 0.3948,
      "step": 599
    },
    {
      "epoch": 46.15384615384615,
      "grad_norm": 8.699413299560547,
      "learning_rate": 3.8461538461538463e-07,
      "loss": 0.2428,
      "step": 600
    },
    {
      "epoch": 46.23076923076923,
      "grad_norm": 26.717193603515625,
      "learning_rate": 3.840659340659341e-07,
      "loss": 0.2417,
      "step": 601
    },
    {
      "epoch": 46.30769230769231,
      "grad_norm": 20.190753936767578,
      "learning_rate": 3.835164835164835e-07,
      "loss": 0.3177,
      "step": 602
    },
    {
      "epoch": 46.38461538461539,
      "grad_norm": 23.21367073059082,
      "learning_rate": 3.82967032967033e-07,
      "loss": 0.2492,
      "step": 603
    },
    {
      "epoch": 46.46153846153846,
      "grad_norm": 14.620820999145508,
      "learning_rate": 3.824175824175824e-07,
      "loss": 0.2912,
      "step": 604
    },
    {
      "epoch": 46.53846153846154,
      "grad_norm": 16.184518814086914,
      "learning_rate": 3.818681318681318e-07,
      "loss": 0.4011,
      "step": 605
    },
    {
      "epoch": 46.61538461538461,
      "grad_norm": 12.382149696350098,
      "learning_rate": 3.813186813186813e-07,
      "loss": 0.4001,
      "step": 606
    },
    {
      "epoch": 46.69230769230769,
      "grad_norm": 18.376087188720703,
      "learning_rate": 3.8076923076923075e-07,
      "loss": 0.241,
      "step": 607
    },
    {
      "epoch": 46.76923076923077,
      "grad_norm": 22.998743057250977,
      "learning_rate": 3.8021978021978016e-07,
      "loss": 0.4046,
      "step": 608
    },
    {
      "epoch": 46.84615384615385,
      "grad_norm": 45.807518005371094,
      "learning_rate": 3.7967032967032963e-07,
      "loss": 0.2813,
      "step": 609
    },
    {
      "epoch": 46.92307692307692,
      "grad_norm": 14.032024383544922,
      "learning_rate": 3.791208791208791e-07,
      "loss": 0.2301,
      "step": 610
    },
    {
      "epoch": 47.0,
      "grad_norm": 15.171304702758789,
      "learning_rate": 3.785714285714285e-07,
      "loss": 0.2036,
      "step": 611
    },
    {
      "epoch": 47.0,
      "eval_accuracy": 0.8461538461538461,
      "eval_loss": 0.43180403113365173,
      "eval_runtime": 1.1173,
      "eval_samples_per_second": 244.342,
      "eval_steps_per_second": 8.055,
      "step": 611
    },
    {
      "epoch": 47.07692307692308,
      "grad_norm": 11.965672492980957,
      "learning_rate": 3.78021978021978e-07,
      "loss": 0.3168,
      "step": 612
    },
    {
      "epoch": 47.15384615384615,
      "grad_norm": 25.433246612548828,
      "learning_rate": 3.7747252747252745e-07,
      "loss": 0.2934,
      "step": 613
    },
    {
      "epoch": 47.23076923076923,
      "grad_norm": 20.833852767944336,
      "learning_rate": 3.769230769230769e-07,
      "loss": 0.217,
      "step": 614
    },
    {
      "epoch": 47.30769230769231,
      "grad_norm": 26.804580688476562,
      "learning_rate": 3.7637362637362634e-07,
      "loss": 0.2023,
      "step": 615
    },
    {
      "epoch": 47.38461538461539,
      "grad_norm": 16.327899932861328,
      "learning_rate": 3.758241758241758e-07,
      "loss": 0.3389,
      "step": 616
    },
    {
      "epoch": 47.46153846153846,
      "grad_norm": 29.25802230834961,
      "learning_rate": 3.752747252747253e-07,
      "loss": 0.4034,
      "step": 617
    },
    {
      "epoch": 47.53846153846154,
      "grad_norm": 32.72966766357422,
      "learning_rate": 3.747252747252747e-07,
      "loss": 0.3201,
      "step": 618
    },
    {
      "epoch": 47.61538461538461,
      "grad_norm": 37.31544876098633,
      "learning_rate": 3.7417582417582416e-07,
      "loss": 0.3233,
      "step": 619
    },
    {
      "epoch": 47.69230769230769,
      "grad_norm": 32.91764450073242,
      "learning_rate": 3.7362637362637363e-07,
      "loss": 0.3274,
      "step": 620
    },
    {
      "epoch": 47.76923076923077,
      "grad_norm": 27.06637954711914,
      "learning_rate": 3.7307692307692304e-07,
      "loss": 0.1807,
      "step": 621
    },
    {
      "epoch": 47.84615384615385,
      "grad_norm": 71.19083404541016,
      "learning_rate": 3.725274725274725e-07,
      "loss": 0.3001,
      "step": 622
    },
    {
      "epoch": 47.92307692307692,
      "grad_norm": 30.157934188842773,
      "learning_rate": 3.71978021978022e-07,
      "loss": 0.2932,
      "step": 623
    },
    {
      "epoch": 48.0,
      "grad_norm": 24.894617080688477,
      "learning_rate": 3.7142857142857145e-07,
      "loss": 0.1925,
      "step": 624
    },
    {
      "epoch": 48.0,
      "eval_accuracy": 0.8498168498168498,
      "eval_loss": 0.429940402507782,
      "eval_runtime": 1.1214,
      "eval_samples_per_second": 243.45,
      "eval_steps_per_second": 8.026,
      "step": 624
    },
    {
      "epoch": 48.07692307692308,
      "grad_norm": 23.2379207611084,
      "learning_rate": 3.7087912087912087e-07,
      "loss": 0.2428,
      "step": 625
    },
    {
      "epoch": 48.15384615384615,
      "grad_norm": 12.26453971862793,
      "learning_rate": 3.7032967032967033e-07,
      "loss": 0.2059,
      "step": 626
    },
    {
      "epoch": 48.23076923076923,
      "grad_norm": 19.094972610473633,
      "learning_rate": 3.697802197802198e-07,
      "loss": 0.3245,
      "step": 627
    },
    {
      "epoch": 48.30769230769231,
      "grad_norm": 33.87215805053711,
      "learning_rate": 3.692307692307692e-07,
      "loss": 0.3135,
      "step": 628
    },
    {
      "epoch": 48.38461538461539,
      "grad_norm": 38.28016662597656,
      "learning_rate": 3.686813186813187e-07,
      "loss": 0.3074,
      "step": 629
    },
    {
      "epoch": 48.46153846153846,
      "grad_norm": 10.843157768249512,
      "learning_rate": 3.6813186813186816e-07,
      "loss": 0.3089,
      "step": 630
    },
    {
      "epoch": 48.53846153846154,
      "grad_norm": 12.183404922485352,
      "learning_rate": 3.6758241758241757e-07,
      "loss": 0.3421,
      "step": 631
    },
    {
      "epoch": 48.61538461538461,
      "grad_norm": 17.07087516784668,
      "learning_rate": 3.67032967032967e-07,
      "loss": 0.2588,
      "step": 632
    },
    {
      "epoch": 48.69230769230769,
      "grad_norm": 25.54414939880371,
      "learning_rate": 3.6648351648351646e-07,
      "loss": 0.3605,
      "step": 633
    },
    {
      "epoch": 48.76923076923077,
      "grad_norm": 21.74620246887207,
      "learning_rate": 3.6593406593406587e-07,
      "loss": 0.2691,
      "step": 634
    },
    {
      "epoch": 48.84615384615385,
      "grad_norm": 21.4051570892334,
      "learning_rate": 3.6538461538461534e-07,
      "loss": 0.3592,
      "step": 635
    },
    {
      "epoch": 48.92307692307692,
      "grad_norm": 52.705875396728516,
      "learning_rate": 3.648351648351648e-07,
      "loss": 0.32,
      "step": 636
    },
    {
      "epoch": 49.0,
      "grad_norm": 32.96541213989258,
      "learning_rate": 3.642857142857143e-07,
      "loss": 0.4543,
      "step": 637
    },
    {
      "epoch": 49.0,
      "eval_accuracy": 0.8498168498168498,
      "eval_loss": 0.42664235830307007,
      "eval_runtime": 1.1843,
      "eval_samples_per_second": 230.507,
      "eval_steps_per_second": 7.599,
      "step": 637
    },
    {
      "epoch": 49.07692307692308,
      "grad_norm": 36.31277084350586,
      "learning_rate": 3.637362637362637e-07,
      "loss": 0.3692,
      "step": 638
    },
    {
      "epoch": 49.15384615384615,
      "grad_norm": 40.58119201660156,
      "learning_rate": 3.6318681318681316e-07,
      "loss": 0.2661,
      "step": 639
    },
    {
      "epoch": 49.23076923076923,
      "grad_norm": 46.988338470458984,
      "learning_rate": 3.6263736263736263e-07,
      "loss": 0.2169,
      "step": 640
    },
    {
      "epoch": 49.30769230769231,
      "grad_norm": 21.285736083984375,
      "learning_rate": 3.6208791208791205e-07,
      "loss": 0.2471,
      "step": 641
    },
    {
      "epoch": 49.38461538461539,
      "grad_norm": 33.94597625732422,
      "learning_rate": 3.615384615384615e-07,
      "loss": 0.3497,
      "step": 642
    },
    {
      "epoch": 49.46153846153846,
      "grad_norm": 19.078723907470703,
      "learning_rate": 3.60989010989011e-07,
      "loss": 0.3007,
      "step": 643
    },
    {
      "epoch": 49.53846153846154,
      "grad_norm": 20.21129035949707,
      "learning_rate": 3.604395604395604e-07,
      "loss": 0.2582,
      "step": 644
    },
    {
      "epoch": 49.61538461538461,
      "grad_norm": 14.52566146850586,
      "learning_rate": 3.5989010989010987e-07,
      "loss": 0.3293,
      "step": 645
    },
    {
      "epoch": 49.69230769230769,
      "grad_norm": 40.04621124267578,
      "learning_rate": 3.5934065934065934e-07,
      "loss": 0.2276,
      "step": 646
    },
    {
      "epoch": 49.76923076923077,
      "grad_norm": 48.46415710449219,
      "learning_rate": 3.5879120879120875e-07,
      "loss": 0.3317,
      "step": 647
    },
    {
      "epoch": 49.84615384615385,
      "grad_norm": 18.960092544555664,
      "learning_rate": 3.582417582417582e-07,
      "loss": 0.3075,
      "step": 648
    },
    {
      "epoch": 49.92307692307692,
      "grad_norm": 21.60645294189453,
      "learning_rate": 3.576923076923077e-07,
      "loss": 0.2737,
      "step": 649
    },
    {
      "epoch": 50.0,
      "grad_norm": 14.312994003295898,
      "learning_rate": 3.5714285714285716e-07,
      "loss": 0.4056,
      "step": 650
    },
    {
      "epoch": 50.0,
      "eval_accuracy": 0.8461538461538461,
      "eval_loss": 0.42510169744491577,
      "eval_runtime": 1.138,
      "eval_samples_per_second": 239.903,
      "eval_steps_per_second": 7.909,
      "step": 650
    },
    {
      "epoch": 50.07692307692308,
      "grad_norm": 16.222265243530273,
      "learning_rate": 3.5659340659340657e-07,
      "loss": 0.4477,
      "step": 651
    },
    {
      "epoch": 50.15384615384615,
      "grad_norm": 20.330598831176758,
      "learning_rate": 3.5604395604395604e-07,
      "loss": 0.2799,
      "step": 652
    },
    {
      "epoch": 50.23076923076923,
      "grad_norm": 29.646255493164062,
      "learning_rate": 3.554945054945055e-07,
      "loss": 0.251,
      "step": 653
    },
    {
      "epoch": 50.30769230769231,
      "grad_norm": 46.48189163208008,
      "learning_rate": 3.549450549450549e-07,
      "loss": 0.3049,
      "step": 654
    },
    {
      "epoch": 50.38461538461539,
      "grad_norm": 69.6811294555664,
      "learning_rate": 3.543956043956044e-07,
      "loss": 0.2691,
      "step": 655
    },
    {
      "epoch": 50.46153846153846,
      "grad_norm": 45.04435729980469,
      "learning_rate": 3.5384615384615386e-07,
      "loss": 0.2893,
      "step": 656
    },
    {
      "epoch": 50.53846153846154,
      "grad_norm": 59.317989349365234,
      "learning_rate": 3.532967032967033e-07,
      "loss": 0.2238,
      "step": 657
    },
    {
      "epoch": 50.61538461538461,
      "grad_norm": 11.306159019470215,
      "learning_rate": 3.5274725274725275e-07,
      "loss": 0.3342,
      "step": 658
    },
    {
      "epoch": 50.69230769230769,
      "grad_norm": 35.66840362548828,
      "learning_rate": 3.521978021978022e-07,
      "loss": 0.4564,
      "step": 659
    },
    {
      "epoch": 50.76923076923077,
      "grad_norm": 31.595428466796875,
      "learning_rate": 3.516483516483517e-07,
      "loss": 0.2607,
      "step": 660
    },
    {
      "epoch": 50.84615384615385,
      "grad_norm": 22.142820358276367,
      "learning_rate": 3.5109890109890105e-07,
      "loss": 0.2012,
      "step": 661
    },
    {
      "epoch": 50.92307692307692,
      "grad_norm": 17.208499908447266,
      "learning_rate": 3.505494505494505e-07,
      "loss": 0.2962,
      "step": 662
    },
    {
      "epoch": 51.0,
      "grad_norm": 41.581668853759766,
      "learning_rate": 3.5e-07,
      "loss": 0.2326,
      "step": 663
    },
    {
      "epoch": 51.0,
      "eval_accuracy": 0.8498168498168498,
      "eval_loss": 0.4247128665447235,
      "eval_runtime": 1.0856,
      "eval_samples_per_second": 251.476,
      "eval_steps_per_second": 8.29,
      "step": 663
    },
    {
      "epoch": 51.07692307692308,
      "grad_norm": 17.0118350982666,
      "learning_rate": 3.494505494505494e-07,
      "loss": 0.2807,
      "step": 664
    },
    {
      "epoch": 51.15384615384615,
      "grad_norm": 22.63837242126465,
      "learning_rate": 3.4890109890109887e-07,
      "loss": 0.2084,
      "step": 665
    },
    {
      "epoch": 51.23076923076923,
      "grad_norm": 13.776155471801758,
      "learning_rate": 3.4835164835164834e-07,
      "loss": 0.3741,
      "step": 666
    },
    {
      "epoch": 51.30769230769231,
      "grad_norm": 13.945809364318848,
      "learning_rate": 3.4780219780219775e-07,
      "loss": 0.2224,
      "step": 667
    },
    {
      "epoch": 51.38461538461539,
      "grad_norm": 36.066070556640625,
      "learning_rate": 3.472527472527472e-07,
      "loss": 0.2422,
      "step": 668
    },
    {
      "epoch": 51.46153846153846,
      "grad_norm": 35.166690826416016,
      "learning_rate": 3.467032967032967e-07,
      "loss": 0.2414,
      "step": 669
    },
    {
      "epoch": 51.53846153846154,
      "grad_norm": 30.807109832763672,
      "learning_rate": 3.461538461538461e-07,
      "loss": 0.4081,
      "step": 670
    },
    {
      "epoch": 51.61538461538461,
      "grad_norm": 11.806307792663574,
      "learning_rate": 3.456043956043956e-07,
      "loss": 0.2755,
      "step": 671
    },
    {
      "epoch": 51.69230769230769,
      "grad_norm": 12.65046501159668,
      "learning_rate": 3.4505494505494504e-07,
      "loss": 0.2655,
      "step": 672
    },
    {
      "epoch": 51.76923076923077,
      "grad_norm": 11.139768600463867,
      "learning_rate": 3.445054945054945e-07,
      "loss": 0.3217,
      "step": 673
    },
    {
      "epoch": 51.84615384615385,
      "grad_norm": 14.22523021697998,
      "learning_rate": 3.4395604395604393e-07,
      "loss": 0.316,
      "step": 674
    },
    {
      "epoch": 51.92307692307692,
      "grad_norm": 11.210868835449219,
      "learning_rate": 3.434065934065934e-07,
      "loss": 0.2961,
      "step": 675
    },
    {
      "epoch": 52.0,
      "grad_norm": 73.50015258789062,
      "learning_rate": 3.4285714285714286e-07,
      "loss": 0.327,
      "step": 676
    },
    {
      "epoch": 52.0,
      "eval_accuracy": 0.8571428571428571,
      "eval_loss": 0.4224143624305725,
      "eval_runtime": 1.1274,
      "eval_samples_per_second": 242.149,
      "eval_steps_per_second": 7.983,
      "step": 676
    },
    {
      "epoch": 52.07692307692308,
      "grad_norm": 13.294898986816406,
      "learning_rate": 3.423076923076923e-07,
      "loss": 0.2484,
      "step": 677
    },
    {
      "epoch": 52.15384615384615,
      "grad_norm": 11.042922019958496,
      "learning_rate": 3.4175824175824175e-07,
      "loss": 0.2502,
      "step": 678
    },
    {
      "epoch": 52.23076923076923,
      "grad_norm": 17.2161808013916,
      "learning_rate": 3.412087912087912e-07,
      "loss": 0.2313,
      "step": 679
    },
    {
      "epoch": 52.30769230769231,
      "grad_norm": 30.606714248657227,
      "learning_rate": 3.4065934065934063e-07,
      "loss": 0.2997,
      "step": 680
    },
    {
      "epoch": 52.38461538461539,
      "grad_norm": 28.589250564575195,
      "learning_rate": 3.401098901098901e-07,
      "loss": 0.2813,
      "step": 681
    },
    {
      "epoch": 52.46153846153846,
      "grad_norm": 14.344148635864258,
      "learning_rate": 3.3956043956043957e-07,
      "loss": 0.2158,
      "step": 682
    },
    {
      "epoch": 52.53846153846154,
      "grad_norm": 20.993738174438477,
      "learning_rate": 3.3901098901098904e-07,
      "loss": 0.3435,
      "step": 683
    },
    {
      "epoch": 52.61538461538461,
      "grad_norm": 23.991912841796875,
      "learning_rate": 3.3846153846153845e-07,
      "loss": 0.2839,
      "step": 684
    },
    {
      "epoch": 52.69230769230769,
      "grad_norm": 33.31010437011719,
      "learning_rate": 3.379120879120879e-07,
      "loss": 0.2844,
      "step": 685
    },
    {
      "epoch": 52.76923076923077,
      "grad_norm": 15.218570709228516,
      "learning_rate": 3.373626373626374e-07,
      "loss": 0.2351,
      "step": 686
    },
    {
      "epoch": 52.84615384615385,
      "grad_norm": 30.27324867248535,
      "learning_rate": 3.368131868131868e-07,
      "loss": 0.2726,
      "step": 687
    },
    {
      "epoch": 52.92307692307692,
      "grad_norm": 14.974954605102539,
      "learning_rate": 3.362637362637363e-07,
      "loss": 0.4152,
      "step": 688
    },
    {
      "epoch": 53.0,
      "grad_norm": 49.71595001220703,
      "learning_rate": 3.357142857142857e-07,
      "loss": 0.2385,
      "step": 689
    },
    {
      "epoch": 53.0,
      "eval_accuracy": 0.8571428571428571,
      "eval_loss": 0.4193349778652191,
      "eval_runtime": 1.0945,
      "eval_samples_per_second": 249.434,
      "eval_steps_per_second": 8.223,
      "step": 689
    },
    {
      "epoch": 53.07692307692308,
      "grad_norm": 50.30474853515625,
      "learning_rate": 3.351648351648351e-07,
      "loss": 0.2433,
      "step": 690
    },
    {
      "epoch": 53.15384615384615,
      "grad_norm": 17.7503662109375,
      "learning_rate": 3.346153846153846e-07,
      "loss": 0.2132,
      "step": 691
    },
    {
      "epoch": 53.23076923076923,
      "grad_norm": 31.52617645263672,
      "learning_rate": 3.3406593406593404e-07,
      "loss": 0.2803,
      "step": 692
    },
    {
      "epoch": 53.30769230769231,
      "grad_norm": 34.94513702392578,
      "learning_rate": 3.3351648351648346e-07,
      "loss": 0.3915,
      "step": 693
    },
    {
      "epoch": 53.38461538461539,
      "grad_norm": 22.28950309753418,
      "learning_rate": 3.3296703296703293e-07,
      "loss": 0.197,
      "step": 694
    },
    {
      "epoch": 53.46153846153846,
      "grad_norm": 26.348573684692383,
      "learning_rate": 3.324175824175824e-07,
      "loss": 0.4235,
      "step": 695
    },
    {
      "epoch": 53.53846153846154,
      "grad_norm": 10.036152839660645,
      "learning_rate": 3.3186813186813187e-07,
      "loss": 0.3827,
      "step": 696
    },
    {
      "epoch": 53.61538461538461,
      "grad_norm": 18.506494522094727,
      "learning_rate": 3.313186813186813e-07,
      "loss": 0.208,
      "step": 697
    },
    {
      "epoch": 53.69230769230769,
      "grad_norm": 16.51894187927246,
      "learning_rate": 3.3076923076923075e-07,
      "loss": 0.45,
      "step": 698
    },
    {
      "epoch": 53.76923076923077,
      "grad_norm": 30.230857849121094,
      "learning_rate": 3.302197802197802e-07,
      "loss": 0.3481,
      "step": 699
    },
    {
      "epoch": 53.84615384615385,
      "grad_norm": 6.3199872970581055,
      "learning_rate": 3.2967032967032963e-07,
      "loss": 0.2672,
      "step": 700
    },
    {
      "epoch": 53.92307692307692,
      "grad_norm": 17.613862991333008,
      "learning_rate": 3.291208791208791e-07,
      "loss": 0.2447,
      "step": 701
    },
    {
      "epoch": 54.0,
      "grad_norm": 26.702178955078125,
      "learning_rate": 3.2857142857142857e-07,
      "loss": 0.2876,
      "step": 702
    },
    {
      "epoch": 54.0,
      "eval_accuracy": 0.8571428571428571,
      "eval_loss": 0.4182988107204437,
      "eval_runtime": 1.1544,
      "eval_samples_per_second": 236.482,
      "eval_steps_per_second": 7.796,
      "step": 702
    },
    {
      "epoch": 54.07692307692308,
      "grad_norm": 24.996335983276367,
      "learning_rate": 3.28021978021978e-07,
      "loss": 0.3204,
      "step": 703
    },
    {
      "epoch": 54.15384615384615,
      "grad_norm": 15.500185012817383,
      "learning_rate": 3.2747252747252746e-07,
      "loss": 0.2782,
      "step": 704
    },
    {
      "epoch": 54.23076923076923,
      "grad_norm": 55.72637939453125,
      "learning_rate": 3.269230769230769e-07,
      "loss": 0.3267,
      "step": 705
    },
    {
      "epoch": 54.30769230769231,
      "grad_norm": 53.22111129760742,
      "learning_rate": 3.2637362637362634e-07,
      "loss": 0.4395,
      "step": 706
    },
    {
      "epoch": 54.38461538461539,
      "grad_norm": 39.46826934814453,
      "learning_rate": 3.258241758241758e-07,
      "loss": 0.3457,
      "step": 707
    },
    {
      "epoch": 54.46153846153846,
      "grad_norm": 31.008729934692383,
      "learning_rate": 3.252747252747253e-07,
      "loss": 0.1885,
      "step": 708
    },
    {
      "epoch": 54.53846153846154,
      "grad_norm": 14.476727485656738,
      "learning_rate": 3.2472527472527475e-07,
      "loss": 0.2257,
      "step": 709
    },
    {
      "epoch": 54.61538461538461,
      "grad_norm": 24.909814834594727,
      "learning_rate": 3.2417582417582416e-07,
      "loss": 0.4801,
      "step": 710
    },
    {
      "epoch": 54.69230769230769,
      "grad_norm": 38.126285552978516,
      "learning_rate": 3.2362637362637363e-07,
      "loss": 0.1779,
      "step": 711
    },
    {
      "epoch": 54.76923076923077,
      "grad_norm": 22.593292236328125,
      "learning_rate": 3.230769230769231e-07,
      "loss": 0.3659,
      "step": 712
    },
    {
      "epoch": 54.84615384615385,
      "grad_norm": 13.918293952941895,
      "learning_rate": 3.225274725274725e-07,
      "loss": 0.2887,
      "step": 713
    },
    {
      "epoch": 54.92307692307692,
      "grad_norm": 10.271149635314941,
      "learning_rate": 3.21978021978022e-07,
      "loss": 0.2463,
      "step": 714
    },
    {
      "epoch": 55.0,
      "grad_norm": 23.743328094482422,
      "learning_rate": 3.2142857142857145e-07,
      "loss": 0.2257,
      "step": 715
    },
    {
      "epoch": 55.0,
      "eval_accuracy": 0.8717948717948718,
      "eval_loss": 0.41616034507751465,
      "eval_runtime": 1.1043,
      "eval_samples_per_second": 247.226,
      "eval_steps_per_second": 8.15,
      "step": 715
    },
    {
      "epoch": 55.07692307692308,
      "grad_norm": 16.308061599731445,
      "learning_rate": 3.2087912087912087e-07,
      "loss": 0.2621,
      "step": 716
    },
    {
      "epoch": 55.15384615384615,
      "grad_norm": 27.94227409362793,
      "learning_rate": 3.2032967032967034e-07,
      "loss": 0.3907,
      "step": 717
    },
    {
      "epoch": 55.23076923076923,
      "grad_norm": 25.648468017578125,
      "learning_rate": 3.1978021978021975e-07,
      "loss": 0.3949,
      "step": 718
    },
    {
      "epoch": 55.30769230769231,
      "grad_norm": 18.217477798461914,
      "learning_rate": 3.1923076923076917e-07,
      "loss": 0.3033,
      "step": 719
    },
    {
      "epoch": 55.38461538461539,
      "grad_norm": 33.92141342163086,
      "learning_rate": 3.1868131868131864e-07,
      "loss": 0.3252,
      "step": 720
    },
    {
      "epoch": 55.46153846153846,
      "grad_norm": 15.834953308105469,
      "learning_rate": 3.181318681318681e-07,
      "loss": 0.2856,
      "step": 721
    },
    {
      "epoch": 55.53846153846154,
      "grad_norm": 10.109785079956055,
      "learning_rate": 3.1758241758241757e-07,
      "loss": 0.1683,
      "step": 722
    },
    {
      "epoch": 55.61538461538461,
      "grad_norm": 16.6602725982666,
      "learning_rate": 3.17032967032967e-07,
      "loss": 0.2782,
      "step": 723
    },
    {
      "epoch": 55.69230769230769,
      "grad_norm": 17.040592193603516,
      "learning_rate": 3.1648351648351646e-07,
      "loss": 0.2681,
      "step": 724
    },
    {
      "epoch": 55.76923076923077,
      "grad_norm": 35.986846923828125,
      "learning_rate": 3.159340659340659e-07,
      "loss": 0.3163,
      "step": 725
    },
    {
      "epoch": 55.84615384615385,
      "grad_norm": 18.382434844970703,
      "learning_rate": 3.1538461538461534e-07,
      "loss": 0.361,
      "step": 726
    },
    {
      "epoch": 55.92307692307692,
      "grad_norm": 26.209815979003906,
      "learning_rate": 3.148351648351648e-07,
      "loss": 0.227,
      "step": 727
    },
    {
      "epoch": 56.0,
      "grad_norm": 32.558292388916016,
      "learning_rate": 3.142857142857143e-07,
      "loss": 0.252,
      "step": 728
    },
    {
      "epoch": 56.0,
      "eval_accuracy": 0.8754578754578755,
      "eval_loss": 0.41495880484580994,
      "eval_runtime": 1.1275,
      "eval_samples_per_second": 242.128,
      "eval_steps_per_second": 7.982,
      "step": 728
    },
    {
      "epoch": 56.07692307692308,
      "grad_norm": 35.21878433227539,
      "learning_rate": 3.137362637362637e-07,
      "loss": 0.2294,
      "step": 729
    },
    {
      "epoch": 56.15384615384615,
      "grad_norm": 17.22517967224121,
      "learning_rate": 3.1318681318681316e-07,
      "loss": 0.2849,
      "step": 730
    },
    {
      "epoch": 56.23076923076923,
      "grad_norm": 57.046783447265625,
      "learning_rate": 3.1263736263736263e-07,
      "loss": 0.315,
      "step": 731
    },
    {
      "epoch": 56.30769230769231,
      "grad_norm": 31.597274780273438,
      "learning_rate": 3.120879120879121e-07,
      "loss": 0.3589,
      "step": 732
    },
    {
      "epoch": 56.38461538461539,
      "grad_norm": 32.820335388183594,
      "learning_rate": 3.115384615384615e-07,
      "loss": 0.3692,
      "step": 733
    },
    {
      "epoch": 56.46153846153846,
      "grad_norm": 15.48065185546875,
      "learning_rate": 3.10989010989011e-07,
      "loss": 0.2487,
      "step": 734
    },
    {
      "epoch": 56.53846153846154,
      "grad_norm": 26.519350051879883,
      "learning_rate": 3.1043956043956045e-07,
      "loss": 0.3114,
      "step": 735
    },
    {
      "epoch": 56.61538461538461,
      "grad_norm": 34.60464859008789,
      "learning_rate": 3.0989010989010987e-07,
      "loss": 0.3049,
      "step": 736
    },
    {
      "epoch": 56.69230769230769,
      "grad_norm": 15.78444766998291,
      "learning_rate": 3.0934065934065934e-07,
      "loss": 0.3747,
      "step": 737
    },
    {
      "epoch": 56.76923076923077,
      "grad_norm": 14.320549011230469,
      "learning_rate": 3.087912087912088e-07,
      "loss": 0.2212,
      "step": 738
    },
    {
      "epoch": 56.84615384615385,
      "grad_norm": 15.070626258850098,
      "learning_rate": 3.082417582417582e-07,
      "loss": 0.2335,
      "step": 739
    },
    {
      "epoch": 56.92307692307692,
      "grad_norm": 20.779525756835938,
      "learning_rate": 3.076923076923077e-07,
      "loss": 0.3065,
      "step": 740
    },
    {
      "epoch": 57.0,
      "grad_norm": 34.789024353027344,
      "learning_rate": 3.0714285714285716e-07,
      "loss": 0.4299,
      "step": 741
    },
    {
      "epoch": 57.0,
      "eval_accuracy": 0.8644688644688645,
      "eval_loss": 0.4129132032394409,
      "eval_runtime": 1.1372,
      "eval_samples_per_second": 240.055,
      "eval_steps_per_second": 7.914,
      "step": 741
    },
    {
      "epoch": 57.07692307692308,
      "grad_norm": 24.608182907104492,
      "learning_rate": 3.065934065934066e-07,
      "loss": 0.3086,
      "step": 742
    },
    {
      "epoch": 57.15384615384615,
      "grad_norm": 40.869972229003906,
      "learning_rate": 3.0604395604395604e-07,
      "loss": 0.2046,
      "step": 743
    },
    {
      "epoch": 57.23076923076923,
      "grad_norm": 12.419371604919434,
      "learning_rate": 3.054945054945055e-07,
      "loss": 0.2666,
      "step": 744
    },
    {
      "epoch": 57.30769230769231,
      "grad_norm": 61.16694259643555,
      "learning_rate": 3.04945054945055e-07,
      "loss": 0.4108,
      "step": 745
    },
    {
      "epoch": 57.38461538461539,
      "grad_norm": 26.086421966552734,
      "learning_rate": 3.0439560439560434e-07,
      "loss": 0.3899,
      "step": 746
    },
    {
      "epoch": 57.46153846153846,
      "grad_norm": 12.103123664855957,
      "learning_rate": 3.038461538461538e-07,
      "loss": 0.2715,
      "step": 747
    },
    {
      "epoch": 57.53846153846154,
      "grad_norm": 21.087116241455078,
      "learning_rate": 3.032967032967033e-07,
      "loss": 0.2231,
      "step": 748
    },
    {
      "epoch": 57.61538461538461,
      "grad_norm": 29.16459083557129,
      "learning_rate": 3.027472527472527e-07,
      "loss": 0.3191,
      "step": 749
    },
    {
      "epoch": 57.69230769230769,
      "grad_norm": 39.26542282104492,
      "learning_rate": 3.0219780219780216e-07,
      "loss": 0.2995,
      "step": 750
    },
    {
      "epoch": 57.76923076923077,
      "grad_norm": 15.667869567871094,
      "learning_rate": 3.0164835164835163e-07,
      "loss": 0.3496,
      "step": 751
    },
    {
      "epoch": 57.84615384615385,
      "grad_norm": 16.155540466308594,
      "learning_rate": 3.0109890109890105e-07,
      "loss": 0.3319,
      "step": 752
    },
    {
      "epoch": 57.92307692307692,
      "grad_norm": 24.85503578186035,
      "learning_rate": 3.005494505494505e-07,
      "loss": 0.2905,
      "step": 753
    },
    {
      "epoch": 58.0,
      "grad_norm": 26.857662200927734,
      "learning_rate": 3e-07,
      "loss": 0.3146,
      "step": 754
    },
    {
      "epoch": 58.0,
      "eval_accuracy": 0.8754578754578755,
      "eval_loss": 0.4124268591403961,
      "eval_runtime": 1.1223,
      "eval_samples_per_second": 243.256,
      "eval_steps_per_second": 8.019,
      "step": 754
    },
    {
      "epoch": 58.07692307692308,
      "grad_norm": 24.92116928100586,
      "learning_rate": 2.994505494505494e-07,
      "loss": 0.3624,
      "step": 755
    },
    {
      "epoch": 58.15384615384615,
      "grad_norm": 43.34551239013672,
      "learning_rate": 2.9890109890109887e-07,
      "loss": 0.3833,
      "step": 756
    },
    {
      "epoch": 58.23076923076923,
      "grad_norm": 30.231536865234375,
      "learning_rate": 2.9835164835164834e-07,
      "loss": 0.1457,
      "step": 757
    },
    {
      "epoch": 58.30769230769231,
      "grad_norm": 14.210672378540039,
      "learning_rate": 2.978021978021978e-07,
      "loss": 0.2638,
      "step": 758
    },
    {
      "epoch": 58.38461538461539,
      "grad_norm": 23.8223934173584,
      "learning_rate": 2.972527472527472e-07,
      "loss": 0.2902,
      "step": 759
    },
    {
      "epoch": 58.46153846153846,
      "grad_norm": 20.54446792602539,
      "learning_rate": 2.967032967032967e-07,
      "loss": 0.2729,
      "step": 760
    },
    {
      "epoch": 58.53846153846154,
      "grad_norm": 13.622251510620117,
      "learning_rate": 2.9615384615384616e-07,
      "loss": 0.2602,
      "step": 761
    },
    {
      "epoch": 58.61538461538461,
      "grad_norm": 19.586965560913086,
      "learning_rate": 2.956043956043956e-07,
      "loss": 0.2657,
      "step": 762
    },
    {
      "epoch": 58.69230769230769,
      "grad_norm": 24.4484920501709,
      "learning_rate": 2.9505494505494505e-07,
      "loss": 0.2041,
      "step": 763
    },
    {
      "epoch": 58.76923076923077,
      "grad_norm": 20.8499698638916,
      "learning_rate": 2.945054945054945e-07,
      "loss": 0.2082,
      "step": 764
    },
    {
      "epoch": 58.84615384615385,
      "grad_norm": 24.327512741088867,
      "learning_rate": 2.9395604395604393e-07,
      "loss": 0.3184,
      "step": 765
    },
    {
      "epoch": 58.92307692307692,
      "grad_norm": 16.182985305786133,
      "learning_rate": 2.934065934065934e-07,
      "loss": 0.365,
      "step": 766
    },
    {
      "epoch": 59.0,
      "grad_norm": 25.34564971923828,
      "learning_rate": 2.9285714285714287e-07,
      "loss": 0.1993,
      "step": 767
    },
    {
      "epoch": 59.0,
      "eval_accuracy": 0.8754578754578755,
      "eval_loss": 0.4123547375202179,
      "eval_runtime": 1.1045,
      "eval_samples_per_second": 247.176,
      "eval_steps_per_second": 8.149,
      "step": 767
    },
    {
      "epoch": 59.07692307692308,
      "grad_norm": 54.12009811401367,
      "learning_rate": 2.9230769230769234e-07,
      "loss": 0.3247,
      "step": 768
    },
    {
      "epoch": 59.15384615384615,
      "grad_norm": 36.19490432739258,
      "learning_rate": 2.9175824175824175e-07,
      "loss": 0.2975,
      "step": 769
    },
    {
      "epoch": 59.23076923076923,
      "grad_norm": 17.47751808166504,
      "learning_rate": 2.912087912087912e-07,
      "loss": 0.2528,
      "step": 770
    },
    {
      "epoch": 59.30769230769231,
      "grad_norm": 29.982614517211914,
      "learning_rate": 2.906593406593407e-07,
      "loss": 0.4292,
      "step": 771
    },
    {
      "epoch": 59.38461538461539,
      "grad_norm": 61.96225357055664,
      "learning_rate": 2.901098901098901e-07,
      "loss": 0.3006,
      "step": 772
    },
    {
      "epoch": 59.46153846153846,
      "grad_norm": 11.164416313171387,
      "learning_rate": 2.8956043956043957e-07,
      "loss": 0.2667,
      "step": 773
    },
    {
      "epoch": 59.53846153846154,
      "grad_norm": 49.94816970825195,
      "learning_rate": 2.89010989010989e-07,
      "loss": 0.2536,
      "step": 774
    },
    {
      "epoch": 59.61538461538461,
      "grad_norm": 37.20389175415039,
      "learning_rate": 2.884615384615384e-07,
      "loss": 0.2836,
      "step": 775
    },
    {
      "epoch": 59.69230769230769,
      "grad_norm": 19.455121994018555,
      "learning_rate": 2.8791208791208787e-07,
      "loss": 0.1842,
      "step": 776
    },
    {
      "epoch": 59.76923076923077,
      "grad_norm": 13.369806289672852,
      "learning_rate": 2.8736263736263734e-07,
      "loss": 0.3406,
      "step": 777
    },
    {
      "epoch": 59.84615384615385,
      "grad_norm": 27.974464416503906,
      "learning_rate": 2.8681318681318676e-07,
      "loss": 0.2332,
      "step": 778
    },
    {
      "epoch": 59.92307692307692,
      "grad_norm": 16.455629348754883,
      "learning_rate": 2.862637362637362e-07,
      "loss": 0.2342,
      "step": 779
    },
    {
      "epoch": 60.0,
      "grad_norm": 88.6054458618164,
      "learning_rate": 2.857142857142857e-07,
      "loss": 0.2507,
      "step": 780
    },
    {
      "epoch": 60.0,
      "eval_accuracy": 0.8791208791208791,
      "eval_loss": 0.4118136763572693,
      "eval_runtime": 1.0865,
      "eval_samples_per_second": 251.258,
      "eval_steps_per_second": 8.283,
      "step": 780
    },
    {
      "epoch": 60.07692307692308,
      "grad_norm": 33.924076080322266,
      "learning_rate": 2.8516483516483516e-07,
      "loss": 0.3108,
      "step": 781
    },
    {
      "epoch": 60.15384615384615,
      "grad_norm": 14.399027824401855,
      "learning_rate": 2.846153846153846e-07,
      "loss": 0.4091,
      "step": 782
    },
    {
      "epoch": 60.23076923076923,
      "grad_norm": 47.16933822631836,
      "learning_rate": 2.8406593406593405e-07,
      "loss": 0.4263,
      "step": 783
    },
    {
      "epoch": 60.30769230769231,
      "grad_norm": 34.87694549560547,
      "learning_rate": 2.835164835164835e-07,
      "loss": 0.2721,
      "step": 784
    },
    {
      "epoch": 60.38461538461539,
      "grad_norm": 42.07905578613281,
      "learning_rate": 2.8296703296703293e-07,
      "loss": 0.2655,
      "step": 785
    },
    {
      "epoch": 60.46153846153846,
      "grad_norm": 19.352046966552734,
      "learning_rate": 2.824175824175824e-07,
      "loss": 0.357,
      "step": 786
    },
    {
      "epoch": 60.53846153846154,
      "grad_norm": 13.505575180053711,
      "learning_rate": 2.8186813186813187e-07,
      "loss": 0.2935,
      "step": 787
    },
    {
      "epoch": 60.61538461538461,
      "grad_norm": 14.299854278564453,
      "learning_rate": 2.813186813186813e-07,
      "loss": 0.2279,
      "step": 788
    },
    {
      "epoch": 60.69230769230769,
      "grad_norm": 15.454782485961914,
      "learning_rate": 2.8076923076923075e-07,
      "loss": 0.4638,
      "step": 789
    },
    {
      "epoch": 60.76923076923077,
      "grad_norm": 55.097869873046875,
      "learning_rate": 2.802197802197802e-07,
      "loss": 0.3619,
      "step": 790
    },
    {
      "epoch": 60.84615384615385,
      "grad_norm": 8.972817420959473,
      "learning_rate": 2.796703296703297e-07,
      "loss": 0.211,
      "step": 791
    },
    {
      "epoch": 60.92307692307692,
      "grad_norm": 30.968957901000977,
      "learning_rate": 2.791208791208791e-07,
      "loss": 0.2153,
      "step": 792
    },
    {
      "epoch": 61.0,
      "grad_norm": 25.482345581054688,
      "learning_rate": 2.785714285714286e-07,
      "loss": 0.324,
      "step": 793
    },
    {
      "epoch": 61.0,
      "eval_accuracy": 0.8534798534798534,
      "eval_loss": 0.41010645031929016,
      "eval_runtime": 1.1427,
      "eval_samples_per_second": 238.9,
      "eval_steps_per_second": 7.876,
      "step": 793
    },
    {
      "epoch": 61.07692307692308,
      "grad_norm": 32.179439544677734,
      "learning_rate": 2.7802197802197804e-07,
      "loss": 0.2492,
      "step": 794
    },
    {
      "epoch": 61.15384615384615,
      "grad_norm": 19.767480850219727,
      "learning_rate": 2.7747252747252746e-07,
      "loss": 0.3281,
      "step": 795
    },
    {
      "epoch": 61.23076923076923,
      "grad_norm": 19.703861236572266,
      "learning_rate": 2.7692307692307693e-07,
      "loss": 0.3162,
      "step": 796
    },
    {
      "epoch": 61.30769230769231,
      "grad_norm": 10.048816680908203,
      "learning_rate": 2.763736263736264e-07,
      "loss": 0.3839,
      "step": 797
    },
    {
      "epoch": 61.38461538461539,
      "grad_norm": 66.38928985595703,
      "learning_rate": 2.758241758241758e-07,
      "loss": 0.2484,
      "step": 798
    },
    {
      "epoch": 61.46153846153846,
      "grad_norm": 25.8902587890625,
      "learning_rate": 2.752747252747253e-07,
      "loss": 0.3064,
      "step": 799
    },
    {
      "epoch": 61.53846153846154,
      "grad_norm": 14.807323455810547,
      "learning_rate": 2.7472527472527475e-07,
      "loss": 0.2088,
      "step": 800
    },
    {
      "epoch": 61.61538461538461,
      "grad_norm": 17.357521057128906,
      "learning_rate": 2.7417582417582416e-07,
      "loss": 0.2968,
      "step": 801
    },
    {
      "epoch": 61.69230769230769,
      "grad_norm": 35.786888122558594,
      "learning_rate": 2.7362637362637363e-07,
      "loss": 0.3357,
      "step": 802
    },
    {
      "epoch": 61.76923076923077,
      "grad_norm": 23.230714797973633,
      "learning_rate": 2.7307692307692305e-07,
      "loss": 0.1642,
      "step": 803
    },
    {
      "epoch": 61.84615384615385,
      "grad_norm": 13.180747985839844,
      "learning_rate": 2.725274725274725e-07,
      "loss": 0.2545,
      "step": 804
    },
    {
      "epoch": 61.92307692307692,
      "grad_norm": 20.838254928588867,
      "learning_rate": 2.7197802197802193e-07,
      "loss": 0.3289,
      "step": 805
    },
    {
      "epoch": 62.0,
      "grad_norm": 32.478126525878906,
      "learning_rate": 2.714285714285714e-07,
      "loss": 0.2303,
      "step": 806
    },
    {
      "epoch": 62.0,
      "eval_accuracy": 0.8717948717948718,
      "eval_loss": 0.4089500308036804,
      "eval_runtime": 1.1415,
      "eval_samples_per_second": 239.16,
      "eval_steps_per_second": 7.884,
      "step": 806
    },
    {
      "epoch": 62.07692307692308,
      "grad_norm": 28.072904586791992,
      "learning_rate": 2.7087912087912087e-07,
      "loss": 0.2496,
      "step": 807
    },
    {
      "epoch": 62.15384615384615,
      "grad_norm": 20.650470733642578,
      "learning_rate": 2.703296703296703e-07,
      "loss": 0.3209,
      "step": 808
    },
    {
      "epoch": 62.23076923076923,
      "grad_norm": 26.032928466796875,
      "learning_rate": 2.6978021978021975e-07,
      "loss": 0.3172,
      "step": 809
    },
    {
      "epoch": 62.30769230769231,
      "grad_norm": 34.73838806152344,
      "learning_rate": 2.692307692307692e-07,
      "loss": 0.3822,
      "step": 810
    },
    {
      "epoch": 62.38461538461539,
      "grad_norm": 47.261146545410156,
      "learning_rate": 2.6868131868131864e-07,
      "loss": 0.311,
      "step": 811
    },
    {
      "epoch": 62.46153846153846,
      "grad_norm": 6.879570007324219,
      "learning_rate": 2.681318681318681e-07,
      "loss": 0.2037,
      "step": 812
    },
    {
      "epoch": 62.53846153846154,
      "grad_norm": 11.275970458984375,
      "learning_rate": 2.675824175824176e-07,
      "loss": 0.2255,
      "step": 813
    },
    {
      "epoch": 62.61538461538461,
      "grad_norm": 18.61872100830078,
      "learning_rate": 2.67032967032967e-07,
      "loss": 0.3476,
      "step": 814
    },
    {
      "epoch": 62.69230769230769,
      "grad_norm": 41.43339920043945,
      "learning_rate": 2.6648351648351646e-07,
      "loss": 0.2671,
      "step": 815
    },
    {
      "epoch": 62.76923076923077,
      "grad_norm": 11.313962936401367,
      "learning_rate": 2.6593406593406593e-07,
      "loss": 0.3008,
      "step": 816
    },
    {
      "epoch": 62.84615384615385,
      "grad_norm": 36.1326904296875,
      "learning_rate": 2.653846153846154e-07,
      "loss": 0.2778,
      "step": 817
    },
    {
      "epoch": 62.92307692307692,
      "grad_norm": 20.18549346923828,
      "learning_rate": 2.648351648351648e-07,
      "loss": 0.3437,
      "step": 818
    },
    {
      "epoch": 63.0,
      "grad_norm": 31.200958251953125,
      "learning_rate": 2.642857142857143e-07,
      "loss": 0.2767,
      "step": 819
    },
    {
      "epoch": 63.0,
      "eval_accuracy": 0.8608058608058609,
      "eval_loss": 0.40721482038497925,
      "eval_runtime": 1.132,
      "eval_samples_per_second": 241.164,
      "eval_steps_per_second": 7.95,
      "step": 819
    },
    {
      "epoch": 63.07692307692308,
      "grad_norm": 30.914472579956055,
      "learning_rate": 2.6373626373626375e-07,
      "loss": 0.3717,
      "step": 820
    },
    {
      "epoch": 63.15384615384615,
      "grad_norm": 14.765570640563965,
      "learning_rate": 2.6318681318681317e-07,
      "loss": 0.265,
      "step": 821
    },
    {
      "epoch": 63.23076923076923,
      "grad_norm": 53.396366119384766,
      "learning_rate": 2.6263736263736263e-07,
      "loss": 0.325,
      "step": 822
    },
    {
      "epoch": 63.30769230769231,
      "grad_norm": 27.542818069458008,
      "learning_rate": 2.620879120879121e-07,
      "loss": 0.2977,
      "step": 823
    },
    {
      "epoch": 63.38461538461539,
      "grad_norm": 29.861522674560547,
      "learning_rate": 2.615384615384615e-07,
      "loss": 0.2899,
      "step": 824
    },
    {
      "epoch": 63.46153846153846,
      "grad_norm": 17.366233825683594,
      "learning_rate": 2.60989010989011e-07,
      "loss": 0.2393,
      "step": 825
    },
    {
      "epoch": 63.53846153846154,
      "grad_norm": 11.722970962524414,
      "learning_rate": 2.6043956043956046e-07,
      "loss": 0.2977,
      "step": 826
    },
    {
      "epoch": 63.61538461538461,
      "grad_norm": 16.08893585205078,
      "learning_rate": 2.598901098901099e-07,
      "loss": 0.334,
      "step": 827
    },
    {
      "epoch": 63.69230769230769,
      "grad_norm": 22.89183235168457,
      "learning_rate": 2.5934065934065934e-07,
      "loss": 0.2435,
      "step": 828
    },
    {
      "epoch": 63.76923076923077,
      "grad_norm": 16.909791946411133,
      "learning_rate": 2.587912087912088e-07,
      "loss": 0.2837,
      "step": 829
    },
    {
      "epoch": 63.84615384615385,
      "grad_norm": 19.299821853637695,
      "learning_rate": 2.582417582417583e-07,
      "loss": 0.2325,
      "step": 830
    },
    {
      "epoch": 63.92307692307692,
      "grad_norm": 18.126367568969727,
      "learning_rate": 2.5769230769230764e-07,
      "loss": 0.2487,
      "step": 831
    },
    {
      "epoch": 64.0,
      "grad_norm": 43.46332931518555,
      "learning_rate": 2.571428571428571e-07,
      "loss": 0.3318,
      "step": 832
    },
    {
      "epoch": 64.0,
      "eval_accuracy": 0.8681318681318682,
      "eval_loss": 0.4070839583873749,
      "eval_runtime": 1.1607,
      "eval_samples_per_second": 235.204,
      "eval_steps_per_second": 7.754,
      "step": 832
    },
    {
      "epoch": 64.07692307692308,
      "grad_norm": 14.726320266723633,
      "learning_rate": 2.565934065934066e-07,
      "loss": 0.2802,
      "step": 833
    },
    {
      "epoch": 64.15384615384616,
      "grad_norm": 30.44801902770996,
      "learning_rate": 2.56043956043956e-07,
      "loss": 0.2151,
      "step": 834
    },
    {
      "epoch": 64.23076923076923,
      "grad_norm": 16.511741638183594,
      "learning_rate": 2.5549450549450546e-07,
      "loss": 0.2608,
      "step": 835
    },
    {
      "epoch": 64.3076923076923,
      "grad_norm": 34.570068359375,
      "learning_rate": 2.5494505494505493e-07,
      "loss": 0.3879,
      "step": 836
    },
    {
      "epoch": 64.38461538461539,
      "grad_norm": 23.860429763793945,
      "learning_rate": 2.5439560439560435e-07,
      "loss": 0.2841,
      "step": 837
    },
    {
      "epoch": 64.46153846153847,
      "grad_norm": 25.039819717407227,
      "learning_rate": 2.538461538461538e-07,
      "loss": 0.2556,
      "step": 838
    },
    {
      "epoch": 64.53846153846153,
      "grad_norm": 23.771469116210938,
      "learning_rate": 2.532967032967033e-07,
      "loss": 0.2646,
      "step": 839
    },
    {
      "epoch": 64.61538461538461,
      "grad_norm": 25.04990577697754,
      "learning_rate": 2.5274725274725275e-07,
      "loss": 0.3922,
      "step": 840
    },
    {
      "epoch": 64.6923076923077,
      "grad_norm": 24.847177505493164,
      "learning_rate": 2.5219780219780217e-07,
      "loss": 0.2717,
      "step": 841
    },
    {
      "epoch": 64.76923076923077,
      "grad_norm": 26.187009811401367,
      "learning_rate": 2.5164835164835164e-07,
      "loss": 0.3803,
      "step": 842
    },
    {
      "epoch": 64.84615384615384,
      "grad_norm": 12.900840759277344,
      "learning_rate": 2.510989010989011e-07,
      "loss": 0.2403,
      "step": 843
    },
    {
      "epoch": 64.92307692307692,
      "grad_norm": 17.225841522216797,
      "learning_rate": 2.505494505494505e-07,
      "loss": 0.3265,
      "step": 844
    },
    {
      "epoch": 65.0,
      "grad_norm": 31.376676559448242,
      "learning_rate": 2.5e-07,
      "loss": 0.1946,
      "step": 845
    },
    {
      "epoch": 65.0,
      "eval_accuracy": 0.8681318681318682,
      "eval_loss": 0.40637490153312683,
      "eval_runtime": 1.0905,
      "eval_samples_per_second": 250.353,
      "eval_steps_per_second": 8.253,
      "step": 845
    },
    {
      "epoch": 65.07692307692308,
      "grad_norm": 22.60310935974121,
      "learning_rate": 2.4945054945054946e-07,
      "loss": 0.3436,
      "step": 846
    },
    {
      "epoch": 65.15384615384616,
      "grad_norm": 32.09736633300781,
      "learning_rate": 2.4890109890109887e-07,
      "loss": 0.3267,
      "step": 847
    },
    {
      "epoch": 65.23076923076923,
      "grad_norm": 17.21392059326172,
      "learning_rate": 2.4835164835164834e-07,
      "loss": 0.2929,
      "step": 848
    },
    {
      "epoch": 65.3076923076923,
      "grad_norm": 43.96990966796875,
      "learning_rate": 2.478021978021978e-07,
      "loss": 0.3084,
      "step": 849
    },
    {
      "epoch": 65.38461538461539,
      "grad_norm": 20.05691146850586,
      "learning_rate": 2.472527472527472e-07,
      "loss": 0.2768,
      "step": 850
    },
    {
      "epoch": 65.46153846153847,
      "grad_norm": 18.00160789489746,
      "learning_rate": 2.467032967032967e-07,
      "loss": 0.2475,
      "step": 851
    },
    {
      "epoch": 65.53846153846153,
      "grad_norm": 30.485919952392578,
      "learning_rate": 2.4615384615384616e-07,
      "loss": 0.2864,
      "step": 852
    },
    {
      "epoch": 65.61538461538461,
      "grad_norm": 29.16978645324707,
      "learning_rate": 2.456043956043956e-07,
      "loss": 0.3046,
      "step": 853
    },
    {
      "epoch": 65.6923076923077,
      "grad_norm": 17.941022872924805,
      "learning_rate": 2.4505494505494505e-07,
      "loss": 0.2514,
      "step": 854
    },
    {
      "epoch": 65.76923076923077,
      "grad_norm": 11.224747657775879,
      "learning_rate": 2.4450549450549446e-07,
      "loss": 0.2182,
      "step": 855
    },
    {
      "epoch": 65.84615384615384,
      "grad_norm": 48.82261276245117,
      "learning_rate": 2.4395604395604393e-07,
      "loss": 0.3707,
      "step": 856
    },
    {
      "epoch": 65.92307692307692,
      "grad_norm": 24.0678653717041,
      "learning_rate": 2.434065934065934e-07,
      "loss": 0.4122,
      "step": 857
    },
    {
      "epoch": 66.0,
      "grad_norm": 31.954618453979492,
      "learning_rate": 2.4285714285714287e-07,
      "loss": 0.4204,
      "step": 858
    },
    {
      "epoch": 66.0,
      "eval_accuracy": 0.8608058608058609,
      "eval_loss": 0.40545764565467834,
      "eval_runtime": 1.1111,
      "eval_samples_per_second": 245.702,
      "eval_steps_per_second": 8.1,
      "step": 858
    },
    {
      "epoch": 66.07692307692308,
      "grad_norm": 15.629823684692383,
      "learning_rate": 2.423076923076923e-07,
      "loss": 0.2457,
      "step": 859
    },
    {
      "epoch": 66.15384615384616,
      "grad_norm": 17.335479736328125,
      "learning_rate": 2.4175824175824175e-07,
      "loss": 0.1071,
      "step": 860
    },
    {
      "epoch": 66.23076923076923,
      "grad_norm": 16.024991989135742,
      "learning_rate": 2.412087912087912e-07,
      "loss": 0.3007,
      "step": 861
    },
    {
      "epoch": 66.3076923076923,
      "grad_norm": 23.461626052856445,
      "learning_rate": 2.4065934065934064e-07,
      "loss": 0.2136,
      "step": 862
    },
    {
      "epoch": 66.38461538461539,
      "grad_norm": 41.227821350097656,
      "learning_rate": 2.401098901098901e-07,
      "loss": 0.2884,
      "step": 863
    },
    {
      "epoch": 66.46153846153847,
      "grad_norm": 26.138877868652344,
      "learning_rate": 2.395604395604396e-07,
      "loss": 0.222,
      "step": 864
    },
    {
      "epoch": 66.53846153846153,
      "grad_norm": 26.13501739501953,
      "learning_rate": 2.39010989010989e-07,
      "loss": 0.264,
      "step": 865
    },
    {
      "epoch": 66.61538461538461,
      "grad_norm": 18.06061553955078,
      "learning_rate": 2.3846153846153846e-07,
      "loss": 0.2508,
      "step": 866
    },
    {
      "epoch": 66.6923076923077,
      "grad_norm": 14.042496681213379,
      "learning_rate": 2.379120879120879e-07,
      "loss": 0.3183,
      "step": 867
    },
    {
      "epoch": 66.76923076923077,
      "grad_norm": 12.96650218963623,
      "learning_rate": 2.3736263736263734e-07,
      "loss": 0.3073,
      "step": 868
    },
    {
      "epoch": 66.84615384615384,
      "grad_norm": 8.27332878112793,
      "learning_rate": 2.3681318681318679e-07,
      "loss": 0.2044,
      "step": 869
    },
    {
      "epoch": 66.92307692307692,
      "grad_norm": 19.320661544799805,
      "learning_rate": 2.3626373626373625e-07,
      "loss": 0.322,
      "step": 870
    },
    {
      "epoch": 67.0,
      "grad_norm": 11.55147933959961,
      "learning_rate": 2.357142857142857e-07,
      "loss": 0.3351,
      "step": 871
    },
    {
      "epoch": 67.0,
      "eval_accuracy": 0.8608058608058609,
      "eval_loss": 0.4030914306640625,
      "eval_runtime": 1.1077,
      "eval_samples_per_second": 246.46,
      "eval_steps_per_second": 8.125,
      "step": 871
    },
    {
      "epoch": 67.07692307692308,
      "grad_norm": 41.3758659362793,
      "learning_rate": 2.3516483516483514e-07,
      "loss": 0.2387,
      "step": 872
    },
    {
      "epoch": 67.15384615384616,
      "grad_norm": 12.750386238098145,
      "learning_rate": 2.346153846153846e-07,
      "loss": 0.2447,
      "step": 873
    },
    {
      "epoch": 67.23076923076923,
      "grad_norm": 32.76240158081055,
      "learning_rate": 2.3406593406593405e-07,
      "loss": 0.3985,
      "step": 874
    },
    {
      "epoch": 67.3076923076923,
      "grad_norm": 32.52522277832031,
      "learning_rate": 2.3351648351648352e-07,
      "loss": 0.2229,
      "step": 875
    },
    {
      "epoch": 67.38461538461539,
      "grad_norm": 36.80266571044922,
      "learning_rate": 2.3296703296703296e-07,
      "loss": 0.215,
      "step": 876
    },
    {
      "epoch": 67.46153846153847,
      "grad_norm": 27.378660202026367,
      "learning_rate": 2.324175824175824e-07,
      "loss": 0.3029,
      "step": 877
    },
    {
      "epoch": 67.53846153846153,
      "grad_norm": 16.614999771118164,
      "learning_rate": 2.3186813186813187e-07,
      "loss": 0.3202,
      "step": 878
    },
    {
      "epoch": 67.61538461538461,
      "grad_norm": 20.502470016479492,
      "learning_rate": 2.313186813186813e-07,
      "loss": 0.1468,
      "step": 879
    },
    {
      "epoch": 67.6923076923077,
      "grad_norm": 10.99792194366455,
      "learning_rate": 2.3076923076923078e-07,
      "loss": 0.322,
      "step": 880
    },
    {
      "epoch": 67.76923076923077,
      "grad_norm": 11.61074161529541,
      "learning_rate": 2.302197802197802e-07,
      "loss": 0.2111,
      "step": 881
    },
    {
      "epoch": 67.84615384615384,
      "grad_norm": 51.97317886352539,
      "learning_rate": 2.2967032967032964e-07,
      "loss": 0.4559,
      "step": 882
    },
    {
      "epoch": 67.92307692307692,
      "grad_norm": 19.700267791748047,
      "learning_rate": 2.291208791208791e-07,
      "loss": 0.2737,
      "step": 883
    },
    {
      "epoch": 68.0,
      "grad_norm": 26.25306510925293,
      "learning_rate": 2.2857142857142855e-07,
      "loss": 0.2772,
      "step": 884
    },
    {
      "epoch": 68.0,
      "eval_accuracy": 0.8644688644688645,
      "eval_loss": 0.40133678913116455,
      "eval_runtime": 1.1162,
      "eval_samples_per_second": 244.577,
      "eval_steps_per_second": 8.063,
      "step": 884
    },
    {
      "epoch": 68.07692307692308,
      "grad_norm": 13.263644218444824,
      "learning_rate": 2.2802197802197802e-07,
      "loss": 0.2122,
      "step": 885
    },
    {
      "epoch": 68.15384615384616,
      "grad_norm": 17.101024627685547,
      "learning_rate": 2.2747252747252746e-07,
      "loss": 0.2736,
      "step": 886
    },
    {
      "epoch": 68.23076923076923,
      "grad_norm": 43.212745666503906,
      "learning_rate": 2.269230769230769e-07,
      "loss": 0.3425,
      "step": 887
    },
    {
      "epoch": 68.3076923076923,
      "grad_norm": 22.72589683532715,
      "learning_rate": 2.2637362637362637e-07,
      "loss": 0.3658,
      "step": 888
    },
    {
      "epoch": 68.38461538461539,
      "grad_norm": 14.926658630371094,
      "learning_rate": 2.2582417582417581e-07,
      "loss": 0.2388,
      "step": 889
    },
    {
      "epoch": 68.46153846153847,
      "grad_norm": 31.456602096557617,
      "learning_rate": 2.2527472527472528e-07,
      "loss": 0.2439,
      "step": 890
    },
    {
      "epoch": 68.53846153846153,
      "grad_norm": 21.57697105407715,
      "learning_rate": 2.2472527472527472e-07,
      "loss": 0.3293,
      "step": 891
    },
    {
      "epoch": 68.61538461538461,
      "grad_norm": 38.11023712158203,
      "learning_rate": 2.2417582417582417e-07,
      "loss": 0.3834,
      "step": 892
    },
    {
      "epoch": 68.6923076923077,
      "grad_norm": 24.225868225097656,
      "learning_rate": 2.2362637362637363e-07,
      "loss": 0.2437,
      "step": 893
    },
    {
      "epoch": 68.76923076923077,
      "grad_norm": 68.47807312011719,
      "learning_rate": 2.2307692307692308e-07,
      "loss": 0.3667,
      "step": 894
    },
    {
      "epoch": 68.84615384615384,
      "grad_norm": 24.403871536254883,
      "learning_rate": 2.225274725274725e-07,
      "loss": 0.2314,
      "step": 895
    },
    {
      "epoch": 68.92307692307692,
      "grad_norm": 18.18380355834961,
      "learning_rate": 2.2197802197802196e-07,
      "loss": 0.3134,
      "step": 896
    },
    {
      "epoch": 69.0,
      "grad_norm": 42.46723937988281,
      "learning_rate": 2.214285714285714e-07,
      "loss": 0.2969,
      "step": 897
    },
    {
      "epoch": 69.0,
      "eval_accuracy": 0.8681318681318682,
      "eval_loss": 0.4000367522239685,
      "eval_runtime": 1.118,
      "eval_samples_per_second": 244.194,
      "eval_steps_per_second": 8.05,
      "step": 897
    },
    {
      "epoch": 69.07692307692308,
      "grad_norm": 56.44014358520508,
      "learning_rate": 2.2087912087912087e-07,
      "loss": 0.3075,
      "step": 898
    },
    {
      "epoch": 69.15384615384616,
      "grad_norm": 23.53861427307129,
      "learning_rate": 2.2032967032967031e-07,
      "loss": 0.3587,
      "step": 899
    },
    {
      "epoch": 69.23076923076923,
      "grad_norm": 39.69929122924805,
      "learning_rate": 2.1978021978021976e-07,
      "loss": 0.3369,
      "step": 900
    },
    {
      "epoch": 69.3076923076923,
      "grad_norm": 18.610008239746094,
      "learning_rate": 2.1923076923076922e-07,
      "loss": 0.2189,
      "step": 901
    },
    {
      "epoch": 69.38461538461539,
      "grad_norm": 69.00979614257812,
      "learning_rate": 2.1868131868131867e-07,
      "loss": 0.306,
      "step": 902
    },
    {
      "epoch": 69.46153846153847,
      "grad_norm": 20.80260467529297,
      "learning_rate": 2.1813186813186814e-07,
      "loss": 0.2806,
      "step": 903
    },
    {
      "epoch": 69.53846153846153,
      "grad_norm": 26.936521530151367,
      "learning_rate": 2.1758241758241758e-07,
      "loss": 0.3622,
      "step": 904
    },
    {
      "epoch": 69.61538461538461,
      "grad_norm": 20.70525550842285,
      "learning_rate": 2.1703296703296702e-07,
      "loss": 0.3061,
      "step": 905
    },
    {
      "epoch": 69.6923076923077,
      "grad_norm": 15.997258186340332,
      "learning_rate": 2.164835164835165e-07,
      "loss": 0.2559,
      "step": 906
    },
    {
      "epoch": 69.76923076923077,
      "grad_norm": 19.94540786743164,
      "learning_rate": 2.1593406593406593e-07,
      "loss": 0.3265,
      "step": 907
    },
    {
      "epoch": 69.84615384615384,
      "grad_norm": 36.327491760253906,
      "learning_rate": 2.153846153846154e-07,
      "loss": 0.2866,
      "step": 908
    },
    {
      "epoch": 69.92307692307692,
      "grad_norm": 42.382022857666016,
      "learning_rate": 2.1483516483516481e-07,
      "loss": 0.2064,
      "step": 909
    },
    {
      "epoch": 70.0,
      "grad_norm": 72.48542022705078,
      "learning_rate": 2.1428571428571426e-07,
      "loss": 0.2755,
      "step": 910
    },
    {
      "epoch": 70.0,
      "eval_accuracy": 0.8901098901098901,
      "eval_loss": 0.402130126953125,
      "eval_runtime": 1.1351,
      "eval_samples_per_second": 240.508,
      "eval_steps_per_second": 7.929,
      "step": 910
    },
    {
      "epoch": 70.07692307692308,
      "grad_norm": 70.09199523925781,
      "learning_rate": 2.1373626373626373e-07,
      "loss": 0.2214,
      "step": 911
    },
    {
      "epoch": 70.15384615384616,
      "grad_norm": 25.003231048583984,
      "learning_rate": 2.1318681318681317e-07,
      "loss": 0.3207,
      "step": 912
    },
    {
      "epoch": 70.23076923076923,
      "grad_norm": 28.168167114257812,
      "learning_rate": 2.126373626373626e-07,
      "loss": 0.1757,
      "step": 913
    },
    {
      "epoch": 70.3076923076923,
      "grad_norm": 56.36861801147461,
      "learning_rate": 2.1208791208791208e-07,
      "loss": 0.1596,
      "step": 914
    },
    {
      "epoch": 70.38461538461539,
      "grad_norm": 16.1929874420166,
      "learning_rate": 2.1153846153846152e-07,
      "loss": 0.1974,
      "step": 915
    },
    {
      "epoch": 70.46153846153847,
      "grad_norm": 16.39197540283203,
      "learning_rate": 2.10989010989011e-07,
      "loss": 0.2411,
      "step": 916
    },
    {
      "epoch": 70.53846153846153,
      "grad_norm": 11.370803833007812,
      "learning_rate": 2.1043956043956043e-07,
      "loss": 0.3836,
      "step": 917
    },
    {
      "epoch": 70.61538461538461,
      "grad_norm": 17.150814056396484,
      "learning_rate": 2.0989010989010987e-07,
      "loss": 0.3258,
      "step": 918
    },
    {
      "epoch": 70.6923076923077,
      "grad_norm": 16.607290267944336,
      "learning_rate": 2.0934065934065934e-07,
      "loss": 0.3135,
      "step": 919
    },
    {
      "epoch": 70.76923076923077,
      "grad_norm": 11.071083068847656,
      "learning_rate": 2.0879120879120878e-07,
      "loss": 0.3201,
      "step": 920
    },
    {
      "epoch": 70.84615384615384,
      "grad_norm": 17.934782028198242,
      "learning_rate": 2.0824175824175825e-07,
      "loss": 0.3074,
      "step": 921
    },
    {
      "epoch": 70.92307692307692,
      "grad_norm": 26.339231491088867,
      "learning_rate": 2.076923076923077e-07,
      "loss": 0.2264,
      "step": 922
    },
    {
      "epoch": 71.0,
      "grad_norm": 16.59794044494629,
      "learning_rate": 2.0714285714285714e-07,
      "loss": 0.2835,
      "step": 923
    },
    {
      "epoch": 71.0,
      "eval_accuracy": 0.8608058608058609,
      "eval_loss": 0.4005388617515564,
      "eval_runtime": 1.1164,
      "eval_samples_per_second": 244.545,
      "eval_steps_per_second": 8.062,
      "step": 923
    },
    {
      "epoch": 71.07692307692308,
      "grad_norm": 9.026397705078125,
      "learning_rate": 2.0659340659340658e-07,
      "loss": 0.2416,
      "step": 924
    },
    {
      "epoch": 71.15384615384616,
      "grad_norm": 61.40522384643555,
      "learning_rate": 2.0604395604395602e-07,
      "loss": 0.3878,
      "step": 925
    },
    {
      "epoch": 71.23076923076923,
      "grad_norm": 27.80998992919922,
      "learning_rate": 2.0549450549450546e-07,
      "loss": 0.251,
      "step": 926
    },
    {
      "epoch": 71.3076923076923,
      "grad_norm": 46.443016052246094,
      "learning_rate": 2.0494505494505493e-07,
      "loss": 0.2153,
      "step": 927
    },
    {
      "epoch": 71.38461538461539,
      "grad_norm": 14.31997013092041,
      "learning_rate": 2.0439560439560437e-07,
      "loss": 0.221,
      "step": 928
    },
    {
      "epoch": 71.46153846153847,
      "grad_norm": 25.05767059326172,
      "learning_rate": 2.0384615384615384e-07,
      "loss": 0.4758,
      "step": 929
    },
    {
      "epoch": 71.53846153846153,
      "grad_norm": 44.22671127319336,
      "learning_rate": 2.0329670329670329e-07,
      "loss": 0.2967,
      "step": 930
    },
    {
      "epoch": 71.61538461538461,
      "grad_norm": 18.20001983642578,
      "learning_rate": 2.0274725274725273e-07,
      "loss": 0.2641,
      "step": 931
    },
    {
      "epoch": 71.6923076923077,
      "grad_norm": 22.697128295898438,
      "learning_rate": 2.021978021978022e-07,
      "loss": 0.3592,
      "step": 932
    },
    {
      "epoch": 71.76923076923077,
      "grad_norm": 12.469985008239746,
      "learning_rate": 2.0164835164835164e-07,
      "loss": 0.2482,
      "step": 933
    },
    {
      "epoch": 71.84615384615384,
      "grad_norm": 29.502037048339844,
      "learning_rate": 2.010989010989011e-07,
      "loss": 0.379,
      "step": 934
    },
    {
      "epoch": 71.92307692307692,
      "grad_norm": 19.28409767150879,
      "learning_rate": 2.0054945054945055e-07,
      "loss": 0.1778,
      "step": 935
    },
    {
      "epoch": 72.0,
      "grad_norm": 31.182811737060547,
      "learning_rate": 2e-07,
      "loss": 0.2487,
      "step": 936
    },
    {
      "epoch": 72.0,
      "eval_accuracy": 0.8608058608058609,
      "eval_loss": 0.39979395270347595,
      "eval_runtime": 1.1311,
      "eval_samples_per_second": 241.355,
      "eval_steps_per_second": 7.957,
      "step": 936
    },
    {
      "epoch": 72.07692307692308,
      "grad_norm": 31.833934783935547,
      "learning_rate": 1.9945054945054946e-07,
      "loss": 0.4253,
      "step": 937
    },
    {
      "epoch": 72.15384615384616,
      "grad_norm": 28.616756439208984,
      "learning_rate": 1.9890109890109888e-07,
      "loss": 0.2233,
      "step": 938
    },
    {
      "epoch": 72.23076923076923,
      "grad_norm": 25.901647567749023,
      "learning_rate": 1.9835164835164834e-07,
      "loss": 0.3031,
      "step": 939
    },
    {
      "epoch": 72.3076923076923,
      "grad_norm": 24.889875411987305,
      "learning_rate": 1.9780219780219779e-07,
      "loss": 0.3256,
      "step": 940
    },
    {
      "epoch": 72.38461538461539,
      "grad_norm": 18.4163875579834,
      "learning_rate": 1.9725274725274723e-07,
      "loss": 0.2354,
      "step": 941
    },
    {
      "epoch": 72.46153846153847,
      "grad_norm": 20.57263946533203,
      "learning_rate": 1.967032967032967e-07,
      "loss": 0.4694,
      "step": 942
    },
    {
      "epoch": 72.53846153846153,
      "grad_norm": 9.339126586914062,
      "learning_rate": 1.9615384615384614e-07,
      "loss": 0.2179,
      "step": 943
    },
    {
      "epoch": 72.61538461538461,
      "grad_norm": 17.69148826599121,
      "learning_rate": 1.956043956043956e-07,
      "loss": 0.257,
      "step": 944
    },
    {
      "epoch": 72.6923076923077,
      "grad_norm": 16.176403045654297,
      "learning_rate": 1.9505494505494505e-07,
      "loss": 0.2447,
      "step": 945
    },
    {
      "epoch": 72.76923076923077,
      "grad_norm": 43.92056655883789,
      "learning_rate": 1.945054945054945e-07,
      "loss": 0.304,
      "step": 946
    },
    {
      "epoch": 72.84615384615384,
      "grad_norm": 40.86082077026367,
      "learning_rate": 1.9395604395604396e-07,
      "loss": 0.3033,
      "step": 947
    },
    {
      "epoch": 72.92307692307692,
      "grad_norm": 22.98697280883789,
      "learning_rate": 1.934065934065934e-07,
      "loss": 0.1866,
      "step": 948
    },
    {
      "epoch": 73.0,
      "grad_norm": 33.42609786987305,
      "learning_rate": 1.9285714285714284e-07,
      "loss": 0.2447,
      "step": 949
    },
    {
      "epoch": 73.0,
      "eval_accuracy": 0.8571428571428571,
      "eval_loss": 0.39873790740966797,
      "eval_runtime": 1.1692,
      "eval_samples_per_second": 233.495,
      "eval_steps_per_second": 7.698,
      "step": 949
    },
    {
      "epoch": 73.07692307692308,
      "grad_norm": 21.049135208129883,
      "learning_rate": 1.9230769230769231e-07,
      "loss": 0.3204,
      "step": 950
    },
    {
      "epoch": 73.15384615384616,
      "grad_norm": 11.797734260559082,
      "learning_rate": 1.9175824175824176e-07,
      "loss": 0.1428,
      "step": 951
    },
    {
      "epoch": 73.23076923076923,
      "grad_norm": 12.446518898010254,
      "learning_rate": 1.912087912087912e-07,
      "loss": 0.3126,
      "step": 952
    },
    {
      "epoch": 73.3076923076923,
      "grad_norm": 47.968875885009766,
      "learning_rate": 1.9065934065934064e-07,
      "loss": 0.2696,
      "step": 953
    },
    {
      "epoch": 73.38461538461539,
      "grad_norm": 13.867989540100098,
      "learning_rate": 1.9010989010989008e-07,
      "loss": 0.2596,
      "step": 954
    },
    {
      "epoch": 73.46153846153847,
      "grad_norm": 32.48763656616211,
      "learning_rate": 1.8956043956043955e-07,
      "loss": 0.268,
      "step": 955
    },
    {
      "epoch": 73.53846153846153,
      "grad_norm": 30.51234245300293,
      "learning_rate": 1.89010989010989e-07,
      "loss": 0.3152,
      "step": 956
    },
    {
      "epoch": 73.61538461538461,
      "grad_norm": 44.640296936035156,
      "learning_rate": 1.8846153846153846e-07,
      "loss": 0.3535,
      "step": 957
    },
    {
      "epoch": 73.6923076923077,
      "grad_norm": 9.858158111572266,
      "learning_rate": 1.879120879120879e-07,
      "loss": 0.167,
      "step": 958
    },
    {
      "epoch": 73.76923076923077,
      "grad_norm": 19.009138107299805,
      "learning_rate": 1.8736263736263735e-07,
      "loss": 0.2891,
      "step": 959
    },
    {
      "epoch": 73.84615384615384,
      "grad_norm": 16.240201950073242,
      "learning_rate": 1.8681318681318681e-07,
      "loss": 0.3091,
      "step": 960
    },
    {
      "epoch": 73.92307692307692,
      "grad_norm": 14.103711128234863,
      "learning_rate": 1.8626373626373626e-07,
      "loss": 0.2648,
      "step": 961
    },
    {
      "epoch": 74.0,
      "grad_norm": 35.61383819580078,
      "learning_rate": 1.8571428571428572e-07,
      "loss": 0.3512,
      "step": 962
    },
    {
      "epoch": 74.0,
      "eval_accuracy": 0.8717948717948718,
      "eval_loss": 0.3970343768596649,
      "eval_runtime": 1.2431,
      "eval_samples_per_second": 219.611,
      "eval_steps_per_second": 7.24,
      "step": 962
    },
    {
      "epoch": 74.07692307692308,
      "grad_norm": 36.68638229370117,
      "learning_rate": 1.8516483516483517e-07,
      "loss": 0.3599,
      "step": 963
    },
    {
      "epoch": 74.15384615384616,
      "grad_norm": 14.120869636535645,
      "learning_rate": 1.846153846153846e-07,
      "loss": 0.3249,
      "step": 964
    },
    {
      "epoch": 74.23076923076923,
      "grad_norm": 56.63090515136719,
      "learning_rate": 1.8406593406593408e-07,
      "loss": 0.2726,
      "step": 965
    },
    {
      "epoch": 74.3076923076923,
      "grad_norm": 14.985784530639648,
      "learning_rate": 1.835164835164835e-07,
      "loss": 0.3421,
      "step": 966
    },
    {
      "epoch": 74.38461538461539,
      "grad_norm": 15.718457221984863,
      "learning_rate": 1.8296703296703294e-07,
      "loss": 0.2636,
      "step": 967
    },
    {
      "epoch": 74.46153846153847,
      "grad_norm": 37.408878326416016,
      "learning_rate": 1.824175824175824e-07,
      "loss": 0.3242,
      "step": 968
    },
    {
      "epoch": 74.53846153846153,
      "grad_norm": 36.759727478027344,
      "learning_rate": 1.8186813186813185e-07,
      "loss": 0.2751,
      "step": 969
    },
    {
      "epoch": 74.61538461538461,
      "grad_norm": 14.700911521911621,
      "learning_rate": 1.8131868131868131e-07,
      "loss": 0.3383,
      "step": 970
    },
    {
      "epoch": 74.6923076923077,
      "grad_norm": 11.551661491394043,
      "learning_rate": 1.8076923076923076e-07,
      "loss": 0.2389,
      "step": 971
    },
    {
      "epoch": 74.76923076923077,
      "grad_norm": 31.423828125,
      "learning_rate": 1.802197802197802e-07,
      "loss": 0.1946,
      "step": 972
    },
    {
      "epoch": 74.84615384615384,
      "grad_norm": 28.717533111572266,
      "learning_rate": 1.7967032967032967e-07,
      "loss": 0.2458,
      "step": 973
    },
    {
      "epoch": 74.92307692307692,
      "grad_norm": 19.958995819091797,
      "learning_rate": 1.791208791208791e-07,
      "loss": 0.3409,
      "step": 974
    },
    {
      "epoch": 75.0,
      "grad_norm": 30.608837127685547,
      "learning_rate": 1.7857142857142858e-07,
      "loss": 0.2303,
      "step": 975
    },
    {
      "epoch": 75.0,
      "eval_accuracy": 0.8681318681318682,
      "eval_loss": 0.3974885046482086,
      "eval_runtime": 1.1606,
      "eval_samples_per_second": 235.224,
      "eval_steps_per_second": 7.755,
      "step": 975
    },
    {
      "epoch": 75.07692307692308,
      "grad_norm": 32.37730026245117,
      "learning_rate": 1.7802197802197802e-07,
      "loss": 0.1736,
      "step": 976
    },
    {
      "epoch": 75.15384615384616,
      "grad_norm": 11.48402214050293,
      "learning_rate": 1.7747252747252746e-07,
      "loss": 0.2139,
      "step": 977
    },
    {
      "epoch": 75.23076923076923,
      "grad_norm": 19.316150665283203,
      "learning_rate": 1.7692307692307693e-07,
      "loss": 0.2716,
      "step": 978
    },
    {
      "epoch": 75.3076923076923,
      "grad_norm": 14.50655746459961,
      "learning_rate": 1.7637362637362637e-07,
      "loss": 0.2003,
      "step": 979
    },
    {
      "epoch": 75.38461538461539,
      "grad_norm": 18.723644256591797,
      "learning_rate": 1.7582417582417584e-07,
      "loss": 0.332,
      "step": 980
    },
    {
      "epoch": 75.46153846153847,
      "grad_norm": 32.94012451171875,
      "learning_rate": 1.7527472527472526e-07,
      "loss": 0.2839,
      "step": 981
    },
    {
      "epoch": 75.53846153846153,
      "grad_norm": 34.73020935058594,
      "learning_rate": 1.747252747252747e-07,
      "loss": 0.2562,
      "step": 982
    },
    {
      "epoch": 75.61538461538461,
      "grad_norm": 60.89185333251953,
      "learning_rate": 1.7417582417582417e-07,
      "loss": 0.3547,
      "step": 983
    },
    {
      "epoch": 75.6923076923077,
      "grad_norm": 16.776145935058594,
      "learning_rate": 1.736263736263736e-07,
      "loss": 0.2512,
      "step": 984
    },
    {
      "epoch": 75.76923076923077,
      "grad_norm": 19.30522918701172,
      "learning_rate": 1.7307692307692305e-07,
      "loss": 0.2023,
      "step": 985
    },
    {
      "epoch": 75.84615384615384,
      "grad_norm": 11.781194686889648,
      "learning_rate": 1.7252747252747252e-07,
      "loss": 0.2992,
      "step": 986
    },
    {
      "epoch": 75.92307692307692,
      "grad_norm": 13.047507286071777,
      "learning_rate": 1.7197802197802196e-07,
      "loss": 0.3022,
      "step": 987
    },
    {
      "epoch": 76.0,
      "grad_norm": 34.262794494628906,
      "learning_rate": 1.7142857142857143e-07,
      "loss": 0.2271,
      "step": 988
    },
    {
      "epoch": 76.0,
      "eval_accuracy": 0.8791208791208791,
      "eval_loss": 0.3975944519042969,
      "eval_runtime": 1.2081,
      "eval_samples_per_second": 225.969,
      "eval_steps_per_second": 7.45,
      "step": 988
    },
    {
      "epoch": 76.07692307692308,
      "grad_norm": 16.15636444091797,
      "learning_rate": 1.7087912087912087e-07,
      "loss": 0.2356,
      "step": 989
    },
    {
      "epoch": 76.15384615384616,
      "grad_norm": 17.276681900024414,
      "learning_rate": 1.7032967032967032e-07,
      "loss": 0.2544,
      "step": 990
    },
    {
      "epoch": 76.23076923076923,
      "grad_norm": 33.257225036621094,
      "learning_rate": 1.6978021978021979e-07,
      "loss": 0.269,
      "step": 991
    },
    {
      "epoch": 76.3076923076923,
      "grad_norm": 16.688648223876953,
      "learning_rate": 1.6923076923076923e-07,
      "loss": 0.3099,
      "step": 992
    },
    {
      "epoch": 76.38461538461539,
      "grad_norm": 13.680154800415039,
      "learning_rate": 1.686813186813187e-07,
      "loss": 0.3369,
      "step": 993
    },
    {
      "epoch": 76.46153846153847,
      "grad_norm": 20.23842430114746,
      "learning_rate": 1.6813186813186814e-07,
      "loss": 0.3049,
      "step": 994
    },
    {
      "epoch": 76.53846153846153,
      "grad_norm": 46.22062683105469,
      "learning_rate": 1.6758241758241755e-07,
      "loss": 0.2654,
      "step": 995
    },
    {
      "epoch": 76.61538461538461,
      "grad_norm": 41.821693420410156,
      "learning_rate": 1.6703296703296702e-07,
      "loss": 0.2772,
      "step": 996
    },
    {
      "epoch": 76.6923076923077,
      "grad_norm": 27.562545776367188,
      "learning_rate": 1.6648351648351646e-07,
      "loss": 0.2243,
      "step": 997
    },
    {
      "epoch": 76.76923076923077,
      "grad_norm": 51.106075286865234,
      "learning_rate": 1.6593406593406593e-07,
      "loss": 0.242,
      "step": 998
    },
    {
      "epoch": 76.84615384615384,
      "grad_norm": 114.49594116210938,
      "learning_rate": 1.6538461538461538e-07,
      "loss": 0.2771,
      "step": 999
    },
    {
      "epoch": 76.92307692307692,
      "grad_norm": 41.6959342956543,
      "learning_rate": 1.6483516483516482e-07,
      "loss": 0.2282,
      "step": 1000
    },
    {
      "epoch": 77.0,
      "grad_norm": 13.647109985351562,
      "learning_rate": 1.6428571428571429e-07,
      "loss": 0.2325,
      "step": 1001
    },
    {
      "epoch": 77.0,
      "eval_accuracy": 0.8937728937728938,
      "eval_loss": 0.3980189263820648,
      "eval_runtime": 1.1333,
      "eval_samples_per_second": 240.895,
      "eval_steps_per_second": 7.942,
      "step": 1001
    },
    {
      "epoch": 77.07692307692308,
      "grad_norm": 18.995927810668945,
      "learning_rate": 1.6373626373626373e-07,
      "loss": 0.4076,
      "step": 1002
    },
    {
      "epoch": 77.15384615384616,
      "grad_norm": 25.934280395507812,
      "learning_rate": 1.6318681318681317e-07,
      "loss": 0.2946,
      "step": 1003
    },
    {
      "epoch": 77.23076923076923,
      "grad_norm": 46.51137161254883,
      "learning_rate": 1.6263736263736264e-07,
      "loss": 0.2807,
      "step": 1004
    },
    {
      "epoch": 77.3076923076923,
      "grad_norm": 21.242460250854492,
      "learning_rate": 1.6208791208791208e-07,
      "loss": 0.2802,
      "step": 1005
    },
    {
      "epoch": 77.38461538461539,
      "grad_norm": 62.15003967285156,
      "learning_rate": 1.6153846153846155e-07,
      "loss": 0.4318,
      "step": 1006
    },
    {
      "epoch": 77.46153846153847,
      "grad_norm": 20.87152671813965,
      "learning_rate": 1.60989010989011e-07,
      "loss": 0.3278,
      "step": 1007
    },
    {
      "epoch": 77.53846153846153,
      "grad_norm": 12.483511924743652,
      "learning_rate": 1.6043956043956043e-07,
      "loss": 0.1436,
      "step": 1008
    },
    {
      "epoch": 77.61538461538461,
      "grad_norm": 43.768226623535156,
      "learning_rate": 1.5989010989010988e-07,
      "loss": 0.1982,
      "step": 1009
    },
    {
      "epoch": 77.6923076923077,
      "grad_norm": 20.167402267456055,
      "learning_rate": 1.5934065934065932e-07,
      "loss": 0.1499,
      "step": 1010
    },
    {
      "epoch": 77.76923076923077,
      "grad_norm": 68.07878112792969,
      "learning_rate": 1.5879120879120879e-07,
      "loss": 0.3067,
      "step": 1011
    },
    {
      "epoch": 77.84615384615384,
      "grad_norm": 15.640403747558594,
      "learning_rate": 1.5824175824175823e-07,
      "loss": 0.2235,
      "step": 1012
    },
    {
      "epoch": 77.92307692307692,
      "grad_norm": 10.323185920715332,
      "learning_rate": 1.5769230769230767e-07,
      "loss": 0.2944,
      "step": 1013
    },
    {
      "epoch": 78.0,
      "grad_norm": 14.537531852722168,
      "learning_rate": 1.5714285714285714e-07,
      "loss": 0.2517,
      "step": 1014
    },
    {
      "epoch": 78.0,
      "eval_accuracy": 0.8901098901098901,
      "eval_loss": 0.3965360224246979,
      "eval_runtime": 1.1081,
      "eval_samples_per_second": 246.367,
      "eval_steps_per_second": 8.122,
      "step": 1014
    },
    {
      "epoch": 78.07692307692308,
      "grad_norm": 34.782508850097656,
      "learning_rate": 1.5659340659340658e-07,
      "loss": 0.2844,
      "step": 1015
    },
    {
      "epoch": 78.15384615384616,
      "grad_norm": 22.120681762695312,
      "learning_rate": 1.5604395604395605e-07,
      "loss": 0.2467,
      "step": 1016
    },
    {
      "epoch": 78.23076923076923,
      "grad_norm": 61.82678985595703,
      "learning_rate": 1.554945054945055e-07,
      "loss": 0.3018,
      "step": 1017
    },
    {
      "epoch": 78.3076923076923,
      "grad_norm": 21.44407081604004,
      "learning_rate": 1.5494505494505493e-07,
      "loss": 0.3692,
      "step": 1018
    },
    {
      "epoch": 78.38461538461539,
      "grad_norm": 30.933109283447266,
      "learning_rate": 1.543956043956044e-07,
      "loss": 0.3199,
      "step": 1019
    },
    {
      "epoch": 78.46153846153847,
      "grad_norm": 12.75586223602295,
      "learning_rate": 1.5384615384615385e-07,
      "loss": 0.3049,
      "step": 1020
    },
    {
      "epoch": 78.53846153846153,
      "grad_norm": 12.015470504760742,
      "learning_rate": 1.532967032967033e-07,
      "loss": 0.131,
      "step": 1021
    },
    {
      "epoch": 78.61538461538461,
      "grad_norm": 54.986263275146484,
      "learning_rate": 1.5274725274725276e-07,
      "loss": 0.2717,
      "step": 1022
    },
    {
      "epoch": 78.6923076923077,
      "grad_norm": 34.28273010253906,
      "learning_rate": 1.5219780219780217e-07,
      "loss": 0.4164,
      "step": 1023
    },
    {
      "epoch": 78.76923076923077,
      "grad_norm": 21.848403930664062,
      "learning_rate": 1.5164835164835164e-07,
      "loss": 0.2288,
      "step": 1024
    },
    {
      "epoch": 78.84615384615384,
      "grad_norm": 36.61593246459961,
      "learning_rate": 1.5109890109890108e-07,
      "loss": 0.3806,
      "step": 1025
    },
    {
      "epoch": 78.92307692307692,
      "grad_norm": 24.660676956176758,
      "learning_rate": 1.5054945054945052e-07,
      "loss": 0.2891,
      "step": 1026
    },
    {
      "epoch": 79.0,
      "grad_norm": 77.06072235107422,
      "learning_rate": 1.5e-07,
      "loss": 0.2839,
      "step": 1027
    },
    {
      "epoch": 79.0,
      "eval_accuracy": 0.8937728937728938,
      "eval_loss": 0.3955582082271576,
      "eval_runtime": 1.1223,
      "eval_samples_per_second": 243.253,
      "eval_steps_per_second": 8.019,
      "step": 1027
    },
    {
      "epoch": 79.07692307692308,
      "grad_norm": 26.479942321777344,
      "learning_rate": 1.4945054945054944e-07,
      "loss": 0.2187,
      "step": 1028
    },
    {
      "epoch": 79.15384615384616,
      "grad_norm": 14.23984146118164,
      "learning_rate": 1.489010989010989e-07,
      "loss": 0.2779,
      "step": 1029
    },
    {
      "epoch": 79.23076923076923,
      "grad_norm": 51.32780075073242,
      "learning_rate": 1.4835164835164835e-07,
      "loss": 0.3606,
      "step": 1030
    },
    {
      "epoch": 79.3076923076923,
      "grad_norm": 10.091605186462402,
      "learning_rate": 1.478021978021978e-07,
      "loss": 0.1409,
      "step": 1031
    },
    {
      "epoch": 79.38461538461539,
      "grad_norm": 18.981121063232422,
      "learning_rate": 1.4725274725274726e-07,
      "loss": 0.2879,
      "step": 1032
    },
    {
      "epoch": 79.46153846153847,
      "grad_norm": 14.410721778869629,
      "learning_rate": 1.467032967032967e-07,
      "loss": 0.1563,
      "step": 1033
    },
    {
      "epoch": 79.53846153846153,
      "grad_norm": 26.860532760620117,
      "learning_rate": 1.4615384615384617e-07,
      "loss": 0.3891,
      "step": 1034
    },
    {
      "epoch": 79.61538461538461,
      "grad_norm": 13.68079948425293,
      "learning_rate": 1.456043956043956e-07,
      "loss": 0.3176,
      "step": 1035
    },
    {
      "epoch": 79.6923076923077,
      "grad_norm": 13.277116775512695,
      "learning_rate": 1.4505494505494505e-07,
      "loss": 0.3901,
      "step": 1036
    },
    {
      "epoch": 79.76923076923077,
      "grad_norm": 46.83804702758789,
      "learning_rate": 1.445054945054945e-07,
      "loss": 0.2473,
      "step": 1037
    },
    {
      "epoch": 79.84615384615384,
      "grad_norm": 13.368667602539062,
      "learning_rate": 1.4395604395604394e-07,
      "loss": 0.2826,
      "step": 1038
    },
    {
      "epoch": 79.92307692307692,
      "grad_norm": 40.29953384399414,
      "learning_rate": 1.4340659340659338e-07,
      "loss": 0.3554,
      "step": 1039
    },
    {
      "epoch": 80.0,
      "grad_norm": 27.23845672607422,
      "learning_rate": 1.4285714285714285e-07,
      "loss": 0.1994,
      "step": 1040
    },
    {
      "epoch": 80.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.39403265714645386,
      "eval_runtime": 1.1629,
      "eval_samples_per_second": 234.763,
      "eval_steps_per_second": 7.739,
      "step": 1040
    },
    {
      "epoch": 80.07692307692308,
      "grad_norm": 15.382060050964355,
      "learning_rate": 1.423076923076923e-07,
      "loss": 0.2468,
      "step": 1041
    },
    {
      "epoch": 80.15384615384616,
      "grad_norm": 23.910512924194336,
      "learning_rate": 1.4175824175824176e-07,
      "loss": 0.2444,
      "step": 1042
    },
    {
      "epoch": 80.23076923076923,
      "grad_norm": 41.004886627197266,
      "learning_rate": 1.412087912087912e-07,
      "loss": 0.2323,
      "step": 1043
    },
    {
      "epoch": 80.3076923076923,
      "grad_norm": 37.917694091796875,
      "learning_rate": 1.4065934065934064e-07,
      "loss": 0.3993,
      "step": 1044
    },
    {
      "epoch": 80.38461538461539,
      "grad_norm": 13.488092422485352,
      "learning_rate": 1.401098901098901e-07,
      "loss": 0.2223,
      "step": 1045
    },
    {
      "epoch": 80.46153846153847,
      "grad_norm": 9.797901153564453,
      "learning_rate": 1.3956043956043955e-07,
      "loss": 0.2171,
      "step": 1046
    },
    {
      "epoch": 80.53846153846153,
      "grad_norm": 36.480506896972656,
      "learning_rate": 1.3901098901098902e-07,
      "loss": 0.32,
      "step": 1047
    },
    {
      "epoch": 80.61538461538461,
      "grad_norm": 16.1761531829834,
      "learning_rate": 1.3846153846153846e-07,
      "loss": 0.2911,
      "step": 1048
    },
    {
      "epoch": 80.6923076923077,
      "grad_norm": 18.250436782836914,
      "learning_rate": 1.379120879120879e-07,
      "loss": 0.2954,
      "step": 1049
    },
    {
      "epoch": 80.76923076923077,
      "grad_norm": 43.95055389404297,
      "learning_rate": 1.3736263736263737e-07,
      "loss": 0.2638,
      "step": 1050
    },
    {
      "epoch": 80.84615384615384,
      "grad_norm": 16.664339065551758,
      "learning_rate": 1.3681318681318682e-07,
      "loss": 0.275,
      "step": 1051
    },
    {
      "epoch": 80.92307692307692,
      "grad_norm": 28.342500686645508,
      "learning_rate": 1.3626373626373626e-07,
      "loss": 0.4501,
      "step": 1052
    },
    {
      "epoch": 81.0,
      "grad_norm": 63.4267463684082,
      "learning_rate": 1.357142857142857e-07,
      "loss": 0.4525,
      "step": 1053
    },
    {
      "epoch": 81.0,
      "eval_accuracy": 0.8864468864468864,
      "eval_loss": 0.3933567404747009,
      "eval_runtime": 1.0955,
      "eval_samples_per_second": 249.209,
      "eval_steps_per_second": 8.216,
      "step": 1053
    },
    {
      "epoch": 81.07692307692308,
      "grad_norm": 16.292680740356445,
      "learning_rate": 1.3516483516483514e-07,
      "loss": 0.2076,
      "step": 1054
    },
    {
      "epoch": 81.15384615384616,
      "grad_norm": 40.223182678222656,
      "learning_rate": 1.346153846153846e-07,
      "loss": 0.208,
      "step": 1055
    },
    {
      "epoch": 81.23076923076923,
      "grad_norm": 11.992828369140625,
      "learning_rate": 1.3406593406593405e-07,
      "loss": 0.4298,
      "step": 1056
    },
    {
      "epoch": 81.3076923076923,
      "grad_norm": 36.962459564208984,
      "learning_rate": 1.335164835164835e-07,
      "loss": 0.272,
      "step": 1057
    },
    {
      "epoch": 81.38461538461539,
      "grad_norm": 19.459056854248047,
      "learning_rate": 1.3296703296703296e-07,
      "loss": 0.1905,
      "step": 1058
    },
    {
      "epoch": 81.46153846153847,
      "grad_norm": 29.394771575927734,
      "learning_rate": 1.324175824175824e-07,
      "loss": 0.3059,
      "step": 1059
    },
    {
      "epoch": 81.53846153846153,
      "grad_norm": 22.794652938842773,
      "learning_rate": 1.3186813186813187e-07,
      "loss": 0.2656,
      "step": 1060
    },
    {
      "epoch": 81.61538461538461,
      "grad_norm": 19.045024871826172,
      "learning_rate": 1.3131868131868132e-07,
      "loss": 0.3158,
      "step": 1061
    },
    {
      "epoch": 81.6923076923077,
      "grad_norm": 26.779314041137695,
      "learning_rate": 1.3076923076923076e-07,
      "loss": 0.4056,
      "step": 1062
    },
    {
      "epoch": 81.76923076923077,
      "grad_norm": 17.497825622558594,
      "learning_rate": 1.3021978021978023e-07,
      "loss": 0.1799,
      "step": 1063
    },
    {
      "epoch": 81.84615384615384,
      "grad_norm": 27.940723419189453,
      "learning_rate": 1.2967032967032967e-07,
      "loss": 0.19,
      "step": 1064
    },
    {
      "epoch": 81.92307692307692,
      "grad_norm": 31.93444061279297,
      "learning_rate": 1.2912087912087914e-07,
      "loss": 0.2749,
      "step": 1065
    },
    {
      "epoch": 82.0,
      "grad_norm": 18.78568458557129,
      "learning_rate": 1.2857142857142855e-07,
      "loss": 0.2178,
      "step": 1066
    },
    {
      "epoch": 82.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.3930392563343048,
      "eval_runtime": 1.1497,
      "eval_samples_per_second": 237.449,
      "eval_steps_per_second": 7.828,
      "step": 1066
    },
    {
      "epoch": 82.07692307692308,
      "grad_norm": 32.733428955078125,
      "learning_rate": 1.28021978021978e-07,
      "loss": 0.3279,
      "step": 1067
    },
    {
      "epoch": 82.15384615384616,
      "grad_norm": 13.686680793762207,
      "learning_rate": 1.2747252747252747e-07,
      "loss": 0.2722,
      "step": 1068
    },
    {
      "epoch": 82.23076923076923,
      "grad_norm": 10.552693367004395,
      "learning_rate": 1.269230769230769e-07,
      "loss": 0.2876,
      "step": 1069
    },
    {
      "epoch": 82.3076923076923,
      "grad_norm": 30.948087692260742,
      "learning_rate": 1.2637362637362638e-07,
      "loss": 0.3808,
      "step": 1070
    },
    {
      "epoch": 82.38461538461539,
      "grad_norm": 15.032044410705566,
      "learning_rate": 1.2582417582417582e-07,
      "loss": 0.2184,
      "step": 1071
    },
    {
      "epoch": 82.46153846153847,
      "grad_norm": 25.3967342376709,
      "learning_rate": 1.2527472527472526e-07,
      "loss": 0.2408,
      "step": 1072
    },
    {
      "epoch": 82.53846153846153,
      "grad_norm": 21.934955596923828,
      "learning_rate": 1.2472527472527473e-07,
      "loss": 0.2395,
      "step": 1073
    },
    {
      "epoch": 82.61538461538461,
      "grad_norm": 14.179574966430664,
      "learning_rate": 1.2417582417582417e-07,
      "loss": 0.263,
      "step": 1074
    },
    {
      "epoch": 82.6923076923077,
      "grad_norm": 32.95867919921875,
      "learning_rate": 1.236263736263736e-07,
      "loss": 0.3389,
      "step": 1075
    },
    {
      "epoch": 82.76923076923077,
      "grad_norm": 16.36202621459961,
      "learning_rate": 1.2307692307692308e-07,
      "loss": 0.3296,
      "step": 1076
    },
    {
      "epoch": 82.84615384615384,
      "grad_norm": 61.08626174926758,
      "learning_rate": 1.2252747252747252e-07,
      "loss": 0.3728,
      "step": 1077
    },
    {
      "epoch": 82.92307692307692,
      "grad_norm": 32.991214752197266,
      "learning_rate": 1.2197802197802197e-07,
      "loss": 0.3121,
      "step": 1078
    },
    {
      "epoch": 83.0,
      "grad_norm": 24.813508987426758,
      "learning_rate": 1.2142857142857143e-07,
      "loss": 0.2784,
      "step": 1079
    },
    {
      "epoch": 83.0,
      "eval_accuracy": 0.8901098901098901,
      "eval_loss": 0.39292335510253906,
      "eval_runtime": 1.0955,
      "eval_samples_per_second": 249.197,
      "eval_steps_per_second": 8.215,
      "step": 1079
    },
    {
      "epoch": 83.07692307692308,
      "grad_norm": 32.1732177734375,
      "learning_rate": 1.2087912087912088e-07,
      "loss": 0.3004,
      "step": 1080
    },
    {
      "epoch": 83.15384615384616,
      "grad_norm": 22.907392501831055,
      "learning_rate": 1.2032967032967032e-07,
      "loss": 0.2532,
      "step": 1081
    },
    {
      "epoch": 83.23076923076923,
      "grad_norm": 27.776500701904297,
      "learning_rate": 1.197802197802198e-07,
      "loss": 0.217,
      "step": 1082
    },
    {
      "epoch": 83.3076923076923,
      "grad_norm": 12.323370933532715,
      "learning_rate": 1.1923076923076923e-07,
      "loss": 0.2751,
      "step": 1083
    },
    {
      "epoch": 83.38461538461539,
      "grad_norm": 29.835268020629883,
      "learning_rate": 1.1868131868131867e-07,
      "loss": 0.2792,
      "step": 1084
    },
    {
      "epoch": 83.46153846153847,
      "grad_norm": 10.211678504943848,
      "learning_rate": 1.1813186813186813e-07,
      "loss": 0.2218,
      "step": 1085
    },
    {
      "epoch": 83.53846153846153,
      "grad_norm": 15.989296913146973,
      "learning_rate": 1.1758241758241757e-07,
      "loss": 0.3765,
      "step": 1086
    },
    {
      "epoch": 83.61538461538461,
      "grad_norm": 31.318416595458984,
      "learning_rate": 1.1703296703296702e-07,
      "loss": 0.1521,
      "step": 1087
    },
    {
      "epoch": 83.6923076923077,
      "grad_norm": 29.925222396850586,
      "learning_rate": 1.1648351648351648e-07,
      "loss": 0.3002,
      "step": 1088
    },
    {
      "epoch": 83.76923076923077,
      "grad_norm": 10.597570419311523,
      "learning_rate": 1.1593406593406594e-07,
      "loss": 0.1824,
      "step": 1089
    },
    {
      "epoch": 83.84615384615384,
      "grad_norm": 36.989013671875,
      "learning_rate": 1.1538461538461539e-07,
      "loss": 0.3892,
      "step": 1090
    },
    {
      "epoch": 83.92307692307692,
      "grad_norm": 25.89579963684082,
      "learning_rate": 1.1483516483516482e-07,
      "loss": 0.2838,
      "step": 1091
    },
    {
      "epoch": 84.0,
      "grad_norm": 18.209617614746094,
      "learning_rate": 1.1428571428571427e-07,
      "loss": 0.1956,
      "step": 1092
    },
    {
      "epoch": 84.0,
      "eval_accuracy": 0.8901098901098901,
      "eval_loss": 0.39295080304145813,
      "eval_runtime": 1.1581,
      "eval_samples_per_second": 235.74,
      "eval_steps_per_second": 7.772,
      "step": 1092
    },
    {
      "epoch": 84.07692307692308,
      "grad_norm": 14.860452651977539,
      "learning_rate": 1.1373626373626373e-07,
      "loss": 0.2907,
      "step": 1093
    },
    {
      "epoch": 84.15384615384616,
      "grad_norm": 28.178285598754883,
      "learning_rate": 1.1318681318681319e-07,
      "loss": 0.1838,
      "step": 1094
    },
    {
      "epoch": 84.23076923076923,
      "grad_norm": 16.352636337280273,
      "learning_rate": 1.1263736263736264e-07,
      "loss": 0.2478,
      "step": 1095
    },
    {
      "epoch": 84.3076923076923,
      "grad_norm": 19.86312484741211,
      "learning_rate": 1.1208791208791208e-07,
      "loss": 0.2824,
      "step": 1096
    },
    {
      "epoch": 84.38461538461539,
      "grad_norm": 9.781262397766113,
      "learning_rate": 1.1153846153846154e-07,
      "loss": 0.2398,
      "step": 1097
    },
    {
      "epoch": 84.46153846153847,
      "grad_norm": 31.852371215820312,
      "learning_rate": 1.1098901098901098e-07,
      "loss": 0.3348,
      "step": 1098
    },
    {
      "epoch": 84.53846153846153,
      "grad_norm": 55.224281311035156,
      "learning_rate": 1.1043956043956044e-07,
      "loss": 0.2502,
      "step": 1099
    },
    {
      "epoch": 84.61538461538461,
      "grad_norm": 11.642487525939941,
      "learning_rate": 1.0989010989010988e-07,
      "loss": 0.2318,
      "step": 1100
    },
    {
      "epoch": 84.6923076923077,
      "grad_norm": 35.881935119628906,
      "learning_rate": 1.0934065934065933e-07,
      "loss": 0.2999,
      "step": 1101
    },
    {
      "epoch": 84.76923076923077,
      "grad_norm": 15.435508728027344,
      "learning_rate": 1.0879120879120879e-07,
      "loss": 0.3004,
      "step": 1102
    },
    {
      "epoch": 84.84615384615384,
      "grad_norm": 31.106237411499023,
      "learning_rate": 1.0824175824175824e-07,
      "loss": 0.2263,
      "step": 1103
    },
    {
      "epoch": 84.92307692307692,
      "grad_norm": 21.828523635864258,
      "learning_rate": 1.076923076923077e-07,
      "loss": 0.335,
      "step": 1104
    },
    {
      "epoch": 85.0,
      "grad_norm": 26.942888259887695,
      "learning_rate": 1.0714285714285713e-07,
      "loss": 0.2713,
      "step": 1105
    },
    {
      "epoch": 85.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.39224952459335327,
      "eval_runtime": 1.1383,
      "eval_samples_per_second": 239.837,
      "eval_steps_per_second": 7.907,
      "step": 1105
    },
    {
      "epoch": 85.07692307692308,
      "grad_norm": 68.9412612915039,
      "learning_rate": 1.0659340659340658e-07,
      "loss": 0.3018,
      "step": 1106
    },
    {
      "epoch": 85.15384615384616,
      "grad_norm": 27.190933227539062,
      "learning_rate": 1.0604395604395604e-07,
      "loss": 0.3277,
      "step": 1107
    },
    {
      "epoch": 85.23076923076923,
      "grad_norm": 15.02687931060791,
      "learning_rate": 1.054945054945055e-07,
      "loss": 0.3104,
      "step": 1108
    },
    {
      "epoch": 85.3076923076923,
      "grad_norm": 20.111326217651367,
      "learning_rate": 1.0494505494505494e-07,
      "loss": 0.2612,
      "step": 1109
    },
    {
      "epoch": 85.38461538461539,
      "grad_norm": 20.192014694213867,
      "learning_rate": 1.0439560439560439e-07,
      "loss": 0.3451,
      "step": 1110
    },
    {
      "epoch": 85.46153846153847,
      "grad_norm": 20.53421974182129,
      "learning_rate": 1.0384615384615385e-07,
      "loss": 0.3045,
      "step": 1111
    },
    {
      "epoch": 85.53846153846153,
      "grad_norm": 38.649505615234375,
      "learning_rate": 1.0329670329670329e-07,
      "loss": 0.2224,
      "step": 1112
    },
    {
      "epoch": 85.61538461538461,
      "grad_norm": 12.864182472229004,
      "learning_rate": 1.0274725274725273e-07,
      "loss": 0.1595,
      "step": 1113
    },
    {
      "epoch": 85.6923076923077,
      "grad_norm": 11.355697631835938,
      "learning_rate": 1.0219780219780219e-07,
      "loss": 0.2605,
      "step": 1114
    },
    {
      "epoch": 85.76923076923077,
      "grad_norm": 23.82616424560547,
      "learning_rate": 1.0164835164835164e-07,
      "loss": 0.4162,
      "step": 1115
    },
    {
      "epoch": 85.84615384615384,
      "grad_norm": 28.37507438659668,
      "learning_rate": 1.010989010989011e-07,
      "loss": 0.3103,
      "step": 1116
    },
    {
      "epoch": 85.92307692307692,
      "grad_norm": 9.495092391967773,
      "learning_rate": 1.0054945054945055e-07,
      "loss": 0.2694,
      "step": 1117
    },
    {
      "epoch": 86.0,
      "grad_norm": 20.761072158813477,
      "learning_rate": 1e-07,
      "loss": 0.2331,
      "step": 1118
    },
    {
      "epoch": 86.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.3920447528362274,
      "eval_runtime": 1.1565,
      "eval_samples_per_second": 236.057,
      "eval_steps_per_second": 7.782,
      "step": 1118
    },
    {
      "epoch": 86.07692307692308,
      "grad_norm": 18.309730529785156,
      "learning_rate": 9.945054945054944e-08,
      "loss": 0.2383,
      "step": 1119
    },
    {
      "epoch": 86.15384615384616,
      "grad_norm": 25.620573043823242,
      "learning_rate": 9.890109890109889e-08,
      "loss": 0.3423,
      "step": 1120
    },
    {
      "epoch": 86.23076923076923,
      "grad_norm": 31.327573776245117,
      "learning_rate": 9.835164835164835e-08,
      "loss": 0.3123,
      "step": 1121
    },
    {
      "epoch": 86.3076923076923,
      "grad_norm": 32.840457916259766,
      "learning_rate": 9.78021978021978e-08,
      "loss": 0.3227,
      "step": 1122
    },
    {
      "epoch": 86.38461538461539,
      "grad_norm": 58.55289077758789,
      "learning_rate": 9.725274725274725e-08,
      "loss": 0.3322,
      "step": 1123
    },
    {
      "epoch": 86.46153846153847,
      "grad_norm": 13.806730270385742,
      "learning_rate": 9.67032967032967e-08,
      "loss": 0.2992,
      "step": 1124
    },
    {
      "epoch": 86.53846153846153,
      "grad_norm": 53.092369079589844,
      "learning_rate": 9.615384615384616e-08,
      "loss": 0.3338,
      "step": 1125
    },
    {
      "epoch": 86.61538461538461,
      "grad_norm": 21.538375854492188,
      "learning_rate": 9.56043956043956e-08,
      "loss": 0.3748,
      "step": 1126
    },
    {
      "epoch": 86.6923076923077,
      "grad_norm": 25.756595611572266,
      "learning_rate": 9.505494505494504e-08,
      "loss": 0.2981,
      "step": 1127
    },
    {
      "epoch": 86.76923076923077,
      "grad_norm": 13.046600341796875,
      "learning_rate": 9.45054945054945e-08,
      "loss": 0.2313,
      "step": 1128
    },
    {
      "epoch": 86.84615384615384,
      "grad_norm": 20.741596221923828,
      "learning_rate": 9.395604395604395e-08,
      "loss": 0.2191,
      "step": 1129
    },
    {
      "epoch": 86.92307692307692,
      "grad_norm": 38.721717834472656,
      "learning_rate": 9.340659340659341e-08,
      "loss": 0.2329,
      "step": 1130
    },
    {
      "epoch": 87.0,
      "grad_norm": 22.74040985107422,
      "learning_rate": 9.285714285714286e-08,
      "loss": 0.3294,
      "step": 1131
    },
    {
      "epoch": 87.0,
      "eval_accuracy": 0.8864468864468864,
      "eval_loss": 0.39172619581222534,
      "eval_runtime": 1.122,
      "eval_samples_per_second": 243.323,
      "eval_steps_per_second": 8.022,
      "step": 1131
    },
    {
      "epoch": 87.07692307692308,
      "grad_norm": 18.724618911743164,
      "learning_rate": 9.23076923076923e-08,
      "loss": 0.3317,
      "step": 1132
    },
    {
      "epoch": 87.15384615384616,
      "grad_norm": 42.715763092041016,
      "learning_rate": 9.175824175824175e-08,
      "loss": 0.3074,
      "step": 1133
    },
    {
      "epoch": 87.23076923076923,
      "grad_norm": 26.338850021362305,
      "learning_rate": 9.12087912087912e-08,
      "loss": 0.2954,
      "step": 1134
    },
    {
      "epoch": 87.3076923076923,
      "grad_norm": 25.339736938476562,
      "learning_rate": 9.065934065934066e-08,
      "loss": 0.2936,
      "step": 1135
    },
    {
      "epoch": 87.38461538461539,
      "grad_norm": 7.0106940269470215,
      "learning_rate": 9.01098901098901e-08,
      "loss": 0.1326,
      "step": 1136
    },
    {
      "epoch": 87.46153846153847,
      "grad_norm": 50.82191467285156,
      "learning_rate": 8.956043956043955e-08,
      "loss": 0.3622,
      "step": 1137
    },
    {
      "epoch": 87.53846153846153,
      "grad_norm": 17.702634811401367,
      "learning_rate": 8.901098901098901e-08,
      "loss": 0.3243,
      "step": 1138
    },
    {
      "epoch": 87.61538461538461,
      "grad_norm": 23.67812728881836,
      "learning_rate": 8.846153846153847e-08,
      "loss": 0.2709,
      "step": 1139
    },
    {
      "epoch": 87.6923076923077,
      "grad_norm": 12.000235557556152,
      "learning_rate": 8.791208791208792e-08,
      "loss": 0.2287,
      "step": 1140
    },
    {
      "epoch": 87.76923076923077,
      "grad_norm": 70.25077819824219,
      "learning_rate": 8.736263736263735e-08,
      "loss": 0.2259,
      "step": 1141
    },
    {
      "epoch": 87.84615384615384,
      "grad_norm": 12.197879791259766,
      "learning_rate": 8.68131868131868e-08,
      "loss": 0.245,
      "step": 1142
    },
    {
      "epoch": 87.92307692307692,
      "grad_norm": 26.280141830444336,
      "learning_rate": 8.626373626373626e-08,
      "loss": 0.2137,
      "step": 1143
    },
    {
      "epoch": 88.0,
      "grad_norm": 46.78612518310547,
      "learning_rate": 8.571428571428572e-08,
      "loss": 0.2998,
      "step": 1144
    },
    {
      "epoch": 88.0,
      "eval_accuracy": 0.8864468864468864,
      "eval_loss": 0.39112868905067444,
      "eval_runtime": 1.1512,
      "eval_samples_per_second": 237.153,
      "eval_steps_per_second": 7.818,
      "step": 1144
    },
    {
      "epoch": 88.07692307692308,
      "grad_norm": 15.60883617401123,
      "learning_rate": 8.516483516483516e-08,
      "loss": 0.3729,
      "step": 1145
    },
    {
      "epoch": 88.15384615384616,
      "grad_norm": 8.486095428466797,
      "learning_rate": 8.461538461538461e-08,
      "loss": 0.2448,
      "step": 1146
    },
    {
      "epoch": 88.23076923076923,
      "grad_norm": 46.885948181152344,
      "learning_rate": 8.406593406593407e-08,
      "loss": 0.3396,
      "step": 1147
    },
    {
      "epoch": 88.3076923076923,
      "grad_norm": 34.04993438720703,
      "learning_rate": 8.351648351648351e-08,
      "loss": 0.308,
      "step": 1148
    },
    {
      "epoch": 88.38461538461539,
      "grad_norm": 40.31916809082031,
      "learning_rate": 8.296703296703297e-08,
      "loss": 0.3373,
      "step": 1149
    },
    {
      "epoch": 88.46153846153847,
      "grad_norm": 14.59317684173584,
      "learning_rate": 8.241758241758241e-08,
      "loss": 0.2992,
      "step": 1150
    },
    {
      "epoch": 88.53846153846153,
      "grad_norm": 20.247974395751953,
      "learning_rate": 8.186813186813186e-08,
      "loss": 0.2632,
      "step": 1151
    },
    {
      "epoch": 88.61538461538461,
      "grad_norm": 15.864816665649414,
      "learning_rate": 8.131868131868132e-08,
      "loss": 0.3327,
      "step": 1152
    },
    {
      "epoch": 88.6923076923077,
      "grad_norm": 52.70241928100586,
      "learning_rate": 8.076923076923077e-08,
      "loss": 0.3339,
      "step": 1153
    },
    {
      "epoch": 88.76923076923077,
      "grad_norm": 16.58002281188965,
      "learning_rate": 8.021978021978022e-08,
      "loss": 0.1744,
      "step": 1154
    },
    {
      "epoch": 88.84615384615384,
      "grad_norm": 33.79151916503906,
      "learning_rate": 7.967032967032966e-08,
      "loss": 0.2575,
      "step": 1155
    },
    {
      "epoch": 88.92307692307692,
      "grad_norm": 35.447364807128906,
      "learning_rate": 7.912087912087911e-08,
      "loss": 0.3079,
      "step": 1156
    },
    {
      "epoch": 89.0,
      "grad_norm": 30.83775520324707,
      "learning_rate": 7.857142857142857e-08,
      "loss": 0.3767,
      "step": 1157
    },
    {
      "epoch": 89.0,
      "eval_accuracy": 0.8864468864468864,
      "eval_loss": 0.3908824026584625,
      "eval_runtime": 1.1795,
      "eval_samples_per_second": 231.463,
      "eval_steps_per_second": 7.631,
      "step": 1157
    },
    {
      "epoch": 89.07692307692308,
      "grad_norm": 54.953548431396484,
      "learning_rate": 7.802197802197803e-08,
      "loss": 0.3916,
      "step": 1158
    },
    {
      "epoch": 89.15384615384616,
      "grad_norm": 19.214235305786133,
      "learning_rate": 7.747252747252747e-08,
      "loss": 0.2105,
      "step": 1159
    },
    {
      "epoch": 89.23076923076923,
      "grad_norm": 29.269330978393555,
      "learning_rate": 7.692307692307692e-08,
      "loss": 0.2337,
      "step": 1160
    },
    {
      "epoch": 89.3076923076923,
      "grad_norm": 29.963050842285156,
      "learning_rate": 7.637362637362638e-08,
      "loss": 0.2516,
      "step": 1161
    },
    {
      "epoch": 89.38461538461539,
      "grad_norm": 10.40708065032959,
      "learning_rate": 7.582417582417582e-08,
      "loss": 0.1802,
      "step": 1162
    },
    {
      "epoch": 89.46153846153847,
      "grad_norm": 46.40359878540039,
      "learning_rate": 7.527472527472526e-08,
      "loss": 0.3842,
      "step": 1163
    },
    {
      "epoch": 89.53846153846153,
      "grad_norm": 25.235103607177734,
      "learning_rate": 7.472527472527472e-08,
      "loss": 0.2821,
      "step": 1164
    },
    {
      "epoch": 89.61538461538461,
      "grad_norm": 58.33918762207031,
      "learning_rate": 7.417582417582417e-08,
      "loss": 0.1598,
      "step": 1165
    },
    {
      "epoch": 89.6923076923077,
      "grad_norm": 27.44552993774414,
      "learning_rate": 7.362637362637363e-08,
      "loss": 0.211,
      "step": 1166
    },
    {
      "epoch": 89.76923076923077,
      "grad_norm": 29.182849884033203,
      "learning_rate": 7.307692307692308e-08,
      "loss": 0.3427,
      "step": 1167
    },
    {
      "epoch": 89.84615384615384,
      "grad_norm": 13.147058486938477,
      "learning_rate": 7.252747252747253e-08,
      "loss": 0.1638,
      "step": 1168
    },
    {
      "epoch": 89.92307692307692,
      "grad_norm": 73.08260345458984,
      "learning_rate": 7.197802197802197e-08,
      "loss": 0.2739,
      "step": 1169
    },
    {
      "epoch": 90.0,
      "grad_norm": 17.385639190673828,
      "learning_rate": 7.142857142857142e-08,
      "loss": 0.3126,
      "step": 1170
    },
    {
      "epoch": 90.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.390839546918869,
      "eval_runtime": 1.1573,
      "eval_samples_per_second": 235.897,
      "eval_steps_per_second": 7.777,
      "step": 1170
    },
    {
      "epoch": 90.07692307692308,
      "grad_norm": 26.68352508544922,
      "learning_rate": 7.087912087912088e-08,
      "loss": 0.1567,
      "step": 1171
    },
    {
      "epoch": 90.15384615384616,
      "grad_norm": 11.453264236450195,
      "learning_rate": 7.032967032967032e-08,
      "loss": 0.188,
      "step": 1172
    },
    {
      "epoch": 90.23076923076923,
      "grad_norm": 10.581305503845215,
      "learning_rate": 6.978021978021978e-08,
      "loss": 0.2522,
      "step": 1173
    },
    {
      "epoch": 90.3076923076923,
      "grad_norm": 11.819452285766602,
      "learning_rate": 6.923076923076923e-08,
      "loss": 0.3432,
      "step": 1174
    },
    {
      "epoch": 90.38461538461539,
      "grad_norm": 44.38141632080078,
      "learning_rate": 6.868131868131869e-08,
      "loss": 0.1642,
      "step": 1175
    },
    {
      "epoch": 90.46153846153847,
      "grad_norm": 17.33147621154785,
      "learning_rate": 6.813186813186813e-08,
      "loss": 0.357,
      "step": 1176
    },
    {
      "epoch": 90.53846153846153,
      "grad_norm": 40.547691345214844,
      "learning_rate": 6.758241758241757e-08,
      "loss": 0.3029,
      "step": 1177
    },
    {
      "epoch": 90.61538461538461,
      "grad_norm": 35.969635009765625,
      "learning_rate": 6.703296703296703e-08,
      "loss": 0.3308,
      "step": 1178
    },
    {
      "epoch": 90.6923076923077,
      "grad_norm": 21.21852684020996,
      "learning_rate": 6.648351648351648e-08,
      "loss": 0.2755,
      "step": 1179
    },
    {
      "epoch": 90.76923076923077,
      "grad_norm": 19.537212371826172,
      "learning_rate": 6.593406593406594e-08,
      "loss": 0.3295,
      "step": 1180
    },
    {
      "epoch": 90.84615384615384,
      "grad_norm": 21.593408584594727,
      "learning_rate": 6.538461538461538e-08,
      "loss": 0.3134,
      "step": 1181
    },
    {
      "epoch": 90.92307692307692,
      "grad_norm": 24.57037925720215,
      "learning_rate": 6.483516483516483e-08,
      "loss": 0.1483,
      "step": 1182
    },
    {
      "epoch": 91.0,
      "grad_norm": 15.521592140197754,
      "learning_rate": 6.428571428571428e-08,
      "loss": 0.2427,
      "step": 1183
    },
    {
      "epoch": 91.0,
      "eval_accuracy": 0.8791208791208791,
      "eval_loss": 0.39028820395469666,
      "eval_runtime": 1.1471,
      "eval_samples_per_second": 238.001,
      "eval_steps_per_second": 7.846,
      "step": 1183
    },
    {
      "epoch": 91.07692307692308,
      "grad_norm": 14.055830955505371,
      "learning_rate": 6.373626373626373e-08,
      "loss": 0.2505,
      "step": 1184
    },
    {
      "epoch": 91.15384615384616,
      "grad_norm": 46.58557891845703,
      "learning_rate": 6.318681318681319e-08,
      "loss": 0.3514,
      "step": 1185
    },
    {
      "epoch": 91.23076923076923,
      "grad_norm": 31.374704360961914,
      "learning_rate": 6.263736263736263e-08,
      "loss": 0.2265,
      "step": 1186
    },
    {
      "epoch": 91.3076923076923,
      "grad_norm": 15.407970428466797,
      "learning_rate": 6.208791208791209e-08,
      "loss": 0.2951,
      "step": 1187
    },
    {
      "epoch": 91.38461538461539,
      "grad_norm": 30.824228286743164,
      "learning_rate": 6.153846153846154e-08,
      "loss": 0.2278,
      "step": 1188
    },
    {
      "epoch": 91.46153846153847,
      "grad_norm": 37.521812438964844,
      "learning_rate": 6.098901098901098e-08,
      "loss": 0.3057,
      "step": 1189
    },
    {
      "epoch": 91.53846153846153,
      "grad_norm": 17.950450897216797,
      "learning_rate": 6.043956043956044e-08,
      "loss": 0.3175,
      "step": 1190
    },
    {
      "epoch": 91.61538461538461,
      "grad_norm": 31.429622650146484,
      "learning_rate": 5.98901098901099e-08,
      "loss": 0.2534,
      "step": 1191
    },
    {
      "epoch": 91.6923076923077,
      "grad_norm": 40.33232879638672,
      "learning_rate": 5.9340659340659336e-08,
      "loss": 0.262,
      "step": 1192
    },
    {
      "epoch": 91.76923076923077,
      "grad_norm": 32.63479995727539,
      "learning_rate": 5.8791208791208785e-08,
      "loss": 0.2046,
      "step": 1193
    },
    {
      "epoch": 91.84615384615384,
      "grad_norm": 49.16203689575195,
      "learning_rate": 5.824175824175824e-08,
      "loss": 0.3426,
      "step": 1194
    },
    {
      "epoch": 91.92307692307692,
      "grad_norm": 10.800007820129395,
      "learning_rate": 5.7692307692307695e-08,
      "loss": 0.2461,
      "step": 1195
    },
    {
      "epoch": 92.0,
      "grad_norm": 28.457069396972656,
      "learning_rate": 5.714285714285714e-08,
      "loss": 0.2696,
      "step": 1196
    },
    {
      "epoch": 92.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.38978418707847595,
      "eval_runtime": 1.1287,
      "eval_samples_per_second": 241.867,
      "eval_steps_per_second": 7.974,
      "step": 1196
    },
    {
      "epoch": 92.07692307692308,
      "grad_norm": 38.12500762939453,
      "learning_rate": 5.659340659340659e-08,
      "loss": 0.325,
      "step": 1197
    },
    {
      "epoch": 92.15384615384616,
      "grad_norm": 51.22789764404297,
      "learning_rate": 5.604395604395604e-08,
      "loss": 0.4258,
      "step": 1198
    },
    {
      "epoch": 92.23076923076923,
      "grad_norm": 17.438199996948242,
      "learning_rate": 5.549450549450549e-08,
      "loss": 0.2922,
      "step": 1199
    },
    {
      "epoch": 92.3076923076923,
      "grad_norm": 47.824195861816406,
      "learning_rate": 5.494505494505494e-08,
      "loss": 0.2762,
      "step": 1200
    },
    {
      "epoch": 92.38461538461539,
      "grad_norm": 10.591680526733398,
      "learning_rate": 5.4395604395604394e-08,
      "loss": 0.3035,
      "step": 1201
    },
    {
      "epoch": 92.46153846153847,
      "grad_norm": 38.519248962402344,
      "learning_rate": 5.384615384615385e-08,
      "loss": 0.2588,
      "step": 1202
    },
    {
      "epoch": 92.53846153846153,
      "grad_norm": 22.747310638427734,
      "learning_rate": 5.329670329670329e-08,
      "loss": 0.353,
      "step": 1203
    },
    {
      "epoch": 92.61538461538461,
      "grad_norm": 40.17496109008789,
      "learning_rate": 5.274725274725275e-08,
      "loss": 0.2404,
      "step": 1204
    },
    {
      "epoch": 92.6923076923077,
      "grad_norm": 21.320369720458984,
      "learning_rate": 5.2197802197802196e-08,
      "loss": 0.27,
      "step": 1205
    },
    {
      "epoch": 92.76923076923077,
      "grad_norm": 15.79963493347168,
      "learning_rate": 5.1648351648351645e-08,
      "loss": 0.2516,
      "step": 1206
    },
    {
      "epoch": 92.84615384615384,
      "grad_norm": 52.78196334838867,
      "learning_rate": 5.1098901098901094e-08,
      "loss": 0.2016,
      "step": 1207
    },
    {
      "epoch": 92.92307692307692,
      "grad_norm": 30.154428482055664,
      "learning_rate": 5.054945054945055e-08,
      "loss": 0.319,
      "step": 1208
    },
    {
      "epoch": 93.0,
      "grad_norm": 13.150162696838379,
      "learning_rate": 5e-08,
      "loss": 0.2664,
      "step": 1209
    },
    {
      "epoch": 93.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.3897289037704468,
      "eval_runtime": 1.1243,
      "eval_samples_per_second": 242.809,
      "eval_steps_per_second": 8.005,
      "step": 1209
    },
    {
      "epoch": 93.07692307692308,
      "grad_norm": 18.95792007446289,
      "learning_rate": 4.9450549450549446e-08,
      "loss": 0.2426,
      "step": 1210
    },
    {
      "epoch": 93.15384615384616,
      "grad_norm": 11.617355346679688,
      "learning_rate": 4.89010989010989e-08,
      "loss": 0.2674,
      "step": 1211
    },
    {
      "epoch": 93.23076923076923,
      "grad_norm": 16.48680305480957,
      "learning_rate": 4.835164835164835e-08,
      "loss": 0.3445,
      "step": 1212
    },
    {
      "epoch": 93.3076923076923,
      "grad_norm": 40.12763214111328,
      "learning_rate": 4.78021978021978e-08,
      "loss": 0.2553,
      "step": 1213
    },
    {
      "epoch": 93.38461538461539,
      "grad_norm": 27.53231430053711,
      "learning_rate": 4.725274725274725e-08,
      "loss": 0.2573,
      "step": 1214
    },
    {
      "epoch": 93.46153846153847,
      "grad_norm": 13.512907981872559,
      "learning_rate": 4.6703296703296704e-08,
      "loss": 0.2693,
      "step": 1215
    },
    {
      "epoch": 93.53846153846153,
      "grad_norm": 44.26398849487305,
      "learning_rate": 4.615384615384615e-08,
      "loss": 0.185,
      "step": 1216
    },
    {
      "epoch": 93.61538461538461,
      "grad_norm": 41.06103515625,
      "learning_rate": 4.56043956043956e-08,
      "loss": 0.1753,
      "step": 1217
    },
    {
      "epoch": 93.6923076923077,
      "grad_norm": 61.76868438720703,
      "learning_rate": 4.505494505494505e-08,
      "loss": 0.2906,
      "step": 1218
    },
    {
      "epoch": 93.76923076923077,
      "grad_norm": 52.24216079711914,
      "learning_rate": 4.4505494505494505e-08,
      "loss": 0.2288,
      "step": 1219
    },
    {
      "epoch": 93.84615384615384,
      "grad_norm": 46.8869743347168,
      "learning_rate": 4.395604395604396e-08,
      "loss": 0.2745,
      "step": 1220
    },
    {
      "epoch": 93.92307692307692,
      "grad_norm": 27.070295333862305,
      "learning_rate": 4.34065934065934e-08,
      "loss": 0.3693,
      "step": 1221
    },
    {
      "epoch": 94.0,
      "grad_norm": 32.86008071899414,
      "learning_rate": 4.285714285714286e-08,
      "loss": 0.3718,
      "step": 1222
    },
    {
      "epoch": 94.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.3898214101791382,
      "eval_runtime": 1.1554,
      "eval_samples_per_second": 236.284,
      "eval_steps_per_second": 7.79,
      "step": 1222
    },
    {
      "epoch": 94.07692307692308,
      "grad_norm": 39.75988006591797,
      "learning_rate": 4.230769230769231e-08,
      "loss": 0.297,
      "step": 1223
    },
    {
      "epoch": 94.15384615384616,
      "grad_norm": 21.786998748779297,
      "learning_rate": 4.1758241758241756e-08,
      "loss": 0.3121,
      "step": 1224
    },
    {
      "epoch": 94.23076923076923,
      "grad_norm": 16.55964469909668,
      "learning_rate": 4.1208791208791204e-08,
      "loss": 0.3114,
      "step": 1225
    },
    {
      "epoch": 94.3076923076923,
      "grad_norm": 51.821353912353516,
      "learning_rate": 4.065934065934066e-08,
      "loss": 0.1714,
      "step": 1226
    },
    {
      "epoch": 94.38461538461539,
      "grad_norm": 28.034486770629883,
      "learning_rate": 4.010989010989011e-08,
      "loss": 0.1982,
      "step": 1227
    },
    {
      "epoch": 94.46153846153847,
      "grad_norm": 23.693384170532227,
      "learning_rate": 3.956043956043956e-08,
      "loss": 0.1916,
      "step": 1228
    },
    {
      "epoch": 94.53846153846153,
      "grad_norm": 23.424787521362305,
      "learning_rate": 3.901098901098901e-08,
      "loss": 0.294,
      "step": 1229
    },
    {
      "epoch": 94.61538461538461,
      "grad_norm": 18.75193214416504,
      "learning_rate": 3.846153846153846e-08,
      "loss": 0.2592,
      "step": 1230
    },
    {
      "epoch": 94.6923076923077,
      "grad_norm": 18.17660903930664,
      "learning_rate": 3.791208791208791e-08,
      "loss": 0.4359,
      "step": 1231
    },
    {
      "epoch": 94.76923076923077,
      "grad_norm": 86.98602294921875,
      "learning_rate": 3.736263736263736e-08,
      "loss": 0.2571,
      "step": 1232
    },
    {
      "epoch": 94.84615384615384,
      "grad_norm": 26.622785568237305,
      "learning_rate": 3.6813186813186814e-08,
      "loss": 0.3556,
      "step": 1233
    },
    {
      "epoch": 94.92307692307692,
      "grad_norm": 17.7441349029541,
      "learning_rate": 3.626373626373626e-08,
      "loss": 0.3613,
      "step": 1234
    },
    {
      "epoch": 95.0,
      "grad_norm": 36.08195877075195,
      "learning_rate": 3.571428571428571e-08,
      "loss": 0.2813,
      "step": 1235
    },
    {
      "epoch": 95.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.38985198736190796,
      "eval_runtime": 1.1761,
      "eval_samples_per_second": 232.13,
      "eval_steps_per_second": 7.653,
      "step": 1235
    },
    {
      "epoch": 95.07692307692308,
      "grad_norm": 23.407217025756836,
      "learning_rate": 3.516483516483516e-08,
      "loss": 0.2515,
      "step": 1236
    },
    {
      "epoch": 95.15384615384616,
      "grad_norm": 13.283767700195312,
      "learning_rate": 3.4615384615384616e-08,
      "loss": 0.222,
      "step": 1237
    },
    {
      "epoch": 95.23076923076923,
      "grad_norm": 48.10610580444336,
      "learning_rate": 3.4065934065934065e-08,
      "loss": 0.4224,
      "step": 1238
    },
    {
      "epoch": 95.3076923076923,
      "grad_norm": 24.0631046295166,
      "learning_rate": 3.3516483516483513e-08,
      "loss": 0.173,
      "step": 1239
    },
    {
      "epoch": 95.38461538461539,
      "grad_norm": 15.4575834274292,
      "learning_rate": 3.296703296703297e-08,
      "loss": 0.2,
      "step": 1240
    },
    {
      "epoch": 95.46153846153847,
      "grad_norm": 19.071937561035156,
      "learning_rate": 3.241758241758242e-08,
      "loss": 0.351,
      "step": 1241
    },
    {
      "epoch": 95.53846153846153,
      "grad_norm": 54.31584548950195,
      "learning_rate": 3.1868131868131866e-08,
      "loss": 0.361,
      "step": 1242
    },
    {
      "epoch": 95.61538461538461,
      "grad_norm": 13.713780403137207,
      "learning_rate": 3.1318681318681315e-08,
      "loss": 0.3287,
      "step": 1243
    },
    {
      "epoch": 95.6923076923077,
      "grad_norm": 53.17013931274414,
      "learning_rate": 3.076923076923077e-08,
      "loss": 0.3719,
      "step": 1244
    },
    {
      "epoch": 95.76923076923077,
      "grad_norm": 10.234158515930176,
      "learning_rate": 3.021978021978022e-08,
      "loss": 0.3038,
      "step": 1245
    },
    {
      "epoch": 95.84615384615384,
      "grad_norm": 42.09709167480469,
      "learning_rate": 2.9670329670329668e-08,
      "loss": 0.3503,
      "step": 1246
    },
    {
      "epoch": 95.92307692307692,
      "grad_norm": 22.201913833618164,
      "learning_rate": 2.912087912087912e-08,
      "loss": 0.2916,
      "step": 1247
    },
    {
      "epoch": 96.0,
      "grad_norm": 21.525352478027344,
      "learning_rate": 2.857142857142857e-08,
      "loss": 0.3105,
      "step": 1248
    },
    {
      "epoch": 96.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.3898387849330902,
      "eval_runtime": 1.1672,
      "eval_samples_per_second": 233.9,
      "eval_steps_per_second": 7.711,
      "step": 1248
    },
    {
      "epoch": 96.07692307692308,
      "grad_norm": 10.932400703430176,
      "learning_rate": 2.802197802197802e-08,
      "loss": 0.2909,
      "step": 1249
    },
    {
      "epoch": 96.15384615384616,
      "grad_norm": 22.70173454284668,
      "learning_rate": 2.747252747252747e-08,
      "loss": 0.3304,
      "step": 1250
    },
    {
      "epoch": 96.23076923076923,
      "grad_norm": 19.76609230041504,
      "learning_rate": 2.6923076923076925e-08,
      "loss": 0.2753,
      "step": 1251
    },
    {
      "epoch": 96.3076923076923,
      "grad_norm": 26.121347427368164,
      "learning_rate": 2.6373626373626374e-08,
      "loss": 0.2506,
      "step": 1252
    },
    {
      "epoch": 96.38461538461539,
      "grad_norm": 10.888976097106934,
      "learning_rate": 2.5824175824175822e-08,
      "loss": 0.2682,
      "step": 1253
    },
    {
      "epoch": 96.46153846153847,
      "grad_norm": 17.078506469726562,
      "learning_rate": 2.5274725274725274e-08,
      "loss": 0.2704,
      "step": 1254
    },
    {
      "epoch": 96.53846153846153,
      "grad_norm": 12.152798652648926,
      "learning_rate": 2.4725274725274723e-08,
      "loss": 0.3205,
      "step": 1255
    },
    {
      "epoch": 96.61538461538461,
      "grad_norm": 15.094422340393066,
      "learning_rate": 2.4175824175824175e-08,
      "loss": 0.2205,
      "step": 1256
    },
    {
      "epoch": 96.6923076923077,
      "grad_norm": 28.33614730834961,
      "learning_rate": 2.3626373626373624e-08,
      "loss": 0.3901,
      "step": 1257
    },
    {
      "epoch": 96.76923076923077,
      "grad_norm": 21.433828353881836,
      "learning_rate": 2.3076923076923076e-08,
      "loss": 0.2092,
      "step": 1258
    },
    {
      "epoch": 96.84615384615384,
      "grad_norm": 31.31447982788086,
      "learning_rate": 2.2527472527472525e-08,
      "loss": 0.2282,
      "step": 1259
    },
    {
      "epoch": 96.92307692307692,
      "grad_norm": 24.459308624267578,
      "learning_rate": 2.197802197802198e-08,
      "loss": 0.2395,
      "step": 1260
    },
    {
      "epoch": 97.0,
      "grad_norm": 26.795808792114258,
      "learning_rate": 2.142857142857143e-08,
      "loss": 0.2452,
      "step": 1261
    },
    {
      "epoch": 97.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.39006131887435913,
      "eval_runtime": 1.1277,
      "eval_samples_per_second": 242.086,
      "eval_steps_per_second": 7.981,
      "step": 1261
    },
    {
      "epoch": 97.07692307692308,
      "grad_norm": 41.47956085205078,
      "learning_rate": 2.0879120879120878e-08,
      "loss": 0.2566,
      "step": 1262
    },
    {
      "epoch": 97.15384615384616,
      "grad_norm": 15.067251205444336,
      "learning_rate": 2.032967032967033e-08,
      "loss": 0.3041,
      "step": 1263
    },
    {
      "epoch": 97.23076923076923,
      "grad_norm": 46.248626708984375,
      "learning_rate": 1.978021978021978e-08,
      "loss": 0.258,
      "step": 1264
    },
    {
      "epoch": 97.3076923076923,
      "grad_norm": 14.08816146850586,
      "learning_rate": 1.923076923076923e-08,
      "loss": 0.2007,
      "step": 1265
    },
    {
      "epoch": 97.38461538461539,
      "grad_norm": 46.13825607299805,
      "learning_rate": 1.868131868131868e-08,
      "loss": 0.3842,
      "step": 1266
    },
    {
      "epoch": 97.46153846153847,
      "grad_norm": 15.815461158752441,
      "learning_rate": 1.813186813186813e-08,
      "loss": 0.4239,
      "step": 1267
    },
    {
      "epoch": 97.53846153846153,
      "grad_norm": 22.951705932617188,
      "learning_rate": 1.758241758241758e-08,
      "loss": 0.3276,
      "step": 1268
    },
    {
      "epoch": 97.61538461538461,
      "grad_norm": 15.53054141998291,
      "learning_rate": 1.7032967032967032e-08,
      "loss": 0.1941,
      "step": 1269
    },
    {
      "epoch": 97.6923076923077,
      "grad_norm": 42.76935958862305,
      "learning_rate": 1.6483516483516484e-08,
      "loss": 0.3092,
      "step": 1270
    },
    {
      "epoch": 97.76923076923077,
      "grad_norm": 48.14138412475586,
      "learning_rate": 1.5934065934065933e-08,
      "loss": 0.1857,
      "step": 1271
    },
    {
      "epoch": 97.84615384615384,
      "grad_norm": 31.738540649414062,
      "learning_rate": 1.5384615384615385e-08,
      "loss": 0.3658,
      "step": 1272
    },
    {
      "epoch": 97.92307692307692,
      "grad_norm": 28.83648681640625,
      "learning_rate": 1.4835164835164834e-08,
      "loss": 0.3305,
      "step": 1273
    },
    {
      "epoch": 98.0,
      "grad_norm": 41.31938552856445,
      "learning_rate": 1.4285714285714284e-08,
      "loss": 0.2775,
      "step": 1274
    },
    {
      "epoch": 98.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.39004936814308167,
      "eval_runtime": 1.1317,
      "eval_samples_per_second": 241.224,
      "eval_steps_per_second": 7.952,
      "step": 1274
    },
    {
      "epoch": 98.07692307692308,
      "grad_norm": 26.711990356445312,
      "learning_rate": 1.3736263736263735e-08,
      "loss": 0.3114,
      "step": 1275
    },
    {
      "epoch": 98.15384615384616,
      "grad_norm": 33.84175109863281,
      "learning_rate": 1.3186813186813187e-08,
      "loss": 0.3678,
      "step": 1276
    },
    {
      "epoch": 98.23076923076923,
      "grad_norm": 12.625099182128906,
      "learning_rate": 1.2637362637362637e-08,
      "loss": 0.3347,
      "step": 1277
    },
    {
      "epoch": 98.3076923076923,
      "grad_norm": 16.88991928100586,
      "learning_rate": 1.2087912087912088e-08,
      "loss": 0.2716,
      "step": 1278
    },
    {
      "epoch": 98.38461538461539,
      "grad_norm": 60.646751403808594,
      "learning_rate": 1.1538461538461538e-08,
      "loss": 0.494,
      "step": 1279
    },
    {
      "epoch": 98.46153846153847,
      "grad_norm": 26.29082489013672,
      "learning_rate": 1.098901098901099e-08,
      "loss": 0.1614,
      "step": 1280
    },
    {
      "epoch": 98.53846153846153,
      "grad_norm": 11.831356048583984,
      "learning_rate": 1.0439560439560439e-08,
      "loss": 0.2644,
      "step": 1281
    },
    {
      "epoch": 98.61538461538461,
      "grad_norm": 13.554404258728027,
      "learning_rate": 9.89010989010989e-09,
      "loss": 0.2626,
      "step": 1282
    },
    {
      "epoch": 98.6923076923077,
      "grad_norm": 31.856679916381836,
      "learning_rate": 9.34065934065934e-09,
      "loss": 0.3509,
      "step": 1283
    },
    {
      "epoch": 98.76923076923077,
      "grad_norm": 22.956066131591797,
      "learning_rate": 8.79120879120879e-09,
      "loss": 0.2188,
      "step": 1284
    },
    {
      "epoch": 98.84615384615384,
      "grad_norm": 49.31511306762695,
      "learning_rate": 8.241758241758242e-09,
      "loss": 0.3022,
      "step": 1285
    },
    {
      "epoch": 98.92307692307692,
      "grad_norm": 26.442405700683594,
      "learning_rate": 7.692307692307693e-09,
      "loss": 0.1857,
      "step": 1286
    },
    {
      "epoch": 99.0,
      "grad_norm": 22.880329132080078,
      "learning_rate": 7.142857142857142e-09,
      "loss": 0.3814,
      "step": 1287
    },
    {
      "epoch": 99.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.3900836110115051,
      "eval_runtime": 1.1245,
      "eval_samples_per_second": 242.769,
      "eval_steps_per_second": 8.003,
      "step": 1287
    },
    {
      "epoch": 99.07692307692308,
      "grad_norm": 11.754619598388672,
      "learning_rate": 6.5934065934065934e-09,
      "loss": 0.2104,
      "step": 1288
    },
    {
      "epoch": 99.15384615384616,
      "grad_norm": 19.331464767456055,
      "learning_rate": 6.043956043956044e-09,
      "loss": 0.2838,
      "step": 1289
    },
    {
      "epoch": 99.23076923076923,
      "grad_norm": 15.60290813446045,
      "learning_rate": 5.494505494505495e-09,
      "loss": 0.2551,
      "step": 1290
    },
    {
      "epoch": 99.3076923076923,
      "grad_norm": 14.099854469299316,
      "learning_rate": 4.945054945054945e-09,
      "loss": 0.3664,
      "step": 1291
    },
    {
      "epoch": 99.38461538461539,
      "grad_norm": 9.416597366333008,
      "learning_rate": 4.395604395604395e-09,
      "loss": 0.314,
      "step": 1292
    },
    {
      "epoch": 99.46153846153847,
      "grad_norm": 29.465526580810547,
      "learning_rate": 3.846153846153846e-09,
      "loss": 0.2273,
      "step": 1293
    },
    {
      "epoch": 99.53846153846153,
      "grad_norm": 24.837528228759766,
      "learning_rate": 3.2967032967032967e-09,
      "loss": 0.1935,
      "step": 1294
    },
    {
      "epoch": 99.61538461538461,
      "grad_norm": 18.077030181884766,
      "learning_rate": 2.7472527472527475e-09,
      "loss": 0.2909,
      "step": 1295
    },
    {
      "epoch": 99.6923076923077,
      "grad_norm": 24.12546730041504,
      "learning_rate": 2.1978021978021975e-09,
      "loss": 0.3183,
      "step": 1296
    },
    {
      "epoch": 99.76923076923077,
      "grad_norm": 26.489192962646484,
      "learning_rate": 1.6483516483516484e-09,
      "loss": 0.3105,
      "step": 1297
    },
    {
      "epoch": 99.84615384615384,
      "grad_norm": 10.666546821594238,
      "learning_rate": 1.0989010989010988e-09,
      "loss": 0.2611,
      "step": 1298
    },
    {
      "epoch": 99.92307692307692,
      "grad_norm": 23.07980728149414,
      "learning_rate": 5.494505494505494e-10,
      "loss": 0.3844,
      "step": 1299
    },
    {
      "epoch": 100.0,
      "grad_norm": 23.712383270263672,
      "learning_rate": 0.0,
      "loss": 0.2861,
      "step": 1300
    },
    {
      "epoch": 100.0,
      "eval_accuracy": 0.8827838827838828,
      "eval_loss": 0.39009764790534973,
      "eval_runtime": 1.1678,
      "eval_samples_per_second": 233.78,
      "eval_steps_per_second": 7.707,
      "step": 1300
    },
    {
      "epoch": 100.0,
      "step": 1300,
      "total_flos": 1.594827033827328e+18,
      "train_loss": 0.37648636415027653,
      "train_runtime": 814.221,
      "train_samples_per_second": 100.096,
      "train_steps_per_second": 1.597
    }
  ],
  "logging_steps": 1,
  "max_steps": 1300,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.594827033827328e+18,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}