emirhanboge's picture
Upload folder using huggingface_hub
3cde0de verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 2.986666666666667,
"eval_steps": 500,
"global_step": 56000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.005333333333333333,
"grad_norm": 12.125,
"learning_rate": 1.777777777777778e-06,
"loss": 2.4276,
"step": 100
},
{
"epoch": 0.010666666666666666,
"grad_norm": 23.25,
"learning_rate": 3.555555555555556e-06,
"loss": 2.3687,
"step": 200
},
{
"epoch": 0.016,
"grad_norm": 26.625,
"learning_rate": 5.333333333333334e-06,
"loss": 2.181,
"step": 300
},
{
"epoch": 0.021333333333333333,
"grad_norm": 8.1875,
"learning_rate": 7.111111111111112e-06,
"loss": 2.1432,
"step": 400
},
{
"epoch": 0.02666666666666667,
"grad_norm": 18.75,
"learning_rate": 8.88888888888889e-06,
"loss": 2.1741,
"step": 500
},
{
"epoch": 0.032,
"grad_norm": 11.6875,
"learning_rate": 1.0666666666666667e-05,
"loss": 2.1112,
"step": 600
},
{
"epoch": 0.037333333333333336,
"grad_norm": 9.75,
"learning_rate": 1.2444444444444445e-05,
"loss": 2.0589,
"step": 700
},
{
"epoch": 0.042666666666666665,
"grad_norm": 16.25,
"learning_rate": 1.4222222222222224e-05,
"loss": 2.0632,
"step": 800
},
{
"epoch": 0.048,
"grad_norm": 13.3125,
"learning_rate": 1.6000000000000003e-05,
"loss": 2.0585,
"step": 900
},
{
"epoch": 0.05333333333333334,
"grad_norm": 6.40625,
"learning_rate": 1.777777777777778e-05,
"loss": 2.0095,
"step": 1000
},
{
"epoch": 0.058666666666666666,
"grad_norm": 7.625,
"learning_rate": 1.9555555555555557e-05,
"loss": 2.0589,
"step": 1100
},
{
"epoch": 0.064,
"grad_norm": 9.8125,
"learning_rate": 2.1333333333333335e-05,
"loss": 2.108,
"step": 1200
},
{
"epoch": 0.06933333333333333,
"grad_norm": 7.0,
"learning_rate": 2.3111111111111112e-05,
"loss": 2.101,
"step": 1300
},
{
"epoch": 0.07466666666666667,
"grad_norm": 11.9375,
"learning_rate": 2.488888888888889e-05,
"loss": 2.0621,
"step": 1400
},
{
"epoch": 0.08,
"grad_norm": 6.5,
"learning_rate": 2.6666666666666667e-05,
"loss": 2.0563,
"step": 1500
},
{
"epoch": 0.08533333333333333,
"grad_norm": 6.625,
"learning_rate": 2.8444444444444447e-05,
"loss": 2.0864,
"step": 1600
},
{
"epoch": 0.09066666666666667,
"grad_norm": 8.3125,
"learning_rate": 3.0222222222222225e-05,
"loss": 2.1109,
"step": 1700
},
{
"epoch": 0.096,
"grad_norm": 8.6875,
"learning_rate": 3.2000000000000005e-05,
"loss": 2.1095,
"step": 1800
},
{
"epoch": 0.10133333333333333,
"grad_norm": 9.125,
"learning_rate": 3.377777777777778e-05,
"loss": 2.0741,
"step": 1900
},
{
"epoch": 0.10666666666666667,
"grad_norm": 7.3125,
"learning_rate": 3.555555555555556e-05,
"loss": 2.1343,
"step": 2000
},
{
"epoch": 0.112,
"grad_norm": 11.375,
"learning_rate": 3.733333333333334e-05,
"loss": 2.1033,
"step": 2100
},
{
"epoch": 0.11733333333333333,
"grad_norm": 8.125,
"learning_rate": 3.9111111111111115e-05,
"loss": 2.1148,
"step": 2200
},
{
"epoch": 0.12266666666666666,
"grad_norm": 8.375,
"learning_rate": 4.088888888888889e-05,
"loss": 2.1165,
"step": 2300
},
{
"epoch": 0.128,
"grad_norm": 11.5625,
"learning_rate": 4.266666666666667e-05,
"loss": 2.0901,
"step": 2400
},
{
"epoch": 0.13333333333333333,
"grad_norm": 8.625,
"learning_rate": 4.4444444444444447e-05,
"loss": 2.148,
"step": 2500
},
{
"epoch": 0.13866666666666666,
"grad_norm": 7.3125,
"learning_rate": 4.6222222222222224e-05,
"loss": 2.0988,
"step": 2600
},
{
"epoch": 0.144,
"grad_norm": 7.84375,
"learning_rate": 4.8e-05,
"loss": 2.1642,
"step": 2700
},
{
"epoch": 0.14933333333333335,
"grad_norm": 11.625,
"learning_rate": 4.977777777777778e-05,
"loss": 2.1439,
"step": 2800
},
{
"epoch": 0.15466666666666667,
"grad_norm": 6.9375,
"learning_rate": 5.1555555555555556e-05,
"loss": 2.1544,
"step": 2900
},
{
"epoch": 0.16,
"grad_norm": 6.75,
"learning_rate": 5.333333333333333e-05,
"loss": 2.1989,
"step": 3000
},
{
"epoch": 0.16533333333333333,
"grad_norm": 14.5,
"learning_rate": 5.511111111111111e-05,
"loss": 2.1579,
"step": 3100
},
{
"epoch": 0.17066666666666666,
"grad_norm": 6.59375,
"learning_rate": 5.6888888888888895e-05,
"loss": 2.1803,
"step": 3200
},
{
"epoch": 0.176,
"grad_norm": 12.0625,
"learning_rate": 5.866666666666667e-05,
"loss": 2.1436,
"step": 3300
},
{
"epoch": 0.18133333333333335,
"grad_norm": 6.25,
"learning_rate": 6.044444444444445e-05,
"loss": 2.1903,
"step": 3400
},
{
"epoch": 0.18666666666666668,
"grad_norm": 7.09375,
"learning_rate": 6.222222222222222e-05,
"loss": 2.2214,
"step": 3500
},
{
"epoch": 0.192,
"grad_norm": 9.5,
"learning_rate": 6.400000000000001e-05,
"loss": 2.1987,
"step": 3600
},
{
"epoch": 0.19733333333333333,
"grad_norm": 12.1875,
"learning_rate": 6.577777777777779e-05,
"loss": 2.2713,
"step": 3700
},
{
"epoch": 0.20266666666666666,
"grad_norm": 8.125,
"learning_rate": 6.755555555555557e-05,
"loss": 2.2564,
"step": 3800
},
{
"epoch": 0.208,
"grad_norm": 11.1875,
"learning_rate": 6.933333333333334e-05,
"loss": 2.2224,
"step": 3900
},
{
"epoch": 0.21333333333333335,
"grad_norm": 13.375,
"learning_rate": 7.111111111111112e-05,
"loss": 2.2204,
"step": 4000
},
{
"epoch": 0.21866666666666668,
"grad_norm": 7.625,
"learning_rate": 7.28888888888889e-05,
"loss": 2.2343,
"step": 4100
},
{
"epoch": 0.224,
"grad_norm": 9.3125,
"learning_rate": 7.466666666666667e-05,
"loss": 2.2662,
"step": 4200
},
{
"epoch": 0.22933333333333333,
"grad_norm": 10.0,
"learning_rate": 7.644444444444445e-05,
"loss": 2.2438,
"step": 4300
},
{
"epoch": 0.23466666666666666,
"grad_norm": 5.78125,
"learning_rate": 7.822222222222223e-05,
"loss": 2.2702,
"step": 4400
},
{
"epoch": 0.24,
"grad_norm": 7.5625,
"learning_rate": 8e-05,
"loss": 2.2973,
"step": 4500
},
{
"epoch": 0.24533333333333332,
"grad_norm": 8.6875,
"learning_rate": 8.177777777777778e-05,
"loss": 2.2938,
"step": 4600
},
{
"epoch": 0.25066666666666665,
"grad_norm": 8.4375,
"learning_rate": 8.355555555555556e-05,
"loss": 2.3142,
"step": 4700
},
{
"epoch": 0.256,
"grad_norm": 7.0,
"learning_rate": 8.533333333333334e-05,
"loss": 2.3118,
"step": 4800
},
{
"epoch": 0.2613333333333333,
"grad_norm": 5.90625,
"learning_rate": 8.711111111111112e-05,
"loss": 2.3032,
"step": 4900
},
{
"epoch": 0.26666666666666666,
"grad_norm": 11.25,
"learning_rate": 8.888888888888889e-05,
"loss": 2.3436,
"step": 5000
},
{
"epoch": 0.272,
"grad_norm": 6.59375,
"learning_rate": 9.066666666666667e-05,
"loss": 2.3547,
"step": 5100
},
{
"epoch": 0.2773333333333333,
"grad_norm": 5.0625,
"learning_rate": 9.244444444444445e-05,
"loss": 2.3153,
"step": 5200
},
{
"epoch": 0.2826666666666667,
"grad_norm": 7.53125,
"learning_rate": 9.422222222222223e-05,
"loss": 2.2985,
"step": 5300
},
{
"epoch": 0.288,
"grad_norm": 5.625,
"learning_rate": 9.6e-05,
"loss": 2.4309,
"step": 5400
},
{
"epoch": 0.29333333333333333,
"grad_norm": 5.625,
"learning_rate": 9.777777777777778e-05,
"loss": 2.3583,
"step": 5500
},
{
"epoch": 0.2986666666666667,
"grad_norm": 7.34375,
"learning_rate": 9.955555555555556e-05,
"loss": 2.3224,
"step": 5600
},
{
"epoch": 0.304,
"grad_norm": 4.875,
"learning_rate": 9.985185185185185e-05,
"loss": 2.4143,
"step": 5700
},
{
"epoch": 0.30933333333333335,
"grad_norm": 8.6875,
"learning_rate": 9.965432098765432e-05,
"loss": 2.2883,
"step": 5800
},
{
"epoch": 0.31466666666666665,
"grad_norm": 6.5,
"learning_rate": 9.94567901234568e-05,
"loss": 2.3951,
"step": 5900
},
{
"epoch": 0.32,
"grad_norm": 7.59375,
"learning_rate": 9.925925925925926e-05,
"loss": 2.3833,
"step": 6000
},
{
"epoch": 0.3253333333333333,
"grad_norm": 6.78125,
"learning_rate": 9.906172839506173e-05,
"loss": 2.3717,
"step": 6100
},
{
"epoch": 0.33066666666666666,
"grad_norm": 8.75,
"learning_rate": 9.88641975308642e-05,
"loss": 2.3364,
"step": 6200
},
{
"epoch": 0.336,
"grad_norm": 10.0,
"learning_rate": 9.866666666666668e-05,
"loss": 2.3874,
"step": 6300
},
{
"epoch": 0.3413333333333333,
"grad_norm": 4.96875,
"learning_rate": 9.846913580246913e-05,
"loss": 2.3805,
"step": 6400
},
{
"epoch": 0.3466666666666667,
"grad_norm": 5.96875,
"learning_rate": 9.827160493827162e-05,
"loss": 2.418,
"step": 6500
},
{
"epoch": 0.352,
"grad_norm": 7.90625,
"learning_rate": 9.807407407407407e-05,
"loss": 2.3874,
"step": 6600
},
{
"epoch": 0.35733333333333334,
"grad_norm": 9.4375,
"learning_rate": 9.787654320987654e-05,
"loss": 2.3446,
"step": 6700
},
{
"epoch": 0.3626666666666667,
"grad_norm": 6.4375,
"learning_rate": 9.767901234567902e-05,
"loss": 2.3489,
"step": 6800
},
{
"epoch": 0.368,
"grad_norm": 9.3125,
"learning_rate": 9.748148148148149e-05,
"loss": 2.3538,
"step": 6900
},
{
"epoch": 0.37333333333333335,
"grad_norm": 7.0,
"learning_rate": 9.728395061728396e-05,
"loss": 2.3662,
"step": 7000
},
{
"epoch": 0.37866666666666665,
"grad_norm": 9.8125,
"learning_rate": 9.708641975308643e-05,
"loss": 2.3701,
"step": 7100
},
{
"epoch": 0.384,
"grad_norm": 6.46875,
"learning_rate": 9.68888888888889e-05,
"loss": 2.3644,
"step": 7200
},
{
"epoch": 0.3893333333333333,
"grad_norm": 5.9375,
"learning_rate": 9.669135802469136e-05,
"loss": 2.3989,
"step": 7300
},
{
"epoch": 0.39466666666666667,
"grad_norm": 6.0,
"learning_rate": 9.649382716049384e-05,
"loss": 2.353,
"step": 7400
},
{
"epoch": 0.4,
"grad_norm": 5.625,
"learning_rate": 9.62962962962963e-05,
"loss": 2.3273,
"step": 7500
},
{
"epoch": 0.4053333333333333,
"grad_norm": 7.21875,
"learning_rate": 9.609876543209877e-05,
"loss": 2.378,
"step": 7600
},
{
"epoch": 0.4106666666666667,
"grad_norm": 10.3125,
"learning_rate": 9.590123456790124e-05,
"loss": 2.3484,
"step": 7700
},
{
"epoch": 0.416,
"grad_norm": 7.90625,
"learning_rate": 9.570370370370371e-05,
"loss": 2.3315,
"step": 7800
},
{
"epoch": 0.42133333333333334,
"grad_norm": 5.65625,
"learning_rate": 9.550617283950618e-05,
"loss": 2.3279,
"step": 7900
},
{
"epoch": 0.4266666666666667,
"grad_norm": 7.28125,
"learning_rate": 9.530864197530865e-05,
"loss": 2.3943,
"step": 8000
},
{
"epoch": 0.432,
"grad_norm": 8.75,
"learning_rate": 9.511111111111112e-05,
"loss": 2.3285,
"step": 8100
},
{
"epoch": 0.43733333333333335,
"grad_norm": 8.0625,
"learning_rate": 9.491358024691358e-05,
"loss": 2.3089,
"step": 8200
},
{
"epoch": 0.44266666666666665,
"grad_norm": 8.9375,
"learning_rate": 9.471604938271605e-05,
"loss": 2.2575,
"step": 8300
},
{
"epoch": 0.448,
"grad_norm": 10.4375,
"learning_rate": 9.451851851851853e-05,
"loss": 2.2872,
"step": 8400
},
{
"epoch": 0.4533333333333333,
"grad_norm": 5.875,
"learning_rate": 9.432098765432099e-05,
"loss": 2.3486,
"step": 8500
},
{
"epoch": 0.45866666666666667,
"grad_norm": 10.5625,
"learning_rate": 9.412345679012346e-05,
"loss": 2.3712,
"step": 8600
},
{
"epoch": 0.464,
"grad_norm": 4.53125,
"learning_rate": 9.392592592592593e-05,
"loss": 2.3074,
"step": 8700
},
{
"epoch": 0.4693333333333333,
"grad_norm": 14.1875,
"learning_rate": 9.37283950617284e-05,
"loss": 2.2984,
"step": 8800
},
{
"epoch": 0.4746666666666667,
"grad_norm": 6.875,
"learning_rate": 9.353086419753086e-05,
"loss": 2.2932,
"step": 8900
},
{
"epoch": 0.48,
"grad_norm": 6.40625,
"learning_rate": 9.333333333333334e-05,
"loss": 2.2894,
"step": 9000
},
{
"epoch": 0.48533333333333334,
"grad_norm": 4.5625,
"learning_rate": 9.31358024691358e-05,
"loss": 2.261,
"step": 9100
},
{
"epoch": 0.49066666666666664,
"grad_norm": 5.71875,
"learning_rate": 9.293827160493827e-05,
"loss": 2.2841,
"step": 9200
},
{
"epoch": 0.496,
"grad_norm": 7.21875,
"learning_rate": 9.274074074074076e-05,
"loss": 2.3142,
"step": 9300
},
{
"epoch": 0.5013333333333333,
"grad_norm": 9.5,
"learning_rate": 9.254320987654321e-05,
"loss": 2.2716,
"step": 9400
},
{
"epoch": 0.5066666666666667,
"grad_norm": 11.75,
"learning_rate": 9.234567901234568e-05,
"loss": 2.3298,
"step": 9500
},
{
"epoch": 0.512,
"grad_norm": 4.71875,
"learning_rate": 9.214814814814815e-05,
"loss": 2.3203,
"step": 9600
},
{
"epoch": 0.5173333333333333,
"grad_norm": 7.34375,
"learning_rate": 9.195061728395062e-05,
"loss": 2.2616,
"step": 9700
},
{
"epoch": 0.5226666666666666,
"grad_norm": 8.3125,
"learning_rate": 9.175308641975308e-05,
"loss": 2.3006,
"step": 9800
},
{
"epoch": 0.528,
"grad_norm": 8.5625,
"learning_rate": 9.155555555555557e-05,
"loss": 2.2778,
"step": 9900
},
{
"epoch": 0.5333333333333333,
"grad_norm": 7.625,
"learning_rate": 9.135802469135802e-05,
"loss": 2.2826,
"step": 10000
},
{
"epoch": 0.5386666666666666,
"grad_norm": 6.25,
"learning_rate": 9.11604938271605e-05,
"loss": 2.3184,
"step": 10100
},
{
"epoch": 0.544,
"grad_norm": 5.96875,
"learning_rate": 9.096296296296298e-05,
"loss": 2.266,
"step": 10200
},
{
"epoch": 0.5493333333333333,
"grad_norm": 7.78125,
"learning_rate": 9.076543209876544e-05,
"loss": 2.2399,
"step": 10300
},
{
"epoch": 0.5546666666666666,
"grad_norm": 7.3125,
"learning_rate": 9.05679012345679e-05,
"loss": 2.2603,
"step": 10400
},
{
"epoch": 0.56,
"grad_norm": 6.46875,
"learning_rate": 9.037037037037038e-05,
"loss": 2.3063,
"step": 10500
},
{
"epoch": 0.5653333333333334,
"grad_norm": 7.375,
"learning_rate": 9.017283950617285e-05,
"loss": 2.2636,
"step": 10600
},
{
"epoch": 0.5706666666666667,
"grad_norm": 9.375,
"learning_rate": 8.99753086419753e-05,
"loss": 2.2504,
"step": 10700
},
{
"epoch": 0.576,
"grad_norm": 6.21875,
"learning_rate": 8.977777777777779e-05,
"loss": 2.2907,
"step": 10800
},
{
"epoch": 0.5813333333333334,
"grad_norm": 5.6875,
"learning_rate": 8.958024691358025e-05,
"loss": 2.2517,
"step": 10900
},
{
"epoch": 0.5866666666666667,
"grad_norm": 4.875,
"learning_rate": 8.938271604938272e-05,
"loss": 2.2441,
"step": 11000
},
{
"epoch": 0.592,
"grad_norm": 7.0625,
"learning_rate": 8.918518518518519e-05,
"loss": 2.2398,
"step": 11100
},
{
"epoch": 0.5973333333333334,
"grad_norm": 7.34375,
"learning_rate": 8.898765432098766e-05,
"loss": 2.233,
"step": 11200
},
{
"epoch": 0.6026666666666667,
"grad_norm": 8.1875,
"learning_rate": 8.879012345679013e-05,
"loss": 2.2189,
"step": 11300
},
{
"epoch": 0.608,
"grad_norm": 3.765625,
"learning_rate": 8.85925925925926e-05,
"loss": 2.2437,
"step": 11400
},
{
"epoch": 0.6133333333333333,
"grad_norm": 7.5,
"learning_rate": 8.839506172839507e-05,
"loss": 2.2625,
"step": 11500
},
{
"epoch": 0.6186666666666667,
"grad_norm": 6.03125,
"learning_rate": 8.819753086419753e-05,
"loss": 2.2111,
"step": 11600
},
{
"epoch": 0.624,
"grad_norm": 6.84375,
"learning_rate": 8.800000000000001e-05,
"loss": 2.1595,
"step": 11700
},
{
"epoch": 0.6293333333333333,
"grad_norm": 5.53125,
"learning_rate": 8.780246913580248e-05,
"loss": 2.195,
"step": 11800
},
{
"epoch": 0.6346666666666667,
"grad_norm": 6.8125,
"learning_rate": 8.760493827160494e-05,
"loss": 2.2475,
"step": 11900
},
{
"epoch": 0.64,
"grad_norm": 5.8125,
"learning_rate": 8.740740740740741e-05,
"loss": 2.2127,
"step": 12000
},
{
"epoch": 0.6453333333333333,
"grad_norm": 6.53125,
"learning_rate": 8.720987654320988e-05,
"loss": 2.252,
"step": 12100
},
{
"epoch": 0.6506666666666666,
"grad_norm": 12.8125,
"learning_rate": 8.701234567901235e-05,
"loss": 2.2172,
"step": 12200
},
{
"epoch": 0.656,
"grad_norm": 7.40625,
"learning_rate": 8.681481481481482e-05,
"loss": 2.2443,
"step": 12300
},
{
"epoch": 0.6613333333333333,
"grad_norm": 4.65625,
"learning_rate": 8.661728395061729e-05,
"loss": 2.2779,
"step": 12400
},
{
"epoch": 0.6666666666666666,
"grad_norm": 6.34375,
"learning_rate": 8.641975308641975e-05,
"loss": 2.2281,
"step": 12500
},
{
"epoch": 0.672,
"grad_norm": 5.40625,
"learning_rate": 8.622222222222222e-05,
"loss": 2.2017,
"step": 12600
},
{
"epoch": 0.6773333333333333,
"grad_norm": 7.53125,
"learning_rate": 8.60246913580247e-05,
"loss": 2.2047,
"step": 12700
},
{
"epoch": 0.6826666666666666,
"grad_norm": 6.0625,
"learning_rate": 8.582716049382716e-05,
"loss": 2.1622,
"step": 12800
},
{
"epoch": 0.688,
"grad_norm": 6.3125,
"learning_rate": 8.562962962962963e-05,
"loss": 2.2128,
"step": 12900
},
{
"epoch": 0.6933333333333334,
"grad_norm": 7.71875,
"learning_rate": 8.54320987654321e-05,
"loss": 2.1793,
"step": 13000
},
{
"epoch": 0.6986666666666667,
"grad_norm": 5.96875,
"learning_rate": 8.523456790123457e-05,
"loss": 2.2025,
"step": 13100
},
{
"epoch": 0.704,
"grad_norm": 4.625,
"learning_rate": 8.503703703703703e-05,
"loss": 2.1922,
"step": 13200
},
{
"epoch": 0.7093333333333334,
"grad_norm": 7.0,
"learning_rate": 8.483950617283952e-05,
"loss": 2.1859,
"step": 13300
},
{
"epoch": 0.7146666666666667,
"grad_norm": 11.875,
"learning_rate": 8.464197530864197e-05,
"loss": 2.2153,
"step": 13400
},
{
"epoch": 0.72,
"grad_norm": 5.90625,
"learning_rate": 8.444444444444444e-05,
"loss": 2.245,
"step": 13500
},
{
"epoch": 0.7253333333333334,
"grad_norm": 4.78125,
"learning_rate": 8.424691358024693e-05,
"loss": 2.1703,
"step": 13600
},
{
"epoch": 0.7306666666666667,
"grad_norm": 5.84375,
"learning_rate": 8.404938271604938e-05,
"loss": 2.2208,
"step": 13700
},
{
"epoch": 0.736,
"grad_norm": 8.4375,
"learning_rate": 8.385185185185186e-05,
"loss": 2.0853,
"step": 13800
},
{
"epoch": 0.7413333333333333,
"grad_norm": 5.4375,
"learning_rate": 8.365432098765433e-05,
"loss": 2.2348,
"step": 13900
},
{
"epoch": 0.7466666666666667,
"grad_norm": 4.1875,
"learning_rate": 8.34567901234568e-05,
"loss": 2.1849,
"step": 14000
},
{
"epoch": 0.752,
"grad_norm": 6.65625,
"learning_rate": 8.325925925925925e-05,
"loss": 2.118,
"step": 14100
},
{
"epoch": 0.7573333333333333,
"grad_norm": 6.5625,
"learning_rate": 8.306172839506174e-05,
"loss": 2.1696,
"step": 14200
},
{
"epoch": 0.7626666666666667,
"grad_norm": 8.5625,
"learning_rate": 8.28641975308642e-05,
"loss": 2.1653,
"step": 14300
},
{
"epoch": 0.768,
"grad_norm": 7.53125,
"learning_rate": 8.266666666666667e-05,
"loss": 2.1604,
"step": 14400
},
{
"epoch": 0.7733333333333333,
"grad_norm": 9.375,
"learning_rate": 8.246913580246915e-05,
"loss": 2.2172,
"step": 14500
},
{
"epoch": 0.7786666666666666,
"grad_norm": 5.5625,
"learning_rate": 8.227160493827161e-05,
"loss": 2.1547,
"step": 14600
},
{
"epoch": 0.784,
"grad_norm": 9.5625,
"learning_rate": 8.207407407407408e-05,
"loss": 2.1884,
"step": 14700
},
{
"epoch": 0.7893333333333333,
"grad_norm": 9.5,
"learning_rate": 8.187654320987655e-05,
"loss": 2.1089,
"step": 14800
},
{
"epoch": 0.7946666666666666,
"grad_norm": 6.25,
"learning_rate": 8.167901234567902e-05,
"loss": 2.137,
"step": 14900
},
{
"epoch": 0.8,
"grad_norm": 9.0,
"learning_rate": 8.148148148148148e-05,
"loss": 2.107,
"step": 15000
},
{
"epoch": 0.8053333333333333,
"grad_norm": 10.4375,
"learning_rate": 8.128395061728396e-05,
"loss": 2.2031,
"step": 15100
},
{
"epoch": 0.8106666666666666,
"grad_norm": 9.5,
"learning_rate": 8.108641975308643e-05,
"loss": 2.1229,
"step": 15200
},
{
"epoch": 0.816,
"grad_norm": 8.0625,
"learning_rate": 8.088888888888889e-05,
"loss": 2.2447,
"step": 15300
},
{
"epoch": 0.8213333333333334,
"grad_norm": 5.25,
"learning_rate": 8.069135802469136e-05,
"loss": 2.1696,
"step": 15400
},
{
"epoch": 0.8266666666666667,
"grad_norm": 5.8125,
"learning_rate": 8.049382716049383e-05,
"loss": 2.1187,
"step": 15500
},
{
"epoch": 0.832,
"grad_norm": 6.59375,
"learning_rate": 8.02962962962963e-05,
"loss": 2.1284,
"step": 15600
},
{
"epoch": 0.8373333333333334,
"grad_norm": 8.875,
"learning_rate": 8.009876543209877e-05,
"loss": 2.0855,
"step": 15700
},
{
"epoch": 0.8426666666666667,
"grad_norm": 8.8125,
"learning_rate": 7.990123456790124e-05,
"loss": 2.1295,
"step": 15800
},
{
"epoch": 0.848,
"grad_norm": 6.5,
"learning_rate": 7.97037037037037e-05,
"loss": 2.1085,
"step": 15900
},
{
"epoch": 0.8533333333333334,
"grad_norm": 6.8125,
"learning_rate": 7.950617283950618e-05,
"loss": 2.1066,
"step": 16000
},
{
"epoch": 0.8586666666666667,
"grad_norm": 12.0,
"learning_rate": 7.930864197530865e-05,
"loss": 2.1632,
"step": 16100
},
{
"epoch": 0.864,
"grad_norm": 6.6875,
"learning_rate": 7.911111111111111e-05,
"loss": 2.1311,
"step": 16200
},
{
"epoch": 0.8693333333333333,
"grad_norm": 5.875,
"learning_rate": 7.891358024691358e-05,
"loss": 2.09,
"step": 16300
},
{
"epoch": 0.8746666666666667,
"grad_norm": 6.5625,
"learning_rate": 7.871604938271605e-05,
"loss": 2.1668,
"step": 16400
},
{
"epoch": 0.88,
"grad_norm": 7.90625,
"learning_rate": 7.851851851851852e-05,
"loss": 2.086,
"step": 16500
},
{
"epoch": 0.8853333333333333,
"grad_norm": 6.0625,
"learning_rate": 7.8320987654321e-05,
"loss": 2.1314,
"step": 16600
},
{
"epoch": 0.8906666666666667,
"grad_norm": 8.8125,
"learning_rate": 7.812345679012346e-05,
"loss": 2.1197,
"step": 16700
},
{
"epoch": 0.896,
"grad_norm": 8.0625,
"learning_rate": 7.792592592592592e-05,
"loss": 2.1947,
"step": 16800
},
{
"epoch": 0.9013333333333333,
"grad_norm": 5.25,
"learning_rate": 7.772839506172839e-05,
"loss": 2.1226,
"step": 16900
},
{
"epoch": 0.9066666666666666,
"grad_norm": 6.90625,
"learning_rate": 7.753086419753088e-05,
"loss": 2.1252,
"step": 17000
},
{
"epoch": 0.912,
"grad_norm": 5.46875,
"learning_rate": 7.733333333333333e-05,
"loss": 2.1168,
"step": 17100
},
{
"epoch": 0.9173333333333333,
"grad_norm": 6.65625,
"learning_rate": 7.71358024691358e-05,
"loss": 2.0991,
"step": 17200
},
{
"epoch": 0.9226666666666666,
"grad_norm": 5.0625,
"learning_rate": 7.693827160493828e-05,
"loss": 2.1109,
"step": 17300
},
{
"epoch": 0.928,
"grad_norm": 5.53125,
"learning_rate": 7.674074074074075e-05,
"loss": 2.1673,
"step": 17400
},
{
"epoch": 0.9333333333333333,
"grad_norm": 6.78125,
"learning_rate": 7.65432098765432e-05,
"loss": 2.1156,
"step": 17500
},
{
"epoch": 0.9386666666666666,
"grad_norm": 8.5,
"learning_rate": 7.634567901234569e-05,
"loss": 2.0908,
"step": 17600
},
{
"epoch": 0.944,
"grad_norm": 5.03125,
"learning_rate": 7.614814814814816e-05,
"loss": 2.11,
"step": 17700
},
{
"epoch": 0.9493333333333334,
"grad_norm": 7.90625,
"learning_rate": 7.595061728395062e-05,
"loss": 2.0758,
"step": 17800
},
{
"epoch": 0.9546666666666667,
"grad_norm": 6.3125,
"learning_rate": 7.57530864197531e-05,
"loss": 2.0879,
"step": 17900
},
{
"epoch": 0.96,
"grad_norm": 8.1875,
"learning_rate": 7.555555555555556e-05,
"loss": 2.1096,
"step": 18000
},
{
"epoch": 0.9653333333333334,
"grad_norm": 6.46875,
"learning_rate": 7.535802469135803e-05,
"loss": 2.0644,
"step": 18100
},
{
"epoch": 0.9706666666666667,
"grad_norm": 11.75,
"learning_rate": 7.51604938271605e-05,
"loss": 2.0952,
"step": 18200
},
{
"epoch": 0.976,
"grad_norm": 4.25,
"learning_rate": 7.496296296296297e-05,
"loss": 2.1121,
"step": 18300
},
{
"epoch": 0.9813333333333333,
"grad_norm": 5.8125,
"learning_rate": 7.476543209876543e-05,
"loss": 2.0889,
"step": 18400
},
{
"epoch": 0.9866666666666667,
"grad_norm": 5.53125,
"learning_rate": 7.456790123456791e-05,
"loss": 2.0975,
"step": 18500
},
{
"epoch": 0.992,
"grad_norm": 8.6875,
"learning_rate": 7.437037037037038e-05,
"loss": 2.1112,
"step": 18600
},
{
"epoch": 0.9973333333333333,
"grad_norm": 6.375,
"learning_rate": 7.417283950617284e-05,
"loss": 2.1031,
"step": 18700
},
{
"epoch": 1.0026666666666666,
"grad_norm": 5.78125,
"learning_rate": 7.397530864197532e-05,
"loss": 1.9096,
"step": 18800
},
{
"epoch": 1.008,
"grad_norm": 9.0625,
"learning_rate": 7.377777777777778e-05,
"loss": 1.6546,
"step": 18900
},
{
"epoch": 1.0133333333333334,
"grad_norm": 8.25,
"learning_rate": 7.358024691358025e-05,
"loss": 1.734,
"step": 19000
},
{
"epoch": 1.0186666666666666,
"grad_norm": 6.28125,
"learning_rate": 7.338271604938272e-05,
"loss": 1.6961,
"step": 19100
},
{
"epoch": 1.024,
"grad_norm": 6.5625,
"learning_rate": 7.318518518518519e-05,
"loss": 1.647,
"step": 19200
},
{
"epoch": 1.0293333333333334,
"grad_norm": 6.9375,
"learning_rate": 7.298765432098765e-05,
"loss": 1.678,
"step": 19300
},
{
"epoch": 1.0346666666666666,
"grad_norm": 6.09375,
"learning_rate": 7.279012345679013e-05,
"loss": 1.6691,
"step": 19400
},
{
"epoch": 1.04,
"grad_norm": 7.9375,
"learning_rate": 7.25925925925926e-05,
"loss": 1.7127,
"step": 19500
},
{
"epoch": 1.0453333333333332,
"grad_norm": 8.1875,
"learning_rate": 7.239506172839506e-05,
"loss": 1.6539,
"step": 19600
},
{
"epoch": 1.0506666666666666,
"grad_norm": 4.09375,
"learning_rate": 7.219753086419753e-05,
"loss": 1.6652,
"step": 19700
},
{
"epoch": 1.056,
"grad_norm": 4.84375,
"learning_rate": 7.2e-05,
"loss": 1.7378,
"step": 19800
},
{
"epoch": 1.0613333333333332,
"grad_norm": 7.53125,
"learning_rate": 7.180246913580247e-05,
"loss": 1.6836,
"step": 19900
},
{
"epoch": 1.0666666666666667,
"grad_norm": 7.21875,
"learning_rate": 7.160493827160494e-05,
"loss": 1.7519,
"step": 20000
},
{
"epoch": 1.072,
"grad_norm": 7.28125,
"learning_rate": 7.140740740740741e-05,
"loss": 1.6667,
"step": 20100
},
{
"epoch": 1.0773333333333333,
"grad_norm": 11.0625,
"learning_rate": 7.120987654320987e-05,
"loss": 1.6718,
"step": 20200
},
{
"epoch": 1.0826666666666667,
"grad_norm": 6.90625,
"learning_rate": 7.101234567901236e-05,
"loss": 1.7361,
"step": 20300
},
{
"epoch": 1.088,
"grad_norm": 7.34375,
"learning_rate": 7.081481481481483e-05,
"loss": 1.6885,
"step": 20400
},
{
"epoch": 1.0933333333333333,
"grad_norm": 9.5,
"learning_rate": 7.061728395061728e-05,
"loss": 1.7336,
"step": 20500
},
{
"epoch": 1.0986666666666667,
"grad_norm": 9.6875,
"learning_rate": 7.041975308641975e-05,
"loss": 1.6883,
"step": 20600
},
{
"epoch": 1.104,
"grad_norm": 8.8125,
"learning_rate": 7.022222222222222e-05,
"loss": 1.6396,
"step": 20700
},
{
"epoch": 1.1093333333333333,
"grad_norm": 6.21875,
"learning_rate": 7.00246913580247e-05,
"loss": 1.6886,
"step": 20800
},
{
"epoch": 1.1146666666666667,
"grad_norm": 13.625,
"learning_rate": 6.982716049382717e-05,
"loss": 1.6706,
"step": 20900
},
{
"epoch": 1.12,
"grad_norm": 4.53125,
"learning_rate": 6.962962962962964e-05,
"loss": 1.6766,
"step": 21000
},
{
"epoch": 1.1253333333333333,
"grad_norm": 7.46875,
"learning_rate": 6.943209876543211e-05,
"loss": 1.6789,
"step": 21100
},
{
"epoch": 1.1306666666666667,
"grad_norm": 6.1875,
"learning_rate": 6.923456790123456e-05,
"loss": 1.7217,
"step": 21200
},
{
"epoch": 1.1360000000000001,
"grad_norm": 9.75,
"learning_rate": 6.903703703703705e-05,
"loss": 1.6726,
"step": 21300
},
{
"epoch": 1.1413333333333333,
"grad_norm": 8.5625,
"learning_rate": 6.88395061728395e-05,
"loss": 1.7288,
"step": 21400
},
{
"epoch": 1.1466666666666667,
"grad_norm": 7.03125,
"learning_rate": 6.864197530864198e-05,
"loss": 1.6323,
"step": 21500
},
{
"epoch": 1.152,
"grad_norm": 11.8125,
"learning_rate": 6.844444444444445e-05,
"loss": 1.7222,
"step": 21600
},
{
"epoch": 1.1573333333333333,
"grad_norm": 5.28125,
"learning_rate": 6.824691358024692e-05,
"loss": 1.6429,
"step": 21700
},
{
"epoch": 1.1626666666666667,
"grad_norm": 6.5625,
"learning_rate": 6.804938271604938e-05,
"loss": 1.6679,
"step": 21800
},
{
"epoch": 1.168,
"grad_norm": 7.75,
"learning_rate": 6.785185185185186e-05,
"loss": 1.6387,
"step": 21900
},
{
"epoch": 1.1733333333333333,
"grad_norm": 7.0625,
"learning_rate": 6.765432098765433e-05,
"loss": 1.6457,
"step": 22000
},
{
"epoch": 1.1786666666666668,
"grad_norm": 6.59375,
"learning_rate": 6.745679012345679e-05,
"loss": 1.7333,
"step": 22100
},
{
"epoch": 1.184,
"grad_norm": 4.71875,
"learning_rate": 6.725925925925927e-05,
"loss": 1.7307,
"step": 22200
},
{
"epoch": 1.1893333333333334,
"grad_norm": 6.71875,
"learning_rate": 6.706172839506173e-05,
"loss": 1.7475,
"step": 22300
},
{
"epoch": 1.1946666666666665,
"grad_norm": 5.46875,
"learning_rate": 6.68641975308642e-05,
"loss": 1.6626,
"step": 22400
},
{
"epoch": 1.2,
"grad_norm": 5.71875,
"learning_rate": 6.666666666666667e-05,
"loss": 1.6603,
"step": 22500
},
{
"epoch": 1.2053333333333334,
"grad_norm": 5.90625,
"learning_rate": 6.646913580246914e-05,
"loss": 1.7291,
"step": 22600
},
{
"epoch": 1.2106666666666666,
"grad_norm": 7.40625,
"learning_rate": 6.62716049382716e-05,
"loss": 1.7231,
"step": 22700
},
{
"epoch": 1.216,
"grad_norm": 4.8125,
"learning_rate": 6.607407407407408e-05,
"loss": 1.6072,
"step": 22800
},
{
"epoch": 1.2213333333333334,
"grad_norm": 10.5,
"learning_rate": 6.587654320987655e-05,
"loss": 1.7127,
"step": 22900
},
{
"epoch": 1.2266666666666666,
"grad_norm": 5.71875,
"learning_rate": 6.567901234567901e-05,
"loss": 1.7209,
"step": 23000
},
{
"epoch": 1.232,
"grad_norm": 6.0,
"learning_rate": 6.54814814814815e-05,
"loss": 1.7039,
"step": 23100
},
{
"epoch": 1.2373333333333334,
"grad_norm": 10.3125,
"learning_rate": 6.528395061728395e-05,
"loss": 1.7275,
"step": 23200
},
{
"epoch": 1.2426666666666666,
"grad_norm": 5.5625,
"learning_rate": 6.508641975308642e-05,
"loss": 1.7337,
"step": 23300
},
{
"epoch": 1.248,
"grad_norm": 5.90625,
"learning_rate": 6.488888888888889e-05,
"loss": 1.6821,
"step": 23400
},
{
"epoch": 1.2533333333333334,
"grad_norm": 5.875,
"learning_rate": 6.469135802469136e-05,
"loss": 1.7188,
"step": 23500
},
{
"epoch": 1.2586666666666666,
"grad_norm": 5.84375,
"learning_rate": 6.449382716049382e-05,
"loss": 1.7119,
"step": 23600
},
{
"epoch": 1.264,
"grad_norm": 8.125,
"learning_rate": 6.42962962962963e-05,
"loss": 1.6742,
"step": 23700
},
{
"epoch": 1.2693333333333334,
"grad_norm": 4.96875,
"learning_rate": 6.409876543209878e-05,
"loss": 1.6378,
"step": 23800
},
{
"epoch": 1.2746666666666666,
"grad_norm": 5.40625,
"learning_rate": 6.390123456790123e-05,
"loss": 1.6826,
"step": 23900
},
{
"epoch": 1.28,
"grad_norm": 5.96875,
"learning_rate": 6.37037037037037e-05,
"loss": 1.712,
"step": 24000
},
{
"epoch": 1.2853333333333334,
"grad_norm": 6.3125,
"learning_rate": 6.350617283950617e-05,
"loss": 1.7673,
"step": 24100
},
{
"epoch": 1.2906666666666666,
"grad_norm": 5.375,
"learning_rate": 6.330864197530864e-05,
"loss": 1.5944,
"step": 24200
},
{
"epoch": 1.296,
"grad_norm": 8.0,
"learning_rate": 6.311111111111112e-05,
"loss": 1.7515,
"step": 24300
},
{
"epoch": 1.3013333333333335,
"grad_norm": 5.53125,
"learning_rate": 6.291358024691359e-05,
"loss": 1.739,
"step": 24400
},
{
"epoch": 1.3066666666666666,
"grad_norm": 4.6875,
"learning_rate": 6.271604938271606e-05,
"loss": 1.744,
"step": 24500
},
{
"epoch": 1.312,
"grad_norm": 11.9375,
"learning_rate": 6.251851851851853e-05,
"loss": 1.6566,
"step": 24600
},
{
"epoch": 1.3173333333333335,
"grad_norm": 11.4375,
"learning_rate": 6.2320987654321e-05,
"loss": 1.6289,
"step": 24700
},
{
"epoch": 1.3226666666666667,
"grad_norm": 11.1875,
"learning_rate": 6.212345679012346e-05,
"loss": 1.686,
"step": 24800
},
{
"epoch": 1.328,
"grad_norm": 6.21875,
"learning_rate": 6.192592592592593e-05,
"loss": 1.66,
"step": 24900
},
{
"epoch": 1.3333333333333333,
"grad_norm": 5.5,
"learning_rate": 6.17283950617284e-05,
"loss": 1.6724,
"step": 25000
},
{
"epoch": 1.3386666666666667,
"grad_norm": 6.46875,
"learning_rate": 6.153086419753087e-05,
"loss": 1.7236,
"step": 25100
},
{
"epoch": 1.3439999999999999,
"grad_norm": 6.6875,
"learning_rate": 6.133333333333334e-05,
"loss": 1.6676,
"step": 25200
},
{
"epoch": 1.3493333333333333,
"grad_norm": 6.84375,
"learning_rate": 6.113580246913581e-05,
"loss": 1.6966,
"step": 25300
},
{
"epoch": 1.3546666666666667,
"grad_norm": 6.09375,
"learning_rate": 6.093827160493828e-05,
"loss": 1.6573,
"step": 25400
},
{
"epoch": 1.3599999999999999,
"grad_norm": 6.53125,
"learning_rate": 6.074074074074074e-05,
"loss": 1.7067,
"step": 25500
},
{
"epoch": 1.3653333333333333,
"grad_norm": 5.0,
"learning_rate": 6.0543209876543214e-05,
"loss": 1.6531,
"step": 25600
},
{
"epoch": 1.3706666666666667,
"grad_norm": 4.3125,
"learning_rate": 6.034567901234568e-05,
"loss": 1.6951,
"step": 25700
},
{
"epoch": 1.376,
"grad_norm": 6.84375,
"learning_rate": 6.0148148148148155e-05,
"loss": 1.6101,
"step": 25800
},
{
"epoch": 1.3813333333333333,
"grad_norm": 5.8125,
"learning_rate": 5.995061728395062e-05,
"loss": 1.7114,
"step": 25900
},
{
"epoch": 1.3866666666666667,
"grad_norm": 6.375,
"learning_rate": 5.975308641975309e-05,
"loss": 1.6413,
"step": 26000
},
{
"epoch": 1.392,
"grad_norm": 5.5,
"learning_rate": 5.9555555555555554e-05,
"loss": 1.6189,
"step": 26100
},
{
"epoch": 1.3973333333333333,
"grad_norm": 6.28125,
"learning_rate": 5.9358024691358024e-05,
"loss": 1.6949,
"step": 26200
},
{
"epoch": 1.4026666666666667,
"grad_norm": 5.25,
"learning_rate": 5.91604938271605e-05,
"loss": 1.6616,
"step": 26300
},
{
"epoch": 1.408,
"grad_norm": 8.625,
"learning_rate": 5.8962962962962966e-05,
"loss": 1.6484,
"step": 26400
},
{
"epoch": 1.4133333333333333,
"grad_norm": 4.96875,
"learning_rate": 5.8765432098765437e-05,
"loss": 1.599,
"step": 26500
},
{
"epoch": 1.4186666666666667,
"grad_norm": 4.40625,
"learning_rate": 5.85679012345679e-05,
"loss": 1.6366,
"step": 26600
},
{
"epoch": 1.424,
"grad_norm": 9.8125,
"learning_rate": 5.837037037037038e-05,
"loss": 1.7065,
"step": 26700
},
{
"epoch": 1.4293333333333333,
"grad_norm": 5.46875,
"learning_rate": 5.8172839506172835e-05,
"loss": 1.6841,
"step": 26800
},
{
"epoch": 1.4346666666666668,
"grad_norm": 4.9375,
"learning_rate": 5.797530864197531e-05,
"loss": 1.66,
"step": 26900
},
{
"epoch": 1.44,
"grad_norm": 5.375,
"learning_rate": 5.7777777777777776e-05,
"loss": 1.6645,
"step": 27000
},
{
"epoch": 1.4453333333333334,
"grad_norm": 5.875,
"learning_rate": 5.758024691358025e-05,
"loss": 1.6354,
"step": 27100
},
{
"epoch": 1.4506666666666668,
"grad_norm": 6.90625,
"learning_rate": 5.7382716049382725e-05,
"loss": 1.626,
"step": 27200
},
{
"epoch": 1.456,
"grad_norm": 6.5,
"learning_rate": 5.718518518518519e-05,
"loss": 1.6265,
"step": 27300
},
{
"epoch": 1.4613333333333334,
"grad_norm": 9.25,
"learning_rate": 5.698765432098766e-05,
"loss": 1.6879,
"step": 27400
},
{
"epoch": 1.4666666666666668,
"grad_norm": 6.1875,
"learning_rate": 5.679012345679012e-05,
"loss": 1.6756,
"step": 27500
},
{
"epoch": 1.472,
"grad_norm": 6.0625,
"learning_rate": 5.6592592592592594e-05,
"loss": 1.748,
"step": 27600
},
{
"epoch": 1.4773333333333334,
"grad_norm": 7.1875,
"learning_rate": 5.639506172839506e-05,
"loss": 1.668,
"step": 27700
},
{
"epoch": 1.4826666666666668,
"grad_norm": 11.375,
"learning_rate": 5.6197530864197535e-05,
"loss": 1.6842,
"step": 27800
},
{
"epoch": 1.488,
"grad_norm": 5.125,
"learning_rate": 5.6000000000000006e-05,
"loss": 1.7157,
"step": 27900
},
{
"epoch": 1.4933333333333334,
"grad_norm": 5.5,
"learning_rate": 5.580246913580247e-05,
"loss": 1.6674,
"step": 28000
},
{
"epoch": 1.4986666666666666,
"grad_norm": 5.6875,
"learning_rate": 5.560493827160495e-05,
"loss": 1.6131,
"step": 28100
},
{
"epoch": 1.504,
"grad_norm": 4.5,
"learning_rate": 5.540740740740741e-05,
"loss": 1.7084,
"step": 28200
},
{
"epoch": 1.5093333333333332,
"grad_norm": 5.15625,
"learning_rate": 5.520987654320988e-05,
"loss": 1.5791,
"step": 28300
},
{
"epoch": 1.5146666666666668,
"grad_norm": 6.96875,
"learning_rate": 5.5012345679012346e-05,
"loss": 1.5846,
"step": 28400
},
{
"epoch": 1.52,
"grad_norm": 11.875,
"learning_rate": 5.4814814814814817e-05,
"loss": 1.6353,
"step": 28500
},
{
"epoch": 1.5253333333333332,
"grad_norm": 8.3125,
"learning_rate": 5.461728395061728e-05,
"loss": 1.6686,
"step": 28600
},
{
"epoch": 1.5306666666666666,
"grad_norm": 13.6875,
"learning_rate": 5.441975308641976e-05,
"loss": 1.6609,
"step": 28700
},
{
"epoch": 1.536,
"grad_norm": 7.6875,
"learning_rate": 5.422222222222223e-05,
"loss": 1.6264,
"step": 28800
},
{
"epoch": 1.5413333333333332,
"grad_norm": 8.125,
"learning_rate": 5.402469135802469e-05,
"loss": 1.6539,
"step": 28900
},
{
"epoch": 1.5466666666666666,
"grad_norm": 7.4375,
"learning_rate": 5.382716049382717e-05,
"loss": 1.6946,
"step": 29000
},
{
"epoch": 1.552,
"grad_norm": 7.09375,
"learning_rate": 5.362962962962963e-05,
"loss": 1.6258,
"step": 29100
},
{
"epoch": 1.5573333333333332,
"grad_norm": 4.53125,
"learning_rate": 5.3432098765432105e-05,
"loss": 1.6388,
"step": 29200
},
{
"epoch": 1.5626666666666666,
"grad_norm": 5.4375,
"learning_rate": 5.323456790123457e-05,
"loss": 1.6131,
"step": 29300
},
{
"epoch": 1.568,
"grad_norm": 7.15625,
"learning_rate": 5.303703703703704e-05,
"loss": 1.5935,
"step": 29400
},
{
"epoch": 1.5733333333333333,
"grad_norm": 9.8125,
"learning_rate": 5.28395061728395e-05,
"loss": 1.6357,
"step": 29500
},
{
"epoch": 1.5786666666666667,
"grad_norm": 6.625,
"learning_rate": 5.264197530864198e-05,
"loss": 1.6733,
"step": 29600
},
{
"epoch": 1.584,
"grad_norm": 5.0,
"learning_rate": 5.244444444444445e-05,
"loss": 1.7063,
"step": 29700
},
{
"epoch": 1.5893333333333333,
"grad_norm": 6.625,
"learning_rate": 5.2246913580246915e-05,
"loss": 1.6056,
"step": 29800
},
{
"epoch": 1.5946666666666667,
"grad_norm": 6.90625,
"learning_rate": 5.2049382716049386e-05,
"loss": 1.6357,
"step": 29900
},
{
"epoch": 1.6,
"grad_norm": 7.5,
"learning_rate": 5.185185185185185e-05,
"loss": 1.6332,
"step": 30000
},
{
"epoch": 1.6053333333333333,
"grad_norm": 7.84375,
"learning_rate": 5.165432098765433e-05,
"loss": 1.6458,
"step": 30100
},
{
"epoch": 1.6106666666666667,
"grad_norm": 15.375,
"learning_rate": 5.145679012345679e-05,
"loss": 1.5787,
"step": 30200
},
{
"epoch": 1.616,
"grad_norm": 8.5625,
"learning_rate": 5.125925925925926e-05,
"loss": 1.6441,
"step": 30300
},
{
"epoch": 1.6213333333333333,
"grad_norm": 5.9375,
"learning_rate": 5.1061728395061726e-05,
"loss": 1.6211,
"step": 30400
},
{
"epoch": 1.6266666666666667,
"grad_norm": 6.09375,
"learning_rate": 5.0864197530864197e-05,
"loss": 1.6304,
"step": 30500
},
{
"epoch": 1.6320000000000001,
"grad_norm": 5.40625,
"learning_rate": 5.0666666666666674e-05,
"loss": 1.6111,
"step": 30600
},
{
"epoch": 1.6373333333333333,
"grad_norm": 7.625,
"learning_rate": 5.046913580246914e-05,
"loss": 1.6387,
"step": 30700
},
{
"epoch": 1.6426666666666667,
"grad_norm": 4.875,
"learning_rate": 5.027160493827161e-05,
"loss": 1.6418,
"step": 30800
},
{
"epoch": 1.6480000000000001,
"grad_norm": 5.25,
"learning_rate": 5.007407407407407e-05,
"loss": 1.6082,
"step": 30900
},
{
"epoch": 1.6533333333333333,
"grad_norm": 5.125,
"learning_rate": 4.987654320987655e-05,
"loss": 1.5755,
"step": 31000
},
{
"epoch": 1.6586666666666665,
"grad_norm": 9.0625,
"learning_rate": 4.9679012345679014e-05,
"loss": 1.6432,
"step": 31100
},
{
"epoch": 1.6640000000000001,
"grad_norm": 6.0,
"learning_rate": 4.9481481481481485e-05,
"loss": 1.6333,
"step": 31200
},
{
"epoch": 1.6693333333333333,
"grad_norm": 6.65625,
"learning_rate": 4.9283950617283955e-05,
"loss": 1.6183,
"step": 31300
},
{
"epoch": 1.6746666666666665,
"grad_norm": 7.28125,
"learning_rate": 4.908641975308642e-05,
"loss": 1.5636,
"step": 31400
},
{
"epoch": 1.6800000000000002,
"grad_norm": 6.125,
"learning_rate": 4.888888888888889e-05,
"loss": 1.621,
"step": 31500
},
{
"epoch": 1.6853333333333333,
"grad_norm": 6.46875,
"learning_rate": 4.869135802469136e-05,
"loss": 1.7226,
"step": 31600
},
{
"epoch": 1.6906666666666665,
"grad_norm": 5.875,
"learning_rate": 4.849382716049383e-05,
"loss": 1.6311,
"step": 31700
},
{
"epoch": 1.696,
"grad_norm": 5.875,
"learning_rate": 4.82962962962963e-05,
"loss": 1.6132,
"step": 31800
},
{
"epoch": 1.7013333333333334,
"grad_norm": 5.375,
"learning_rate": 4.8098765432098766e-05,
"loss": 1.5931,
"step": 31900
},
{
"epoch": 1.7066666666666666,
"grad_norm": 13.0625,
"learning_rate": 4.7901234567901237e-05,
"loss": 1.6958,
"step": 32000
},
{
"epoch": 1.712,
"grad_norm": 6.40625,
"learning_rate": 4.770370370370371e-05,
"loss": 1.6209,
"step": 32100
},
{
"epoch": 1.7173333333333334,
"grad_norm": 13.5625,
"learning_rate": 4.750617283950617e-05,
"loss": 1.6031,
"step": 32200
},
{
"epoch": 1.7226666666666666,
"grad_norm": 8.5,
"learning_rate": 4.730864197530864e-05,
"loss": 1.6279,
"step": 32300
},
{
"epoch": 1.728,
"grad_norm": 7.5,
"learning_rate": 4.711111111111111e-05,
"loss": 1.5793,
"step": 32400
},
{
"epoch": 1.7333333333333334,
"grad_norm": 6.75,
"learning_rate": 4.691358024691358e-05,
"loss": 1.6628,
"step": 32500
},
{
"epoch": 1.7386666666666666,
"grad_norm": 6.21875,
"learning_rate": 4.6716049382716054e-05,
"loss": 1.671,
"step": 32600
},
{
"epoch": 1.744,
"grad_norm": 5.875,
"learning_rate": 4.6518518518518525e-05,
"loss": 1.6886,
"step": 32700
},
{
"epoch": 1.7493333333333334,
"grad_norm": 5.15625,
"learning_rate": 4.632098765432099e-05,
"loss": 1.6598,
"step": 32800
},
{
"epoch": 1.7546666666666666,
"grad_norm": 9.6875,
"learning_rate": 4.612345679012346e-05,
"loss": 1.5773,
"step": 32900
},
{
"epoch": 1.76,
"grad_norm": 6.125,
"learning_rate": 4.592592592592593e-05,
"loss": 1.6603,
"step": 33000
},
{
"epoch": 1.7653333333333334,
"grad_norm": 5.8125,
"learning_rate": 4.5728395061728394e-05,
"loss": 1.6405,
"step": 33100
},
{
"epoch": 1.7706666666666666,
"grad_norm": 5.34375,
"learning_rate": 4.5530864197530865e-05,
"loss": 1.6776,
"step": 33200
},
{
"epoch": 1.776,
"grad_norm": 5.5625,
"learning_rate": 4.5333333333333335e-05,
"loss": 1.5413,
"step": 33300
},
{
"epoch": 1.7813333333333334,
"grad_norm": 8.875,
"learning_rate": 4.5135802469135806e-05,
"loss": 1.6298,
"step": 33400
},
{
"epoch": 1.7866666666666666,
"grad_norm": 6.28125,
"learning_rate": 4.493827160493828e-05,
"loss": 1.5795,
"step": 33500
},
{
"epoch": 1.792,
"grad_norm": 6.65625,
"learning_rate": 4.474074074074075e-05,
"loss": 1.7145,
"step": 33600
},
{
"epoch": 1.7973333333333334,
"grad_norm": 7.96875,
"learning_rate": 4.454320987654321e-05,
"loss": 1.6492,
"step": 33700
},
{
"epoch": 1.8026666666666666,
"grad_norm": 10.625,
"learning_rate": 4.434567901234568e-05,
"loss": 1.5981,
"step": 33800
},
{
"epoch": 1.808,
"grad_norm": 5.65625,
"learning_rate": 4.414814814814815e-05,
"loss": 1.5606,
"step": 33900
},
{
"epoch": 1.8133333333333335,
"grad_norm": 4.90625,
"learning_rate": 4.3950617283950617e-05,
"loss": 1.5981,
"step": 34000
},
{
"epoch": 1.8186666666666667,
"grad_norm": 6.0,
"learning_rate": 4.375308641975309e-05,
"loss": 1.5976,
"step": 34100
},
{
"epoch": 1.8239999999999998,
"grad_norm": 5.5625,
"learning_rate": 4.355555555555556e-05,
"loss": 1.6783,
"step": 34200
},
{
"epoch": 1.8293333333333335,
"grad_norm": 6.96875,
"learning_rate": 4.335802469135803e-05,
"loss": 1.6716,
"step": 34300
},
{
"epoch": 1.8346666666666667,
"grad_norm": 4.6875,
"learning_rate": 4.31604938271605e-05,
"loss": 1.5989,
"step": 34400
},
{
"epoch": 1.8399999999999999,
"grad_norm": 7.71875,
"learning_rate": 4.296296296296296e-05,
"loss": 1.6317,
"step": 34500
},
{
"epoch": 1.8453333333333335,
"grad_norm": 5.78125,
"learning_rate": 4.2765432098765434e-05,
"loss": 1.6327,
"step": 34600
},
{
"epoch": 1.8506666666666667,
"grad_norm": 5.59375,
"learning_rate": 4.2567901234567905e-05,
"loss": 1.5324,
"step": 34700
},
{
"epoch": 1.8559999999999999,
"grad_norm": 7.65625,
"learning_rate": 4.237037037037037e-05,
"loss": 1.6141,
"step": 34800
},
{
"epoch": 1.8613333333333333,
"grad_norm": 9.4375,
"learning_rate": 4.217283950617284e-05,
"loss": 1.6398,
"step": 34900
},
{
"epoch": 1.8666666666666667,
"grad_norm": 8.875,
"learning_rate": 4.197530864197531e-05,
"loss": 1.5835,
"step": 35000
},
{
"epoch": 1.8719999999999999,
"grad_norm": 12.0625,
"learning_rate": 4.177777777777778e-05,
"loss": 1.633,
"step": 35100
},
{
"epoch": 1.8773333333333333,
"grad_norm": 8.375,
"learning_rate": 4.158024691358025e-05,
"loss": 1.6851,
"step": 35200
},
{
"epoch": 1.8826666666666667,
"grad_norm": 11.5625,
"learning_rate": 4.138271604938272e-05,
"loss": 1.6436,
"step": 35300
},
{
"epoch": 1.888,
"grad_norm": 7.78125,
"learning_rate": 4.1185185185185186e-05,
"loss": 1.6268,
"step": 35400
},
{
"epoch": 1.8933333333333333,
"grad_norm": 11.1875,
"learning_rate": 4.0987654320987657e-05,
"loss": 1.5537,
"step": 35500
},
{
"epoch": 1.8986666666666667,
"grad_norm": 10.8125,
"learning_rate": 4.079012345679013e-05,
"loss": 1.6954,
"step": 35600
},
{
"epoch": 1.904,
"grad_norm": 10.625,
"learning_rate": 4.059259259259259e-05,
"loss": 1.6122,
"step": 35700
},
{
"epoch": 1.9093333333333333,
"grad_norm": 4.4375,
"learning_rate": 4.039506172839506e-05,
"loss": 1.6308,
"step": 35800
},
{
"epoch": 1.9146666666666667,
"grad_norm": 5.4375,
"learning_rate": 4.019753086419753e-05,
"loss": 1.6331,
"step": 35900
},
{
"epoch": 1.92,
"grad_norm": 5.125,
"learning_rate": 4e-05,
"loss": 1.5898,
"step": 36000
},
{
"epoch": 1.9253333333333333,
"grad_norm": 13.5625,
"learning_rate": 3.9802469135802474e-05,
"loss": 1.6748,
"step": 36100
},
{
"epoch": 1.9306666666666668,
"grad_norm": 5.40625,
"learning_rate": 3.960493827160494e-05,
"loss": 1.6326,
"step": 36200
},
{
"epoch": 1.936,
"grad_norm": 8.0,
"learning_rate": 3.940740740740741e-05,
"loss": 1.6027,
"step": 36300
},
{
"epoch": 1.9413333333333334,
"grad_norm": 12.625,
"learning_rate": 3.920987654320988e-05,
"loss": 1.5298,
"step": 36400
},
{
"epoch": 1.9466666666666668,
"grad_norm": 5.875,
"learning_rate": 3.901234567901234e-05,
"loss": 1.6354,
"step": 36500
},
{
"epoch": 1.952,
"grad_norm": 5.40625,
"learning_rate": 3.8814814814814814e-05,
"loss": 1.6155,
"step": 36600
},
{
"epoch": 1.9573333333333334,
"grad_norm": 5.15625,
"learning_rate": 3.8617283950617285e-05,
"loss": 1.6524,
"step": 36700
},
{
"epoch": 1.9626666666666668,
"grad_norm": 8.0625,
"learning_rate": 3.8419753086419755e-05,
"loss": 1.6594,
"step": 36800
},
{
"epoch": 1.968,
"grad_norm": 11.0,
"learning_rate": 3.8222222222222226e-05,
"loss": 1.6397,
"step": 36900
},
{
"epoch": 1.9733333333333334,
"grad_norm": 6.96875,
"learning_rate": 3.80246913580247e-05,
"loss": 1.6208,
"step": 37000
},
{
"epoch": 1.9786666666666668,
"grad_norm": 9.125,
"learning_rate": 3.782716049382716e-05,
"loss": 1.5995,
"step": 37100
},
{
"epoch": 1.984,
"grad_norm": 8.8125,
"learning_rate": 3.762962962962963e-05,
"loss": 1.59,
"step": 37200
},
{
"epoch": 1.9893333333333332,
"grad_norm": 8.1875,
"learning_rate": 3.74320987654321e-05,
"loss": 1.6343,
"step": 37300
},
{
"epoch": 1.9946666666666668,
"grad_norm": 7.65625,
"learning_rate": 3.7234567901234566e-05,
"loss": 1.6007,
"step": 37400
},
{
"epoch": 2.0,
"grad_norm": 6.125,
"learning_rate": 3.7037037037037037e-05,
"loss": 1.6295,
"step": 37500
},
{
"epoch": 2.005333333333333,
"grad_norm": 6.65625,
"learning_rate": 3.683950617283951e-05,
"loss": 1.2317,
"step": 37600
},
{
"epoch": 2.010666666666667,
"grad_norm": 6.9375,
"learning_rate": 3.664197530864198e-05,
"loss": 1.3769,
"step": 37700
},
{
"epoch": 2.016,
"grad_norm": 5.46875,
"learning_rate": 3.644444444444445e-05,
"loss": 1.3206,
"step": 37800
},
{
"epoch": 2.021333333333333,
"grad_norm": 7.3125,
"learning_rate": 3.624691358024692e-05,
"loss": 1.2903,
"step": 37900
},
{
"epoch": 2.026666666666667,
"grad_norm": 6.6875,
"learning_rate": 3.604938271604938e-05,
"loss": 1.3443,
"step": 38000
},
{
"epoch": 2.032,
"grad_norm": 6.375,
"learning_rate": 3.5851851851851854e-05,
"loss": 1.291,
"step": 38100
},
{
"epoch": 2.037333333333333,
"grad_norm": 7.84375,
"learning_rate": 3.5654320987654325e-05,
"loss": 1.2552,
"step": 38200
},
{
"epoch": 2.042666666666667,
"grad_norm": 8.9375,
"learning_rate": 3.545679012345679e-05,
"loss": 1.2883,
"step": 38300
},
{
"epoch": 2.048,
"grad_norm": 6.09375,
"learning_rate": 3.525925925925926e-05,
"loss": 1.2755,
"step": 38400
},
{
"epoch": 2.0533333333333332,
"grad_norm": 6.0625,
"learning_rate": 3.506172839506173e-05,
"loss": 1.3612,
"step": 38500
},
{
"epoch": 2.058666666666667,
"grad_norm": 8.625,
"learning_rate": 3.48641975308642e-05,
"loss": 1.2394,
"step": 38600
},
{
"epoch": 2.064,
"grad_norm": 8.25,
"learning_rate": 3.466666666666667e-05,
"loss": 1.3005,
"step": 38700
},
{
"epoch": 2.0693333333333332,
"grad_norm": 7.125,
"learning_rate": 3.4469135802469135e-05,
"loss": 1.3219,
"step": 38800
},
{
"epoch": 2.074666666666667,
"grad_norm": 6.6875,
"learning_rate": 3.4271604938271606e-05,
"loss": 1.3388,
"step": 38900
},
{
"epoch": 2.08,
"grad_norm": 7.4375,
"learning_rate": 3.4074074074074077e-05,
"loss": 1.3317,
"step": 39000
},
{
"epoch": 2.0853333333333333,
"grad_norm": 5.15625,
"learning_rate": 3.387654320987654e-05,
"loss": 1.2546,
"step": 39100
},
{
"epoch": 2.0906666666666665,
"grad_norm": 6.71875,
"learning_rate": 3.367901234567901e-05,
"loss": 1.3502,
"step": 39200
},
{
"epoch": 2.096,
"grad_norm": 7.28125,
"learning_rate": 3.348148148148148e-05,
"loss": 1.2733,
"step": 39300
},
{
"epoch": 2.1013333333333333,
"grad_norm": 8.125,
"learning_rate": 3.328395061728395e-05,
"loss": 1.2879,
"step": 39400
},
{
"epoch": 2.1066666666666665,
"grad_norm": 6.5625,
"learning_rate": 3.308641975308642e-05,
"loss": 1.2175,
"step": 39500
},
{
"epoch": 2.112,
"grad_norm": 7.375,
"learning_rate": 3.2888888888888894e-05,
"loss": 1.3628,
"step": 39600
},
{
"epoch": 2.1173333333333333,
"grad_norm": 7.34375,
"learning_rate": 3.269135802469136e-05,
"loss": 1.2937,
"step": 39700
},
{
"epoch": 2.1226666666666665,
"grad_norm": 5.9375,
"learning_rate": 3.249382716049383e-05,
"loss": 1.2451,
"step": 39800
},
{
"epoch": 2.128,
"grad_norm": 9.6875,
"learning_rate": 3.22962962962963e-05,
"loss": 1.3379,
"step": 39900
},
{
"epoch": 2.1333333333333333,
"grad_norm": 7.5,
"learning_rate": 3.209876543209876e-05,
"loss": 1.2934,
"step": 40000
},
{
"epoch": 2.1386666666666665,
"grad_norm": 5.84375,
"learning_rate": 3.1901234567901234e-05,
"loss": 1.2618,
"step": 40100
},
{
"epoch": 2.144,
"grad_norm": 6.875,
"learning_rate": 3.1703703703703705e-05,
"loss": 1.384,
"step": 40200
},
{
"epoch": 2.1493333333333333,
"grad_norm": 7.34375,
"learning_rate": 3.1506172839506175e-05,
"loss": 1.2611,
"step": 40300
},
{
"epoch": 2.1546666666666665,
"grad_norm": 8.0,
"learning_rate": 3.1308641975308646e-05,
"loss": 1.2923,
"step": 40400
},
{
"epoch": 2.16,
"grad_norm": 7.53125,
"learning_rate": 3.111111111111111e-05,
"loss": 1.2947,
"step": 40500
},
{
"epoch": 2.1653333333333333,
"grad_norm": 8.125,
"learning_rate": 3.091358024691358e-05,
"loss": 1.283,
"step": 40600
},
{
"epoch": 2.1706666666666665,
"grad_norm": 7.625,
"learning_rate": 3.071604938271605e-05,
"loss": 1.3939,
"step": 40700
},
{
"epoch": 2.176,
"grad_norm": 8.0625,
"learning_rate": 3.0518518518518515e-05,
"loss": 1.3395,
"step": 40800
},
{
"epoch": 2.1813333333333333,
"grad_norm": 10.3125,
"learning_rate": 3.0320987654320986e-05,
"loss": 1.2382,
"step": 40900
},
{
"epoch": 2.1866666666666665,
"grad_norm": 5.8125,
"learning_rate": 3.012345679012346e-05,
"loss": 1.346,
"step": 41000
},
{
"epoch": 2.192,
"grad_norm": 12.0,
"learning_rate": 2.992592592592593e-05,
"loss": 1.348,
"step": 41100
},
{
"epoch": 2.1973333333333334,
"grad_norm": 7.0,
"learning_rate": 2.9728395061728398e-05,
"loss": 1.2885,
"step": 41200
},
{
"epoch": 2.2026666666666666,
"grad_norm": 10.9375,
"learning_rate": 2.9530864197530865e-05,
"loss": 1.2577,
"step": 41300
},
{
"epoch": 2.208,
"grad_norm": 7.0625,
"learning_rate": 2.9333333333333336e-05,
"loss": 1.3698,
"step": 41400
},
{
"epoch": 2.2133333333333334,
"grad_norm": 5.6875,
"learning_rate": 2.9135802469135803e-05,
"loss": 1.2787,
"step": 41500
},
{
"epoch": 2.2186666666666666,
"grad_norm": 11.0625,
"learning_rate": 2.893827160493827e-05,
"loss": 1.299,
"step": 41600
},
{
"epoch": 2.224,
"grad_norm": 16.5,
"learning_rate": 2.874074074074074e-05,
"loss": 1.3493,
"step": 41700
},
{
"epoch": 2.2293333333333334,
"grad_norm": 7.71875,
"learning_rate": 2.854320987654321e-05,
"loss": 1.232,
"step": 41800
},
{
"epoch": 2.2346666666666666,
"grad_norm": 7.3125,
"learning_rate": 2.8345679012345683e-05,
"loss": 1.2965,
"step": 41900
},
{
"epoch": 2.24,
"grad_norm": 4.875,
"learning_rate": 2.814814814814815e-05,
"loss": 1.2932,
"step": 42000
},
{
"epoch": 2.2453333333333334,
"grad_norm": 8.5625,
"learning_rate": 2.795061728395062e-05,
"loss": 1.2689,
"step": 42100
},
{
"epoch": 2.2506666666666666,
"grad_norm": 8.5625,
"learning_rate": 2.7753086419753088e-05,
"loss": 1.3437,
"step": 42200
},
{
"epoch": 2.2560000000000002,
"grad_norm": 11.375,
"learning_rate": 2.7555555555555555e-05,
"loss": 1.3957,
"step": 42300
},
{
"epoch": 2.2613333333333334,
"grad_norm": 7.125,
"learning_rate": 2.7358024691358026e-05,
"loss": 1.2948,
"step": 42400
},
{
"epoch": 2.2666666666666666,
"grad_norm": 6.90625,
"learning_rate": 2.7160493827160493e-05,
"loss": 1.2896,
"step": 42500
},
{
"epoch": 2.2720000000000002,
"grad_norm": 8.3125,
"learning_rate": 2.696296296296296e-05,
"loss": 1.2483,
"step": 42600
},
{
"epoch": 2.2773333333333334,
"grad_norm": 6.40625,
"learning_rate": 2.6765432098765435e-05,
"loss": 1.3159,
"step": 42700
},
{
"epoch": 2.2826666666666666,
"grad_norm": 6.59375,
"learning_rate": 2.6567901234567905e-05,
"loss": 1.2742,
"step": 42800
},
{
"epoch": 2.288,
"grad_norm": 7.21875,
"learning_rate": 2.6370370370370373e-05,
"loss": 1.3353,
"step": 42900
},
{
"epoch": 2.2933333333333334,
"grad_norm": 5.46875,
"learning_rate": 2.617283950617284e-05,
"loss": 1.3093,
"step": 43000
},
{
"epoch": 2.2986666666666666,
"grad_norm": 8.3125,
"learning_rate": 2.597530864197531e-05,
"loss": 1.2342,
"step": 43100
},
{
"epoch": 2.304,
"grad_norm": 7.09375,
"learning_rate": 2.5777777777777778e-05,
"loss": 1.3586,
"step": 43200
},
{
"epoch": 2.3093333333333335,
"grad_norm": 11.625,
"learning_rate": 2.558024691358025e-05,
"loss": 1.2999,
"step": 43300
},
{
"epoch": 2.3146666666666667,
"grad_norm": 7.75,
"learning_rate": 2.5382716049382716e-05,
"loss": 1.2873,
"step": 43400
},
{
"epoch": 2.32,
"grad_norm": 8.0,
"learning_rate": 2.5185185185185183e-05,
"loss": 1.3057,
"step": 43500
},
{
"epoch": 2.3253333333333335,
"grad_norm": 9.1875,
"learning_rate": 2.4987654320987654e-05,
"loss": 1.3544,
"step": 43600
},
{
"epoch": 2.3306666666666667,
"grad_norm": 7.71875,
"learning_rate": 2.4790123456790125e-05,
"loss": 1.333,
"step": 43700
},
{
"epoch": 2.336,
"grad_norm": 6.21875,
"learning_rate": 2.4592592592592595e-05,
"loss": 1.2135,
"step": 43800
},
{
"epoch": 2.3413333333333335,
"grad_norm": 6.59375,
"learning_rate": 2.4395061728395063e-05,
"loss": 1.3494,
"step": 43900
},
{
"epoch": 2.3466666666666667,
"grad_norm": 8.1875,
"learning_rate": 2.4197530864197533e-05,
"loss": 1.3179,
"step": 44000
},
{
"epoch": 2.352,
"grad_norm": 5.9375,
"learning_rate": 2.4e-05,
"loss": 1.401,
"step": 44100
},
{
"epoch": 2.3573333333333335,
"grad_norm": 8.125,
"learning_rate": 2.380246913580247e-05,
"loss": 1.2905,
"step": 44200
},
{
"epoch": 2.3626666666666667,
"grad_norm": 6.5625,
"learning_rate": 2.360493827160494e-05,
"loss": 1.3236,
"step": 44300
},
{
"epoch": 2.368,
"grad_norm": 7.71875,
"learning_rate": 2.340740740740741e-05,
"loss": 1.2924,
"step": 44400
},
{
"epoch": 2.3733333333333335,
"grad_norm": 10.1875,
"learning_rate": 2.3209876543209877e-05,
"loss": 1.3823,
"step": 44500
},
{
"epoch": 2.3786666666666667,
"grad_norm": 9.0625,
"learning_rate": 2.3012345679012347e-05,
"loss": 1.2555,
"step": 44600
},
{
"epoch": 2.384,
"grad_norm": 6.53125,
"learning_rate": 2.2814814814814818e-05,
"loss": 1.319,
"step": 44700
},
{
"epoch": 2.389333333333333,
"grad_norm": 6.28125,
"learning_rate": 2.2617283950617285e-05,
"loss": 1.3722,
"step": 44800
},
{
"epoch": 2.3946666666666667,
"grad_norm": 8.75,
"learning_rate": 2.2419753086419753e-05,
"loss": 1.2535,
"step": 44900
},
{
"epoch": 2.4,
"grad_norm": 5.75,
"learning_rate": 2.2222222222222223e-05,
"loss": 1.3091,
"step": 45000
},
{
"epoch": 2.405333333333333,
"grad_norm": 7.09375,
"learning_rate": 2.2024691358024694e-05,
"loss": 1.3417,
"step": 45100
},
{
"epoch": 2.4106666666666667,
"grad_norm": 6.21875,
"learning_rate": 2.182716049382716e-05,
"loss": 1.318,
"step": 45200
},
{
"epoch": 2.416,
"grad_norm": 6.09375,
"learning_rate": 2.162962962962963e-05,
"loss": 1.2971,
"step": 45300
},
{
"epoch": 2.421333333333333,
"grad_norm": 6.875,
"learning_rate": 2.14320987654321e-05,
"loss": 1.3866,
"step": 45400
},
{
"epoch": 2.4266666666666667,
"grad_norm": 5.9375,
"learning_rate": 2.123456790123457e-05,
"loss": 1.2945,
"step": 45500
},
{
"epoch": 2.432,
"grad_norm": 7.4375,
"learning_rate": 2.1037037037037037e-05,
"loss": 1.2541,
"step": 45600
},
{
"epoch": 2.437333333333333,
"grad_norm": 5.71875,
"learning_rate": 2.0839506172839508e-05,
"loss": 1.3282,
"step": 45700
},
{
"epoch": 2.4426666666666668,
"grad_norm": 12.1875,
"learning_rate": 2.0641975308641975e-05,
"loss": 1.3743,
"step": 45800
},
{
"epoch": 2.448,
"grad_norm": 5.0,
"learning_rate": 2.0444444444444446e-05,
"loss": 1.2689,
"step": 45900
},
{
"epoch": 2.453333333333333,
"grad_norm": 8.5625,
"learning_rate": 2.0246913580246917e-05,
"loss": 1.347,
"step": 46000
},
{
"epoch": 2.458666666666667,
"grad_norm": 7.25,
"learning_rate": 2.0049382716049384e-05,
"loss": 1.3629,
"step": 46100
},
{
"epoch": 2.464,
"grad_norm": 12.5,
"learning_rate": 1.985185185185185e-05,
"loss": 1.2604,
"step": 46200
},
{
"epoch": 2.469333333333333,
"grad_norm": 7.03125,
"learning_rate": 1.9654320987654322e-05,
"loss": 1.3428,
"step": 46300
},
{
"epoch": 2.474666666666667,
"grad_norm": 7.8125,
"learning_rate": 1.9456790123456793e-05,
"loss": 1.2956,
"step": 46400
},
{
"epoch": 2.48,
"grad_norm": 7.21875,
"learning_rate": 1.925925925925926e-05,
"loss": 1.2986,
"step": 46500
},
{
"epoch": 2.485333333333333,
"grad_norm": 8.3125,
"learning_rate": 1.9061728395061727e-05,
"loss": 1.2794,
"step": 46600
},
{
"epoch": 2.490666666666667,
"grad_norm": 8.125,
"learning_rate": 1.8864197530864198e-05,
"loss": 1.3091,
"step": 46700
},
{
"epoch": 2.496,
"grad_norm": 6.59375,
"learning_rate": 1.866666666666667e-05,
"loss": 1.2405,
"step": 46800
},
{
"epoch": 2.501333333333333,
"grad_norm": 9.25,
"learning_rate": 1.8469135802469136e-05,
"loss": 1.2841,
"step": 46900
},
{
"epoch": 2.506666666666667,
"grad_norm": 5.78125,
"learning_rate": 1.8271604938271607e-05,
"loss": 1.3305,
"step": 47000
},
{
"epoch": 2.512,
"grad_norm": 8.375,
"learning_rate": 1.8074074074074074e-05,
"loss": 1.3659,
"step": 47100
},
{
"epoch": 2.517333333333333,
"grad_norm": 7.0625,
"learning_rate": 1.7876543209876545e-05,
"loss": 1.2434,
"step": 47200
},
{
"epoch": 2.522666666666667,
"grad_norm": 9.8125,
"learning_rate": 1.7679012345679012e-05,
"loss": 1.2765,
"step": 47300
},
{
"epoch": 2.528,
"grad_norm": 7.71875,
"learning_rate": 1.7481481481481483e-05,
"loss": 1.3136,
"step": 47400
},
{
"epoch": 2.533333333333333,
"grad_norm": 7.71875,
"learning_rate": 1.728395061728395e-05,
"loss": 1.3622,
"step": 47500
},
{
"epoch": 2.538666666666667,
"grad_norm": 11.0,
"learning_rate": 1.708641975308642e-05,
"loss": 1.2877,
"step": 47600
},
{
"epoch": 2.544,
"grad_norm": 6.25,
"learning_rate": 1.688888888888889e-05,
"loss": 1.3239,
"step": 47700
},
{
"epoch": 2.5493333333333332,
"grad_norm": 6.375,
"learning_rate": 1.669135802469136e-05,
"loss": 1.3512,
"step": 47800
},
{
"epoch": 2.554666666666667,
"grad_norm": 6.875,
"learning_rate": 1.6493827160493826e-05,
"loss": 1.3079,
"step": 47900
},
{
"epoch": 2.56,
"grad_norm": 7.90625,
"learning_rate": 1.62962962962963e-05,
"loss": 1.3031,
"step": 48000
},
{
"epoch": 2.5653333333333332,
"grad_norm": 8.0,
"learning_rate": 1.6098765432098767e-05,
"loss": 1.3062,
"step": 48100
},
{
"epoch": 2.570666666666667,
"grad_norm": 7.625,
"learning_rate": 1.5901234567901235e-05,
"loss": 1.3348,
"step": 48200
},
{
"epoch": 2.576,
"grad_norm": 9.6875,
"learning_rate": 1.5703703703703705e-05,
"loss": 1.3392,
"step": 48300
},
{
"epoch": 2.5813333333333333,
"grad_norm": 8.75,
"learning_rate": 1.5506172839506173e-05,
"loss": 1.3153,
"step": 48400
},
{
"epoch": 2.586666666666667,
"grad_norm": 6.75,
"learning_rate": 1.5308641975308643e-05,
"loss": 1.3348,
"step": 48500
},
{
"epoch": 2.592,
"grad_norm": 9.0,
"learning_rate": 1.5111111111111112e-05,
"loss": 1.3008,
"step": 48600
},
{
"epoch": 2.5973333333333333,
"grad_norm": 8.1875,
"learning_rate": 1.4913580246913581e-05,
"loss": 1.3492,
"step": 48700
},
{
"epoch": 2.602666666666667,
"grad_norm": 6.5,
"learning_rate": 1.4716049382716049e-05,
"loss": 1.2897,
"step": 48800
},
{
"epoch": 2.608,
"grad_norm": 6.03125,
"learning_rate": 1.4518518518518521e-05,
"loss": 1.2443,
"step": 48900
},
{
"epoch": 2.6133333333333333,
"grad_norm": 8.125,
"learning_rate": 1.4320987654320988e-05,
"loss": 1.3395,
"step": 49000
},
{
"epoch": 2.618666666666667,
"grad_norm": 7.90625,
"learning_rate": 1.4123456790123457e-05,
"loss": 1.3716,
"step": 49100
},
{
"epoch": 2.624,
"grad_norm": 6.28125,
"learning_rate": 1.3925925925925926e-05,
"loss": 1.3066,
"step": 49200
},
{
"epoch": 2.6293333333333333,
"grad_norm": 5.34375,
"learning_rate": 1.3728395061728397e-05,
"loss": 1.2932,
"step": 49300
},
{
"epoch": 2.634666666666667,
"grad_norm": 7.21875,
"learning_rate": 1.3530864197530866e-05,
"loss": 1.2657,
"step": 49400
},
{
"epoch": 2.64,
"grad_norm": 12.6875,
"learning_rate": 1.3333333333333333e-05,
"loss": 1.2547,
"step": 49500
},
{
"epoch": 2.6453333333333333,
"grad_norm": 7.53125,
"learning_rate": 1.3135802469135802e-05,
"loss": 1.2846,
"step": 49600
},
{
"epoch": 2.6506666666666665,
"grad_norm": 10.3125,
"learning_rate": 1.2938271604938273e-05,
"loss": 1.3046,
"step": 49700
},
{
"epoch": 2.656,
"grad_norm": 8.5625,
"learning_rate": 1.2740740740740742e-05,
"loss": 1.3353,
"step": 49800
},
{
"epoch": 2.6613333333333333,
"grad_norm": 10.6875,
"learning_rate": 1.2543209876543211e-05,
"loss": 1.3146,
"step": 49900
},
{
"epoch": 2.6666666666666665,
"grad_norm": 10.125,
"learning_rate": 1.2345679012345678e-05,
"loss": 1.279,
"step": 50000
},
{
"epoch": 2.672,
"grad_norm": 11.125,
"learning_rate": 1.2148148148148149e-05,
"loss": 1.2854,
"step": 50100
},
{
"epoch": 2.6773333333333333,
"grad_norm": 6.375,
"learning_rate": 1.1950617283950618e-05,
"loss": 1.3665,
"step": 50200
},
{
"epoch": 2.6826666666666665,
"grad_norm": 7.90625,
"learning_rate": 1.1753086419753087e-05,
"loss": 1.2908,
"step": 50300
},
{
"epoch": 2.6879999999999997,
"grad_norm": 6.03125,
"learning_rate": 1.1555555555555556e-05,
"loss": 1.33,
"step": 50400
},
{
"epoch": 2.6933333333333334,
"grad_norm": 9.1875,
"learning_rate": 1.1358024691358025e-05,
"loss": 1.3176,
"step": 50500
},
{
"epoch": 2.6986666666666665,
"grad_norm": 8.4375,
"learning_rate": 1.1160493827160494e-05,
"loss": 1.3215,
"step": 50600
},
{
"epoch": 2.7039999999999997,
"grad_norm": 6.90625,
"learning_rate": 1.0962962962962963e-05,
"loss": 1.3513,
"step": 50700
},
{
"epoch": 2.7093333333333334,
"grad_norm": 9.4375,
"learning_rate": 1.0765432098765432e-05,
"loss": 1.2539,
"step": 50800
},
{
"epoch": 2.7146666666666666,
"grad_norm": 7.125,
"learning_rate": 1.0567901234567903e-05,
"loss": 1.3037,
"step": 50900
},
{
"epoch": 2.7199999999999998,
"grad_norm": 7.75,
"learning_rate": 1.037037037037037e-05,
"loss": 1.3418,
"step": 51000
},
{
"epoch": 2.7253333333333334,
"grad_norm": 5.90625,
"learning_rate": 1.017283950617284e-05,
"loss": 1.3898,
"step": 51100
},
{
"epoch": 2.7306666666666666,
"grad_norm": 5.21875,
"learning_rate": 9.97530864197531e-06,
"loss": 1.2758,
"step": 51200
},
{
"epoch": 2.7359999999999998,
"grad_norm": 6.75,
"learning_rate": 9.777777777777779e-06,
"loss": 1.3215,
"step": 51300
},
{
"epoch": 2.7413333333333334,
"grad_norm": 10.9375,
"learning_rate": 9.580246913580248e-06,
"loss": 1.374,
"step": 51400
},
{
"epoch": 2.7466666666666666,
"grad_norm": 6.625,
"learning_rate": 9.382716049382717e-06,
"loss": 1.3613,
"step": 51500
},
{
"epoch": 2.752,
"grad_norm": 7.0625,
"learning_rate": 9.185185185185186e-06,
"loss": 1.3206,
"step": 51600
},
{
"epoch": 2.7573333333333334,
"grad_norm": 7.0,
"learning_rate": 8.987654320987655e-06,
"loss": 1.3731,
"step": 51700
},
{
"epoch": 2.7626666666666666,
"grad_norm": 6.40625,
"learning_rate": 8.790123456790124e-06,
"loss": 1.2751,
"step": 51800
},
{
"epoch": 2.768,
"grad_norm": 6.125,
"learning_rate": 8.592592592592593e-06,
"loss": 1.3447,
"step": 51900
},
{
"epoch": 2.7733333333333334,
"grad_norm": 6.40625,
"learning_rate": 8.395061728395062e-06,
"loss": 1.2362,
"step": 52000
},
{
"epoch": 2.7786666666666666,
"grad_norm": 7.125,
"learning_rate": 8.19753086419753e-06,
"loss": 1.3439,
"step": 52100
},
{
"epoch": 2.784,
"grad_norm": 5.53125,
"learning_rate": 8.000000000000001e-06,
"loss": 1.3392,
"step": 52200
},
{
"epoch": 2.7893333333333334,
"grad_norm": 7.4375,
"learning_rate": 7.802469135802469e-06,
"loss": 1.3598,
"step": 52300
},
{
"epoch": 2.7946666666666666,
"grad_norm": 7.53125,
"learning_rate": 7.6049382716049385e-06,
"loss": 1.2485,
"step": 52400
},
{
"epoch": 2.8,
"grad_norm": 6.4375,
"learning_rate": 7.4074074074074075e-06,
"loss": 1.2279,
"step": 52500
},
{
"epoch": 2.8053333333333335,
"grad_norm": 12.3125,
"learning_rate": 7.209876543209877e-06,
"loss": 1.272,
"step": 52600
},
{
"epoch": 2.8106666666666666,
"grad_norm": 7.5,
"learning_rate": 7.0123456790123455e-06,
"loss": 1.2805,
"step": 52700
},
{
"epoch": 2.816,
"grad_norm": 6.125,
"learning_rate": 6.814814814814815e-06,
"loss": 1.3183,
"step": 52800
},
{
"epoch": 2.8213333333333335,
"grad_norm": 5.78125,
"learning_rate": 6.617283950617284e-06,
"loss": 1.2925,
"step": 52900
},
{
"epoch": 2.8266666666666667,
"grad_norm": 6.0625,
"learning_rate": 6.419753086419754e-06,
"loss": 1.2946,
"step": 53000
},
{
"epoch": 2.832,
"grad_norm": 10.5,
"learning_rate": 6.222222222222222e-06,
"loss": 1.329,
"step": 53100
},
{
"epoch": 2.8373333333333335,
"grad_norm": 9.75,
"learning_rate": 6.024691358024691e-06,
"loss": 1.3318,
"step": 53200
},
{
"epoch": 2.8426666666666667,
"grad_norm": 7.0625,
"learning_rate": 5.82716049382716e-06,
"loss": 1.3648,
"step": 53300
},
{
"epoch": 2.848,
"grad_norm": 9.25,
"learning_rate": 5.62962962962963e-06,
"loss": 1.2775,
"step": 53400
},
{
"epoch": 2.8533333333333335,
"grad_norm": 9.1875,
"learning_rate": 5.432098765432099e-06,
"loss": 1.2806,
"step": 53500
},
{
"epoch": 2.8586666666666667,
"grad_norm": 6.4375,
"learning_rate": 5.234567901234568e-06,
"loss": 1.3544,
"step": 53600
},
{
"epoch": 2.864,
"grad_norm": 9.8125,
"learning_rate": 5.037037037037037e-06,
"loss": 1.2832,
"step": 53700
},
{
"epoch": 2.8693333333333335,
"grad_norm": 5.9375,
"learning_rate": 4.839506172839506e-06,
"loss": 1.3708,
"step": 53800
},
{
"epoch": 2.8746666666666667,
"grad_norm": 7.25,
"learning_rate": 4.641975308641976e-06,
"loss": 1.287,
"step": 53900
},
{
"epoch": 2.88,
"grad_norm": 10.375,
"learning_rate": 4.444444444444445e-06,
"loss": 1.2741,
"step": 54000
},
{
"epoch": 2.8853333333333335,
"grad_norm": 7.78125,
"learning_rate": 4.246913580246914e-06,
"loss": 1.3358,
"step": 54100
},
{
"epoch": 2.8906666666666667,
"grad_norm": 8.5,
"learning_rate": 4.049382716049383e-06,
"loss": 1.2651,
"step": 54200
},
{
"epoch": 2.896,
"grad_norm": 11.5,
"learning_rate": 3.851851851851852e-06,
"loss": 1.3113,
"step": 54300
},
{
"epoch": 2.9013333333333335,
"grad_norm": 6.4375,
"learning_rate": 3.6543209876543214e-06,
"loss": 1.2998,
"step": 54400
},
{
"epoch": 2.9066666666666667,
"grad_norm": 7.375,
"learning_rate": 3.45679012345679e-06,
"loss": 1.325,
"step": 54500
},
{
"epoch": 2.912,
"grad_norm": 7.75,
"learning_rate": 3.259259259259259e-06,
"loss": 1.2704,
"step": 54600
},
{
"epoch": 2.9173333333333336,
"grad_norm": 6.15625,
"learning_rate": 3.061728395061729e-06,
"loss": 1.3235,
"step": 54700
},
{
"epoch": 2.9226666666666667,
"grad_norm": 8.5625,
"learning_rate": 2.864197530864198e-06,
"loss": 1.3711,
"step": 54800
},
{
"epoch": 2.928,
"grad_norm": 13.6875,
"learning_rate": 2.666666666666667e-06,
"loss": 1.335,
"step": 54900
},
{
"epoch": 2.9333333333333336,
"grad_norm": 8.9375,
"learning_rate": 2.469135802469136e-06,
"loss": 1.3163,
"step": 55000
},
{
"epoch": 2.9386666666666668,
"grad_norm": 11.75,
"learning_rate": 2.271604938271605e-06,
"loss": 1.2763,
"step": 55100
},
{
"epoch": 2.944,
"grad_norm": 6.9375,
"learning_rate": 2.0740740740740742e-06,
"loss": 1.3573,
"step": 55200
},
{
"epoch": 2.9493333333333336,
"grad_norm": 9.375,
"learning_rate": 1.8765432098765432e-06,
"loss": 1.3565,
"step": 55300
},
{
"epoch": 2.9546666666666668,
"grad_norm": 6.28125,
"learning_rate": 1.6790123456790125e-06,
"loss": 1.3489,
"step": 55400
},
{
"epoch": 2.96,
"grad_norm": 6.6875,
"learning_rate": 1.4814814814814817e-06,
"loss": 1.2812,
"step": 55500
},
{
"epoch": 2.9653333333333336,
"grad_norm": 13.9375,
"learning_rate": 1.2839506172839507e-06,
"loss": 1.3521,
"step": 55600
},
{
"epoch": 2.970666666666667,
"grad_norm": 7.1875,
"learning_rate": 1.0864197530864197e-06,
"loss": 1.3804,
"step": 55700
},
{
"epoch": 2.976,
"grad_norm": 7.09375,
"learning_rate": 8.88888888888889e-07,
"loss": 1.2888,
"step": 55800
},
{
"epoch": 2.981333333333333,
"grad_norm": 8.125,
"learning_rate": 6.913580246913581e-07,
"loss": 1.2953,
"step": 55900
},
{
"epoch": 2.986666666666667,
"grad_norm": 5.6875,
"learning_rate": 4.938271604938272e-07,
"loss": 1.2729,
"step": 56000
}
],
"logging_steps": 100,
"max_steps": 56250,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 5600,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 2.678596351033344e+18,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}