diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,65844 @@
+{
+  "best_global_step": 38400,
+  "best_metric": 0.08336079865694046,
+  "best_model_checkpoint": "saves/prompt-tuning/gemma-3-1b-it/train_qqp_1744902593/checkpoint-38400",
+  "epoch": 1.9544377397210075,
+  "eval_steps": 200,
+  "global_step": 40000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00024430166369432974,
+      "grad_norm": 4.755948066711426,
+      "learning_rate": 0.29999999259779675,
+      "loss": 8.9878,
+      "num_input_tokens_seen": 6432,
+      "step": 5
+    },
+    {
+      "epoch": 0.0004886033273886595,
+      "grad_norm": 4.295941352844238,
+      "learning_rate": 0.29999996252634736,
+      "loss": 6.6033,
+      "num_input_tokens_seen": 13184,
+      "step": 10
+    },
+    {
+      "epoch": 0.0007329049910829893,
+      "grad_norm": 2.3181283473968506,
+      "learning_rate": 0.2999999093230187,
+      "loss": 3.7242,
+      "num_input_tokens_seen": 19808,
+      "step": 15
+    },
+    {
+      "epoch": 0.000977206654777319,
+      "grad_norm": 0.6410034894943237,
+      "learning_rate": 0.299999832987819,
+      "loss": 2.0963,
+      "num_input_tokens_seen": 26432,
+      "step": 20
+    },
+    {
+      "epoch": 0.0012215083184716488,
+      "grad_norm": 0.311041921377182,
+      "learning_rate": 0.29999973352076004,
+      "loss": 0.9446,
+      "num_input_tokens_seen": 32896,
+      "step": 25
+    },
+    {
+      "epoch": 0.0014658099821659785,
+      "grad_norm": 0.10064440220594406,
+      "learning_rate": 0.2999996109218572,
+      "loss": 0.3982,
+      "num_input_tokens_seen": 39072,
+      "step": 30
+    },
+    {
+      "epoch": 0.0017101116458603082,
+      "grad_norm": 2.0101823806762695,
+      "learning_rate": 0.2999994651911293,
+      "loss": 0.4405,
+      "num_input_tokens_seen": 45312,
+      "step": 35
+    },
+    {
+      "epoch": 0.001954413309554638,
+      "grad_norm": 0.32684221863746643,
+      "learning_rate": 0.2999992963285989,
+      "loss": 0.36,
+      "num_input_tokens_seen": 51680,
+      "step": 40
+    },
+    {
+      "epoch": 0.002198714973248968,
+      "grad_norm": 0.16424602270126343,
+      "learning_rate": 0.29999910433429194,
+      "loss": 0.2332,
+      "num_input_tokens_seen": 57952,
+      "step": 45
+    },
+    {
+      "epoch": 0.0024430166369432977,
+      "grad_norm": 0.09016671031713486,
+      "learning_rate": 0.29999888920823814,
+      "loss": 0.2562,
+      "num_input_tokens_seen": 64256,
+      "step": 50
+    },
+    {
+      "epoch": 0.0026873183006376274,
+      "grad_norm": 0.19881433248519897,
+      "learning_rate": 0.29999865095047057,
+      "loss": 0.2613,
+      "num_input_tokens_seen": 71264,
+      "step": 55
+    },
+    {
+      "epoch": 0.002931619964331957,
+      "grad_norm": 0.15641289949417114,
+      "learning_rate": 0.29999838956102604,
+      "loss": 0.2828,
+      "num_input_tokens_seen": 77952,
+      "step": 60
+    },
+    {
+      "epoch": 0.0031759216280262867,
+      "grad_norm": 0.12226133048534393,
+      "learning_rate": 0.29999810503994484,
+      "loss": 0.2034,
+      "num_input_tokens_seen": 84416,
+      "step": 65
+    },
+    {
+      "epoch": 0.0034202232917206164,
+      "grad_norm": 0.03750175982713699,
+      "learning_rate": 0.29999779738727084,
+      "loss": 0.234,
+      "num_input_tokens_seen": 90880,
+      "step": 70
+    },
+    {
+      "epoch": 0.0036645249554149465,
+      "grad_norm": 0.04839527979493141,
+      "learning_rate": 0.29999746660305154,
+      "loss": 0.1966,
+      "num_input_tokens_seen": 97568,
+      "step": 75
+    },
+    {
+      "epoch": 0.003908826619109276,
+      "grad_norm": 0.04795560985803604,
+      "learning_rate": 0.2999971126873379,
+      "loss": 0.2096,
+      "num_input_tokens_seen": 103968,
+      "step": 80
+    },
+    {
+      "epoch": 0.004153128282803606,
+      "grad_norm": 0.030905520543456078,
+      "learning_rate": 0.2999967356401845,
+      "loss": 0.1771,
+      "num_input_tokens_seen": 110400,
+      "step": 85
+    },
+    {
+      "epoch": 0.004397429946497936,
+      "grad_norm": 0.030110904946923256,
+      "learning_rate": 0.29999633546164944,
+      "loss": 0.1922,
+      "num_input_tokens_seen": 116768,
+      "step": 90
+    },
+    {
+      "epoch": 0.004641731610192265,
+      "grad_norm": 0.06372471898794174,
+      "learning_rate": 0.29999591215179444,
+      "loss": 0.17,
+      "num_input_tokens_seen": 123232,
+      "step": 95
+    },
+    {
+      "epoch": 0.004886033273886595,
+      "grad_norm": 0.047347236424684525,
+      "learning_rate": 0.2999954657106849,
+      "loss": 0.1701,
+      "num_input_tokens_seen": 129536,
+      "step": 100
+    },
+    {
+      "epoch": 0.005130334937580925,
+      "grad_norm": 0.03338063508272171,
+      "learning_rate": 0.2999949961383896,
+      "loss": 0.1572,
+      "num_input_tokens_seen": 136448,
+      "step": 105
+    },
+    {
+      "epoch": 0.005374636601275255,
+      "grad_norm": 0.030674610286951065,
+      "learning_rate": 0.2999945034349809,
+      "loss": 0.1772,
+      "num_input_tokens_seen": 143168,
+      "step": 110
+    },
+    {
+      "epoch": 0.005618938264969585,
+      "grad_norm": 0.017095131799578667,
+      "learning_rate": 0.2999939876005348,
+      "loss": 0.1649,
+      "num_input_tokens_seen": 149696,
+      "step": 115
+    },
+    {
+      "epoch": 0.005863239928663914,
+      "grad_norm": 0.023525789380073547,
+      "learning_rate": 0.29999344863513094,
+      "loss": 0.156,
+      "num_input_tokens_seen": 156832,
+      "step": 120
+    },
+    {
+      "epoch": 0.006107541592358244,
+      "grad_norm": 0.021489722654223442,
+      "learning_rate": 0.2999928865388523,
+      "loss": 0.1833,
+      "num_input_tokens_seen": 163456,
+      "step": 125
+    },
+    {
+      "epoch": 0.0063518432560525735,
+      "grad_norm": 0.01983758993446827,
+      "learning_rate": 0.29999230131178567,
+      "loss": 0.1657,
+      "num_input_tokens_seen": 169920,
+      "step": 130
+    },
+    {
+      "epoch": 0.006596144919746904,
+      "grad_norm": 0.024278059601783752,
+      "learning_rate": 0.2999916929540212,
+      "loss": 0.1588,
+      "num_input_tokens_seen": 176480,
+      "step": 135
+    },
+    {
+      "epoch": 0.006840446583441233,
+      "grad_norm": 0.016512328758835793,
+      "learning_rate": 0.29999106146565285,
+      "loss": 0.1754,
+      "num_input_tokens_seen": 182464,
+      "step": 140
+    },
+    {
+      "epoch": 0.007084748247135563,
+      "grad_norm": 0.014139589853584766,
+      "learning_rate": 0.29999040684677786,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 188800,
+      "step": 145
+    },
+    {
+      "epoch": 0.007329049910829893,
+      "grad_norm": 0.01790541596710682,
+      "learning_rate": 0.2999897290974972,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 195424,
+      "step": 150
+    },
+    {
+      "epoch": 0.007573351574524222,
+      "grad_norm": 0.032509054988622665,
+      "learning_rate": 0.2999890282179155,
+      "loss": 0.1626,
+      "num_input_tokens_seen": 201952,
+      "step": 155
+    },
+    {
+      "epoch": 0.007817653238218552,
+      "grad_norm": 0.026784060522913933,
+      "learning_rate": 0.29998830420814077,
+      "loss": 0.1572,
+      "num_input_tokens_seen": 209408,
+      "step": 160
+    },
+    {
+      "epoch": 0.008061954901912883,
+      "grad_norm": 0.019511893391609192,
+      "learning_rate": 0.2999875570682846,
+      "loss": 0.1635,
+      "num_input_tokens_seen": 215808,
+      "step": 165
+    },
+    {
+      "epoch": 0.008306256565607212,
+      "grad_norm": 0.012516159564256668,
+      "learning_rate": 0.2999867867984623,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 222496,
+      "step": 170
+    },
+    {
+      "epoch": 0.008550558229301541,
+      "grad_norm": 0.01747675985097885,
+      "learning_rate": 0.29998599339879267,
+      "loss": 0.1559,
+      "num_input_tokens_seen": 229152,
+      "step": 175
+    },
+    {
+      "epoch": 0.008794859892995872,
+      "grad_norm": 0.018156783655285835,
+      "learning_rate": 0.29998517686939796,
+      "loss": 0.1467,
+      "num_input_tokens_seen": 235712,
+      "step": 180
+    },
+    {
+      "epoch": 0.009039161556690201,
+      "grad_norm": 0.031365249305963516,
+      "learning_rate": 0.29998433721040413,
+      "loss": 0.1557,
+      "num_input_tokens_seen": 242048,
+      "step": 185
+    },
+    {
+      "epoch": 0.00928346322038453,
+      "grad_norm": 0.030253317207098007,
+      "learning_rate": 0.29998347442194073,
+      "loss": 0.179,
+      "num_input_tokens_seen": 248352,
+      "step": 190
+    },
+    {
+      "epoch": 0.00952776488407886,
+      "grad_norm": 0.009556518867611885,
+      "learning_rate": 0.2999825885041407,
+      "loss": 0.1618,
+      "num_input_tokens_seen": 254688,
+      "step": 195
+    },
+    {
+      "epoch": 0.00977206654777319,
+      "grad_norm": 0.030872635543346405,
+      "learning_rate": 0.29998167945714077,
+      "loss": 0.1845,
+      "num_input_tokens_seen": 260832,
+      "step": 200
+    },
+    {
+      "epoch": 0.00977206654777319,
+      "eval_loss": 0.18648895621299744,
+      "eval_runtime": 401.3836,
+      "eval_samples_per_second": 90.649,
+      "eval_steps_per_second": 22.664,
+      "num_input_tokens_seen": 260832,
+      "step": 200
+    },
+    {
+      "epoch": 0.01001636821146752,
+      "grad_norm": 0.05658264830708504,
+      "learning_rate": 0.2999807472810811,
+      "loss": 0.2019,
+      "num_input_tokens_seen": 267232,
+      "step": 205
+    },
+    {
+      "epoch": 0.01026066987516185,
+      "grad_norm": 0.02793041430413723,
+      "learning_rate": 0.29997979197610536,
+      "loss": 0.1971,
+      "num_input_tokens_seen": 273472,
+      "step": 210
+    },
+    {
+      "epoch": 0.01050497153885618,
+      "grad_norm": 0.030114196240901947,
+      "learning_rate": 0.299978813542361,
+      "loss": 0.1805,
+      "num_input_tokens_seen": 280096,
+      "step": 215
+    },
+    {
+      "epoch": 0.01074927320255051,
+      "grad_norm": 0.023829180747270584,
+      "learning_rate": 0.2999778119799988,
+      "loss": 0.22,
+      "num_input_tokens_seen": 286912,
+      "step": 220
+    },
+    {
+      "epoch": 0.010993574866244839,
+      "grad_norm": 0.015243886038661003,
+      "learning_rate": 0.29997678728917326,
+      "loss": 0.1597,
+      "num_input_tokens_seen": 293216,
+      "step": 225
+    },
+    {
+      "epoch": 0.01123787652993917,
+      "grad_norm": 0.033879246562719345,
+      "learning_rate": 0.2999757394700424,
+      "loss": 0.1513,
+      "num_input_tokens_seen": 299744,
+      "step": 230
+    },
+    {
+      "epoch": 0.011482178193633499,
+      "grad_norm": 0.01922355592250824,
+      "learning_rate": 0.29997466852276783,
+      "loss": 0.1669,
+      "num_input_tokens_seen": 306240,
+      "step": 235
+    },
+    {
+      "epoch": 0.011726479857327828,
+      "grad_norm": 0.018462467938661575,
+      "learning_rate": 0.29997357444751466,
+      "loss": 0.1688,
+      "num_input_tokens_seen": 312800,
+      "step": 240
+    },
+    {
+      "epoch": 0.011970781521022157,
+      "grad_norm": 0.01671449840068817,
+      "learning_rate": 0.2999724572444516,
+      "loss": 0.1652,
+      "num_input_tokens_seen": 319200,
+      "step": 245
+    },
+    {
+      "epoch": 0.012215083184716488,
+      "grad_norm": 0.016798265278339386,
+      "learning_rate": 0.29997131691375095,
+      "loss": 0.1608,
+      "num_input_tokens_seen": 325856,
+      "step": 250
+    },
+    {
+      "epoch": 0.012459384848410818,
+      "grad_norm": 0.013317232020199299,
+      "learning_rate": 0.2999701534555886,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 332064,
+      "step": 255
+    },
+    {
+      "epoch": 0.012703686512105147,
+      "grad_norm": 0.014112112112343311,
+      "learning_rate": 0.2999689668701439,
+      "loss": 0.1568,
+      "num_input_tokens_seen": 338400,
+      "step": 260
+    },
+    {
+      "epoch": 0.012947988175799478,
+      "grad_norm": 0.00875961221754551,
+      "learning_rate": 0.29996775715759993,
+      "loss": 0.1638,
+      "num_input_tokens_seen": 344864,
+      "step": 265
+    },
+    {
+      "epoch": 0.013192289839493807,
+      "grad_norm": 0.01935550384223461,
+      "learning_rate": 0.2999665243181432,
+      "loss": 0.1576,
+      "num_input_tokens_seen": 351232,
+      "step": 270
+    },
+    {
+      "epoch": 0.013436591503188136,
+      "grad_norm": 0.013917384669184685,
+      "learning_rate": 0.2999652683519638,
+      "loss": 0.1706,
+      "num_input_tokens_seen": 358144,
+      "step": 275
+    },
+    {
+      "epoch": 0.013680893166882466,
+      "grad_norm": 0.011072104796767235,
+      "learning_rate": 0.29996398925925544,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 364832,
+      "step": 280
+    },
+    {
+      "epoch": 0.013925194830576797,
+      "grad_norm": 0.009779469110071659,
+      "learning_rate": 0.2999626870402154,
+      "loss": 0.153,
+      "num_input_tokens_seen": 371488,
+      "step": 285
+    },
+    {
+      "epoch": 0.014169496494271126,
+      "grad_norm": 0.01639954373240471,
+      "learning_rate": 0.29996136169504445,
+      "loss": 0.1724,
+      "num_input_tokens_seen": 377984,
+      "step": 290
+    },
+    {
+      "epoch": 0.014413798157965455,
+      "grad_norm": 0.023673513904213905,
+      "learning_rate": 0.29996001322394694,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 384256,
+      "step": 295
+    },
+    {
+      "epoch": 0.014658099821659786,
+      "grad_norm": 0.0189872607588768,
+      "learning_rate": 0.29995864162713093,
+      "loss": 0.2095,
+      "num_input_tokens_seen": 390400,
+      "step": 300
+    },
+    {
+      "epoch": 0.014902401485354115,
+      "grad_norm": 0.008692477829754353,
+      "learning_rate": 0.2999572469048079,
+      "loss": 0.161,
+      "num_input_tokens_seen": 396576,
+      "step": 305
+    },
+    {
+      "epoch": 0.015146703149048445,
+      "grad_norm": 0.0352720208466053,
+      "learning_rate": 0.29995582905719287,
+      "loss": 0.1802,
+      "num_input_tokens_seen": 403200,
+      "step": 310
+    },
+    {
+      "epoch": 0.015391004812742774,
+      "grad_norm": 0.016630228608846664,
+      "learning_rate": 0.2999543880845046,
+      "loss": 0.1652,
+      "num_input_tokens_seen": 409536,
+      "step": 315
+    },
+    {
+      "epoch": 0.015635306476437103,
+      "grad_norm": 0.04912297800183296,
+      "learning_rate": 0.2999529239869652,
+      "loss": 0.1632,
+      "num_input_tokens_seen": 416128,
+      "step": 320
+    },
+    {
+      "epoch": 0.015879608140131434,
+      "grad_norm": 0.020790671929717064,
+      "learning_rate": 0.2999514367648005,
+      "loss": 0.1719,
+      "num_input_tokens_seen": 422336,
+      "step": 325
+    },
+    {
+      "epoch": 0.016123909803825765,
+      "grad_norm": 0.02688586711883545,
+      "learning_rate": 0.29994992641823987,
+      "loss": 0.1691,
+      "num_input_tokens_seen": 429152,
+      "step": 330
+    },
+    {
+      "epoch": 0.016368211467520093,
+      "grad_norm": 0.010249392129480839,
+      "learning_rate": 0.29994839294751613,
+      "loss": 0.1681,
+      "num_input_tokens_seen": 435488,
+      "step": 335
+    },
+    {
+      "epoch": 0.016612513131214424,
+      "grad_norm": 0.01339343935251236,
+      "learning_rate": 0.29994683635286584,
+      "loss": 0.1555,
+      "num_input_tokens_seen": 441952,
+      "step": 340
+    },
+    {
+      "epoch": 0.016856814794908755,
+      "grad_norm": 0.0229802168905735,
+      "learning_rate": 0.2999452566345291,
+      "loss": 0.1895,
+      "num_input_tokens_seen": 448672,
+      "step": 345
+    },
+    {
+      "epoch": 0.017101116458603082,
+      "grad_norm": 0.008547558449208736,
+      "learning_rate": 0.2999436537927494,
+      "loss": 0.1577,
+      "num_input_tokens_seen": 454720,
+      "step": 350
+    },
+    {
+      "epoch": 0.017345418122297413,
+      "grad_norm": 0.011749034747481346,
+      "learning_rate": 0.299942027827774,
+      "loss": 0.1537,
+      "num_input_tokens_seen": 461216,
+      "step": 355
+    },
+    {
+      "epoch": 0.017589719785991744,
+      "grad_norm": 0.008608849719166756,
+      "learning_rate": 0.29994037873985363,
+      "loss": 0.1495,
+      "num_input_tokens_seen": 467584,
+      "step": 360
+    },
+    {
+      "epoch": 0.01783402144968607,
+      "grad_norm": 0.021838665008544922,
+      "learning_rate": 0.29993870652924254,
+      "loss": 0.1587,
+      "num_input_tokens_seen": 473696,
+      "step": 365
+    },
+    {
+      "epoch": 0.018078323113380403,
+      "grad_norm": 0.010592716746032238,
+      "learning_rate": 0.29993701119619876,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 480288,
+      "step": 370
+    },
+    {
+      "epoch": 0.018322624777074734,
+      "grad_norm": 0.011896399781107903,
+      "learning_rate": 0.2999352927409835,
+      "loss": 0.1548,
+      "num_input_tokens_seen": 486720,
+      "step": 375
+    },
+    {
+      "epoch": 0.01856692644076906,
+      "grad_norm": 0.009385009296238422,
+      "learning_rate": 0.29993355116386194,
+      "loss": 0.1491,
+      "num_input_tokens_seen": 493120,
+      "step": 380
+    },
+    {
+      "epoch": 0.018811228104463392,
+      "grad_norm": 0.017876043915748596,
+      "learning_rate": 0.29993178646510266,
+      "loss": 0.1658,
+      "num_input_tokens_seen": 499456,
+      "step": 385
+    },
+    {
+      "epoch": 0.01905552976815772,
+      "grad_norm": 0.007711249869316816,
+      "learning_rate": 0.2999299986449777,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 505792,
+      "step": 390
+    },
+    {
+      "epoch": 0.01929983143185205,
+      "grad_norm": 0.009576726704835892,
+      "learning_rate": 0.29992818770376284,
+      "loss": 0.1748,
+      "num_input_tokens_seen": 512064,
+      "step": 395
+    },
+    {
+      "epoch": 0.01954413309554638,
+      "grad_norm": 0.0064466060139238834,
+      "learning_rate": 0.29992635364173725,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 518880,
+      "step": 400
+    },
+    {
+      "epoch": 0.01954413309554638,
+      "eval_loss": 0.15296052396297455,
+      "eval_runtime": 402.8217,
+      "eval_samples_per_second": 90.325,
+      "eval_steps_per_second": 22.583,
+      "num_input_tokens_seen": 518880,
+      "step": 400
+    },
+    {
+      "epoch": 0.01978843475924071,
+      "grad_norm": 0.01684892550110817,
+      "learning_rate": 0.2999244964591839,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 526240,
+      "step": 405
+    },
+    {
+      "epoch": 0.02003273642293504,
+      "grad_norm": 0.007950413972139359,
+      "learning_rate": 0.2999226161563891,
+      "loss": 0.1737,
+      "num_input_tokens_seen": 532768,
+      "step": 410
+    },
+    {
+      "epoch": 0.02027703808662937,
+      "grad_norm": 0.012899374589323997,
+      "learning_rate": 0.2999207127336429,
+      "loss": 0.1708,
+      "num_input_tokens_seen": 539296,
+      "step": 415
+    },
+    {
+      "epoch": 0.0205213397503237,
+      "grad_norm": 0.006109077949076891,
+      "learning_rate": 0.2999187861912387,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 546464,
+      "step": 420
+    },
+    {
+      "epoch": 0.02076564141401803,
+      "grad_norm": 0.015186105854809284,
+      "learning_rate": 0.2999168365294737,
+      "loss": 0.1575,
+      "num_input_tokens_seen": 552928,
+      "step": 425
+    },
+    {
+      "epoch": 0.02100994307771236,
+      "grad_norm": 0.02595384046435356,
+      "learning_rate": 0.29991486374864856,
+      "loss": 0.1603,
+      "num_input_tokens_seen": 559168,
+      "step": 430
+    },
+    {
+      "epoch": 0.021254244741406688,
+      "grad_norm": 0.01085552666336298,
+      "learning_rate": 0.29991286784906745,
+      "loss": 0.1627,
+      "num_input_tokens_seen": 565312,
+      "step": 435
+    },
+    {
+      "epoch": 0.02149854640510102,
+      "grad_norm": 0.007158820983022451,
+      "learning_rate": 0.2999108488310382,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 571488,
+      "step": 440
+    },
+    {
+      "epoch": 0.02174284806879535,
+      "grad_norm": 0.011095430701971054,
+      "learning_rate": 0.29990880669487213,
+      "loss": 0.1624,
+      "num_input_tokens_seen": 578016,
+      "step": 445
+    },
+    {
+      "epoch": 0.021987149732489678,
+      "grad_norm": 0.012175707146525383,
+      "learning_rate": 0.29990674144088425,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 584480,
+      "step": 450
+    },
+    {
+      "epoch": 0.02223145139618401,
+      "grad_norm": 0.016517313197255135,
+      "learning_rate": 0.299904653069393,
+      "loss": 0.157,
+      "num_input_tokens_seen": 591648,
+      "step": 455
+    },
+    {
+      "epoch": 0.02247575305987834,
+      "grad_norm": 0.021303463727235794,
+      "learning_rate": 0.29990254158072044,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 597760,
+      "step": 460
+    },
+    {
+      "epoch": 0.022720054723572667,
+      "grad_norm": 0.011815404519438744,
+      "learning_rate": 0.2999004069751921,
+      "loss": 0.168,
+      "num_input_tokens_seen": 604320,
+      "step": 465
+    },
+    {
+      "epoch": 0.022964356387266998,
+      "grad_norm": 0.021556803956627846,
+      "learning_rate": 0.2998982492531373,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 610592,
+      "step": 470
+    },
+    {
+      "epoch": 0.023208658050961326,
+      "grad_norm": 0.007045431528240442,
+      "learning_rate": 0.2998960684148887,
+      "loss": 0.1494,
+      "num_input_tokens_seen": 617120,
+      "step": 475
+    },
+    {
+      "epoch": 0.023452959714655656,
+      "grad_norm": 0.007029450964182615,
+      "learning_rate": 0.29989386446078264,
+      "loss": 0.1698,
+      "num_input_tokens_seen": 623296,
+      "step": 480
+    },
+    {
+      "epoch": 0.023697261378349987,
+      "grad_norm": 0.0161809753626585,
+      "learning_rate": 0.299891637391159,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 629984,
+      "step": 485
+    },
+    {
+      "epoch": 0.023941563042044315,
+      "grad_norm": 0.017255816608667374,
+      "learning_rate": 0.2998893872063612,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 636800,
+      "step": 490
+    },
+    {
+      "epoch": 0.024185864705738646,
+      "grad_norm": 0.007997923530638218,
+      "learning_rate": 0.2998871139067363,
+      "loss": 0.1558,
+      "num_input_tokens_seen": 643456,
+      "step": 495
+    },
+    {
+      "epoch": 0.024430166369432977,
+      "grad_norm": 0.016810359433293343,
+      "learning_rate": 0.2998848174926348,
+      "loss": 0.1552,
+      "num_input_tokens_seen": 650720,
+      "step": 500
+    },
+    {
+      "epoch": 0.024674468033127304,
+      "grad_norm": 0.013938031159341335,
+      "learning_rate": 0.2998824979644109,
+      "loss": 0.1611,
+      "num_input_tokens_seen": 657440,
+      "step": 505
+    },
+    {
+      "epoch": 0.024918769696821635,
+      "grad_norm": 0.006744832266122103,
+      "learning_rate": 0.29988015532242224,
+      "loss": 0.1492,
+      "num_input_tokens_seen": 663680,
+      "step": 510
+    },
+    {
+      "epoch": 0.025163071360515966,
+      "grad_norm": 0.02286100760102272,
+      "learning_rate": 0.29987778956703015,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 670784,
+      "step": 515
+    },
+    {
+      "epoch": 0.025407373024210294,
+      "grad_norm": 0.009795085527002811,
+      "learning_rate": 0.2998754006985994,
+      "loss": 0.1519,
+      "num_input_tokens_seen": 677760,
+      "step": 520
+    },
+    {
+      "epoch": 0.025651674687904625,
+      "grad_norm": 0.009243443608283997,
+      "learning_rate": 0.29987298871749846,
+      "loss": 0.152,
+      "num_input_tokens_seen": 684192,
+      "step": 525
+    },
+    {
+      "epoch": 0.025895976351598956,
+      "grad_norm": 0.005852101370692253,
+      "learning_rate": 0.2998705536240992,
+      "loss": 0.156,
+      "num_input_tokens_seen": 690432,
+      "step": 530
+    },
+    {
+      "epoch": 0.026140278015293283,
+      "grad_norm": 0.009896044619381428,
+      "learning_rate": 0.2998680954187772,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 696800,
+      "step": 535
+    },
+    {
+      "epoch": 0.026384579678987614,
+      "grad_norm": 0.008009972050786018,
+      "learning_rate": 0.2998656141019115,
+      "loss": 0.1551,
+      "num_input_tokens_seen": 703392,
+      "step": 540
+    },
+    {
+      "epoch": 0.026628881342681942,
+      "grad_norm": 0.005669897887855768,
+      "learning_rate": 0.2998631096738848,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 709728,
+      "step": 545
+    },
+    {
+      "epoch": 0.026873183006376273,
+      "grad_norm": 0.010589969344437122,
+      "learning_rate": 0.29986058213508326,
+      "loss": 0.1593,
+      "num_input_tokens_seen": 715904,
+      "step": 550
+    },
+    {
+      "epoch": 0.027117484670070604,
+      "grad_norm": 0.013816055841743946,
+      "learning_rate": 0.29985803148589674,
+      "loss": 0.1691,
+      "num_input_tokens_seen": 722304,
+      "step": 555
+    },
+    {
+      "epoch": 0.02736178633376493,
+      "grad_norm": 0.006446806248277426,
+      "learning_rate": 0.2998554577267185,
+      "loss": 0.1656,
+      "num_input_tokens_seen": 728320,
+      "step": 560
+    },
+    {
+      "epoch": 0.027606087997459262,
+      "grad_norm": 0.010421511717140675,
+      "learning_rate": 0.2998528608579455,
+      "loss": 0.1739,
+      "num_input_tokens_seen": 734496,
+      "step": 565
+    },
+    {
+      "epoch": 0.027850389661153593,
+      "grad_norm": 0.015989653766155243,
+      "learning_rate": 0.2998502408799781,
+      "loss": 0.1485,
+      "num_input_tokens_seen": 741248,
+      "step": 570
+    },
+    {
+      "epoch": 0.02809469132484792,
+      "grad_norm": 0.010897301137447357,
+      "learning_rate": 0.2998475977932205,
+      "loss": 0.1775,
+      "num_input_tokens_seen": 747712,
+      "step": 575
+    },
+    {
+      "epoch": 0.028338992988542252,
+      "grad_norm": 0.00813302118331194,
+      "learning_rate": 0.29984493159808023,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 755040,
+      "step": 580
+    },
+    {
+      "epoch": 0.028583294652236583,
+      "grad_norm": 0.022107519209384918,
+      "learning_rate": 0.29984224229496836,
+      "loss": 0.1553,
+      "num_input_tokens_seen": 761536,
+      "step": 585
+    },
+    {
+      "epoch": 0.02882759631593091,
+      "grad_norm": 0.01644737832248211,
+      "learning_rate": 0.2998395298842998,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 768000,
+      "step": 590
+    },
+    {
+      "epoch": 0.02907189797962524,
+      "grad_norm": 0.005235717631876469,
+      "learning_rate": 0.29983679436649263,
+      "loss": 0.1452,
+      "num_input_tokens_seen": 774112,
+      "step": 595
+    },
+    {
+      "epoch": 0.029316199643319572,
+      "grad_norm": 0.005933593492954969,
+      "learning_rate": 0.2998340357419689,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 780768,
+      "step": 600
+    },
+    {
+      "epoch": 0.029316199643319572,
+      "eval_loss": 0.17752529680728912,
+      "eval_runtime": 402.1706,
+      "eval_samples_per_second": 90.472,
+      "eval_steps_per_second": 22.62,
+      "num_input_tokens_seen": 780768,
+      "step": 600
+    },
+    {
+      "epoch": 0.0295605013070139,
+      "grad_norm": 0.008518454618752003,
+      "learning_rate": 0.29983125401115385,
+      "loss": 0.168,
+      "num_input_tokens_seen": 787104,
+      "step": 605
+    },
+    {
+      "epoch": 0.02980480297070823,
+      "grad_norm": 0.010880297049880028,
+      "learning_rate": 0.29982844917447654,
+      "loss": 0.1616,
+      "num_input_tokens_seen": 793856,
+      "step": 610
+    },
+    {
+      "epoch": 0.030049104634402562,
+      "grad_norm": 0.012697809375822544,
+      "learning_rate": 0.2998256212323695,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 800448,
+      "step": 615
+    },
+    {
+      "epoch": 0.03029340629809689,
+      "grad_norm": 0.007531088311225176,
+      "learning_rate": 0.29982277018526887,
+      "loss": 0.1372,
+      "num_input_tokens_seen": 807232,
+      "step": 620
+    },
+    {
+      "epoch": 0.03053770796179122,
+      "grad_norm": 0.00527376402169466,
+      "learning_rate": 0.2998198960336143,
+      "loss": 0.1585,
+      "num_input_tokens_seen": 813600,
+      "step": 625
+    },
+    {
+      "epoch": 0.030782009625485548,
+      "grad_norm": 0.004967930726706982,
+      "learning_rate": 0.299816998777849,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 820000,
+      "step": 630
+    },
+    {
+      "epoch": 0.03102631128917988,
+      "grad_norm": 0.006969386711716652,
+      "learning_rate": 0.2998140784184197,
+      "loss": 0.1406,
+      "num_input_tokens_seen": 826560,
+      "step": 635
+    },
+    {
+      "epoch": 0.031270612952874206,
+      "grad_norm": 0.012204078957438469,
+      "learning_rate": 0.2998111349557769,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 832960,
+      "step": 640
+    },
+    {
+      "epoch": 0.03151491461656854,
+      "grad_norm": 0.011341945268213749,
+      "learning_rate": 0.29980816839037444,
+      "loss": 0.1447,
+      "num_input_tokens_seen": 839680,
+      "step": 645
+    },
+    {
+      "epoch": 0.03175921628026287,
+      "grad_norm": 0.006339394953101873,
+      "learning_rate": 0.2998051787226698,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 846592,
+      "step": 650
+    },
+    {
+      "epoch": 0.0320035179439572,
+      "grad_norm": 0.009623605757951736,
+      "learning_rate": 0.29980216595312403,
+      "loss": 0.139,
+      "num_input_tokens_seen": 853088,
+      "step": 655
+    },
+    {
+      "epoch": 0.03224781960765153,
+      "grad_norm": 0.011906609870493412,
+      "learning_rate": 0.29979913008220177,
+      "loss": 0.1546,
+      "num_input_tokens_seen": 859424,
+      "step": 660
+    },
+    {
+      "epoch": 0.03249212127134586,
+      "grad_norm": 0.014531293883919716,
+      "learning_rate": 0.2997960711103711,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 866080,
+      "step": 665
+    },
+    {
+      "epoch": 0.032736422935040185,
+      "grad_norm": 0.011538858525454998,
+      "learning_rate": 0.29979298903810386,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 872608,
+      "step": 670
+    },
+    {
+      "epoch": 0.032980724598734516,
+      "grad_norm": 0.007460369728505611,
+      "learning_rate": 0.29978988386587524,
+      "loss": 0.1655,
+      "num_input_tokens_seen": 879008,
+      "step": 675
+    },
+    {
+      "epoch": 0.03322502626242885,
+      "grad_norm": 0.0071784802712500095,
+      "learning_rate": 0.2997867555941642,
+      "loss": 0.1516,
+      "num_input_tokens_seen": 885408,
+      "step": 680
+    },
+    {
+      "epoch": 0.03346932792612318,
+      "grad_norm": 0.006322260946035385,
+      "learning_rate": 0.299783604223453,
+      "loss": 0.1506,
+      "num_input_tokens_seen": 891552,
+      "step": 685
+    },
+    {
+      "epoch": 0.03371362958981751,
+      "grad_norm": 0.012253022752702236,
+      "learning_rate": 0.29978042975422786,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 897984,
+      "step": 690
+    },
+    {
+      "epoch": 0.03395793125351183,
+      "grad_norm": 0.013147941790521145,
+      "learning_rate": 0.29977723218697816,
+      "loss": 0.1595,
+      "num_input_tokens_seen": 904480,
+      "step": 695
+    },
+    {
+      "epoch": 0.034202232917206164,
+      "grad_norm": 0.00795318465679884,
+      "learning_rate": 0.299774011522197,
+      "loss": 0.1384,
+      "num_input_tokens_seen": 910880,
+      "step": 700
+    },
+    {
+      "epoch": 0.034446534580900495,
+      "grad_norm": 0.015226255171000957,
+      "learning_rate": 0.29977076776038114,
+      "loss": 0.1657,
+      "num_input_tokens_seen": 917216,
+      "step": 705
+    },
+    {
+      "epoch": 0.034690836244594826,
+      "grad_norm": 0.012421595863997936,
+      "learning_rate": 0.2997675009020307,
+      "loss": 0.1444,
+      "num_input_tokens_seen": 923232,
+      "step": 710
+    },
+    {
+      "epoch": 0.03493513790828916,
+      "grad_norm": 0.00955990795046091,
+      "learning_rate": 0.2997642109476496,
+      "loss": 0.1635,
+      "num_input_tokens_seen": 929824,
+      "step": 715
+    },
+    {
+      "epoch": 0.03517943957198349,
+      "grad_norm": 0.006837652996182442,
+      "learning_rate": 0.299760897897745,
+      "loss": 0.1574,
+      "num_input_tokens_seen": 936224,
+      "step": 720
+    },
+    {
+      "epoch": 0.03542374123567781,
+      "grad_norm": 0.005699640605598688,
+      "learning_rate": 0.29975756175282803,
+      "loss": 0.1421,
+      "num_input_tokens_seen": 942432,
+      "step": 725
+    },
+    {
+      "epoch": 0.03566804289937214,
+      "grad_norm": 0.006488234270364046,
+      "learning_rate": 0.29975420251341306,
+      "loss": 0.1544,
+      "num_input_tokens_seen": 948672,
+      "step": 730
+    },
+    {
+      "epoch": 0.035912344563066474,
+      "grad_norm": 0.00888883788138628,
+      "learning_rate": 0.29975082018001814,
+      "loss": 0.1687,
+      "num_input_tokens_seen": 954880,
+      "step": 735
+    },
+    {
+      "epoch": 0.036156646226760805,
+      "grad_norm": 0.015939664095640182,
+      "learning_rate": 0.2997474147531648,
+      "loss": 0.1702,
+      "num_input_tokens_seen": 961120,
+      "step": 740
+    },
+    {
+      "epoch": 0.036400947890455136,
+      "grad_norm": 0.007008249871432781,
+      "learning_rate": 0.29974398623337833,
+      "loss": 0.1599,
+      "num_input_tokens_seen": 967616,
+      "step": 745
+    },
+    {
+      "epoch": 0.03664524955414947,
+      "grad_norm": 0.007346251513808966,
+      "learning_rate": 0.2997405346211873,
+      "loss": 0.1567,
+      "num_input_tokens_seen": 974272,
+      "step": 750
+    },
+    {
+      "epoch": 0.03688955121784379,
+      "grad_norm": 0.007338172756135464,
+      "learning_rate": 0.2997370599171241,
+      "loss": 0.1468,
+      "num_input_tokens_seen": 980608,
+      "step": 755
+    },
+    {
+      "epoch": 0.03713385288153812,
+      "grad_norm": 0.00700546707957983,
+      "learning_rate": 0.2997335621217246,
+      "loss": 0.141,
+      "num_input_tokens_seen": 987168,
+      "step": 760
+    },
+    {
+      "epoch": 0.03737815454523245,
+      "grad_norm": 0.016759589314460754,
+      "learning_rate": 0.29973004123552816,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 993632,
+      "step": 765
+    },
+    {
+      "epoch": 0.037622456208926784,
+      "grad_norm": 0.006739115342497826,
+      "learning_rate": 0.2997264972590777,
+      "loss": 0.1594,
+      "num_input_tokens_seen": 999968,
+      "step": 770
+    },
+    {
+      "epoch": 0.037866757872621115,
+      "grad_norm": 0.006750429980456829,
+      "learning_rate": 0.29972293019291973,
+      "loss": 0.1464,
+      "num_input_tokens_seen": 1006688,
+      "step": 775
+    },
+    {
+      "epoch": 0.03811105953631544,
+      "grad_norm": 0.028798270970582962,
+      "learning_rate": 0.2997193400376045,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 1012896,
+      "step": 780
+    },
+    {
+      "epoch": 0.03835536120000977,
+      "grad_norm": 0.01769954338669777,
+      "learning_rate": 0.2997157267936854,
+      "loss": 0.1677,
+      "num_input_tokens_seen": 1019136,
+      "step": 785
+    },
+    {
+      "epoch": 0.0385996628637041,
+      "grad_norm": 0.0055108931846916676,
+      "learning_rate": 0.2997120904617199,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 1025792,
+      "step": 790
+    },
+    {
+      "epoch": 0.03884396452739843,
+      "grad_norm": 0.00925780925899744,
+      "learning_rate": 0.29970843104226863,
+      "loss": 0.1609,
+      "num_input_tokens_seen": 1032032,
+      "step": 795
+    },
+    {
+      "epoch": 0.03908826619109276,
+      "grad_norm": 0.009362381882965565,
+      "learning_rate": 0.2997047485358959,
+      "loss": 0.1529,
+      "num_input_tokens_seen": 1038304,
+      "step": 800
+    },
+    {
+      "epoch": 0.03908826619109276,
+      "eval_loss": 0.14968900382518768,
+      "eval_runtime": 401.9259,
+      "eval_samples_per_second": 90.527,
+      "eval_steps_per_second": 22.634,
+      "num_input_tokens_seen": 1038304,
+      "step": 800
+    },
+    {
+      "epoch": 0.039332567854787094,
+      "grad_norm": 0.008691994473338127,
+      "learning_rate": 0.2997010429431697,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 1044384,
+      "step": 805
+    },
+    {
+      "epoch": 0.03957686951848142,
+      "grad_norm": 0.009997324086725712,
+      "learning_rate": 0.29969731426466134,
+      "loss": 0.1701,
+      "num_input_tokens_seen": 1051040,
+      "step": 810
+    },
+    {
+      "epoch": 0.03982117118217575,
+      "grad_norm": 0.005586818791925907,
+      "learning_rate": 0.299693562500946,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 1057664,
+      "step": 815
+    },
+    {
+      "epoch": 0.04006547284587008,
+      "grad_norm": 0.008421546779572964,
+      "learning_rate": 0.29968978765260207,
+      "loss": 0.1455,
+      "num_input_tokens_seen": 1063968,
+      "step": 820
+    },
+    {
+      "epoch": 0.04030977450956441,
+      "grad_norm": 0.006749195046722889,
+      "learning_rate": 0.2996859897202118,
+      "loss": 0.1613,
+      "num_input_tokens_seen": 1070624,
+      "step": 825
+    },
+    {
+      "epoch": 0.04055407617325874,
+      "grad_norm": 0.011877949349582195,
+      "learning_rate": 0.2996821687043609,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 1077376,
+      "step": 830
+    },
+    {
+      "epoch": 0.04079837783695307,
+      "grad_norm": 0.01245996356010437,
+      "learning_rate": 0.2996783246056384,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 1083840,
+      "step": 835
+    },
+    {
+      "epoch": 0.0410426795006474,
+      "grad_norm": 0.009998328052461147,
+      "learning_rate": 0.29967445742463744,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 1090272,
+      "step": 840
+    },
+    {
+      "epoch": 0.04128698116434173,
+      "grad_norm": 0.005372264422476292,
+      "learning_rate": 0.29967056716195417,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 1096992,
+      "step": 845
+    },
+    {
+      "epoch": 0.04153128282803606,
+      "grad_norm": 0.016267532482743263,
+      "learning_rate": 0.2996666538181885,
+      "loss": 0.1957,
+      "num_input_tokens_seen": 1103392,
+      "step": 850
+    },
+    {
+      "epoch": 0.04177558449173039,
+      "grad_norm": 0.011358632706105709,
+      "learning_rate": 0.29966271739394407,
+      "loss": 0.1851,
+      "num_input_tokens_seen": 1109664,
+      "step": 855
+    },
+    {
+      "epoch": 0.04201988615542472,
+      "grad_norm": 0.00457138242200017,
+      "learning_rate": 0.29965875788982776,
+      "loss": 0.1513,
+      "num_input_tokens_seen": 1116096,
+      "step": 860
+    },
+    {
+      "epoch": 0.042264187819119045,
+      "grad_norm": 0.008696872740983963,
+      "learning_rate": 0.2996547753064503,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 1122048,
+      "step": 865
+    },
+    {
+      "epoch": 0.042508489482813376,
+      "grad_norm": 0.008294257335364819,
+      "learning_rate": 0.29965076964442583,
+      "loss": 0.1435,
+      "num_input_tokens_seen": 1128512,
+      "step": 870
+    },
+    {
+      "epoch": 0.04275279114650771,
+      "grad_norm": 0.008795199915766716,
+      "learning_rate": 0.299646740904372,
+      "loss": 0.1448,
+      "num_input_tokens_seen": 1134912,
+      "step": 875
+    },
+    {
+      "epoch": 0.04299709281020204,
+      "grad_norm": 0.01687173917889595,
+      "learning_rate": 0.29964268908691016,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 1141504,
+      "step": 880
+    },
+    {
+      "epoch": 0.04324139447389637,
+      "grad_norm": 0.01937958225607872,
+      "learning_rate": 0.29963861419266513,
+      "loss": 0.1634,
+      "num_input_tokens_seen": 1147872,
+      "step": 885
+    },
+    {
+      "epoch": 0.0434856961375907,
+      "grad_norm": 0.008877787739038467,
+      "learning_rate": 0.29963451622226533,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 1154848,
+      "step": 890
+    },
+    {
+      "epoch": 0.043729997801285024,
+      "grad_norm": 0.009217260405421257,
+      "learning_rate": 0.29963039517634277,
+      "loss": 0.1281,
+      "num_input_tokens_seen": 1161248,
+      "step": 895
+    },
+    {
+      "epoch": 0.043974299464979355,
+      "grad_norm": 0.014786854386329651,
+      "learning_rate": 0.2996262510555328,
+      "loss": 0.1509,
+      "num_input_tokens_seen": 1168032,
+      "step": 900
+    },
+    {
+      "epoch": 0.044218601128673686,
+      "grad_norm": 0.010081278160214424,
+      "learning_rate": 0.2996220838604746,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 1174304,
+      "step": 905
+    },
+    {
+      "epoch": 0.04446290279236802,
+      "grad_norm": 0.02486228384077549,
+      "learning_rate": 0.29961789359181085,
+      "loss": 0.1634,
+      "num_input_tokens_seen": 1180640,
+      "step": 910
+    },
+    {
+      "epoch": 0.04470720445606235,
+      "grad_norm": 0.007458200212568045,
+      "learning_rate": 0.29961368025018764,
+      "loss": 0.1667,
+      "num_input_tokens_seen": 1187104,
+      "step": 915
+    },
+    {
+      "epoch": 0.04495150611975668,
+      "grad_norm": 0.023550761863589287,
+      "learning_rate": 0.2996094438362548,
+      "loss": 0.1756,
+      "num_input_tokens_seen": 1193600,
+      "step": 920
+    },
+    {
+      "epoch": 0.045195807783451,
+      "grad_norm": 0.006629835814237595,
+      "learning_rate": 0.2996051843506657,
+      "loss": 0.1406,
+      "num_input_tokens_seen": 1200384,
+      "step": 925
+    },
+    {
+      "epoch": 0.045440109447145334,
+      "grad_norm": 0.01368903648108244,
+      "learning_rate": 0.299600901794077,
+      "loss": 0.1617,
+      "num_input_tokens_seen": 1206528,
+      "step": 930
+    },
+    {
+      "epoch": 0.045684411110839665,
+      "grad_norm": 0.012660546228289604,
+      "learning_rate": 0.29959659616714923,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 1212800,
+      "step": 935
+    },
+    {
+      "epoch": 0.045928712774533996,
+      "grad_norm": 0.012615502811968327,
+      "learning_rate": 0.2995922674705464,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 1218976,
+      "step": 940
+    },
+    {
+      "epoch": 0.04617301443822833,
+      "grad_norm": 0.02121579460799694,
+      "learning_rate": 0.2995879157049361,
+      "loss": 0.1605,
+      "num_input_tokens_seen": 1225376,
+      "step": 945
+    },
+    {
+      "epoch": 0.04641731610192265,
+      "grad_norm": 0.008519984781742096,
+      "learning_rate": 0.2995835408709893,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 1231360,
+      "step": 950
+    },
+    {
+      "epoch": 0.04666161776561698,
+      "grad_norm": 0.01731475256383419,
+      "learning_rate": 0.29957914296938076,
+      "loss": 0.1632,
+      "num_input_tokens_seen": 1237856,
+      "step": 955
+    },
+    {
+      "epoch": 0.04690591942931131,
+      "grad_norm": 0.0149699617177248,
+      "learning_rate": 0.2995747220007886,
+      "loss": 0.162,
+      "num_input_tokens_seen": 1244384,
+      "step": 960
+    },
+    {
+      "epoch": 0.047150221093005644,
+      "grad_norm": 0.012257126159965992,
+      "learning_rate": 0.2995702779658947,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 1250816,
+      "step": 965
+    },
+    {
+      "epoch": 0.047394522756699975,
+      "grad_norm": 0.008137860335409641,
+      "learning_rate": 0.29956581086538425,
+      "loss": 0.1287,
+      "num_input_tokens_seen": 1257504,
+      "step": 970
+    },
+    {
+      "epoch": 0.047638824420394306,
+      "grad_norm": 0.015022856183350086,
+      "learning_rate": 0.2995613206999462,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 1264160,
+      "step": 975
+    },
+    {
+      "epoch": 0.04788312608408863,
+      "grad_norm": 0.019941039383411407,
+      "learning_rate": 0.29955680747027297,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 1271008,
+      "step": 980
+    },
+    {
+      "epoch": 0.04812742774778296,
+      "grad_norm": 0.016780568286776543,
+      "learning_rate": 0.2995522711770607,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 1277248,
+      "step": 985
+    },
+    {
+      "epoch": 0.04837172941147729,
+      "grad_norm": 0.008415346965193748,
+      "learning_rate": 0.2995477118210087,
+      "loss": 0.1549,
+      "num_input_tokens_seen": 1283712,
+      "step": 990
+    },
+    {
+      "epoch": 0.04861603107517162,
+      "grad_norm": 0.013504128903150558,
+      "learning_rate": 0.29954312940282024,
+      "loss": 0.1601,
+      "num_input_tokens_seen": 1289632,
+      "step": 995
+    },
+    {
+      "epoch": 0.048860332738865954,
+      "grad_norm": 0.012223360128700733,
+      "learning_rate": 0.29953852392320196,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 1296288,
+      "step": 1000
+    },
+    {
+      "epoch": 0.048860332738865954,
+      "eval_loss": 0.1531103551387787,
+      "eval_runtime": 402.1334,
+      "eval_samples_per_second": 90.48,
+      "eval_steps_per_second": 22.622,
+      "num_input_tokens_seen": 1296288,
+      "step": 1000
+    },
+    {
+      "epoch": 0.049104634402560285,
+      "grad_norm": 0.00928540714085102,
+      "learning_rate": 0.2995338953828641,
+      "loss": 0.1363,
+      "num_input_tokens_seen": 1302752,
+      "step": 1005
+    },
+    {
+      "epoch": 0.04934893606625461,
+      "grad_norm": 0.011860625818371773,
+      "learning_rate": 0.2995292437825204,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 1309152,
+      "step": 1010
+    },
+    {
+      "epoch": 0.04959323772994894,
+      "grad_norm": 0.006690794602036476,
+      "learning_rate": 0.29952456912288816,
+      "loss": 0.145,
+      "num_input_tokens_seen": 1315584,
+      "step": 1015
+    },
+    {
+      "epoch": 0.04983753939364327,
+      "grad_norm": 0.01082373782992363,
+      "learning_rate": 0.2995198714046884,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 1322368,
+      "step": 1020
+    },
+    {
+      "epoch": 0.0500818410573376,
+      "grad_norm": 0.010472146794199944,
+      "learning_rate": 0.2995151506286454,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 1329152,
+      "step": 1025
+    },
+    {
+      "epoch": 0.05032614272103193,
+      "grad_norm": 0.015635352581739426,
+      "learning_rate": 0.2995104067954873,
+      "loss": 0.1779,
+      "num_input_tokens_seen": 1335712,
+      "step": 1030
+    },
+    {
+      "epoch": 0.05057044438472626,
+      "grad_norm": 0.011368009261786938,
+      "learning_rate": 0.2995056399059456,
+      "loss": 0.1671,
+      "num_input_tokens_seen": 1341632,
+      "step": 1035
+    },
+    {
+      "epoch": 0.05081474604842059,
+      "grad_norm": 0.008341777138411999,
+      "learning_rate": 0.2995008499607554,
+      "loss": 0.1645,
+      "num_input_tokens_seen": 1348096,
+      "step": 1040
+    },
+    {
+      "epoch": 0.05105904771211492,
+      "grad_norm": 0.007754199206829071,
+      "learning_rate": 0.2994960369606554,
+      "loss": 0.1583,
+      "num_input_tokens_seen": 1354432,
+      "step": 1045
+    },
+    {
+      "epoch": 0.05130334937580925,
+      "grad_norm": 0.009154225699603558,
+      "learning_rate": 0.2994912009063878,
+      "loss": 0.1614,
+      "num_input_tokens_seen": 1360864,
+      "step": 1050
+    },
+    {
+      "epoch": 0.05154765103950358,
+      "grad_norm": 0.013811626471579075,
+      "learning_rate": 0.29948634179869843,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 1366848,
+      "step": 1055
+    },
+    {
+      "epoch": 0.05179195270319791,
+      "grad_norm": 0.007183332461863756,
+      "learning_rate": 0.29948145963833656,
+      "loss": 0.1597,
+      "num_input_tokens_seen": 1372960,
+      "step": 1060
+    },
+    {
+      "epoch": 0.052036254366892236,
+      "grad_norm": 0.008194766007363796,
+      "learning_rate": 0.29947655442605514,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 1380032,
+      "step": 1065
+    },
+    {
+      "epoch": 0.05228055603058657,
+      "grad_norm": 0.0037348486948758364,
+      "learning_rate": 0.2994716261626106,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 1386464,
+      "step": 1070
+    },
+    {
+      "epoch": 0.0525248576942809,
+      "grad_norm": 0.005621443968266249,
+      "learning_rate": 0.2994666748487629,
+      "loss": 0.1601,
+      "num_input_tokens_seen": 1392992,
+      "step": 1075
+    },
+    {
+      "epoch": 0.05276915935797523,
+      "grad_norm": 0.005465729162096977,
+      "learning_rate": 0.2994617004852756,
+      "loss": 0.148,
+      "num_input_tokens_seen": 1399360,
+      "step": 1080
+    },
+    {
+      "epoch": 0.05301346102166956,
+      "grad_norm": 0.007075119763612747,
+      "learning_rate": 0.2994567030729159,
+      "loss": 0.1554,
+      "num_input_tokens_seen": 1405760,
+      "step": 1085
+    },
+    {
+      "epoch": 0.053257762685363884,
+      "grad_norm": 0.015542961657047272,
+      "learning_rate": 0.29945168261245436,
+      "loss": 0.158,
+      "num_input_tokens_seen": 1412000,
+      "step": 1090
+    },
+    {
+      "epoch": 0.053502064349058215,
+      "grad_norm": 0.011317209340631962,
+      "learning_rate": 0.29944663910466524,
+      "loss": 0.1485,
+      "num_input_tokens_seen": 1418240,
+      "step": 1095
+    },
+    {
+      "epoch": 0.053746366012752546,
+      "grad_norm": 0.00800265558063984,
+      "learning_rate": 0.2994415725503263,
+      "loss": 0.1528,
+      "num_input_tokens_seen": 1424576,
+      "step": 1100
+    },
+    {
+      "epoch": 0.05399066767644688,
+      "grad_norm": 0.013979986310005188,
+      "learning_rate": 0.29943648295021885,
+      "loss": 0.1616,
+      "num_input_tokens_seen": 1430720,
+      "step": 1105
+    },
+    {
+      "epoch": 0.05423496934014121,
+      "grad_norm": 0.0063639115542173386,
+      "learning_rate": 0.2994313703051278,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 1437280,
+      "step": 1110
+    },
+    {
+      "epoch": 0.05447927100383554,
+      "grad_norm": 0.009362876415252686,
+      "learning_rate": 0.29942623461584156,
+      "loss": 0.1446,
+      "num_input_tokens_seen": 1443872,
+      "step": 1115
+    },
+    {
+      "epoch": 0.05472357266752986,
+      "grad_norm": 0.005186263006180525,
+      "learning_rate": 0.29942107588315214,
+      "loss": 0.1348,
+      "num_input_tokens_seen": 1450304,
+      "step": 1120
+    },
+    {
+      "epoch": 0.054967874331224194,
+      "grad_norm": 0.01479154173284769,
+      "learning_rate": 0.29941589410785513,
+      "loss": 0.1592,
+      "num_input_tokens_seen": 1456288,
+      "step": 1125
+    },
+    {
+      "epoch": 0.055212175994918525,
+      "grad_norm": 0.00915540661662817,
+      "learning_rate": 0.29941068929074954,
+      "loss": 0.1536,
+      "num_input_tokens_seen": 1462944,
+      "step": 1130
+    },
+    {
+      "epoch": 0.055456477658612856,
+      "grad_norm": 0.007621387951076031,
+      "learning_rate": 0.2994054614326381,
+      "loss": 0.1433,
+      "num_input_tokens_seen": 1469472,
+      "step": 1135
+    },
+    {
+      "epoch": 0.05570077932230719,
+      "grad_norm": 0.005959915928542614,
+      "learning_rate": 0.29940021053432686,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 1475648,
+      "step": 1140
+    },
+    {
+      "epoch": 0.05594508098600152,
+      "grad_norm": 0.007811995688825846,
+      "learning_rate": 0.29939493659662575,
+      "loss": 0.1531,
+      "num_input_tokens_seen": 1482432,
+      "step": 1145
+    },
+    {
+      "epoch": 0.05618938264969584,
+      "grad_norm": 0.006437181029468775,
+      "learning_rate": 0.299389639620348,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 1489152,
+      "step": 1150
+    },
+    {
+      "epoch": 0.05643368431339017,
+      "grad_norm": 0.009278996847569942,
+      "learning_rate": 0.29938431960631046,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 1495232,
+      "step": 1155
+    },
+    {
+      "epoch": 0.056677985977084504,
+      "grad_norm": 0.013540171086788177,
+      "learning_rate": 0.2993789765553335,
+      "loss": 0.1622,
+      "num_input_tokens_seen": 1502176,
+      "step": 1160
+    },
+    {
+      "epoch": 0.056922287640778835,
+      "grad_norm": 0.005356914363801479,
+      "learning_rate": 0.2993736104682412,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 1509408,
+      "step": 1165
+    },
+    {
+      "epoch": 0.057166589304473166,
+      "grad_norm": 0.013111709617078304,
+      "learning_rate": 0.299368221345861,
+      "loss": 0.1757,
+      "num_input_tokens_seen": 1515808,
+      "step": 1170
+    },
+    {
+      "epoch": 0.05741089096816749,
+      "grad_norm": 0.016909131780266762,
+      "learning_rate": 0.29936280918902397,
+      "loss": 0.1799,
+      "num_input_tokens_seen": 1521856,
+      "step": 1175
+    },
+    {
+      "epoch": 0.05765519263186182,
+      "grad_norm": 0.006668919697403908,
+      "learning_rate": 0.2993573739985648,
+      "loss": 0.1555,
+      "num_input_tokens_seen": 1528000,
+      "step": 1180
+    },
+    {
+      "epoch": 0.05789949429555615,
+      "grad_norm": 0.007245638407766819,
+      "learning_rate": 0.2993519157753216,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 1534816,
+      "step": 1185
+    },
+    {
+      "epoch": 0.05814379595925048,
+      "grad_norm": 0.009512417949736118,
+      "learning_rate": 0.2993464345201361,
+      "loss": 0.1517,
+      "num_input_tokens_seen": 1541568,
+      "step": 1190
+    },
+    {
+      "epoch": 0.058388097622944814,
+      "grad_norm": 0.009734654799103737,
+      "learning_rate": 0.2993409302338536,
+      "loss": 0.1657,
+      "num_input_tokens_seen": 1547680,
+      "step": 1195
+    },
+    {
+      "epoch": 0.058632399286639145,
+      "grad_norm": 0.007397621404379606,
+      "learning_rate": 0.2993354029173229,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 1554400,
+      "step": 1200
+    },
+    {
+      "epoch": 0.058632399286639145,
+      "eval_loss": 0.17315985262393951,
+      "eval_runtime": 402.4413,
+      "eval_samples_per_second": 90.411,
+      "eval_steps_per_second": 22.605,
+      "num_input_tokens_seen": 1554400,
+      "step": 1200
+    },
+    {
+      "epoch": 0.05887670095033347,
+      "grad_norm": 0.011762763373553753,
+      "learning_rate": 0.2993298525713965,
+      "loss": 0.1739,
+      "num_input_tokens_seen": 1560960,
+      "step": 1205
+    },
+    {
+      "epoch": 0.0591210026140278,
+      "grad_norm": 0.004923292435705662,
+      "learning_rate": 0.29932427919693017,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 1567648,
+      "step": 1210
+    },
+    {
+      "epoch": 0.05936530427772213,
+      "grad_norm": 0.0059710219502449036,
+      "learning_rate": 0.2993186827947834,
+      "loss": 0.1601,
+      "num_input_tokens_seen": 1573728,
+      "step": 1215
+    },
+    {
+      "epoch": 0.05960960594141646,
+      "grad_norm": 0.005825436674058437,
+      "learning_rate": 0.2993130633658194,
+      "loss": 0.1509,
+      "num_input_tokens_seen": 1580416,
+      "step": 1220
+    },
+    {
+      "epoch": 0.05985390760511079,
+      "grad_norm": 0.007773267105221748,
+      "learning_rate": 0.29930742091090456,
+      "loss": 0.144,
+      "num_input_tokens_seen": 1586816,
+      "step": 1225
+    },
+    {
+      "epoch": 0.060098209268805124,
+      "grad_norm": 0.009800752624869347,
+      "learning_rate": 0.29930175543090914,
+      "loss": 0.1401,
+      "num_input_tokens_seen": 1593344,
+      "step": 1230
+    },
+    {
+      "epoch": 0.06034251093249945,
+      "grad_norm": 0.007993437349796295,
+      "learning_rate": 0.2992960669267068,
+      "loss": 0.1307,
+      "num_input_tokens_seen": 1599648,
+      "step": 1235
+    },
+    {
+      "epoch": 0.06058681259619378,
+      "grad_norm": 0.00866819079965353,
+      "learning_rate": 0.29929035539917476,
+      "loss": 0.1631,
+      "num_input_tokens_seen": 1606144,
+      "step": 1240
+    },
+    {
+      "epoch": 0.06083111425988811,
+      "grad_norm": 0.009353644214570522,
+      "learning_rate": 0.2992846208491938,
+      "loss": 0.1403,
+      "num_input_tokens_seen": 1612640,
+      "step": 1245
+    },
+    {
+      "epoch": 0.06107541592358244,
+      "grad_norm": 0.01155051402747631,
+      "learning_rate": 0.2992788632776483,
+      "loss": 0.1405,
+      "num_input_tokens_seen": 1619040,
+      "step": 1250
+    },
+    {
+      "epoch": 0.06131971758727677,
+      "grad_norm": 0.008947743102908134,
+      "learning_rate": 0.29927308268542613,
+      "loss": 0.1491,
+      "num_input_tokens_seen": 1625184,
+      "step": 1255
+    },
+    {
+      "epoch": 0.061564019250971096,
+      "grad_norm": 0.009883292019367218,
+      "learning_rate": 0.2992672790734187,
+      "loss": 0.1529,
+      "num_input_tokens_seen": 1631520,
+      "step": 1260
+    },
+    {
+      "epoch": 0.06180832091466543,
+      "grad_norm": 0.004838760010898113,
+      "learning_rate": 0.299261452442521,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 1638080,
+      "step": 1265
+    },
+    {
+      "epoch": 0.06205262257835976,
+      "grad_norm": 0.006850129459053278,
+      "learning_rate": 0.29925560279363167,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 1644384,
+      "step": 1270
+    },
+    {
+      "epoch": 0.06229692424205409,
+      "grad_norm": 0.0063577136024832726,
+      "learning_rate": 0.29924973012765266,
+      "loss": 0.149,
+      "num_input_tokens_seen": 1650816,
+      "step": 1275
+    },
+    {
+      "epoch": 0.06254122590574841,
+      "grad_norm": 0.006774052977561951,
+      "learning_rate": 0.29924383444548974,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 1657152,
+      "step": 1280
+    },
+    {
+      "epoch": 0.06278552756944275,
+      "grad_norm": 0.009479713626205921,
+      "learning_rate": 0.299237915748052,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 1663360,
+      "step": 1285
+    },
+    {
+      "epoch": 0.06302982923313707,
+      "grad_norm": 0.008116134442389011,
+      "learning_rate": 0.2992319740362522,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 1670080,
+      "step": 1290
+    },
+    {
+      "epoch": 0.06327413089683141,
+      "grad_norm": 0.005500311963260174,
+      "learning_rate": 0.2992260093110066,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 1676992,
+      "step": 1295
+    },
+    {
+      "epoch": 0.06351843256052574,
+      "grad_norm": 0.008686036802828312,
+      "learning_rate": 0.2992200215732352,
+      "loss": 0.1567,
+      "num_input_tokens_seen": 1683168,
+      "step": 1300
+    },
+    {
+      "epoch": 0.06376273422422006,
+      "grad_norm": 0.008685456588864326,
+      "learning_rate": 0.2992140108238611,
+      "loss": 0.1587,
+      "num_input_tokens_seen": 1689632,
+      "step": 1305
+    },
+    {
+      "epoch": 0.0640070358879144,
+      "grad_norm": 0.010876053012907505,
+      "learning_rate": 0.2992079770638115,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 1696320,
+      "step": 1310
+    },
+    {
+      "epoch": 0.06425133755160872,
+      "grad_norm": 0.012214096263051033,
+      "learning_rate": 0.29920192029401677,
+      "loss": 0.14,
+      "num_input_tokens_seen": 1702656,
+      "step": 1315
+    },
+    {
+      "epoch": 0.06449563921530306,
+      "grad_norm": 0.007783563807606697,
+      "learning_rate": 0.2991958405154109,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 1709344,
+      "step": 1320
+    },
+    {
+      "epoch": 0.06473994087899738,
+      "grad_norm": 0.01277219783514738,
+      "learning_rate": 0.29918973772893154,
+      "loss": 0.1403,
+      "num_input_tokens_seen": 1716064,
+      "step": 1325
+    },
+    {
+      "epoch": 0.06498424254269172,
+      "grad_norm": 0.0073556979186832905,
+      "learning_rate": 0.29918361193551973,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 1722592,
+      "step": 1330
+    },
+    {
+      "epoch": 0.06522854420638605,
+      "grad_norm": 0.00642261141911149,
+      "learning_rate": 0.29917746313612026,
+      "loss": 0.1553,
+      "num_input_tokens_seen": 1729120,
+      "step": 1335
+    },
+    {
+      "epoch": 0.06547284587008037,
+      "grad_norm": 0.01127227209508419,
+      "learning_rate": 0.29917129133168124,
+      "loss": 0.1401,
+      "num_input_tokens_seen": 1735424,
+      "step": 1340
+    },
+    {
+      "epoch": 0.06571714753377471,
+      "grad_norm": 0.010692550800740719,
+      "learning_rate": 0.2991650965231546,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 1742208,
+      "step": 1345
+    },
+    {
+      "epoch": 0.06596144919746903,
+      "grad_norm": 0.01845361478626728,
+      "learning_rate": 0.29915887871149544,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 1748736,
+      "step": 1350
+    },
+    {
+      "epoch": 0.06620575086116337,
+      "grad_norm": 0.0215369313955307,
+      "learning_rate": 0.2991526378976628,
+      "loss": 0.1597,
+      "num_input_tokens_seen": 1754912,
+      "step": 1355
+    },
+    {
+      "epoch": 0.0664500525248577,
+      "grad_norm": 0.01092858612537384,
+      "learning_rate": 0.29914637408261896,
+      "loss": 0.1534,
+      "num_input_tokens_seen": 1761120,
+      "step": 1360
+    },
+    {
+      "epoch": 0.06669435418855202,
+      "grad_norm": 0.014656784944236279,
+      "learning_rate": 0.29914008726733,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 1767360,
+      "step": 1365
+    },
+    {
+      "epoch": 0.06693865585224636,
+      "grad_norm": 0.007447266019880772,
+      "learning_rate": 0.2991337774527653,
+      "loss": 0.1509,
+      "num_input_tokens_seen": 1774656,
+      "step": 1370
+    },
+    {
+      "epoch": 0.06718295751594068,
+      "grad_norm": 0.006443744990974665,
+      "learning_rate": 0.2991274446398981,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 1781216,
+      "step": 1375
+    },
+    {
+      "epoch": 0.06742725917963502,
+      "grad_norm": 0.009226895868778229,
+      "learning_rate": 0.29912108882970484,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 1788064,
+      "step": 1380
+    },
+    {
+      "epoch": 0.06767156084332934,
+      "grad_norm": 0.009342392906546593,
+      "learning_rate": 0.2991147100231657,
+      "loss": 0.1322,
+      "num_input_tokens_seen": 1794720,
+      "step": 1385
+    },
+    {
+      "epoch": 0.06791586250702367,
+      "grad_norm": 0.013391564600169659,
+      "learning_rate": 0.2991083082212644,
+      "loss": 0.1747,
+      "num_input_tokens_seen": 1800864,
+      "step": 1390
+    },
+    {
+      "epoch": 0.068160164170718,
+      "grad_norm": 0.006960629019886255,
+      "learning_rate": 0.2991018834249881,
+      "loss": 0.1532,
+      "num_input_tokens_seen": 1807424,
+      "step": 1395
+    },
+    {
+      "epoch": 0.06840446583441233,
+      "grad_norm": 0.007054580375552177,
+      "learning_rate": 0.29909543563532764,
+      "loss": 0.1425,
+      "num_input_tokens_seen": 1813856,
+      "step": 1400
+    },
+    {
+      "epoch": 0.06840446583441233,
+      "eval_loss": 0.15628843009471893,
+      "eval_runtime": 401.6972,
+      "eval_samples_per_second": 90.578,
+      "eval_steps_per_second": 22.646,
+      "num_input_tokens_seen": 1813856,
+      "step": 1400
+    },
+    {
+      "epoch": 0.06864876749810667,
+      "grad_norm": 0.006129363086074591,
+      "learning_rate": 0.29908896485327746,
+      "loss": 0.1628,
+      "num_input_tokens_seen": 1820544,
+      "step": 1405
+    },
+    {
+      "epoch": 0.06889306916180099,
+      "grad_norm": 0.010298346169292927,
+      "learning_rate": 0.29908247107983527,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 1827616,
+      "step": 1410
+    },
+    {
+      "epoch": 0.06913737082549533,
+      "grad_norm": 0.008159324526786804,
+      "learning_rate": 0.29907595431600253,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 1834112,
+      "step": 1415
+    },
+    {
+      "epoch": 0.06938167248918965,
+      "grad_norm": 0.006938764359802008,
+      "learning_rate": 0.29906941456278424,
+      "loss": 0.1853,
+      "num_input_tokens_seen": 1840320,
+      "step": 1420
+    },
+    {
+      "epoch": 0.06962597415288398,
+      "grad_norm": 0.008189276792109013,
+      "learning_rate": 0.2990628518211889,
+      "loss": 0.1556,
+      "num_input_tokens_seen": 1846816,
+      "step": 1425
+    },
+    {
+      "epoch": 0.06987027581657831,
+      "grad_norm": 0.006351861171424389,
+      "learning_rate": 0.2990562660922286,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 1852864,
+      "step": 1430
+    },
+    {
+      "epoch": 0.07011457748027264,
+      "grad_norm": 0.008740276098251343,
+      "learning_rate": 0.2990496573769189,
+      "loss": 0.1626,
+      "num_input_tokens_seen": 1859328,
+      "step": 1435
+    },
+    {
+      "epoch": 0.07035887914396698,
+      "grad_norm": 0.011242554523050785,
+      "learning_rate": 0.29904302567627894,
+      "loss": 0.1585,
+      "num_input_tokens_seen": 1865856,
+      "step": 1440
+    },
+    {
+      "epoch": 0.0706031808076613,
+      "grad_norm": 0.005354073829948902,
+      "learning_rate": 0.2990363709913314,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 1872672,
+      "step": 1445
+    },
+    {
+      "epoch": 0.07084748247135562,
+      "grad_norm": 0.010286780074238777,
+      "learning_rate": 0.29902969332310264,
+      "loss": 0.1372,
+      "num_input_tokens_seen": 1879392,
+      "step": 1450
+    },
+    {
+      "epoch": 0.07109178413504996,
+      "grad_norm": 0.007437588647007942,
+      "learning_rate": 0.2990229926726223,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 1886688,
+      "step": 1455
+    },
+    {
+      "epoch": 0.07133608579874429,
+      "grad_norm": 0.005696033593267202,
+      "learning_rate": 0.29901626904092365,
+      "loss": 0.141,
+      "num_input_tokens_seen": 1892352,
+      "step": 1460
+    },
+    {
+      "epoch": 0.07158038746243862,
+      "grad_norm": 0.007549292407929897,
+      "learning_rate": 0.2990095224290438,
+      "loss": 0.131,
+      "num_input_tokens_seen": 1899136,
+      "step": 1465
+    },
+    {
+      "epoch": 0.07182468912613295,
+      "grad_norm": 0.011076409369707108,
+      "learning_rate": 0.29900275283802297,
+      "loss": 0.1452,
+      "num_input_tokens_seen": 1905856,
+      "step": 1470
+    },
+    {
+      "epoch": 0.07206899078982727,
+      "grad_norm": 0.00911741703748703,
+      "learning_rate": 0.2989959602689051,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 1912608,
+      "step": 1475
+    },
+    {
+      "epoch": 0.07231329245352161,
+      "grad_norm": 0.0066538541577756405,
+      "learning_rate": 0.2989891447227379,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 1918816,
+      "step": 1480
+    },
+    {
+      "epoch": 0.07255759411721593,
+      "grad_norm": 0.00867495033890009,
+      "learning_rate": 0.29898230620057215,
+      "loss": 0.1551,
+      "num_input_tokens_seen": 1925440,
+      "step": 1485
+    },
+    {
+      "epoch": 0.07280189578091027,
+      "grad_norm": 0.008712047711014748,
+      "learning_rate": 0.2989754447034626,
+      "loss": 0.1576,
+      "num_input_tokens_seen": 1932064,
+      "step": 1490
+    },
+    {
+      "epoch": 0.0730461974446046,
+      "grad_norm": 0.008222202770411968,
+      "learning_rate": 0.2989685602324673,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 1938176,
+      "step": 1495
+    },
+    {
+      "epoch": 0.07329049910829893,
+      "grad_norm": 0.007401471026241779,
+      "learning_rate": 0.298961652788648,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 1945152,
+      "step": 1500
+    },
+    {
+      "epoch": 0.07353480077199326,
+      "grad_norm": 0.011732184328138828,
+      "learning_rate": 0.29895472237306986,
+      "loss": 0.1612,
+      "num_input_tokens_seen": 1951520,
+      "step": 1505
+    },
+    {
+      "epoch": 0.07377910243568758,
+      "grad_norm": 0.009850456379354,
+      "learning_rate": 0.29894776898680164,
+      "loss": 0.1499,
+      "num_input_tokens_seen": 1958176,
+      "step": 1510
+    },
+    {
+      "epoch": 0.07402340409938192,
+      "grad_norm": 0.004411152098327875,
+      "learning_rate": 0.29894079263091566,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 1964608,
+      "step": 1515
+    },
+    {
+      "epoch": 0.07426770576307624,
+      "grad_norm": 0.007934018969535828,
+      "learning_rate": 0.2989337933064877,
+      "loss": 0.1554,
+      "num_input_tokens_seen": 1971168,
+      "step": 1520
+    },
+    {
+      "epoch": 0.07451200742677058,
+      "grad_norm": 0.004671796690672636,
+      "learning_rate": 0.29892677101459725,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 1977632,
+      "step": 1525
+    },
+    {
+      "epoch": 0.0747563090904649,
+      "grad_norm": 0.00719686783850193,
+      "learning_rate": 0.2989197257563272,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 1984032,
+      "step": 1530
+    },
+    {
+      "epoch": 0.07500061075415923,
+      "grad_norm": 0.009209073148667812,
+      "learning_rate": 0.2989126575327639,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 1990432,
+      "step": 1535
+    },
+    {
+      "epoch": 0.07524491241785357,
+      "grad_norm": 0.008410223759710789,
+      "learning_rate": 0.29890556634499754,
+      "loss": 0.1785,
+      "num_input_tokens_seen": 1996992,
+      "step": 1540
+    },
+    {
+      "epoch": 0.07548921408154789,
+      "grad_norm": 0.00932359229773283,
+      "learning_rate": 0.2988984521941216,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 2004032,
+      "step": 1545
+    },
+    {
+      "epoch": 0.07573351574524223,
+      "grad_norm": 0.012650762684643269,
+      "learning_rate": 0.29889131508123307,
+      "loss": 0.1281,
+      "num_input_tokens_seen": 2010464,
+      "step": 1550
+    },
+    {
+      "epoch": 0.07597781740893655,
+      "grad_norm": 0.011608884669840336,
+      "learning_rate": 0.2988841550074327,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 2016864,
+      "step": 1555
+    },
+    {
+      "epoch": 0.07622211907263088,
+      "grad_norm": 0.008648566901683807,
+      "learning_rate": 0.2988769719738246,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 2023680,
+      "step": 1560
+    },
+    {
+      "epoch": 0.07646642073632522,
+      "grad_norm": 0.011406335979700089,
+      "learning_rate": 0.29886976598151666,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 2030112,
+      "step": 1565
+    },
+    {
+      "epoch": 0.07671072240001954,
+      "grad_norm": 0.011077233590185642,
+      "learning_rate": 0.29886253703161986,
+      "loss": 0.1507,
+      "num_input_tokens_seen": 2036256,
+      "step": 1570
+    },
+    {
+      "epoch": 0.07695502406371388,
+      "grad_norm": 0.007399317342787981,
+      "learning_rate": 0.29885528512524917,
+      "loss": 0.1557,
+      "num_input_tokens_seen": 2042368,
+      "step": 1575
+    },
+    {
+      "epoch": 0.0771993257274082,
+      "grad_norm": 0.00637331185862422,
+      "learning_rate": 0.29884801026352287,
+      "loss": 0.1435,
+      "num_input_tokens_seen": 2048736,
+      "step": 1580
+    },
+    {
+      "epoch": 0.07744362739110254,
+      "grad_norm": 0.006028539966791868,
+      "learning_rate": 0.2988407124475629,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 2055168,
+      "step": 1585
+    },
+    {
+      "epoch": 0.07768792905479686,
+      "grad_norm": 0.005999557673931122,
+      "learning_rate": 0.2988333916784945,
+      "loss": 0.1659,
+      "num_input_tokens_seen": 2061824,
+      "step": 1590
+    },
+    {
+      "epoch": 0.07793223071849119,
+      "grad_norm": 0.00962863303720951,
+      "learning_rate": 0.2988260479574468,
+      "loss": 0.1673,
+      "num_input_tokens_seen": 2068192,
+      "step": 1595
+    },
+    {
+      "epoch": 0.07817653238218553,
+      "grad_norm": 0.006079608108848333,
+      "learning_rate": 0.2988186812855523,
+      "loss": 0.1449,
+      "num_input_tokens_seen": 2074816,
+      "step": 1600
+    },
+    {
+      "epoch": 0.07817653238218553,
+      "eval_loss": 0.14754033088684082,
+      "eval_runtime": 402.0804,
+      "eval_samples_per_second": 90.492,
+      "eval_steps_per_second": 22.625,
+      "num_input_tokens_seen": 2074816,
+      "step": 1600
+    },
+    {
+      "epoch": 0.07842083404587985,
+      "grad_norm": 0.007888911291956902,
+      "learning_rate": 0.29881129166394693,
+      "loss": 0.1625,
+      "num_input_tokens_seen": 2081152,
+      "step": 1605
+    },
+    {
+      "epoch": 0.07866513570957419,
+      "grad_norm": 0.006740351673215628,
+      "learning_rate": 0.29880387909377026,
+      "loss": 0.1532,
+      "num_input_tokens_seen": 2087680,
+      "step": 1610
+    },
+    {
+      "epoch": 0.07890943737326851,
+      "grad_norm": 0.0048380764201283455,
+      "learning_rate": 0.2987964435761655,
+      "loss": 0.152,
+      "num_input_tokens_seen": 2094272,
+      "step": 1615
+    },
+    {
+      "epoch": 0.07915373903696284,
+      "grad_norm": 0.006759235635399818,
+      "learning_rate": 0.29878898511227925,
+      "loss": 0.1553,
+      "num_input_tokens_seen": 2100576,
+      "step": 1620
+    },
+    {
+      "epoch": 0.07939804070065717,
+      "grad_norm": 0.006417694501578808,
+      "learning_rate": 0.2987815037032617,
+      "loss": 0.1569,
+      "num_input_tokens_seen": 2106816,
+      "step": 1625
+    },
+    {
+      "epoch": 0.0796423423643515,
+      "grad_norm": 0.006444934289902449,
+      "learning_rate": 0.29877399935026655,
+      "loss": 0.1604,
+      "num_input_tokens_seen": 2112960,
+      "step": 1630
+    },
+    {
+      "epoch": 0.07988664402804584,
+      "grad_norm": 0.008458716794848442,
+      "learning_rate": 0.2987664720544511,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 2119360,
+      "step": 1635
+    },
+    {
+      "epoch": 0.08013094569174016,
+      "grad_norm": 0.005090838763862848,
+      "learning_rate": 0.2987589218169761,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 2126048,
+      "step": 1640
+    },
+    {
+      "epoch": 0.08037524735543448,
+      "grad_norm": 0.00973370112478733,
+      "learning_rate": 0.29875134863900604,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 2132736,
+      "step": 1645
+    },
+    {
+      "epoch": 0.08061954901912882,
+      "grad_norm": 0.007689916528761387,
+      "learning_rate": 0.29874375252170865,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 2138880,
+      "step": 1650
+    },
+    {
+      "epoch": 0.08086385068282315,
+      "grad_norm": 0.016372185200452805,
+      "learning_rate": 0.2987361334662553,
+      "loss": 0.1192,
+      "num_input_tokens_seen": 2145856,
+      "step": 1655
+    },
+    {
+      "epoch": 0.08110815234651748,
+      "grad_norm": 0.008520865812897682,
+      "learning_rate": 0.29872849147382113,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 2152480,
+      "step": 1660
+    },
+    {
+      "epoch": 0.08135245401021181,
+      "grad_norm": 0.011617694981396198,
+      "learning_rate": 0.2987208265455845,
+      "loss": 0.1367,
+      "num_input_tokens_seen": 2158720,
+      "step": 1665
+    },
+    {
+      "epoch": 0.08159675567390615,
+      "grad_norm": 0.006529188249260187,
+      "learning_rate": 0.29871313868272753,
+      "loss": 0.1569,
+      "num_input_tokens_seen": 2165536,
+      "step": 1670
+    },
+    {
+      "epoch": 0.08184105733760047,
+      "grad_norm": 0.00959371030330658,
+      "learning_rate": 0.29870542788643567,
+      "loss": 0.1626,
+      "num_input_tokens_seen": 2172128,
+      "step": 1675
+    },
+    {
+      "epoch": 0.0820853590012948,
+      "grad_norm": 0.004780045244842768,
+      "learning_rate": 0.2986976941578981,
+      "loss": 0.1405,
+      "num_input_tokens_seen": 2178400,
+      "step": 1680
+    },
+    {
+      "epoch": 0.08232966066498913,
+      "grad_norm": 0.004448923747986555,
+      "learning_rate": 0.29868993749830747,
+      "loss": 0.1553,
+      "num_input_tokens_seen": 2184736,
+      "step": 1685
+    },
+    {
+      "epoch": 0.08257396232868346,
+      "grad_norm": 0.009723754599690437,
+      "learning_rate": 0.2986821579088598,
+      "loss": 0.135,
+      "num_input_tokens_seen": 2191328,
+      "step": 1690
+    },
+    {
+      "epoch": 0.0828182639923778,
+      "grad_norm": 0.006486440543085337,
+      "learning_rate": 0.29867435539075504,
+      "loss": 0.1593,
+      "num_input_tokens_seen": 2197632,
+      "step": 1695
+    },
+    {
+      "epoch": 0.08306256565607212,
+      "grad_norm": 0.007278315722942352,
+      "learning_rate": 0.2986665299451963,
+      "loss": 0.1443,
+      "num_input_tokens_seen": 2204000,
+      "step": 1700
+    },
+    {
+      "epoch": 0.08330686731976644,
+      "grad_norm": 0.006257487460970879,
+      "learning_rate": 0.29865868157339037,
+      "loss": 0.1534,
+      "num_input_tokens_seen": 2210272,
+      "step": 1705
+    },
+    {
+      "epoch": 0.08355116898346078,
+      "grad_norm": 0.009069254621863365,
+      "learning_rate": 0.2986508102765476,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 2217248,
+      "step": 1710
+    },
+    {
+      "epoch": 0.0837954706471551,
+      "grad_norm": 0.011428210884332657,
+      "learning_rate": 0.2986429160558818,
+      "loss": 0.1305,
+      "num_input_tokens_seen": 2223584,
+      "step": 1715
+    },
+    {
+      "epoch": 0.08403977231084944,
+      "grad_norm": 0.010025345720350742,
+      "learning_rate": 0.2986349989126104,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 2230720,
+      "step": 1720
+    },
+    {
+      "epoch": 0.08428407397454377,
+      "grad_norm": 0.011537850834429264,
+      "learning_rate": 0.29862705884795426,
+      "loss": 0.1672,
+      "num_input_tokens_seen": 2237216,
+      "step": 1725
+    },
+    {
+      "epoch": 0.08452837563823809,
+      "grad_norm": 0.007283071056008339,
+      "learning_rate": 0.2986190958631379,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 2243584,
+      "step": 1730
+    },
+    {
+      "epoch": 0.08477267730193243,
+      "grad_norm": 0.008740660734474659,
+      "learning_rate": 0.29861110995938933,
+      "loss": 0.14,
+      "num_input_tokens_seen": 2250240,
+      "step": 1735
+    },
+    {
+      "epoch": 0.08501697896562675,
+      "grad_norm": 0.008466245606541634,
+      "learning_rate": 0.29860310113794,
+      "loss": 0.1751,
+      "num_input_tokens_seen": 2256480,
+      "step": 1740
+    },
+    {
+      "epoch": 0.08526128062932109,
+      "grad_norm": 0.017457470297813416,
+      "learning_rate": 0.29859506940002506,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 2263232,
+      "step": 1745
+    },
+    {
+      "epoch": 0.08550558229301541,
+      "grad_norm": 0.00695843854919076,
+      "learning_rate": 0.298587014746883,
+      "loss": 0.1509,
+      "num_input_tokens_seen": 2269568,
+      "step": 1750
+    },
+    {
+      "epoch": 0.08574988395670975,
+      "grad_norm": 0.004921743646264076,
+      "learning_rate": 0.298578937179756,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 2275840,
+      "step": 1755
+    },
+    {
+      "epoch": 0.08599418562040408,
+      "grad_norm": 0.011255567893385887,
+      "learning_rate": 0.29857083669988976,
+      "loss": 0.1598,
+      "num_input_tokens_seen": 2281824,
+      "step": 1760
+    },
+    {
+      "epoch": 0.0862384872840984,
+      "grad_norm": 0.006461360491812229,
+      "learning_rate": 0.29856271330853346,
+      "loss": 0.114,
+      "num_input_tokens_seen": 2288288,
+      "step": 1765
+    },
+    {
+      "epoch": 0.08648278894779274,
+      "grad_norm": 0.005772430915385485,
+      "learning_rate": 0.2985545670069398,
+      "loss": 0.156,
+      "num_input_tokens_seen": 2294496,
+      "step": 1770
+    },
+    {
+      "epoch": 0.08672709061148706,
+      "grad_norm": 0.009369258768856525,
+      "learning_rate": 0.29854639779636505,
+      "loss": 0.1556,
+      "num_input_tokens_seen": 2300992,
+      "step": 1775
+    },
+    {
+      "epoch": 0.0869713922751814,
+      "grad_norm": 0.009414736181497574,
+      "learning_rate": 0.298538205678069,
+      "loss": 0.1505,
+      "num_input_tokens_seen": 2307264,
+      "step": 1780
+    },
+    {
+      "epoch": 0.08721569393887572,
+      "grad_norm": 0.0056551494635641575,
+      "learning_rate": 0.298529990653315,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 2313568,
+      "step": 1785
+    },
+    {
+      "epoch": 0.08745999560257005,
+      "grad_norm": 0.007361214607954025,
+      "learning_rate": 0.29852175272336984,
+      "loss": 0.1401,
+      "num_input_tokens_seen": 2319808,
+      "step": 1790
+    },
+    {
+      "epoch": 0.08770429726626439,
+      "grad_norm": 0.010200964286923409,
+      "learning_rate": 0.29851349188950405,
+      "loss": 0.1573,
+      "num_input_tokens_seen": 2326208,
+      "step": 1795
+    },
+    {
+      "epoch": 0.08794859892995871,
+      "grad_norm": 0.007126512471586466,
+      "learning_rate": 0.2985052081529914,
+      "loss": 0.1475,
+      "num_input_tokens_seen": 2332544,
+      "step": 1800
+    },
+    {
+      "epoch": 0.08794859892995871,
+      "eval_loss": 0.158894345164299,
+      "eval_runtime": 401.876,
+      "eval_samples_per_second": 90.538,
+      "eval_steps_per_second": 22.636,
+      "num_input_tokens_seen": 2332544,
+      "step": 1800
+    },
+    {
+      "epoch": 0.08819290059365305,
+      "grad_norm": 0.0073537821881473064,
+      "learning_rate": 0.29849690151510944,
+      "loss": 0.1904,
+      "num_input_tokens_seen": 2338784,
+      "step": 1805
+    },
+    {
+      "epoch": 0.08843720225734737,
+      "grad_norm": 0.00714768934994936,
+      "learning_rate": 0.2984885719771392,
+      "loss": 0.1597,
+      "num_input_tokens_seen": 2345152,
+      "step": 1810
+    },
+    {
+      "epoch": 0.0886815039210417,
+      "grad_norm": 0.0045191021636128426,
+      "learning_rate": 0.2984802195403651,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 2351744,
+      "step": 1815
+    },
+    {
+      "epoch": 0.08892580558473603,
+      "grad_norm": 0.006616136524826288,
+      "learning_rate": 0.2984718442060752,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 2358336,
+      "step": 1820
+    },
+    {
+      "epoch": 0.08917010724843036,
+      "grad_norm": 0.006773095577955246,
+      "learning_rate": 0.2984634459755611,
+      "loss": 0.1454,
+      "num_input_tokens_seen": 2365056,
+      "step": 1825
+    },
+    {
+      "epoch": 0.0894144089121247,
+      "grad_norm": 0.007107454352080822,
+      "learning_rate": 0.29845502485011793,
+      "loss": 0.1494,
+      "num_input_tokens_seen": 2371424,
+      "step": 1830
+    },
+    {
+      "epoch": 0.08965871057581902,
+      "grad_norm": 0.0095054404810071,
+      "learning_rate": 0.2984465808310444,
+      "loss": 0.1506,
+      "num_input_tokens_seen": 2378240,
+      "step": 1835
+    },
+    {
+      "epoch": 0.08990301223951336,
+      "grad_norm": 0.006321938708424568,
+      "learning_rate": 0.29843811391964253,
+      "loss": 0.14,
+      "num_input_tokens_seen": 2384832,
+      "step": 1840
+    },
+    {
+      "epoch": 0.09014731390320768,
+      "grad_norm": 0.010147669352591038,
+      "learning_rate": 0.2984296241172182,
+      "loss": 0.1479,
+      "num_input_tokens_seen": 2391648,
+      "step": 1845
+    },
+    {
+      "epoch": 0.090391615566902,
+      "grad_norm": 0.0045564137399196625,
+      "learning_rate": 0.29842111142508043,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 2397856,
+      "step": 1850
+    },
+    {
+      "epoch": 0.09063591723059634,
+      "grad_norm": 0.009637849405407906,
+      "learning_rate": 0.29841257584454217,
+      "loss": 0.1578,
+      "num_input_tokens_seen": 2404096,
+      "step": 1855
+    },
+    {
+      "epoch": 0.09088021889429067,
+      "grad_norm": 0.008207933977246284,
+      "learning_rate": 0.29840401737691963,
+      "loss": 0.1621,
+      "num_input_tokens_seen": 2411008,
+      "step": 1860
+    },
+    {
+      "epoch": 0.091124520557985,
+      "grad_norm": 0.016169443726539612,
+      "learning_rate": 0.29839543602353263,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 2417376,
+      "step": 1865
+    },
+    {
+      "epoch": 0.09136882222167933,
+      "grad_norm": 0.006187734194099903,
+      "learning_rate": 0.2983868317857046,
+      "loss": 0.1606,
+      "num_input_tokens_seen": 2423776,
+      "step": 1870
+    },
+    {
+      "epoch": 0.09161312388537365,
+      "grad_norm": 0.005456337705254555,
+      "learning_rate": 0.2983782046647623,
+      "loss": 0.1624,
+      "num_input_tokens_seen": 2430560,
+      "step": 1875
+    },
+    {
+      "epoch": 0.09185742554906799,
+      "grad_norm": 0.0069424365647137165,
+      "learning_rate": 0.2983695546620362,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 2436864,
+      "step": 1880
+    },
+    {
+      "epoch": 0.09210172721276232,
+      "grad_norm": 0.005672098137438297,
+      "learning_rate": 0.2983608817788603,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 2443136,
+      "step": 1885
+    },
+    {
+      "epoch": 0.09234602887645665,
+      "grad_norm": 0.00938822329044342,
+      "learning_rate": 0.29835218601657193,
+      "loss": 0.1476,
+      "num_input_tokens_seen": 2449824,
+      "step": 1890
+    },
+    {
+      "epoch": 0.09259033054015098,
+      "grad_norm": 0.010361879132688046,
+      "learning_rate": 0.29834346737651224,
+      "loss": 0.1388,
+      "num_input_tokens_seen": 2456704,
+      "step": 1895
+    },
+    {
+      "epoch": 0.0928346322038453,
+      "grad_norm": 0.006879544351249933,
+      "learning_rate": 0.29833472586002563,
+      "loss": 0.145,
+      "num_input_tokens_seen": 2463360,
+      "step": 1900
+    },
+    {
+      "epoch": 0.09307893386753964,
+      "grad_norm": 0.007334616966545582,
+      "learning_rate": 0.29832596146846024,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 2470112,
+      "step": 1905
+    },
+    {
+      "epoch": 0.09332323553123396,
+      "grad_norm": 0.013973837718367577,
+      "learning_rate": 0.2983171742031676,
+      "loss": 0.1641,
+      "num_input_tokens_seen": 2476256,
+      "step": 1910
+    },
+    {
+      "epoch": 0.0935675371949283,
+      "grad_norm": 0.006392891984432936,
+      "learning_rate": 0.2983083640655028,
+      "loss": 0.1689,
+      "num_input_tokens_seen": 2482336,
+      "step": 1915
+    },
+    {
+      "epoch": 0.09381183885862263,
+      "grad_norm": 0.005648659076541662,
+      "learning_rate": 0.29829953105682455,
+      "loss": 0.1539,
+      "num_input_tokens_seen": 2488320,
+      "step": 1920
+    },
+    {
+      "epoch": 0.09405614052231696,
+      "grad_norm": 0.006061872001737356,
+      "learning_rate": 0.29829067517849495,
+      "loss": 0.1491,
+      "num_input_tokens_seen": 2494944,
+      "step": 1925
+    },
+    {
+      "epoch": 0.09430044218601129,
+      "grad_norm": 0.008424672298133373,
+      "learning_rate": 0.2982817964318797,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 2501568,
+      "step": 1930
+    },
+    {
+      "epoch": 0.09454474384970561,
+      "grad_norm": 0.004992188885807991,
+      "learning_rate": 0.298272894818348,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 2508224,
+      "step": 1935
+    },
+    {
+      "epoch": 0.09478904551339995,
+      "grad_norm": 0.011382006108760834,
+      "learning_rate": 0.2982639703392726,
+      "loss": 0.1675,
+      "num_input_tokens_seen": 2515360,
+      "step": 1940
+    },
+    {
+      "epoch": 0.09503334717709427,
+      "grad_norm": 0.00839060265570879,
+      "learning_rate": 0.29825502299602974,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 2522080,
+      "step": 1945
+    },
+    {
+      "epoch": 0.09527764884078861,
+      "grad_norm": 0.005447382107377052,
+      "learning_rate": 0.2982460527899993,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 2528736,
+      "step": 1950
+    },
+    {
+      "epoch": 0.09552195050448294,
+      "grad_norm": 0.009465738199651241,
+      "learning_rate": 0.29823705972256453,
+      "loss": 0.1639,
+      "num_input_tokens_seen": 2534880,
+      "step": 1955
+    },
+    {
+      "epoch": 0.09576625216817726,
+      "grad_norm": 0.009535813704133034,
+      "learning_rate": 0.2982280437951123,
+      "loss": 0.1606,
+      "num_input_tokens_seen": 2541472,
+      "step": 1960
+    },
+    {
+      "epoch": 0.0960105538318716,
+      "grad_norm": 0.0053486330434679985,
+      "learning_rate": 0.298219005009033,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 2548320,
+      "step": 1965
+    },
+    {
+      "epoch": 0.09625485549556592,
+      "grad_norm": 0.008033198304474354,
+      "learning_rate": 0.29820994336572043,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 2554944,
+      "step": 1970
+    },
+    {
+      "epoch": 0.09649915715926026,
+      "grad_norm": 0.007797688245773315,
+      "learning_rate": 0.2982008588665721,
+      "loss": 0.1637,
+      "num_input_tokens_seen": 2561056,
+      "step": 1975
+    },
+    {
+      "epoch": 0.09674345882295458,
+      "grad_norm": 0.007322000339627266,
+      "learning_rate": 0.2981917515129889,
+      "loss": 0.1313,
+      "num_input_tokens_seen": 2567488,
+      "step": 1980
+    },
+    {
+      "epoch": 0.09698776048664891,
+      "grad_norm": 0.009402529336512089,
+      "learning_rate": 0.2981826213063753,
+      "loss": 0.1637,
+      "num_input_tokens_seen": 2574176,
+      "step": 1985
+    },
+    {
+      "epoch": 0.09723206215034325,
+      "grad_norm": 0.0062019540928304195,
+      "learning_rate": 0.2981734682481394,
+      "loss": 0.1421,
+      "num_input_tokens_seen": 2580992,
+      "step": 1990
+    },
+    {
+      "epoch": 0.09747636381403757,
+      "grad_norm": 0.006288324482738972,
+      "learning_rate": 0.29816429233969255,
+      "loss": 0.1662,
+      "num_input_tokens_seen": 2587712,
+      "step": 1995
+    },
+    {
+      "epoch": 0.09772066547773191,
+      "grad_norm": 0.006934609264135361,
+      "learning_rate": 0.2981550935824499,
+      "loss": 0.137,
+      "num_input_tokens_seen": 2594720,
+      "step": 2000
+    },
+    {
+      "epoch": 0.09772066547773191,
+      "eval_loss": 0.14684335887432098,
+      "eval_runtime": 402.4778,
+      "eval_samples_per_second": 90.403,
+      "eval_steps_per_second": 22.602,
+      "num_input_tokens_seen": 2594720,
+      "step": 2000
+    },
+    {
+      "epoch": 0.09796496714142623,
+      "grad_norm": 0.009815394878387451,
+      "learning_rate": 0.29814587197783,
+      "loss": 0.1491,
+      "num_input_tokens_seen": 2600928,
+      "step": 2005
+    },
+    {
+      "epoch": 0.09820926880512057,
+      "grad_norm": 0.006815847009420395,
+      "learning_rate": 0.29813662752725495,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 2607488,
+      "step": 2010
+    },
+    {
+      "epoch": 0.0984535704688149,
+      "grad_norm": 0.005136177409440279,
+      "learning_rate": 0.29812736023215025,
+      "loss": 0.1423,
+      "num_input_tokens_seen": 2613984,
+      "step": 2015
+    },
+    {
+      "epoch": 0.09869787213250922,
+      "grad_norm": 0.006002115551382303,
+      "learning_rate": 0.29811807009394514,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 2620832,
+      "step": 2020
+    },
+    {
+      "epoch": 0.09894217379620356,
+      "grad_norm": 0.008059307001531124,
+      "learning_rate": 0.2981087571140723,
+      "loss": 0.1583,
+      "num_input_tokens_seen": 2627104,
+      "step": 2025
+    },
+    {
+      "epoch": 0.09918647545989788,
+      "grad_norm": 0.0053268130868673325,
+      "learning_rate": 0.2980994212939678,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 2633504,
+      "step": 2030
+    },
+    {
+      "epoch": 0.09943077712359222,
+      "grad_norm": 0.010707980953156948,
+      "learning_rate": 0.2980900626350715,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 2639648,
+      "step": 2035
+    },
+    {
+      "epoch": 0.09967507878728654,
+      "grad_norm": 0.00944272056221962,
+      "learning_rate": 0.29808068113882646,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 2645984,
+      "step": 2040
+    },
+    {
+      "epoch": 0.09991938045098087,
+      "grad_norm": 0.0067657423205673695,
+      "learning_rate": 0.2980712768066795,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 2652576,
+      "step": 2045
+    },
+    {
+      "epoch": 0.1001636821146752,
+      "grad_norm": 0.007116362918168306,
+      "learning_rate": 0.2980618496400809,
+      "loss": 0.1644,
+      "num_input_tokens_seen": 2659008,
+      "step": 2050
+    },
+    {
+      "epoch": 0.10040798377836953,
+      "grad_norm": 0.011232172138988972,
+      "learning_rate": 0.2980523996404844,
+      "loss": 0.176,
+      "num_input_tokens_seen": 2665280,
+      "step": 2055
+    },
+    {
+      "epoch": 0.10065228544206387,
+      "grad_norm": 0.00566619448363781,
+      "learning_rate": 0.2980429268093473,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 2671584,
+      "step": 2060
+    },
+    {
+      "epoch": 0.10089658710575819,
+      "grad_norm": 0.004092557355761528,
+      "learning_rate": 0.29803343114813047,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 2677792,
+      "step": 2065
+    },
+    {
+      "epoch": 0.10114088876945251,
+      "grad_norm": 0.0036944961175322533,
+      "learning_rate": 0.2980239126582983,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 2684192,
+      "step": 2070
+    },
+    {
+      "epoch": 0.10138519043314685,
+      "grad_norm": 0.007944513112306595,
+      "learning_rate": 0.2980143713413186,
+      "loss": 0.1519,
+      "num_input_tokens_seen": 2690624,
+      "step": 2075
+    },
+    {
+      "epoch": 0.10162949209684118,
+      "grad_norm": 0.011847447603940964,
+      "learning_rate": 0.29800480719866274,
+      "loss": 0.1553,
+      "num_input_tokens_seen": 2697088,
+      "step": 2080
+    },
+    {
+      "epoch": 0.10187379376053551,
+      "grad_norm": 0.009012926369905472,
+      "learning_rate": 0.2979952202318057,
+      "loss": 0.1532,
+      "num_input_tokens_seen": 2703232,
+      "step": 2085
+    },
+    {
+      "epoch": 0.10211809542422984,
+      "grad_norm": 0.00517695490270853,
+      "learning_rate": 0.2979856104422259,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 2709824,
+      "step": 2090
+    },
+    {
+      "epoch": 0.10236239708792418,
+      "grad_norm": 0.010814575478434563,
+      "learning_rate": 0.2979759778314052,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 2716032,
+      "step": 2095
+    },
+    {
+      "epoch": 0.1026066987516185,
+      "grad_norm": 0.006288168951869011,
+      "learning_rate": 0.2979663224008292,
+      "loss": 0.1528,
+      "num_input_tokens_seen": 2722048,
+      "step": 2100
+    },
+    {
+      "epoch": 0.10285100041531282,
+      "grad_norm": 0.011449499987065792,
+      "learning_rate": 0.2979566441519868,
+      "loss": 0.1385,
+      "num_input_tokens_seen": 2728416,
+      "step": 2105
+    },
+    {
+      "epoch": 0.10309530207900716,
+      "grad_norm": 0.005992741324007511,
+      "learning_rate": 0.29794694308637054,
+      "loss": 0.169,
+      "num_input_tokens_seen": 2734720,
+      "step": 2110
+    },
+    {
+      "epoch": 0.10333960374270149,
+      "grad_norm": 0.014546139165759087,
+      "learning_rate": 0.2979372192054764,
+      "loss": 0.1521,
+      "num_input_tokens_seen": 2741376,
+      "step": 2115
+    },
+    {
+      "epoch": 0.10358390540639582,
+      "grad_norm": 0.0036994419060647488,
+      "learning_rate": 0.297927472510804,
+      "loss": 0.131,
+      "num_input_tokens_seen": 2747552,
+      "step": 2120
+    },
+    {
+      "epoch": 0.10382820707009015,
+      "grad_norm": 0.006187394727021456,
+      "learning_rate": 0.29791770300385634,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 2753824,
+      "step": 2125
+    },
+    {
+      "epoch": 0.10407250873378447,
+      "grad_norm": 0.006038791500031948,
+      "learning_rate": 0.29790791068614003,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 2760256,
+      "step": 2130
+    },
+    {
+      "epoch": 0.10431681039747881,
+      "grad_norm": 0.006093179807066917,
+      "learning_rate": 0.2978980955591652,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 2767264,
+      "step": 2135
+    },
+    {
+      "epoch": 0.10456111206117313,
+      "grad_norm": 0.004780122544616461,
+      "learning_rate": 0.2978882576244454,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 2773920,
+      "step": 2140
+    },
+    {
+      "epoch": 0.10480541372486747,
+      "grad_norm": 0.004384675528854132,
+      "learning_rate": 0.2978783968834978,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 2780352,
+      "step": 2145
+    },
+    {
+      "epoch": 0.1050497153885618,
+      "grad_norm": 0.006422858219593763,
+      "learning_rate": 0.29786851333784303,
+      "loss": 0.123,
+      "num_input_tokens_seen": 2787584,
+      "step": 2150
+    },
+    {
+      "epoch": 0.10529401705225612,
+      "grad_norm": 0.012434789910912514,
+      "learning_rate": 0.2978586069890053,
+      "loss": 0.1446,
+      "num_input_tokens_seen": 2793888,
+      "step": 2155
+    },
+    {
+      "epoch": 0.10553831871595046,
+      "grad_norm": 0.009952078573405743,
+      "learning_rate": 0.29784867783851227,
+      "loss": 0.1864,
+      "num_input_tokens_seen": 2800480,
+      "step": 2160
+    },
+    {
+      "epoch": 0.10578262037964478,
+      "grad_norm": 0.006644707638770342,
+      "learning_rate": 0.2978387258878951,
+      "loss": 0.1646,
+      "num_input_tokens_seen": 2806944,
+      "step": 2165
+    },
+    {
+      "epoch": 0.10602692204333912,
+      "grad_norm": 0.005006655119359493,
+      "learning_rate": 0.29782875113868856,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 2814176,
+      "step": 2170
+    },
+    {
+      "epoch": 0.10627122370703344,
+      "grad_norm": 0.009269512258470058,
+      "learning_rate": 0.2978187535924309,
+      "loss": 0.157,
+      "num_input_tokens_seen": 2820768,
+      "step": 2175
+    },
+    {
+      "epoch": 0.10651552537072777,
+      "grad_norm": 0.0166134275496006,
+      "learning_rate": 0.29780873325066376,
+      "loss": 0.1613,
+      "num_input_tokens_seen": 2827424,
+      "step": 2180
+    },
+    {
+      "epoch": 0.1067598270344221,
+      "grad_norm": 0.005827858578413725,
+      "learning_rate": 0.2977986901149325,
+      "loss": 0.1527,
+      "num_input_tokens_seen": 2833920,
+      "step": 2185
+    },
+    {
+      "epoch": 0.10700412869811643,
+      "grad_norm": 0.005412808153778315,
+      "learning_rate": 0.29778862418678587,
+      "loss": 0.1617,
+      "num_input_tokens_seen": 2840352,
+      "step": 2190
+    },
+    {
+      "epoch": 0.10724843036181077,
+      "grad_norm": 0.009247125126421452,
+      "learning_rate": 0.29777853546777616,
+      "loss": 0.1592,
+      "num_input_tokens_seen": 2847456,
+      "step": 2195
+    },
+    {
+      "epoch": 0.10749273202550509,
+      "grad_norm": 0.007482137996703386,
+      "learning_rate": 0.2977684239594592,
+      "loss": 0.1557,
+      "num_input_tokens_seen": 2853856,
+      "step": 2200
+    },
+    {
+      "epoch": 0.10749273202550509,
+      "eval_loss": 0.16597618162631989,
+      "eval_runtime": 401.9587,
+      "eval_samples_per_second": 90.519,
+      "eval_steps_per_second": 22.632,
+      "num_input_tokens_seen": 2853856,
+      "step": 2200
+    },
+    {
+      "epoch": 0.10773703368919943,
+      "grad_norm": 0.004710840526968241,
+      "learning_rate": 0.29775828966339424,
+      "loss": 0.1563,
+      "num_input_tokens_seen": 2860320,
+      "step": 2205
+    },
+    {
+      "epoch": 0.10798133535289375,
+      "grad_norm": 0.007008232641965151,
+      "learning_rate": 0.29774813258114424,
+      "loss": 0.1513,
+      "num_input_tokens_seen": 2866432,
+      "step": 2210
+    },
+    {
+      "epoch": 0.10822563701658808,
+      "grad_norm": 0.003906615544110537,
+      "learning_rate": 0.29773795271427544,
+      "loss": 0.131,
+      "num_input_tokens_seen": 2872864,
+      "step": 2215
+    },
+    {
+      "epoch": 0.10846993868028242,
+      "grad_norm": 0.006734485272318125,
+      "learning_rate": 0.2977277500643577,
+      "loss": 0.1497,
+      "num_input_tokens_seen": 2879296,
+      "step": 2220
+    },
+    {
+      "epoch": 0.10871424034397674,
+      "grad_norm": 0.005524495150893927,
+      "learning_rate": 0.29771752463296447,
+      "loss": 0.1467,
+      "num_input_tokens_seen": 2885344,
+      "step": 2225
+    },
+    {
+      "epoch": 0.10895854200767108,
+      "grad_norm": 0.00877354945987463,
+      "learning_rate": 0.29770727642167266,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 2891744,
+      "step": 2230
+    },
+    {
+      "epoch": 0.1092028436713654,
+      "grad_norm": 0.011368148028850555,
+      "learning_rate": 0.29769700543206257,
+      "loss": 0.141,
+      "num_input_tokens_seen": 2898368,
+      "step": 2235
+    },
+    {
+      "epoch": 0.10944714533505973,
+      "grad_norm": 0.00859091803431511,
+      "learning_rate": 0.2976867116657182,
+      "loss": 0.1708,
+      "num_input_tokens_seen": 2904640,
+      "step": 2240
+    },
+    {
+      "epoch": 0.10969144699875406,
+      "grad_norm": 0.006714307703077793,
+      "learning_rate": 0.2976763951242269,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 2910880,
+      "step": 2245
+    },
+    {
+      "epoch": 0.10993574866244839,
+      "grad_norm": 0.0072138430550694466,
+      "learning_rate": 0.29766605580917965,
+      "loss": 0.1582,
+      "num_input_tokens_seen": 2917376,
+      "step": 2250
+    },
+    {
+      "epoch": 0.11018005032614273,
+      "grad_norm": 0.005558820441365242,
+      "learning_rate": 0.29765569372217093,
+      "loss": 0.1497,
+      "num_input_tokens_seen": 2923936,
+      "step": 2255
+    },
+    {
+      "epoch": 0.11042435198983705,
+      "grad_norm": 0.0052739097736775875,
+      "learning_rate": 0.2976453088647987,
+      "loss": 0.1399,
+      "num_input_tokens_seen": 2930784,
+      "step": 2260
+    },
+    {
+      "epoch": 0.11066865365353137,
+      "grad_norm": 0.010841584764420986,
+      "learning_rate": 0.2976349012386644,
+      "loss": 0.1648,
+      "num_input_tokens_seen": 2937056,
+      "step": 2265
+    },
+    {
+      "epoch": 0.11091295531722571,
+      "grad_norm": 0.008292659185826778,
+      "learning_rate": 0.29762447084537297,
+      "loss": 0.1389,
+      "num_input_tokens_seen": 2943648,
+      "step": 2270
+    },
+    {
+      "epoch": 0.11115725698092004,
+      "grad_norm": 0.005531892646104097,
+      "learning_rate": 0.29761401768653306,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 2950816,
+      "step": 2275
+    },
+    {
+      "epoch": 0.11140155864461437,
+      "grad_norm": 0.00612834095954895,
+      "learning_rate": 0.29760354176375653,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 2957088,
+      "step": 2280
+    },
+    {
+      "epoch": 0.1116458603083087,
+      "grad_norm": 0.010711456649005413,
+      "learning_rate": 0.29759304307865897,
+      "loss": 0.1521,
+      "num_input_tokens_seen": 2963680,
+      "step": 2285
+    },
+    {
+      "epoch": 0.11189016197200304,
+      "grad_norm": 0.008454322814941406,
+      "learning_rate": 0.2975825216328594,
+      "loss": 0.1592,
+      "num_input_tokens_seen": 2970016,
+      "step": 2290
+    },
+    {
+      "epoch": 0.11213446363569736,
+      "grad_norm": 0.010183153674006462,
+      "learning_rate": 0.2975719774279804,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 2976544,
+      "step": 2295
+    },
+    {
+      "epoch": 0.11237876529939168,
+      "grad_norm": 0.007332892622798681,
+      "learning_rate": 0.29756141046564794,
+      "loss": 0.136,
+      "num_input_tokens_seen": 2982688,
+      "step": 2300
+    },
+    {
+      "epoch": 0.11262306696308602,
+      "grad_norm": 0.015652349218726158,
+      "learning_rate": 0.2975508207474916,
+      "loss": 0.1639,
+      "num_input_tokens_seen": 2988960,
+      "step": 2305
+    },
+    {
+      "epoch": 0.11286736862678035,
+      "grad_norm": 0.01390936691313982,
+      "learning_rate": 0.2975402082751445,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 2995328,
+      "step": 2310
+    },
+    {
+      "epoch": 0.11311167029047468,
+      "grad_norm": 0.004764043726027012,
+      "learning_rate": 0.29752957305024313,
+      "loss": 0.168,
+      "num_input_tokens_seen": 3002240,
+      "step": 2315
+    },
+    {
+      "epoch": 0.11335597195416901,
+      "grad_norm": 0.009020810946822166,
+      "learning_rate": 0.2975189150744277,
+      "loss": 0.1598,
+      "num_input_tokens_seen": 3009408,
+      "step": 2320
+    },
+    {
+      "epoch": 0.11360027361786333,
+      "grad_norm": 0.007300050463527441,
+      "learning_rate": 0.29750823434934165,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 3015488,
+      "step": 2325
+    },
+    {
+      "epoch": 0.11384457528155767,
+      "grad_norm": 0.004080094397068024,
+      "learning_rate": 0.29749753087663217,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 3022528,
+      "step": 2330
+    },
+    {
+      "epoch": 0.114088876945252,
+      "grad_norm": 0.005133760627359152,
+      "learning_rate": 0.29748680465794985,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 3029088,
+      "step": 2335
+    },
+    {
+      "epoch": 0.11433317860894633,
+      "grad_norm": 0.006805312354117632,
+      "learning_rate": 0.29747605569494884,
+      "loss": 0.1638,
+      "num_input_tokens_seen": 3035648,
+      "step": 2340
+    },
+    {
+      "epoch": 0.11457748027264066,
+      "grad_norm": 0.009152105078101158,
+      "learning_rate": 0.29746528398928673,
+      "loss": 0.1494,
+      "num_input_tokens_seen": 3042016,
+      "step": 2345
+    },
+    {
+      "epoch": 0.11482178193633498,
+      "grad_norm": 0.005854794289916754,
+      "learning_rate": 0.2974544895426247,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 3048928,
+      "step": 2350
+    },
+    {
+      "epoch": 0.11506608360002932,
+      "grad_norm": 0.005532880313694477,
+      "learning_rate": 0.29744367235662733,
+      "loss": 0.1459,
+      "num_input_tokens_seen": 3055168,
+      "step": 2355
+    },
+    {
+      "epoch": 0.11531038526372364,
+      "grad_norm": 0.005569893401116133,
+      "learning_rate": 0.29743283243296276,
+      "loss": 0.1541,
+      "num_input_tokens_seen": 3061120,
+      "step": 2360
+    },
+    {
+      "epoch": 0.11555468692741798,
+      "grad_norm": 0.0055623906664550304,
+      "learning_rate": 0.29742196977330276,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 3067584,
+      "step": 2365
+    },
+    {
+      "epoch": 0.1157989885911123,
+      "grad_norm": 0.006891594268381596,
+      "learning_rate": 0.2974110843793223,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 3073728,
+      "step": 2370
+    },
+    {
+      "epoch": 0.11604329025480664,
+      "grad_norm": 0.007641185075044632,
+      "learning_rate": 0.2974001762527002,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 3080416,
+      "step": 2375
+    },
+    {
+      "epoch": 0.11628759191850097,
+      "grad_norm": 0.0062032416462898254,
+      "learning_rate": 0.2973892453951186,
+      "loss": 0.1598,
+      "num_input_tokens_seen": 3086912,
+      "step": 2380
+    },
+    {
+      "epoch": 0.11653189358219529,
+      "grad_norm": 0.007384798023849726,
+      "learning_rate": 0.2973782918082631,
+      "loss": 0.128,
+      "num_input_tokens_seen": 3093472,
+      "step": 2385
+    },
+    {
+      "epoch": 0.11677619524588963,
+      "grad_norm": 0.00857765693217516,
+      "learning_rate": 0.29736731549382295,
+      "loss": 0.1571,
+      "num_input_tokens_seen": 3100096,
+      "step": 2390
+    },
+    {
+      "epoch": 0.11702049690958395,
+      "grad_norm": 0.00896360632032156,
+      "learning_rate": 0.2973563164534908,
+      "loss": 0.1502,
+      "num_input_tokens_seen": 3106528,
+      "step": 2395
+    },
+    {
+      "epoch": 0.11726479857327829,
+      "grad_norm": 0.004499845206737518,
+      "learning_rate": 0.29734529468896287,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 3112928,
+      "step": 2400
+    },
+    {
+      "epoch": 0.11726479857327829,
+      "eval_loss": 0.14451265335083008,
+      "eval_runtime": 402.3243,
+      "eval_samples_per_second": 90.437,
+      "eval_steps_per_second": 22.611,
+      "num_input_tokens_seen": 3112928,
+      "step": 2400
+    },
+    {
+      "epoch": 0.11750910023697261,
+      "grad_norm": 0.007701903115957975,
+      "learning_rate": 0.2973342502019388,
+      "loss": 0.1457,
+      "num_input_tokens_seen": 3119904,
+      "step": 2405
+    },
+    {
+      "epoch": 0.11775340190066694,
+      "grad_norm": 0.012430422939360142,
+      "learning_rate": 0.2973231829941219,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 3126336,
+      "step": 2410
+    },
+    {
+      "epoch": 0.11799770356436128,
+      "grad_norm": 0.006526260636746883,
+      "learning_rate": 0.2973120930672188,
+      "loss": 0.14,
+      "num_input_tokens_seen": 3132352,
+      "step": 2415
+    },
+    {
+      "epoch": 0.1182420052280556,
+      "grad_norm": 0.013535221107304096,
+      "learning_rate": 0.2973009804229397,
+      "loss": 0.1449,
+      "num_input_tokens_seen": 3138560,
+      "step": 2420
+    },
+    {
+      "epoch": 0.11848630689174994,
+      "grad_norm": 0.008780235424637794,
+      "learning_rate": 0.29728984506299827,
+      "loss": 0.1618,
+      "num_input_tokens_seen": 3145120,
+      "step": 2425
+    },
+    {
+      "epoch": 0.11873060855544426,
+      "grad_norm": 0.01464722491800785,
+      "learning_rate": 0.2972786869891118,
+      "loss": 0.1907,
+      "num_input_tokens_seen": 3151776,
+      "step": 2430
+    },
+    {
+      "epoch": 0.11897491021913859,
+      "grad_norm": 0.006312259938567877,
+      "learning_rate": 0.29726750620300096,
+      "loss": 0.1585,
+      "num_input_tokens_seen": 3158496,
+      "step": 2435
+    },
+    {
+      "epoch": 0.11921921188283292,
+      "grad_norm": 0.0041227880865335464,
+      "learning_rate": 0.29725630270639003,
+      "loss": 0.1365,
+      "num_input_tokens_seen": 3164640,
+      "step": 2440
+    },
+    {
+      "epoch": 0.11946351354652725,
+      "grad_norm": 0.005052085965871811,
+      "learning_rate": 0.2972450765010067,
+      "loss": 0.1443,
+      "num_input_tokens_seen": 3170784,
+      "step": 2445
+    },
+    {
+      "epoch": 0.11970781521022159,
+      "grad_norm": 0.003872581524774432,
+      "learning_rate": 0.29723382758858213,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 3177088,
+      "step": 2450
+    },
+    {
+      "epoch": 0.11995211687391591,
+      "grad_norm": 0.00572273088619113,
+      "learning_rate": 0.29722255597085107,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 3183776,
+      "step": 2455
+    },
+    {
+      "epoch": 0.12019641853761025,
+      "grad_norm": 0.011160558089613914,
+      "learning_rate": 0.2972112616495518,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 3190368,
+      "step": 2460
+    },
+    {
+      "epoch": 0.12044072020130457,
+      "grad_norm": 0.006367525551468134,
+      "learning_rate": 0.297199944626426,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 3196384,
+      "step": 2465
+    },
+    {
+      "epoch": 0.1206850218649989,
+      "grad_norm": 0.012586004100739956,
+      "learning_rate": 0.2971886049032189,
+      "loss": 0.1519,
+      "num_input_tokens_seen": 3202944,
+      "step": 2470
+    },
+    {
+      "epoch": 0.12092932352869323,
+      "grad_norm": 0.011021323502063751,
+      "learning_rate": 0.29717724248167926,
+      "loss": 0.1704,
+      "num_input_tokens_seen": 3209376,
+      "step": 2475
+    },
+    {
+      "epoch": 0.12117362519238756,
+      "grad_norm": 0.0054773082956671715,
+      "learning_rate": 0.29716585736355927,
+      "loss": 0.143,
+      "num_input_tokens_seen": 3215744,
+      "step": 2480
+    },
+    {
+      "epoch": 0.1214179268560819,
+      "grad_norm": 0.005812338087707758,
+      "learning_rate": 0.2971544495506147,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 3222144,
+      "step": 2485
+    },
+    {
+      "epoch": 0.12166222851977622,
+      "grad_norm": 0.007533779367804527,
+      "learning_rate": 0.2971430190446048,
+      "loss": 0.1517,
+      "num_input_tokens_seen": 3228672,
+      "step": 2490
+    },
+    {
+      "epoch": 0.12190653018347054,
+      "grad_norm": 0.00619752611964941,
+      "learning_rate": 0.2971315658472921,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 3235264,
+      "step": 2495
+    },
+    {
+      "epoch": 0.12215083184716488,
+      "grad_norm": 0.009815577417612076,
+      "learning_rate": 0.2971200899604431,
+      "loss": 0.1558,
+      "num_input_tokens_seen": 3241760,
+      "step": 2500
+    },
+    {
+      "epoch": 0.1223951335108592,
+      "grad_norm": 0.007113547995686531,
+      "learning_rate": 0.29710859138582735,
+      "loss": 0.1587,
+      "num_input_tokens_seen": 3248512,
+      "step": 2505
+    },
+    {
+      "epoch": 0.12263943517455354,
+      "grad_norm": 0.009656806476414204,
+      "learning_rate": 0.29709707012521813,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 3254720,
+      "step": 2510
+    },
+    {
+      "epoch": 0.12288373683824787,
+      "grad_norm": 0.004486394114792347,
+      "learning_rate": 0.29708552618039213,
+      "loss": 0.1476,
+      "num_input_tokens_seen": 3261408,
+      "step": 2515
+    },
+    {
+      "epoch": 0.12312803850194219,
+      "grad_norm": 0.009489977732300758,
+      "learning_rate": 0.2970739595531296,
+      "loss": 0.1646,
+      "num_input_tokens_seen": 3267808,
+      "step": 2520
+    },
+    {
+      "epoch": 0.12337234016563653,
+      "grad_norm": 0.0076123131439089775,
+      "learning_rate": 0.2970623702452143,
+      "loss": 0.1467,
+      "num_input_tokens_seen": 3274176,
+      "step": 2525
+    },
+    {
+      "epoch": 0.12361664182933085,
+      "grad_norm": 0.010514471679925919,
+      "learning_rate": 0.2970507582584334,
+      "loss": 0.138,
+      "num_input_tokens_seen": 3281440,
+      "step": 2530
+    },
+    {
+      "epoch": 0.12386094349302519,
+      "grad_norm": 0.006461451295763254,
+      "learning_rate": 0.2970391235945776,
+      "loss": 0.1681,
+      "num_input_tokens_seen": 3288352,
+      "step": 2535
+    },
+    {
+      "epoch": 0.12410524515671952,
+      "grad_norm": 0.009115886874496937,
+      "learning_rate": 0.2970274662554412,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 3294848,
+      "step": 2540
+    },
+    {
+      "epoch": 0.12434954682041385,
+      "grad_norm": 0.006735718343406916,
+      "learning_rate": 0.2970157862428218,
+      "loss": 0.1431,
+      "num_input_tokens_seen": 3301536,
+      "step": 2545
+    },
+    {
+      "epoch": 0.12459384848410818,
+      "grad_norm": 0.0069580296985805035,
+      "learning_rate": 0.2970040835585206,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 3308000,
+      "step": 2550
+    },
+    {
+      "epoch": 0.1248381501478025,
+      "grad_norm": 0.005741797853261232,
+      "learning_rate": 0.2969923582043424,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 3314528,
+      "step": 2555
+    },
+    {
+      "epoch": 0.12508245181149683,
+      "grad_norm": 0.006566356867551804,
+      "learning_rate": 0.2969806101820953,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 3321248,
+      "step": 2560
+    },
+    {
+      "epoch": 0.12532675347519118,
+      "grad_norm": 0.006448323838412762,
+      "learning_rate": 0.2969688394935911,
+      "loss": 0.1372,
+      "num_input_tokens_seen": 3327680,
+      "step": 2565
+    },
+    {
+      "epoch": 0.1255710551388855,
+      "grad_norm": 0.006665313150733709,
+      "learning_rate": 0.2969570461406449,
+      "loss": 0.1549,
+      "num_input_tokens_seen": 3334016,
+      "step": 2570
+    },
+    {
+      "epoch": 0.12581535680257983,
+      "grad_norm": 0.0048906030133366585,
+      "learning_rate": 0.29694523012507534,
+      "loss": 0.1403,
+      "num_input_tokens_seen": 3340960,
+      "step": 2575
+    },
+    {
+      "epoch": 0.12605965846627415,
+      "grad_norm": 0.005697744898498058,
+      "learning_rate": 0.2969333914487048,
+      "loss": 0.1619,
+      "num_input_tokens_seen": 3347488,
+      "step": 2580
+    },
+    {
+      "epoch": 0.12630396012996847,
+      "grad_norm": 0.01195291057229042,
+      "learning_rate": 0.2969215301133587,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 3353792,
+      "step": 2585
+    },
+    {
+      "epoch": 0.12654826179366283,
+      "grad_norm": 0.006122096441686153,
+      "learning_rate": 0.29690964612086634,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 3360864,
+      "step": 2590
+    },
+    {
+      "epoch": 0.12679256345735715,
+      "grad_norm": 0.006548020057380199,
+      "learning_rate": 0.2968977394730604,
+      "loss": 0.1513,
+      "num_input_tokens_seen": 3367680,
+      "step": 2595
+    },
+    {
+      "epoch": 0.12703686512105147,
+      "grad_norm": 0.00534789077937603,
+      "learning_rate": 0.296885810171777,
+      "loss": 0.1626,
+      "num_input_tokens_seen": 3374048,
+      "step": 2600
+    },
+    {
+      "epoch": 0.12703686512105147,
+      "eval_loss": 0.1462915986776352,
+      "eval_runtime": 401.8253,
+      "eval_samples_per_second": 90.549,
+      "eval_steps_per_second": 22.639,
+      "num_input_tokens_seen": 3374048,
+      "step": 2600
+    },
+    {
+      "epoch": 0.1272811667847458,
+      "grad_norm": 0.006092721596360207,
+      "learning_rate": 0.2968738582188558,
+      "loss": 0.1411,
+      "num_input_tokens_seen": 3380288,
+      "step": 2605
+    },
+    {
+      "epoch": 0.12752546844844012,
+      "grad_norm": 0.0065406435169279575,
+      "learning_rate": 0.2968618836161399,
+      "loss": 0.1575,
+      "num_input_tokens_seen": 3387040,
+      "step": 2610
+    },
+    {
+      "epoch": 0.12776977011213447,
+      "grad_norm": 0.007258173543959856,
+      "learning_rate": 0.296849886365476,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 3393920,
+      "step": 2615
+    },
+    {
+      "epoch": 0.1280140717758288,
+      "grad_norm": 0.004331282339990139,
+      "learning_rate": 0.2968378664687142,
+      "loss": 0.1399,
+      "num_input_tokens_seen": 3400896,
+      "step": 2620
+    },
+    {
+      "epoch": 0.12825837343952312,
+      "grad_norm": 0.0036824143026024103,
+      "learning_rate": 0.296825823927708,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 3407392,
+      "step": 2625
+    },
+    {
+      "epoch": 0.12850267510321745,
+      "grad_norm": 0.011034672148525715,
+      "learning_rate": 0.29681375874431476,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 3414496,
+      "step": 2630
+    },
+    {
+      "epoch": 0.12874697676691177,
+      "grad_norm": 0.008566209115087986,
+      "learning_rate": 0.29680167092039483,
+      "loss": 0.1435,
+      "num_input_tokens_seen": 3420800,
+      "step": 2635
+    },
+    {
+      "epoch": 0.12899127843060612,
+      "grad_norm": 0.00572593929246068,
+      "learning_rate": 0.2967895604578125,
+      "loss": 0.1495,
+      "num_input_tokens_seen": 3427712,
+      "step": 2640
+    },
+    {
+      "epoch": 0.12923558009430045,
+      "grad_norm": 0.0051056863740086555,
+      "learning_rate": 0.2967774273584352,
+      "loss": 0.141,
+      "num_input_tokens_seen": 3434400,
+      "step": 2645
+    },
+    {
+      "epoch": 0.12947988175799477,
+      "grad_norm": 0.007015488110482693,
+      "learning_rate": 0.2967652716241342,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 3441088,
+      "step": 2650
+    },
+    {
+      "epoch": 0.1297241834216891,
+      "grad_norm": 0.005024552345275879,
+      "learning_rate": 0.29675309325678384,
+      "loss": 0.1734,
+      "num_input_tokens_seen": 3447968,
+      "step": 2655
+    },
+    {
+      "epoch": 0.12996848508538345,
+      "grad_norm": 0.004386928863823414,
+      "learning_rate": 0.29674089225826233,
+      "loss": 0.1348,
+      "num_input_tokens_seen": 3454080,
+      "step": 2660
+    },
+    {
+      "epoch": 0.13021278674907777,
+      "grad_norm": 0.004079080652445555,
+      "learning_rate": 0.29672866863045116,
+      "loss": 0.136,
+      "num_input_tokens_seen": 3460608,
+      "step": 2665
+    },
+    {
+      "epoch": 0.1304570884127721,
+      "grad_norm": 0.006047117058187723,
+      "learning_rate": 0.2967164223752354,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 3466976,
+      "step": 2670
+    },
+    {
+      "epoch": 0.13070139007646642,
+      "grad_norm": 0.007762869819998741,
+      "learning_rate": 0.2967041534945035,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 3473632,
+      "step": 2675
+    },
+    {
+      "epoch": 0.13094569174016074,
+      "grad_norm": 0.006465918384492397,
+      "learning_rate": 0.2966918619901476,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 3480160,
+      "step": 2680
+    },
+    {
+      "epoch": 0.1311899934038551,
+      "grad_norm": 0.0057994830422103405,
+      "learning_rate": 0.2966795478640631,
+      "loss": 0.1389,
+      "num_input_tokens_seen": 3486784,
+      "step": 2685
+    },
+    {
+      "epoch": 0.13143429506754942,
+      "grad_norm": 0.0066549708135426044,
+      "learning_rate": 0.29666721111814903,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 3493376,
+      "step": 2690
+    },
+    {
+      "epoch": 0.13167859673124374,
+      "grad_norm": 0.0063249277882277966,
+      "learning_rate": 0.2966548517543079,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 3500128,
+      "step": 2695
+    },
+    {
+      "epoch": 0.13192289839493807,
+      "grad_norm": 0.006085045635700226,
+      "learning_rate": 0.29664246977444564,
+      "loss": 0.1305,
+      "num_input_tokens_seen": 3507264,
+      "step": 2700
+    },
+    {
+      "epoch": 0.1321672000586324,
+      "grad_norm": 0.0069174147211015224,
+      "learning_rate": 0.2966300651804717,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 3513664,
+      "step": 2705
+    },
+    {
+      "epoch": 0.13241150172232674,
+      "grad_norm": 0.008866139687597752,
+      "learning_rate": 0.296617637974299,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 3520256,
+      "step": 2710
+    },
+    {
+      "epoch": 0.13265580338602107,
+      "grad_norm": 0.007250121794641018,
+      "learning_rate": 0.2966051881578441,
+      "loss": 0.134,
+      "num_input_tokens_seen": 3526272,
+      "step": 2715
+    },
+    {
+      "epoch": 0.1329001050497154,
+      "grad_norm": 0.006380570121109486,
+      "learning_rate": 0.29659271573302676,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 3532672,
+      "step": 2720
+    },
+    {
+      "epoch": 0.1331444067134097,
+      "grad_norm": 0.008857816457748413,
+      "learning_rate": 0.2965802207017705,
+      "loss": 0.1622,
+      "num_input_tokens_seen": 3538688,
+      "step": 2725
+    },
+    {
+      "epoch": 0.13338870837710404,
+      "grad_norm": 0.007466928102076054,
+      "learning_rate": 0.2965677030660021,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 3545056,
+      "step": 2730
+    },
+    {
+      "epoch": 0.1336330100407984,
+      "grad_norm": 0.006451708264648914,
+      "learning_rate": 0.2965551628276521,
+      "loss": 0.1474,
+      "num_input_tokens_seen": 3551584,
+      "step": 2735
+    },
+    {
+      "epoch": 0.1338773117044927,
+      "grad_norm": 0.00776198785752058,
+      "learning_rate": 0.29654259998865423,
+      "loss": 0.1596,
+      "num_input_tokens_seen": 3557888,
+      "step": 2740
+    },
+    {
+      "epoch": 0.13412161336818704,
+      "grad_norm": 0.006708407308906317,
+      "learning_rate": 0.2965300145509458,
+      "loss": 0.1294,
+      "num_input_tokens_seen": 3564704,
+      "step": 2745
+    },
+    {
+      "epoch": 0.13436591503188136,
+      "grad_norm": 0.01115484070032835,
+      "learning_rate": 0.2965174065164678,
+      "loss": 0.1627,
+      "num_input_tokens_seen": 3571744,
+      "step": 2750
+    },
+    {
+      "epoch": 0.13461021669557569,
+      "grad_norm": 0.010141697712242603,
+      "learning_rate": 0.2965047758871644,
+      "loss": 0.15,
+      "num_input_tokens_seen": 3578048,
+      "step": 2755
+    },
+    {
+      "epoch": 0.13485451835927004,
+      "grad_norm": 0.0058759599924087524,
+      "learning_rate": 0.2964921226649835,
+      "loss": 0.1705,
+      "num_input_tokens_seen": 3584416,
+      "step": 2760
+    },
+    {
+      "epoch": 0.13509882002296436,
+      "grad_norm": 0.007786884438246489,
+      "learning_rate": 0.2964794468518763,
+      "loss": 0.149,
+      "num_input_tokens_seen": 3591168,
+      "step": 2765
+    },
+    {
+      "epoch": 0.13534312168665869,
+      "grad_norm": 0.005831062328070402,
+      "learning_rate": 0.2964667484497977,
+      "loss": 0.1551,
+      "num_input_tokens_seen": 3598240,
+      "step": 2770
+    },
+    {
+      "epoch": 0.135587423350353,
+      "grad_norm": 0.005583528894931078,
+      "learning_rate": 0.29645402746070587,
+      "loss": 0.1487,
+      "num_input_tokens_seen": 3604512,
+      "step": 2775
+    },
+    {
+      "epoch": 0.13583172501404733,
+      "grad_norm": 0.00941088330000639,
+      "learning_rate": 0.2964412838865625,
+      "loss": 0.1648,
+      "num_input_tokens_seen": 3610688,
+      "step": 2780
+    },
+    {
+      "epoch": 0.13607602667774168,
+      "grad_norm": 0.0063462285324931145,
+      "learning_rate": 0.29642851772933293,
+      "loss": 0.1454,
+      "num_input_tokens_seen": 3617056,
+      "step": 2785
+    },
+    {
+      "epoch": 0.136320328341436,
+      "grad_norm": 0.003491115989163518,
+      "learning_rate": 0.29641572899098567,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 3623872,
+      "step": 2790
+    },
+    {
+      "epoch": 0.13656463000513033,
+      "grad_norm": 0.005101524293422699,
+      "learning_rate": 0.29640291767349314,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 3630976,
+      "step": 2795
+    },
+    {
+      "epoch": 0.13680893166882466,
+      "grad_norm": 0.0058134617283940315,
+      "learning_rate": 0.2963900837788308,
+      "loss": 0.117,
+      "num_input_tokens_seen": 3637152,
+      "step": 2800
+    },
+    {
+      "epoch": 0.13680893166882466,
+      "eval_loss": 0.14901645481586456,
+      "eval_runtime": 401.8883,
+      "eval_samples_per_second": 90.535,
+      "eval_steps_per_second": 22.636,
+      "num_input_tokens_seen": 3637152,
+      "step": 2800
+    },
+    {
+      "epoch": 0.13705323333251898,
+      "grad_norm": 0.005075949244201183,
+      "learning_rate": 0.2963772273089779,
+      "loss": 0.1569,
+      "num_input_tokens_seen": 3643488,
+      "step": 2805
+    },
+    {
+      "epoch": 0.13729753499621333,
+      "grad_norm": 0.005599355325102806,
+      "learning_rate": 0.2963643482659171,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 3650144,
+      "step": 2810
+    },
+    {
+      "epoch": 0.13754183665990766,
+      "grad_norm": 0.007651086430996656,
+      "learning_rate": 0.2963514466516345,
+      "loss": 0.1747,
+      "num_input_tokens_seen": 3656544,
+      "step": 2815
+    },
+    {
+      "epoch": 0.13778613832360198,
+      "grad_norm": 0.007631708402186632,
+      "learning_rate": 0.2963385224681196,
+      "loss": 0.162,
+      "num_input_tokens_seen": 3662848,
+      "step": 2820
+    },
+    {
+      "epoch": 0.1380304399872963,
+      "grad_norm": 0.0038130036555230618,
+      "learning_rate": 0.29632557571736556,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 3669696,
+      "step": 2825
+    },
+    {
+      "epoch": 0.13827474165099066,
+      "grad_norm": 0.0057632168754935265,
+      "learning_rate": 0.2963126064013689,
+      "loss": 0.1638,
+      "num_input_tokens_seen": 3676096,
+      "step": 2830
+    },
+    {
+      "epoch": 0.13851904331468498,
+      "grad_norm": 0.005079422611743212,
+      "learning_rate": 0.29629961452212966,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 3682656,
+      "step": 2835
+    },
+    {
+      "epoch": 0.1387633449783793,
+      "grad_norm": 0.010958133265376091,
+      "learning_rate": 0.2962866000816513,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 3688928,
+      "step": 2840
+    },
+    {
+      "epoch": 0.13900764664207363,
+      "grad_norm": 0.006899616681039333,
+      "learning_rate": 0.2962735630819409,
+      "loss": 0.1612,
+      "num_input_tokens_seen": 3695840,
+      "step": 2845
+    },
+    {
+      "epoch": 0.13925194830576795,
+      "grad_norm": 0.004329555202275515,
+      "learning_rate": 0.2962605035250089,
+      "loss": 0.13,
+      "num_input_tokens_seen": 3702080,
+      "step": 2850
+    },
+    {
+      "epoch": 0.1394962499694623,
+      "grad_norm": 0.00706408079713583,
+      "learning_rate": 0.29624742141286914,
+      "loss": 0.1606,
+      "num_input_tokens_seen": 3708928,
+      "step": 2855
+    },
+    {
+      "epoch": 0.13974055163315663,
+      "grad_norm": 0.0069637601263821125,
+      "learning_rate": 0.29623431674753925,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 3715648,
+      "step": 2860
+    },
+    {
+      "epoch": 0.13998485329685095,
+      "grad_norm": 0.012289231643080711,
+      "learning_rate": 0.29622118953103993,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 3721984,
+      "step": 2865
+    },
+    {
+      "epoch": 0.14022915496054528,
+      "grad_norm": 0.007180750835686922,
+      "learning_rate": 0.2962080397653957,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 3728384,
+      "step": 2870
+    },
+    {
+      "epoch": 0.1404734566242396,
+      "grad_norm": 0.007220921106636524,
+      "learning_rate": 0.29619486745263435,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 3734656,
+      "step": 2875
+    },
+    {
+      "epoch": 0.14071775828793395,
+      "grad_norm": 0.004536958411335945,
+      "learning_rate": 0.2961816725947873,
+      "loss": 0.127,
+      "num_input_tokens_seen": 3741120,
+      "step": 2880
+    },
+    {
+      "epoch": 0.14096205995162828,
+      "grad_norm": 0.010077732615172863,
+      "learning_rate": 0.29616845519388924,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 3747488,
+      "step": 2885
+    },
+    {
+      "epoch": 0.1412063616153226,
+      "grad_norm": 0.008811172097921371,
+      "learning_rate": 0.2961552152519785,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 3754176,
+      "step": 2890
+    },
+    {
+      "epoch": 0.14145066327901692,
+      "grad_norm": 0.006412859074771404,
+      "learning_rate": 0.29614195277109695,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 3760128,
+      "step": 2895
+    },
+    {
+      "epoch": 0.14169496494271125,
+      "grad_norm": 0.006547005847096443,
+      "learning_rate": 0.2961286677532897,
+      "loss": 0.128,
+      "num_input_tokens_seen": 3766688,
+      "step": 2900
+    },
+    {
+      "epoch": 0.1419392666064056,
+      "grad_norm": 0.00698671443387866,
+      "learning_rate": 0.2961153602006055,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 3773024,
+      "step": 2905
+    },
+    {
+      "epoch": 0.14218356827009992,
+      "grad_norm": 0.012459772638976574,
+      "learning_rate": 0.29610203011509656,
+      "loss": 0.1606,
+      "num_input_tokens_seen": 3779328,
+      "step": 2910
+    },
+    {
+      "epoch": 0.14242786993379425,
+      "grad_norm": 0.009354677051305771,
+      "learning_rate": 0.29608867749881856,
+      "loss": 0.1573,
+      "num_input_tokens_seen": 3785248,
+      "step": 2915
+    },
+    {
+      "epoch": 0.14267217159748857,
+      "grad_norm": 0.003984795417636633,
+      "learning_rate": 0.29607530235383067,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 3791552,
+      "step": 2920
+    },
+    {
+      "epoch": 0.1429164732611829,
+      "grad_norm": 0.007021724712103605,
+      "learning_rate": 0.2960619046821954,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 3797952,
+      "step": 2925
+    },
+    {
+      "epoch": 0.14316077492487725,
+      "grad_norm": 0.006713752169162035,
+      "learning_rate": 0.2960484844859789,
+      "loss": 0.1393,
+      "num_input_tokens_seen": 3804064,
+      "step": 2930
+    },
+    {
+      "epoch": 0.14340507658857157,
+      "grad_norm": 0.007559201214462519,
+      "learning_rate": 0.29603504176725076,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 3810880,
+      "step": 2935
+    },
+    {
+      "epoch": 0.1436493782522659,
+      "grad_norm": 0.0070272330194711685,
+      "learning_rate": 0.296021576528084,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 3817600,
+      "step": 2940
+    },
+    {
+      "epoch": 0.14389367991596022,
+      "grad_norm": 0.004861912690103054,
+      "learning_rate": 0.29600808877055507,
+      "loss": 0.1539,
+      "num_input_tokens_seen": 3824160,
+      "step": 2945
+    },
+    {
+      "epoch": 0.14413798157965454,
+      "grad_norm": 0.005469650495797396,
+      "learning_rate": 0.29599457849674404,
+      "loss": 0.1384,
+      "num_input_tokens_seen": 3830528,
+      "step": 2950
+    },
+    {
+      "epoch": 0.1443822832433489,
+      "grad_norm": 0.006416147109121084,
+      "learning_rate": 0.2959810457087343,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 3837120,
+      "step": 2955
+    },
+    {
+      "epoch": 0.14462658490704322,
+      "grad_norm": 0.01056357380002737,
+      "learning_rate": 0.2959674904086128,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 3843968,
+      "step": 2960
+    },
+    {
+      "epoch": 0.14487088657073754,
+      "grad_norm": 0.004586751572787762,
+      "learning_rate": 0.2959539125984699,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 3850400,
+      "step": 2965
+    },
+    {
+      "epoch": 0.14511518823443187,
+      "grad_norm": 0.017131291329860687,
+      "learning_rate": 0.2959403122803996,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 3856896,
+      "step": 2970
+    },
+    {
+      "epoch": 0.1453594898981262,
+      "grad_norm": 0.011254126206040382,
+      "learning_rate": 0.2959266894564991,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 3863520,
+      "step": 2975
+    },
+    {
+      "epoch": 0.14560379156182054,
+      "grad_norm": 0.006342659704387188,
+      "learning_rate": 0.2959130441288692,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 3870272,
+      "step": 2980
+    },
+    {
+      "epoch": 0.14584809322551487,
+      "grad_norm": 0.005669768899679184,
+      "learning_rate": 0.2958993762996143,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 3877088,
+      "step": 2985
+    },
+    {
+      "epoch": 0.1460923948892092,
+      "grad_norm": 0.008901184424757957,
+      "learning_rate": 0.2958856859708421,
+      "loss": 0.1502,
+      "num_input_tokens_seen": 3883776,
+      "step": 2990
+    },
+    {
+      "epoch": 0.14633669655290352,
+      "grad_norm": 0.005730160512030125,
+      "learning_rate": 0.2958719731446638,
+      "loss": 0.1672,
+      "num_input_tokens_seen": 3890112,
+      "step": 2995
+    },
+    {
+      "epoch": 0.14658099821659787,
+      "grad_norm": 0.004826069809496403,
+      "learning_rate": 0.29585823782319404,
+      "loss": 0.1551,
+      "num_input_tokens_seen": 3896512,
+      "step": 3000
+    },
+    {
+      "epoch": 0.14658099821659787,
+      "eval_loss": 0.15010009706020355,
+      "eval_runtime": 402.2646,
+      "eval_samples_per_second": 90.45,
+      "eval_steps_per_second": 22.614,
+      "num_input_tokens_seen": 3896512,
+      "step": 3000
+    },
+    {
+      "epoch": 0.1468252998802922,
+      "grad_norm": 0.0042345342226326466,
+      "learning_rate": 0.2958444800085511,
+      "loss": 0.1612,
+      "num_input_tokens_seen": 3902688,
+      "step": 3005
+    },
+    {
+      "epoch": 0.14706960154398652,
+      "grad_norm": 0.0038030026480555534,
+      "learning_rate": 0.2958306997028565,
+      "loss": 0.134,
+      "num_input_tokens_seen": 3909408,
+      "step": 3010
+    },
+    {
+      "epoch": 0.14731390320768084,
+      "grad_norm": 0.003873246256262064,
+      "learning_rate": 0.2958168969082354,
+      "loss": 0.153,
+      "num_input_tokens_seen": 3915488,
+      "step": 3015
+    },
+    {
+      "epoch": 0.14755820487137516,
+      "grad_norm": 0.005529769696295261,
+      "learning_rate": 0.2958030716268164,
+      "loss": 0.1515,
+      "num_input_tokens_seen": 3921632,
+      "step": 3020
+    },
+    {
+      "epoch": 0.14780250653506952,
+      "grad_norm": 0.006268240045756102,
+      "learning_rate": 0.2957892238607314,
+      "loss": 0.1466,
+      "num_input_tokens_seen": 3928640,
+      "step": 3025
+    },
+    {
+      "epoch": 0.14804680819876384,
+      "grad_norm": 0.007846810854971409,
+      "learning_rate": 0.2957753536121161,
+      "loss": 0.1452,
+      "num_input_tokens_seen": 3935200,
+      "step": 3030
+    },
+    {
+      "epoch": 0.14829110986245816,
+      "grad_norm": 0.005251065827906132,
+      "learning_rate": 0.29576146088310923,
+      "loss": 0.1435,
+      "num_input_tokens_seen": 3941856,
+      "step": 3035
+    },
+    {
+      "epoch": 0.1485354115261525,
+      "grad_norm": 0.004493350628763437,
+      "learning_rate": 0.2957475456758533,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 3948640,
+      "step": 3040
+    },
+    {
+      "epoch": 0.1487797131898468,
+      "grad_norm": 0.0070021250285208225,
+      "learning_rate": 0.2957336079924944,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 3955264,
+      "step": 3045
+    },
+    {
+      "epoch": 0.14902401485354116,
+      "grad_norm": 0.012716337107121944,
+      "learning_rate": 0.2957196478351816,
+      "loss": 0.1583,
+      "num_input_tokens_seen": 3961504,
+      "step": 3050
+    },
+    {
+      "epoch": 0.1492683165172355,
+      "grad_norm": 0.00458125676959753,
+      "learning_rate": 0.295705665206068,
+      "loss": 0.1343,
+      "num_input_tokens_seen": 3967424,
+      "step": 3055
+    },
+    {
+      "epoch": 0.1495126181809298,
+      "grad_norm": 0.00432152533903718,
+      "learning_rate": 0.2956916601073097,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 3974336,
+      "step": 3060
+    },
+    {
+      "epoch": 0.14975691984462414,
+      "grad_norm": 0.007240593899041414,
+      "learning_rate": 0.29567763254106655,
+      "loss": 0.1552,
+      "num_input_tokens_seen": 3980832,
+      "step": 3065
+    },
+    {
+      "epoch": 0.15000122150831846,
+      "grad_norm": 0.02533837966620922,
+      "learning_rate": 0.29566358250950175,
+      "loss": 0.186,
+      "num_input_tokens_seen": 3987008,
+      "step": 3070
+    },
+    {
+      "epoch": 0.1502455231720128,
+      "grad_norm": 0.011921662837266922,
+      "learning_rate": 0.295649510014782,
+      "loss": 0.1628,
+      "num_input_tokens_seen": 3993728,
+      "step": 3075
+    },
+    {
+      "epoch": 0.15048982483570714,
+      "grad_norm": 0.007870647124946117,
+      "learning_rate": 0.2956354150590775,
+      "loss": 0.1462,
+      "num_input_tokens_seen": 4000288,
+      "step": 3080
+    },
+    {
+      "epoch": 0.15073412649940146,
+      "grad_norm": 0.007252035662531853,
+      "learning_rate": 0.2956212976445618,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 4006944,
+      "step": 3085
+    },
+    {
+      "epoch": 0.15097842816309578,
+      "grad_norm": 0.005040792282670736,
+      "learning_rate": 0.295607157773412,
+      "loss": 0.1384,
+      "num_input_tokens_seen": 4013472,
+      "step": 3090
+    },
+    {
+      "epoch": 0.1512227298267901,
+      "grad_norm": 0.005427815020084381,
+      "learning_rate": 0.2955929954478087,
+      "loss": 0.1691,
+      "num_input_tokens_seen": 4019712,
+      "step": 3095
+    },
+    {
+      "epoch": 0.15146703149048446,
+      "grad_norm": 0.008965421468019485,
+      "learning_rate": 0.29557881066993585,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 4026240,
+      "step": 3100
+    },
+    {
+      "epoch": 0.15171133315417878,
+      "grad_norm": 0.005682289134711027,
+      "learning_rate": 0.29556460344198093,
+      "loss": 0.133,
+      "num_input_tokens_seen": 4032800,
+      "step": 3105
+    },
+    {
+      "epoch": 0.1519556348178731,
+      "grad_norm": 0.012129625305533409,
+      "learning_rate": 0.29555037376613486,
+      "loss": 0.1538,
+      "num_input_tokens_seen": 4039712,
+      "step": 3110
+    },
+    {
+      "epoch": 0.15219993648156743,
+      "grad_norm": 0.019299698993563652,
+      "learning_rate": 0.29553612164459203,
+      "loss": 0.1686,
+      "num_input_tokens_seen": 4045792,
+      "step": 3115
+    },
+    {
+      "epoch": 0.15244423814526176,
+      "grad_norm": 0.007198733743280172,
+      "learning_rate": 0.29552184707955037,
+      "loss": 0.1569,
+      "num_input_tokens_seen": 4052384,
+      "step": 3120
+    },
+    {
+      "epoch": 0.1526885398089561,
+      "grad_norm": 0.006550279445946217,
+      "learning_rate": 0.29550755007321117,
+      "loss": 0.1595,
+      "num_input_tokens_seen": 4058720,
+      "step": 3125
+    },
+    {
+      "epoch": 0.15293284147265043,
+      "grad_norm": 0.004274212289601564,
+      "learning_rate": 0.29549323062777916,
+      "loss": 0.1416,
+      "num_input_tokens_seen": 4065344,
+      "step": 3130
+    },
+    {
+      "epoch": 0.15317714313634476,
+      "grad_norm": 0.003892359556630254,
+      "learning_rate": 0.29547888874546263,
+      "loss": 0.1445,
+      "num_input_tokens_seen": 4071712,
+      "step": 3135
+    },
+    {
+      "epoch": 0.15342144480003908,
+      "grad_norm": 0.011292497627437115,
+      "learning_rate": 0.2954645244284732,
+      "loss": 0.1466,
+      "num_input_tokens_seen": 4078528,
+      "step": 3140
+    },
+    {
+      "epoch": 0.1536657464637334,
+      "grad_norm": 0.007157387211918831,
+      "learning_rate": 0.2954501376790261,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 4085056,
+      "step": 3145
+    },
+    {
+      "epoch": 0.15391004812742776,
+      "grad_norm": 0.004868432879447937,
+      "learning_rate": 0.29543572849933997,
+      "loss": 0.1569,
+      "num_input_tokens_seen": 4091296,
+      "step": 3150
+    },
+    {
+      "epoch": 0.15415434979112208,
+      "grad_norm": 0.007058338262140751,
+      "learning_rate": 0.2954212968916368,
+      "loss": 0.1448,
+      "num_input_tokens_seen": 4097696,
+      "step": 3155
+    },
+    {
+      "epoch": 0.1543986514548164,
+      "grad_norm": 0.003827763954177499,
+      "learning_rate": 0.29540684285814217,
+      "loss": 0.1474,
+      "num_input_tokens_seen": 4104000,
+      "step": 3160
+    },
+    {
+      "epoch": 0.15464295311851073,
+      "grad_norm": 0.007140215951949358,
+      "learning_rate": 0.2953923664010851,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 4110272,
+      "step": 3165
+    },
+    {
+      "epoch": 0.15488725478220508,
+      "grad_norm": 0.004550101701170206,
+      "learning_rate": 0.295377867522698,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 4117024,
+      "step": 3170
+    },
+    {
+      "epoch": 0.1551315564458994,
+      "grad_norm": 0.004532177001237869,
+      "learning_rate": 0.2953633462252168,
+      "loss": 0.1964,
+      "num_input_tokens_seen": 4123360,
+      "step": 3175
+    },
+    {
+      "epoch": 0.15537585810959373,
+      "grad_norm": 0.01317333523184061,
+      "learning_rate": 0.2953488025108809,
+      "loss": 0.1715,
+      "num_input_tokens_seen": 4129760,
+      "step": 3180
+    },
+    {
+      "epoch": 0.15562015977328805,
+      "grad_norm": 0.004455049522221088,
+      "learning_rate": 0.295334236381933,
+      "loss": 0.1309,
+      "num_input_tokens_seen": 4136832,
+      "step": 3185
+    },
+    {
+      "epoch": 0.15586446143698238,
+      "grad_norm": 0.006748960819095373,
+      "learning_rate": 0.29531964784061954,
+      "loss": 0.2001,
+      "num_input_tokens_seen": 4143264,
+      "step": 3190
+    },
+    {
+      "epoch": 0.15610876310067673,
+      "grad_norm": 0.009004302322864532,
+      "learning_rate": 0.2953050368891902,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 4150656,
+      "step": 3195
+    },
+    {
+      "epoch": 0.15635306476437105,
+      "grad_norm": 0.005905374884605408,
+      "learning_rate": 0.29529040352989805,
+      "loss": 0.1438,
+      "num_input_tokens_seen": 4157216,
+      "step": 3200
+    },
+    {
+      "epoch": 0.15635306476437105,
+      "eval_loss": 0.146976038813591,
+      "eval_runtime": 402.2321,
+      "eval_samples_per_second": 90.458,
+      "eval_steps_per_second": 22.616,
+      "num_input_tokens_seen": 4157216,
+      "step": 3200
+    },
+    {
+      "epoch": 0.15659736642806538,
+      "grad_norm": 0.004526370670646429,
+      "learning_rate": 0.29527574776499993,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 4163808,
+      "step": 3205
+    },
+    {
+      "epoch": 0.1568416680917597,
+      "grad_norm": 0.008717632852494717,
+      "learning_rate": 0.2952610695967558,
+      "loss": 0.1772,
+      "num_input_tokens_seen": 4170240,
+      "step": 3210
+    },
+    {
+      "epoch": 0.15708596975545402,
+      "grad_norm": 0.00574049586430192,
+      "learning_rate": 0.29524636902742935,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 4177376,
+      "step": 3215
+    },
+    {
+      "epoch": 0.15733027141914838,
+      "grad_norm": 0.007429580669850111,
+      "learning_rate": 0.2952316460592875,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 4184032,
+      "step": 3220
+    },
+    {
+      "epoch": 0.1575745730828427,
+      "grad_norm": 0.012980662286281586,
+      "learning_rate": 0.29521690069460066,
+      "loss": 0.1671,
+      "num_input_tokens_seen": 4190304,
+      "step": 3225
+    },
+    {
+      "epoch": 0.15781887474653702,
+      "grad_norm": 0.00748571427538991,
+      "learning_rate": 0.29520213293564285,
+      "loss": 0.1405,
+      "num_input_tokens_seen": 4196960,
+      "step": 3230
+    },
+    {
+      "epoch": 0.15806317641023135,
+      "grad_norm": 0.00416966388002038,
+      "learning_rate": 0.29518734278469144,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 4203552,
+      "step": 3235
+    },
+    {
+      "epoch": 0.15830747807392567,
+      "grad_norm": 0.005565917119383812,
+      "learning_rate": 0.29517253024402723,
+      "loss": 0.152,
+      "num_input_tokens_seen": 4209696,
+      "step": 3240
+    },
+    {
+      "epoch": 0.15855177973762002,
+      "grad_norm": 0.00484222499653697,
+      "learning_rate": 0.2951576953159345,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 4216128,
+      "step": 3245
+    },
+    {
+      "epoch": 0.15879608140131435,
+      "grad_norm": 0.0063702804036438465,
+      "learning_rate": 0.29514283800270097,
+      "loss": 0.1433,
+      "num_input_tokens_seen": 4222912,
+      "step": 3250
+    },
+    {
+      "epoch": 0.15904038306500867,
+      "grad_norm": 0.011864092200994492,
+      "learning_rate": 0.2951279583066179,
+      "loss": 0.1349,
+      "num_input_tokens_seen": 4229792,
+      "step": 3255
+    },
+    {
+      "epoch": 0.159284684728703,
+      "grad_norm": 0.007720791269093752,
+      "learning_rate": 0.2951130562299798,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 4236384,
+      "step": 3260
+    },
+    {
+      "epoch": 0.15952898639239732,
+      "grad_norm": 0.006543894298374653,
+      "learning_rate": 0.29509813177508487,
+      "loss": 0.157,
+      "num_input_tokens_seen": 4243488,
+      "step": 3265
+    },
+    {
+      "epoch": 0.15977328805609167,
+      "grad_norm": 0.009356270544230938,
+      "learning_rate": 0.2950831849442346,
+      "loss": 0.1365,
+      "num_input_tokens_seen": 4250112,
+      "step": 3270
+    },
+    {
+      "epoch": 0.160017589719786,
+      "grad_norm": 0.003859233809635043,
+      "learning_rate": 0.2950682157397339,
+      "loss": 0.122,
+      "num_input_tokens_seen": 4256512,
+      "step": 3275
+    },
+    {
+      "epoch": 0.16026189138348032,
+      "grad_norm": 0.007133918348699808,
+      "learning_rate": 0.2950532241638914,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 4263264,
+      "step": 3280
+    },
+    {
+      "epoch": 0.16050619304717464,
+      "grad_norm": 0.007374327164143324,
+      "learning_rate": 0.2950382102190188,
+      "loss": 0.153,
+      "num_input_tokens_seen": 4269600,
+      "step": 3285
+    },
+    {
+      "epoch": 0.16075049471086897,
+      "grad_norm": 0.00995838176459074,
+      "learning_rate": 0.2950231739074316,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 4275648,
+      "step": 3290
+    },
+    {
+      "epoch": 0.16099479637456332,
+      "grad_norm": 0.004716991912573576,
+      "learning_rate": 0.29500811523144843,
+      "loss": 0.1453,
+      "num_input_tokens_seen": 4281856,
+      "step": 3295
+    },
+    {
+      "epoch": 0.16123909803825764,
+      "grad_norm": 0.008197176270186901,
+      "learning_rate": 0.2949930341933917,
+      "loss": 0.1605,
+      "num_input_tokens_seen": 4287968,
+      "step": 3300
+    },
+    {
+      "epoch": 0.16148339970195197,
+      "grad_norm": 0.006398800760507584,
+      "learning_rate": 0.29497793079558693,
+      "loss": 0.1606,
+      "num_input_tokens_seen": 4295104,
+      "step": 3305
+    },
+    {
+      "epoch": 0.1617277013656463,
+      "grad_norm": 0.0040215603075921535,
+      "learning_rate": 0.2949628050403633,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 4301440,
+      "step": 3310
+    },
+    {
+      "epoch": 0.16197200302934062,
+      "grad_norm": 0.005545100197196007,
+      "learning_rate": 0.2949476569300535,
+      "loss": 0.143,
+      "num_input_tokens_seen": 4307648,
+      "step": 3315
+    },
+    {
+      "epoch": 0.16221630469303497,
+      "grad_norm": 0.00582894217222929,
+      "learning_rate": 0.29493248646699344,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 4313984,
+      "step": 3320
+    },
+    {
+      "epoch": 0.1624606063567293,
+      "grad_norm": 0.004599748179316521,
+      "learning_rate": 0.29491729365352265,
+      "loss": 0.15,
+      "num_input_tokens_seen": 4320832,
+      "step": 3325
+    },
+    {
+      "epoch": 0.16270490802042362,
+      "grad_norm": 0.005137608852237463,
+      "learning_rate": 0.29490207849198397,
+      "loss": 0.1469,
+      "num_input_tokens_seen": 4327104,
+      "step": 3330
+    },
+    {
+      "epoch": 0.16294920968411794,
+      "grad_norm": 0.005961100570857525,
+      "learning_rate": 0.29488684098472384,
+      "loss": 0.1552,
+      "num_input_tokens_seen": 4333952,
+      "step": 3335
+    },
+    {
+      "epoch": 0.1631935113478123,
+      "grad_norm": 0.006460412405431271,
+      "learning_rate": 0.2948715811340921,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 4340480,
+      "step": 3340
+    },
+    {
+      "epoch": 0.16343781301150662,
+      "grad_norm": 0.004630151204764843,
+      "learning_rate": 0.294856298942442,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 4347040,
+      "step": 3345
+    },
+    {
+      "epoch": 0.16368211467520094,
+      "grad_norm": 0.006064065266400576,
+      "learning_rate": 0.2948409944121302,
+      "loss": 0.1814,
+      "num_input_tokens_seen": 4352864,
+      "step": 3350
+    },
+    {
+      "epoch": 0.16392641633889526,
+      "grad_norm": 0.010582013987004757,
+      "learning_rate": 0.29482566754551687,
+      "loss": 0.1648,
+      "num_input_tokens_seen": 4359328,
+      "step": 3355
+    },
+    {
+      "epoch": 0.1641707180025896,
+      "grad_norm": 0.0030569855589419603,
+      "learning_rate": 0.2948103183449656,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 4365856,
+      "step": 3360
+    },
+    {
+      "epoch": 0.16441501966628394,
+      "grad_norm": 0.006651660427451134,
+      "learning_rate": 0.2947949468128435,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 4372320,
+      "step": 3365
+    },
+    {
+      "epoch": 0.16465932132997826,
+      "grad_norm": 0.009209196083247662,
+      "learning_rate": 0.2947795529515209,
+      "loss": 0.154,
+      "num_input_tokens_seen": 4378752,
+      "step": 3370
+    },
+    {
+      "epoch": 0.1649036229936726,
+      "grad_norm": 0.007435793522745371,
+      "learning_rate": 0.29476413676337193,
+      "loss": 0.1441,
+      "num_input_tokens_seen": 4385856,
+      "step": 3375
+    },
+    {
+      "epoch": 0.1651479246573669,
+      "grad_norm": 0.011264672502875328,
+      "learning_rate": 0.2947486982507738,
+      "loss": 0.1498,
+      "num_input_tokens_seen": 4392416,
+      "step": 3380
+    },
+    {
+      "epoch": 0.16539222632106124,
+      "grad_norm": 0.006896717473864555,
+      "learning_rate": 0.29473323741610735,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 4399072,
+      "step": 3385
+    },
+    {
+      "epoch": 0.1656365279847556,
+      "grad_norm": 0.012486022897064686,
+      "learning_rate": 0.2947177542617569,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 4405472,
+      "step": 3390
+    },
+    {
+      "epoch": 0.1658808296484499,
+      "grad_norm": 0.012338816188275814,
+      "learning_rate": 0.2947022487901101,
+      "loss": 0.1791,
+      "num_input_tokens_seen": 4411968,
+      "step": 3395
+    },
+    {
+      "epoch": 0.16612513131214424,
+      "grad_norm": 0.009308363310992718,
+      "learning_rate": 0.2946867210035581,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 4418592,
+      "step": 3400
+    },
+    {
+      "epoch": 0.16612513131214424,
+      "eval_loss": 0.14681977033615112,
+      "eval_runtime": 402.1083,
+      "eval_samples_per_second": 90.486,
+      "eval_steps_per_second": 22.623,
+      "num_input_tokens_seen": 4418592,
+      "step": 3400
+    },
+    {
+      "epoch": 0.16636943297583856,
+      "grad_norm": 0.01494782604277134,
+      "learning_rate": 0.2946711709044954,
+      "loss": 0.1652,
+      "num_input_tokens_seen": 4425088,
+      "step": 3405
+    },
+    {
+      "epoch": 0.16661373463953288,
+      "grad_norm": 0.006853220518678427,
+      "learning_rate": 0.2946555984953202,
+      "loss": 0.141,
+      "num_input_tokens_seen": 4431584,
+      "step": 3410
+    },
+    {
+      "epoch": 0.16685803630322724,
+      "grad_norm": 0.005910870619118214,
+      "learning_rate": 0.2946400037784338,
+      "loss": 0.1697,
+      "num_input_tokens_seen": 4437792,
+      "step": 3415
+    },
+    {
+      "epoch": 0.16710233796692156,
+      "grad_norm": 0.008520863018929958,
+      "learning_rate": 0.29462438675624114,
+      "loss": 0.169,
+      "num_input_tokens_seen": 4443904,
+      "step": 3420
+    },
+    {
+      "epoch": 0.16734663963061588,
+      "grad_norm": 0.005581583362072706,
+      "learning_rate": 0.2946087474311506,
+      "loss": 0.1506,
+      "num_input_tokens_seen": 4450592,
+      "step": 3425
+    },
+    {
+      "epoch": 0.1675909412943102,
+      "grad_norm": 0.005354462191462517,
+      "learning_rate": 0.294593085805574,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 4457376,
+      "step": 3430
+    },
+    {
+      "epoch": 0.16783524295800453,
+      "grad_norm": 0.004989621229469776,
+      "learning_rate": 0.2945774018819264,
+      "loss": 0.1496,
+      "num_input_tokens_seen": 4463392,
+      "step": 3435
+    },
+    {
+      "epoch": 0.16807954462169888,
+      "grad_norm": 0.014308260753750801,
+      "learning_rate": 0.2945616956626266,
+      "loss": 0.1597,
+      "num_input_tokens_seen": 4469856,
+      "step": 3440
+    },
+    {
+      "epoch": 0.1683238462853932,
+      "grad_norm": 0.01211550459265709,
+      "learning_rate": 0.2945459671500966,
+      "loss": 0.1697,
+      "num_input_tokens_seen": 4476384,
+      "step": 3445
+    },
+    {
+      "epoch": 0.16856814794908753,
+      "grad_norm": 0.004750086460262537,
+      "learning_rate": 0.2945302163467621,
+      "loss": 0.126,
+      "num_input_tokens_seen": 4483008,
+      "step": 3450
+    },
+    {
+      "epoch": 0.16881244961278186,
+      "grad_norm": 0.005010053049772978,
+      "learning_rate": 0.2945144432550519,
+      "loss": 0.149,
+      "num_input_tokens_seen": 4489728,
+      "step": 3455
+    },
+    {
+      "epoch": 0.16905675127647618,
+      "grad_norm": 0.00448744697496295,
+      "learning_rate": 0.29449864787739843,
+      "loss": 0.1438,
+      "num_input_tokens_seen": 4496320,
+      "step": 3460
+    },
+    {
+      "epoch": 0.16930105294017053,
+      "grad_norm": 0.006306803785264492,
+      "learning_rate": 0.2944828302162376,
+      "loss": 0.1479,
+      "num_input_tokens_seen": 4502752,
+      "step": 3465
+    },
+    {
+      "epoch": 0.16954535460386486,
+      "grad_norm": 0.005514460150152445,
+      "learning_rate": 0.2944669902740087,
+      "loss": 0.1514,
+      "num_input_tokens_seen": 4509440,
+      "step": 3470
+    },
+    {
+      "epoch": 0.16978965626755918,
+      "grad_norm": 0.01155142579227686,
+      "learning_rate": 0.2944511280531544,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 4515968,
+      "step": 3475
+    },
+    {
+      "epoch": 0.1700339579312535,
+      "grad_norm": 0.005715505685657263,
+      "learning_rate": 0.29443524355612083,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 4522304,
+      "step": 3480
+    },
+    {
+      "epoch": 0.17027825959494783,
+      "grad_norm": 0.012330758385360241,
+      "learning_rate": 0.29441933678535764,
+      "loss": 0.122,
+      "num_input_tokens_seen": 4528736,
+      "step": 3485
+    },
+    {
+      "epoch": 0.17052256125864218,
+      "grad_norm": 0.005465715657919645,
+      "learning_rate": 0.29440340774331786,
+      "loss": 0.1973,
+      "num_input_tokens_seen": 4535168,
+      "step": 3490
+    },
+    {
+      "epoch": 0.1707668629223365,
+      "grad_norm": 0.0036885146982967854,
+      "learning_rate": 0.2943874564324579,
+      "loss": 0.1561,
+      "num_input_tokens_seen": 4541824,
+      "step": 3495
+    },
+    {
+      "epoch": 0.17101116458603083,
+      "grad_norm": 0.003873786423355341,
+      "learning_rate": 0.2943714828552376,
+      "loss": 0.1389,
+      "num_input_tokens_seen": 4548160,
+      "step": 3500
+    },
+    {
+      "epoch": 0.17125546624972515,
+      "grad_norm": 0.006759281735867262,
+      "learning_rate": 0.29435548701412045,
+      "loss": 0.1455,
+      "num_input_tokens_seen": 4554496,
+      "step": 3505
+    },
+    {
+      "epoch": 0.1714997679134195,
+      "grad_norm": 0.005273349117487669,
+      "learning_rate": 0.2943394689115731,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 4560960,
+      "step": 3510
+    },
+    {
+      "epoch": 0.17174406957711383,
+      "grad_norm": 0.004774583037942648,
+      "learning_rate": 0.29432342855006577,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 4567200,
+      "step": 3515
+    },
+    {
+      "epoch": 0.17198837124080815,
+      "grad_norm": 0.007701503578573465,
+      "learning_rate": 0.294307365932072,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 4574336,
+      "step": 3520
+    },
+    {
+      "epoch": 0.17223267290450248,
+      "grad_norm": 0.010509933345019817,
+      "learning_rate": 0.294291281060069,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 4580832,
+      "step": 3525
+    },
+    {
+      "epoch": 0.1724769745681968,
+      "grad_norm": 0.005069775506854057,
+      "learning_rate": 0.29427517393653724,
+      "loss": 0.1624,
+      "num_input_tokens_seen": 4586752,
+      "step": 3530
+    },
+    {
+      "epoch": 0.17272127623189115,
+      "grad_norm": 0.0038487182464450598,
+      "learning_rate": 0.29425904456396046,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 4593088,
+      "step": 3535
+    },
+    {
+      "epoch": 0.17296557789558548,
+      "grad_norm": 0.004181241616606712,
+      "learning_rate": 0.2942428929448262,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 4600128,
+      "step": 3540
+    },
+    {
+      "epoch": 0.1732098795592798,
+      "grad_norm": 0.007150836754590273,
+      "learning_rate": 0.2942267190816252,
+      "loss": 0.1405,
+      "num_input_tokens_seen": 4606592,
+      "step": 3545
+    },
+    {
+      "epoch": 0.17345418122297412,
+      "grad_norm": 0.003995053470134735,
+      "learning_rate": 0.2942105229768516,
+      "loss": 0.1419,
+      "num_input_tokens_seen": 4613248,
+      "step": 3550
+    },
+    {
+      "epoch": 0.17369848288666845,
+      "grad_norm": 0.004407924134284258,
+      "learning_rate": 0.29419430463300306,
+      "loss": 0.144,
+      "num_input_tokens_seen": 4619712,
+      "step": 3555
+    },
+    {
+      "epoch": 0.1739427845503628,
+      "grad_norm": 0.004128584172576666,
+      "learning_rate": 0.2941780640525808,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 4626016,
+      "step": 3560
+    },
+    {
+      "epoch": 0.17418708621405712,
+      "grad_norm": 0.007633062079548836,
+      "learning_rate": 0.2941618012380891,
+      "loss": 0.1305,
+      "num_input_tokens_seen": 4632288,
+      "step": 3565
+    },
+    {
+      "epoch": 0.17443138787775145,
+      "grad_norm": 0.009707351215183735,
+      "learning_rate": 0.29414551619203605,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 4638880,
+      "step": 3570
+    },
+    {
+      "epoch": 0.17467568954144577,
+      "grad_norm": 0.00554875610396266,
+      "learning_rate": 0.29412920891693295,
+      "loss": 0.1752,
+      "num_input_tokens_seen": 4645056,
+      "step": 3575
+    },
+    {
+      "epoch": 0.1749199912051401,
+      "grad_norm": 0.00448114238679409,
+      "learning_rate": 0.2941128794152946,
+      "loss": 0.1546,
+      "num_input_tokens_seen": 4651328,
+      "step": 3580
+    },
+    {
+      "epoch": 0.17516429286883445,
+      "grad_norm": 0.0034846120979636908,
+      "learning_rate": 0.2940965276896392,
+      "loss": 0.1604,
+      "num_input_tokens_seen": 4657888,
+      "step": 3585
+    },
+    {
+      "epoch": 0.17540859453252877,
+      "grad_norm": 0.002822837559506297,
+      "learning_rate": 0.2940801537424884,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 4664512,
+      "step": 3590
+    },
+    {
+      "epoch": 0.1756528961962231,
+      "grad_norm": 0.00826732162386179,
+      "learning_rate": 0.2940637575763673,
+      "loss": 0.1463,
+      "num_input_tokens_seen": 4671008,
+      "step": 3595
+    },
+    {
+      "epoch": 0.17589719785991742,
+      "grad_norm": 0.0058800047263503075,
+      "learning_rate": 0.2940473391938043,
+      "loss": 0.1282,
+      "num_input_tokens_seen": 4677248,
+      "step": 3600
+    },
+    {
+      "epoch": 0.17589719785991742,
+      "eval_loss": 0.14823652803897858,
+      "eval_runtime": 402.2713,
+      "eval_samples_per_second": 90.449,
+      "eval_steps_per_second": 22.614,
+      "num_input_tokens_seen": 4677248,
+      "step": 3600
+    },
+    {
+      "epoch": 0.17614149952361174,
+      "grad_norm": 0.005219560116529465,
+      "learning_rate": 0.29403089859733145,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 4684000,
+      "step": 3605
+    },
+    {
+      "epoch": 0.1763858011873061,
+      "grad_norm": 0.0047860704362392426,
+      "learning_rate": 0.294014435789484,
+      "loss": 0.1638,
+      "num_input_tokens_seen": 4690336,
+      "step": 3610
+    },
+    {
+      "epoch": 0.17663010285100042,
+      "grad_norm": 0.01011186558753252,
+      "learning_rate": 0.2939979507728007,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 4696672,
+      "step": 3615
+    },
+    {
+      "epoch": 0.17687440451469474,
+      "grad_norm": 0.005375186447054148,
+      "learning_rate": 0.2939814435498239,
+      "loss": 0.1498,
+      "num_input_tokens_seen": 4703456,
+      "step": 3620
+    },
+    {
+      "epoch": 0.17711870617838907,
+      "grad_norm": 0.0025975604075938463,
+      "learning_rate": 0.29396491412309905,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 4710432,
+      "step": 3625
+    },
+    {
+      "epoch": 0.1773630078420834,
+      "grad_norm": 0.006873182952404022,
+      "learning_rate": 0.2939483624951753,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 4716736,
+      "step": 3630
+    },
+    {
+      "epoch": 0.17760730950577774,
+      "grad_norm": 0.0047199237160384655,
+      "learning_rate": 0.2939317886686051,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 4723584,
+      "step": 3635
+    },
+    {
+      "epoch": 0.17785161116947207,
+      "grad_norm": 0.00434064120054245,
+      "learning_rate": 0.2939151926459443,
+      "loss": 0.1466,
+      "num_input_tokens_seen": 4729440,
+      "step": 3640
+    },
+    {
+      "epoch": 0.1780959128331664,
+      "grad_norm": 0.007025724742561579,
+      "learning_rate": 0.2938985744297522,
+      "loss": 0.1445,
+      "num_input_tokens_seen": 4735648,
+      "step": 3645
+    },
+    {
+      "epoch": 0.17834021449686072,
+      "grad_norm": 0.006063849665224552,
+      "learning_rate": 0.29388193402259166,
+      "loss": 0.1276,
+      "num_input_tokens_seen": 4741888,
+      "step": 3650
+    },
+    {
+      "epoch": 0.17858451616055504,
+      "grad_norm": 0.007734061684459448,
+      "learning_rate": 0.29386527142702873,
+      "loss": 0.1438,
+      "num_input_tokens_seen": 4748544,
+      "step": 3655
+    },
+    {
+      "epoch": 0.1788288178242494,
+      "grad_norm": 0.006008007097989321,
+      "learning_rate": 0.293848586645633,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 4754816,
+      "step": 3660
+    },
+    {
+      "epoch": 0.17907311948794372,
+      "grad_norm": 0.0037793139927089214,
+      "learning_rate": 0.2938318796809775,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 4761472,
+      "step": 3665
+    },
+    {
+      "epoch": 0.17931742115163804,
+      "grad_norm": 0.0038399819750338793,
+      "learning_rate": 0.29381515053563867,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 4768064,
+      "step": 3670
+    },
+    {
+      "epoch": 0.17956172281533236,
+      "grad_norm": 0.005865282844752073,
+      "learning_rate": 0.29379839921219636,
+      "loss": 0.1573,
+      "num_input_tokens_seen": 4774496,
+      "step": 3675
+    },
+    {
+      "epoch": 0.17980602447902672,
+      "grad_norm": 0.005683218594640493,
+      "learning_rate": 0.2937816257132338,
+      "loss": 0.1378,
+      "num_input_tokens_seen": 4780640,
+      "step": 3680
+    },
+    {
+      "epoch": 0.18005032614272104,
+      "grad_norm": 0.004016787279397249,
+      "learning_rate": 0.2937648300413376,
+      "loss": 0.1531,
+      "num_input_tokens_seen": 4786656,
+      "step": 3685
+    },
+    {
+      "epoch": 0.18029462780641536,
+      "grad_norm": 0.005890519358217716,
+      "learning_rate": 0.293748012199098,
+      "loss": 0.1541,
+      "num_input_tokens_seen": 4793504,
+      "step": 3690
+    },
+    {
+      "epoch": 0.1805389294701097,
+      "grad_norm": 0.006219967734068632,
+      "learning_rate": 0.29373117218910844,
+      "loss": 0.1338,
+      "num_input_tokens_seen": 4799680,
+      "step": 3695
+    },
+    {
+      "epoch": 0.180783231133804,
+      "grad_norm": 0.005402980372309685,
+      "learning_rate": 0.2937143100139659,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 4806144,
+      "step": 3700
+    },
+    {
+      "epoch": 0.18102753279749836,
+      "grad_norm": 0.005309350322932005,
+      "learning_rate": 0.29369742567627083,
+      "loss": 0.1588,
+      "num_input_tokens_seen": 4812992,
+      "step": 3705
+    },
+    {
+      "epoch": 0.1812718344611927,
+      "grad_norm": 0.009750386700034142,
+      "learning_rate": 0.29368051917862675,
+      "loss": 0.1554,
+      "num_input_tokens_seen": 4819232,
+      "step": 3710
+    },
+    {
+      "epoch": 0.181516136124887,
+      "grad_norm": 0.005296045448631048,
+      "learning_rate": 0.2936635905236411,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 4825568,
+      "step": 3715
+    },
+    {
+      "epoch": 0.18176043778858134,
+      "grad_norm": 0.0041799466125667095,
+      "learning_rate": 0.2936466397139244,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 4832224,
+      "step": 3720
+    },
+    {
+      "epoch": 0.18200473945227566,
+      "grad_norm": 0.004095354583114386,
+      "learning_rate": 0.2936296667520907,
+      "loss": 0.1307,
+      "num_input_tokens_seen": 4838144,
+      "step": 3725
+    },
+    {
+      "epoch": 0.18224904111597,
+      "grad_norm": 0.00765362149104476,
+      "learning_rate": 0.2936126716407574,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 4844320,
+      "step": 3730
+    },
+    {
+      "epoch": 0.18249334277966434,
+      "grad_norm": 0.0054589007049798965,
+      "learning_rate": 0.29359565438254537,
+      "loss": 0.145,
+      "num_input_tokens_seen": 4851296,
+      "step": 3735
+    },
+    {
+      "epoch": 0.18273764444335866,
+      "grad_norm": 0.0055501158349215984,
+      "learning_rate": 0.29357861498007887,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 4857536,
+      "step": 3740
+    },
+    {
+      "epoch": 0.18298194610705298,
+      "grad_norm": 0.003162214532494545,
+      "learning_rate": 0.29356155343598567,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 4863808,
+      "step": 3745
+    },
+    {
+      "epoch": 0.1832262477707473,
+      "grad_norm": 0.0035257379058748484,
+      "learning_rate": 0.2935444697528968,
+      "loss": 0.1294,
+      "num_input_tokens_seen": 4870080,
+      "step": 3750
+    },
+    {
+      "epoch": 0.18347054943444166,
+      "grad_norm": 0.0071447161026299,
+      "learning_rate": 0.2935273639334468,
+      "loss": 0.1468,
+      "num_input_tokens_seen": 4876864,
+      "step": 3755
+    },
+    {
+      "epoch": 0.18371485109813598,
+      "grad_norm": 0.004478020127862692,
+      "learning_rate": 0.29351023598027365,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 4883456,
+      "step": 3760
+    },
+    {
+      "epoch": 0.1839591527618303,
+      "grad_norm": 0.006183025427162647,
+      "learning_rate": 0.2934930858960186,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 4889216,
+      "step": 3765
+    },
+    {
+      "epoch": 0.18420345442552463,
+      "grad_norm": 0.006848332472145557,
+      "learning_rate": 0.29347591368332643,
+      "loss": 0.162,
+      "num_input_tokens_seen": 4895616,
+      "step": 3770
+    },
+    {
+      "epoch": 0.18444775608921896,
+      "grad_norm": 0.006314761005342007,
+      "learning_rate": 0.2934587193448454,
+      "loss": 0.1459,
+      "num_input_tokens_seen": 4902464,
+      "step": 3775
+    },
+    {
+      "epoch": 0.1846920577529133,
+      "grad_norm": 0.005280583631247282,
+      "learning_rate": 0.29344150288322696,
+      "loss": 0.1446,
+      "num_input_tokens_seen": 4909280,
+      "step": 3780
+    },
+    {
+      "epoch": 0.18493635941660763,
+      "grad_norm": 0.004736812319606543,
+      "learning_rate": 0.2934242643011263,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 4915520,
+      "step": 3785
+    },
+    {
+      "epoch": 0.18518066108030196,
+      "grad_norm": 0.003843441605567932,
+      "learning_rate": 0.2934070036012016,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 4921856,
+      "step": 3790
+    },
+    {
+      "epoch": 0.18542496274399628,
+      "grad_norm": 0.006553660612553358,
+      "learning_rate": 0.29338972078611475,
+      "loss": 0.1652,
+      "num_input_tokens_seen": 4927776,
+      "step": 3795
+    },
+    {
+      "epoch": 0.1856692644076906,
+      "grad_norm": 0.006035085767507553,
+      "learning_rate": 0.2933724158585311,
+      "loss": 0.1609,
+      "num_input_tokens_seen": 4934080,
+      "step": 3800
+    },
+    {
+      "epoch": 0.1856692644076906,
+      "eval_loss": 0.142095685005188,
+      "eval_runtime": 402.1147,
+      "eval_samples_per_second": 90.484,
+      "eval_steps_per_second": 22.623,
+      "num_input_tokens_seen": 4934080,
+      "step": 3800
+    },
+    {
+      "epoch": 0.18591356607138496,
+      "grad_norm": 0.004159958101809025,
+      "learning_rate": 0.29335508882111916,
+      "loss": 0.128,
+      "num_input_tokens_seen": 4940224,
+      "step": 3805
+    },
+    {
+      "epoch": 0.18615786773507928,
+      "grad_norm": 0.003927765879780054,
+      "learning_rate": 0.29333773967655097,
+      "loss": 0.1616,
+      "num_input_tokens_seen": 4947136,
+      "step": 3810
+    },
+    {
+      "epoch": 0.1864021693987736,
+      "grad_norm": 0.007774055935442448,
+      "learning_rate": 0.2933203684275021,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 4953344,
+      "step": 3815
+    },
+    {
+      "epoch": 0.18664647106246793,
+      "grad_norm": 0.003865953302010894,
+      "learning_rate": 0.2933029750766513,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 4959840,
+      "step": 3820
+    },
+    {
+      "epoch": 0.18689077272616225,
+      "grad_norm": 0.0037108373362571,
+      "learning_rate": 0.2932855596266809,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 4966208,
+      "step": 3825
+    },
+    {
+      "epoch": 0.1871350743898566,
+      "grad_norm": 0.005531928036361933,
+      "learning_rate": 0.2932681220802765,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 4972480,
+      "step": 3830
+    },
+    {
+      "epoch": 0.18737937605355093,
+      "grad_norm": 0.0050368099473416805,
+      "learning_rate": 0.2932506624401274,
+      "loss": 0.15,
+      "num_input_tokens_seen": 4978944,
+      "step": 3835
+    },
+    {
+      "epoch": 0.18762367771724525,
+      "grad_norm": 0.0027431356720626354,
+      "learning_rate": 0.29323318070892584,
+      "loss": 0.1399,
+      "num_input_tokens_seen": 4985344,
+      "step": 3840
+    },
+    {
+      "epoch": 0.18786797938093958,
+      "grad_norm": 0.00445999950170517,
+      "learning_rate": 0.29321567688936784,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 4991744,
+      "step": 3845
+    },
+    {
+      "epoch": 0.18811228104463393,
+      "grad_norm": 0.004785106983035803,
+      "learning_rate": 0.29319815098415275,
+      "loss": 0.1679,
+      "num_input_tokens_seen": 4998112,
+      "step": 3850
+    },
+    {
+      "epoch": 0.18835658270832825,
+      "grad_norm": 0.0049592722207307816,
+      "learning_rate": 0.2931806029959832,
+      "loss": 0.159,
+      "num_input_tokens_seen": 5004192,
+      "step": 3855
+    },
+    {
+      "epoch": 0.18860088437202258,
+      "grad_norm": 0.004371722228825092,
+      "learning_rate": 0.29316303292756535,
+      "loss": 0.1345,
+      "num_input_tokens_seen": 5009984,
+      "step": 3860
+    },
+    {
+      "epoch": 0.1888451860357169,
+      "grad_norm": 0.002544587245211005,
+      "learning_rate": 0.29314544078160876,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 5016512,
+      "step": 3865
+    },
+    {
+      "epoch": 0.18908948769941122,
+      "grad_norm": 0.006091092247515917,
+      "learning_rate": 0.2931278265608263,
+      "loss": 0.1735,
+      "num_input_tokens_seen": 5022976,
+      "step": 3870
+    },
+    {
+      "epoch": 0.18933378936310558,
+      "grad_norm": 0.0033927911426872015,
+      "learning_rate": 0.29311019026793433,
+      "loss": 0.195,
+      "num_input_tokens_seen": 5029184,
+      "step": 3875
+    },
+    {
+      "epoch": 0.1895780910267999,
+      "grad_norm": 0.009415406733751297,
+      "learning_rate": 0.29309253190565254,
+      "loss": 0.1747,
+      "num_input_tokens_seen": 5035616,
+      "step": 3880
+    },
+    {
+      "epoch": 0.18982239269049422,
+      "grad_norm": 0.002915463875979185,
+      "learning_rate": 0.2930748514767042,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 5042176,
+      "step": 3885
+    },
+    {
+      "epoch": 0.19006669435418855,
+      "grad_norm": 0.003552937414497137,
+      "learning_rate": 0.29305714898381574,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 5048800,
+      "step": 3890
+    },
+    {
+      "epoch": 0.19031099601788287,
+      "grad_norm": 0.002986457897350192,
+      "learning_rate": 0.29303942442971714,
+      "loss": 0.1528,
+      "num_input_tokens_seen": 5055328,
+      "step": 3895
+    },
+    {
+      "epoch": 0.19055529768157722,
+      "grad_norm": 0.003331694519147277,
+      "learning_rate": 0.2930216778171417,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 5061888,
+      "step": 3900
+    },
+    {
+      "epoch": 0.19079959934527155,
+      "grad_norm": 0.0034073395654559135,
+      "learning_rate": 0.2930039091488263,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 5068768,
+      "step": 3905
+    },
+    {
+      "epoch": 0.19104390100896587,
+      "grad_norm": 0.003285859012976289,
+      "learning_rate": 0.29298611842751093,
+      "loss": 0.1443,
+      "num_input_tokens_seen": 5075104,
+      "step": 3910
+    },
+    {
+      "epoch": 0.1912882026726602,
+      "grad_norm": 0.003833592403680086,
+      "learning_rate": 0.29296830565593923,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 5081312,
+      "step": 3915
+    },
+    {
+      "epoch": 0.19153250433635452,
+      "grad_norm": 0.0062361592426896095,
+      "learning_rate": 0.2929504708368582,
+      "loss": 0.1628,
+      "num_input_tokens_seen": 5088352,
+      "step": 3920
+    },
+    {
+      "epoch": 0.19177680600004887,
+      "grad_norm": 0.005190989002585411,
+      "learning_rate": 0.29293261397301806,
+      "loss": 0.1605,
+      "num_input_tokens_seen": 5094528,
+      "step": 3925
+    },
+    {
+      "epoch": 0.1920211076637432,
+      "grad_norm": 0.0026326256338506937,
+      "learning_rate": 0.29291473506717275,
+      "loss": 0.119,
+      "num_input_tokens_seen": 5101408,
+      "step": 3930
+    },
+    {
+      "epoch": 0.19226540932743752,
+      "grad_norm": 0.0034382676240056753,
+      "learning_rate": 0.29289683412207923,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 5107808,
+      "step": 3935
+    },
+    {
+      "epoch": 0.19250971099113184,
+      "grad_norm": 0.004861193243414164,
+      "learning_rate": 0.29287891114049813,
+      "loss": 0.1457,
+      "num_input_tokens_seen": 5114464,
+      "step": 3940
+    },
+    {
+      "epoch": 0.19275401265482617,
+      "grad_norm": 0.002864973619580269,
+      "learning_rate": 0.29286096612519347,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 5120864,
+      "step": 3945
+    },
+    {
+      "epoch": 0.19299831431852052,
+      "grad_norm": 0.0038920731749385595,
+      "learning_rate": 0.2928429990789325,
+      "loss": 0.1252,
+      "num_input_tokens_seen": 5127520,
+      "step": 3950
+    },
+    {
+      "epoch": 0.19324261598221484,
+      "grad_norm": 0.007919884286820889,
+      "learning_rate": 0.29282501000448596,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 5134112,
+      "step": 3955
+    },
+    {
+      "epoch": 0.19348691764590917,
+      "grad_norm": 0.004622836597263813,
+      "learning_rate": 0.2928069989046281,
+      "loss": 0.1603,
+      "num_input_tokens_seen": 5140480,
+      "step": 3960
+    },
+    {
+      "epoch": 0.1937312193096035,
+      "grad_norm": 0.0032605002634227276,
+      "learning_rate": 0.2927889657821363,
+      "loss": 0.1423,
+      "num_input_tokens_seen": 5146848,
+      "step": 3965
+    },
+    {
+      "epoch": 0.19397552097329782,
+      "grad_norm": 0.0035541069228202105,
+      "learning_rate": 0.2927709106397916,
+      "loss": 0.1535,
+      "num_input_tokens_seen": 5153760,
+      "step": 3970
+    },
+    {
+      "epoch": 0.19421982263699217,
+      "grad_norm": 0.003432899247854948,
+      "learning_rate": 0.29275283348037834,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 5159680,
+      "step": 3975
+    },
+    {
+      "epoch": 0.1944641243006865,
+      "grad_norm": 0.0037247019354254007,
+      "learning_rate": 0.29273473430668423,
+      "loss": 0.1509,
+      "num_input_tokens_seen": 5166176,
+      "step": 3980
+    },
+    {
+      "epoch": 0.19470842596438082,
+      "grad_norm": 0.004510248079895973,
+      "learning_rate": 0.2927166131215003,
+      "loss": 0.1393,
+      "num_input_tokens_seen": 5172672,
+      "step": 3985
+    },
+    {
+      "epoch": 0.19495272762807514,
+      "grad_norm": 0.00299235456623137,
+      "learning_rate": 0.2926984699276212,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 5179040,
+      "step": 3990
+    },
+    {
+      "epoch": 0.19519702929176946,
+      "grad_norm": 0.0038622368592768908,
+      "learning_rate": 0.29268030472784473,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 5185664,
+      "step": 3995
+    },
+    {
+      "epoch": 0.19544133095546382,
+      "grad_norm": 0.008787636645138264,
+      "learning_rate": 0.2926621175249723,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 5191936,
+      "step": 4000
+    },
+    {
+      "epoch": 0.19544133095546382,
+      "eval_loss": 0.13819430768489838,
+      "eval_runtime": 401.7654,
+      "eval_samples_per_second": 90.563,
+      "eval_steps_per_second": 22.643,
+      "num_input_tokens_seen": 5191936,
+      "step": 4000
+    },
+    {
+      "epoch": 0.19568563261915814,
+      "grad_norm": 0.004920619539916515,
+      "learning_rate": 0.29264390832180853,
+      "loss": 0.1411,
+      "num_input_tokens_seen": 5198176,
+      "step": 4005
+    },
+    {
+      "epoch": 0.19592993428285246,
+      "grad_norm": 0.006547709461301565,
+      "learning_rate": 0.29262567712116144,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 5204320,
+      "step": 4010
+    },
+    {
+      "epoch": 0.1961742359465468,
+      "grad_norm": 0.0058131893165409565,
+      "learning_rate": 0.29260742392584266,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 5211232,
+      "step": 4015
+    },
+    {
+      "epoch": 0.19641853761024114,
+      "grad_norm": 0.005106750410050154,
+      "learning_rate": 0.292589148738667,
+      "loss": 0.128,
+      "num_input_tokens_seen": 5217600,
+      "step": 4020
+    },
+    {
+      "epoch": 0.19666283927393546,
+      "grad_norm": 0.007514344062656164,
+      "learning_rate": 0.2925708515624527,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 5224544,
+      "step": 4025
+    },
+    {
+      "epoch": 0.1969071409376298,
+      "grad_norm": 0.003640830749645829,
+      "learning_rate": 0.29255253240002144,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 5231488,
+      "step": 4030
+    },
+    {
+      "epoch": 0.1971514426013241,
+      "grad_norm": 0.0052973441779613495,
+      "learning_rate": 0.2925341912541983,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 5237760,
+      "step": 4035
+    },
+    {
+      "epoch": 0.19739574426501844,
+      "grad_norm": 0.006323716137558222,
+      "learning_rate": 0.2925158281278116,
+      "loss": 0.1513,
+      "num_input_tokens_seen": 5244032,
+      "step": 4040
+    },
+    {
+      "epoch": 0.1976400459287128,
+      "grad_norm": 0.0027939993888139725,
+      "learning_rate": 0.29249744302369324,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 5250080,
+      "step": 4045
+    },
+    {
+      "epoch": 0.1978843475924071,
+      "grad_norm": 0.003994588274508715,
+      "learning_rate": 0.29247903594467844,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 5256896,
+      "step": 4050
+    },
+    {
+      "epoch": 0.19812864925610144,
+      "grad_norm": 0.004751657601445913,
+      "learning_rate": 0.2924606068936058,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 5263712,
+      "step": 4055
+    },
+    {
+      "epoch": 0.19837295091979576,
+      "grad_norm": 0.003407130017876625,
+      "learning_rate": 0.2924421558733173,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 5270048,
+      "step": 4060
+    },
+    {
+      "epoch": 0.19861725258349008,
+      "grad_norm": 0.01019314769655466,
+      "learning_rate": 0.2924236828866583,
+      "loss": 0.16,
+      "num_input_tokens_seen": 5276448,
+      "step": 4065
+    },
+    {
+      "epoch": 0.19886155424718444,
+      "grad_norm": 0.004511298146098852,
+      "learning_rate": 0.29240518793647763,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 5282848,
+      "step": 4070
+    },
+    {
+      "epoch": 0.19910585591087876,
+      "grad_norm": 0.003981330431997776,
+      "learning_rate": 0.29238667102562743,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 5289056,
+      "step": 4075
+    },
+    {
+      "epoch": 0.19935015757457308,
+      "grad_norm": 0.006935680750757456,
+      "learning_rate": 0.29236813215696317,
+      "loss": 0.1324,
+      "num_input_tokens_seen": 5295328,
+      "step": 4080
+    },
+    {
+      "epoch": 0.1995944592382674,
+      "grad_norm": 0.006028303410857916,
+      "learning_rate": 0.2923495713333439,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 5301632,
+      "step": 4085
+    },
+    {
+      "epoch": 0.19983876090196173,
+      "grad_norm": 0.007293918170034885,
+      "learning_rate": 0.29233098855763173,
+      "loss": 0.1583,
+      "num_input_tokens_seen": 5308384,
+      "step": 4090
+    },
+    {
+      "epoch": 0.20008306256565608,
+      "grad_norm": 0.004393852315843105,
+      "learning_rate": 0.29231238383269254,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 5314688,
+      "step": 4095
+    },
+    {
+      "epoch": 0.2003273642293504,
+      "grad_norm": 0.005952693521976471,
+      "learning_rate": 0.2922937571613954,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 5320480,
+      "step": 4100
+    },
+    {
+      "epoch": 0.20057166589304473,
+      "grad_norm": 0.005263230763375759,
+      "learning_rate": 0.29227510854661265,
+      "loss": 0.1365,
+      "num_input_tokens_seen": 5327168,
+      "step": 4105
+    },
+    {
+      "epoch": 0.20081596755673906,
+      "grad_norm": 0.006189871113747358,
+      "learning_rate": 0.29225643799122025,
+      "loss": 0.1365,
+      "num_input_tokens_seen": 5333920,
+      "step": 4110
+    },
+    {
+      "epoch": 0.20106026922043338,
+      "grad_norm": 0.0049432567320764065,
+      "learning_rate": 0.2922377454980974,
+      "loss": 0.144,
+      "num_input_tokens_seen": 5340320,
+      "step": 4115
+    },
+    {
+      "epoch": 0.20130457088412773,
+      "grad_norm": 0.003958342596888542,
+      "learning_rate": 0.29221903107012676,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 5346592,
+      "step": 4120
+    },
+    {
+      "epoch": 0.20154887254782206,
+      "grad_norm": 0.006187561433762312,
+      "learning_rate": 0.29220029471019426,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 5353504,
+      "step": 4125
+    },
+    {
+      "epoch": 0.20179317421151638,
+      "grad_norm": 0.00486937677487731,
+      "learning_rate": 0.2921815364211893,
+      "loss": 0.134,
+      "num_input_tokens_seen": 5360096,
+      "step": 4130
+    },
+    {
+      "epoch": 0.2020374758752107,
+      "grad_norm": 0.005541263148188591,
+      "learning_rate": 0.29216275620600474,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 5366688,
+      "step": 4135
+    },
+    {
+      "epoch": 0.20228177753890503,
+      "grad_norm": 0.0040527270175516605,
+      "learning_rate": 0.29214395406753657,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 5373120,
+      "step": 4140
+    },
+    {
+      "epoch": 0.20252607920259938,
+      "grad_norm": 0.0036926267202943563,
+      "learning_rate": 0.2921251300086844,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 5379840,
+      "step": 4145
+    },
+    {
+      "epoch": 0.2027703808662937,
+      "grad_norm": 0.004110809415578842,
+      "learning_rate": 0.2921062840323511,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 5386464,
+      "step": 4150
+    },
+    {
+      "epoch": 0.20301468252998803,
+      "grad_norm": 0.006467475555837154,
+      "learning_rate": 0.29208741614144307,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 5392896,
+      "step": 4155
+    },
+    {
+      "epoch": 0.20325898419368235,
+      "grad_norm": 0.007874083705246449,
+      "learning_rate": 0.2920685263388698,
+      "loss": 0.1277,
+      "num_input_tokens_seen": 5399168,
+      "step": 4160
+    },
+    {
+      "epoch": 0.20350328585737668,
+      "grad_norm": 0.006010261829942465,
+      "learning_rate": 0.2920496146275445,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 5405472,
+      "step": 4165
+    },
+    {
+      "epoch": 0.20374758752107103,
+      "grad_norm": 0.006290101911872625,
+      "learning_rate": 0.29203068101038343,
+      "loss": 0.1575,
+      "num_input_tokens_seen": 5411840,
+      "step": 4170
+    },
+    {
+      "epoch": 0.20399188918476535,
+      "grad_norm": 0.008122577331960201,
+      "learning_rate": 0.2920117254903065,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 5418528,
+      "step": 4175
+    },
+    {
+      "epoch": 0.20423619084845968,
+      "grad_norm": 0.006215281318873167,
+      "learning_rate": 0.29199274807023695,
+      "loss": 0.1704,
+      "num_input_tokens_seen": 5424832,
+      "step": 4180
+    },
+    {
+      "epoch": 0.204480492512154,
+      "grad_norm": 0.0037066449876874685,
+      "learning_rate": 0.29197374875310117,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 5431616,
+      "step": 4185
+    },
+    {
+      "epoch": 0.20472479417584835,
+      "grad_norm": 0.004425386898219585,
+      "learning_rate": 0.2919547275418292,
+      "loss": 0.168,
+      "num_input_tokens_seen": 5438048,
+      "step": 4190
+    },
+    {
+      "epoch": 0.20496909583954268,
+      "grad_norm": 0.005485829897224903,
+      "learning_rate": 0.29193568443935436,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 5444512,
+      "step": 4195
+    },
+    {
+      "epoch": 0.205213397503237,
+      "grad_norm": 0.00548839196562767,
+      "learning_rate": 0.2919166194486133,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 5451200,
+      "step": 4200
+    },
+    {
+      "epoch": 0.205213397503237,
+      "eval_loss": 0.1395796537399292,
+      "eval_runtime": 402.1895,
+      "eval_samples_per_second": 90.467,
+      "eval_steps_per_second": 22.619,
+      "num_input_tokens_seen": 5451200,
+      "step": 4200
+    },
+    {
+      "epoch": 0.20545769916693132,
+      "grad_norm": 0.006534198764711618,
+      "learning_rate": 0.2918975325725461,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 5457888,
+      "step": 4205
+    },
+    {
+      "epoch": 0.20570200083062565,
+      "grad_norm": 0.004309219773858786,
+      "learning_rate": 0.29187842381409607,
+      "loss": 0.1595,
+      "num_input_tokens_seen": 5464256,
+      "step": 4210
+    },
+    {
+      "epoch": 0.20594630249432,
+      "grad_norm": 0.004149230197072029,
+      "learning_rate": 0.29185929317621023,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 5471392,
+      "step": 4215
+    },
+    {
+      "epoch": 0.20619060415801432,
+      "grad_norm": 0.00408179173246026,
+      "learning_rate": 0.29184014066183867,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 5477888,
+      "step": 4220
+    },
+    {
+      "epoch": 0.20643490582170865,
+      "grad_norm": 0.005921475123614073,
+      "learning_rate": 0.2918209662739349,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 5484416,
+      "step": 4225
+    },
+    {
+      "epoch": 0.20667920748540297,
+      "grad_norm": 0.008027811534702778,
+      "learning_rate": 0.29180177001545593,
+      "loss": 0.1555,
+      "num_input_tokens_seen": 5491136,
+      "step": 4230
+    },
+    {
+      "epoch": 0.2069235091490973,
+      "grad_norm": 0.004586419556289911,
+      "learning_rate": 0.29178255188936203,
+      "loss": 0.1641,
+      "num_input_tokens_seen": 5497280,
+      "step": 4235
+    },
+    {
+      "epoch": 0.20716781081279165,
+      "grad_norm": 0.004143036901950836,
+      "learning_rate": 0.2917633118986169,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 5504128,
+      "step": 4240
+    },
+    {
+      "epoch": 0.20741211247648597,
+      "grad_norm": 0.0057370332069695,
+      "learning_rate": 0.2917440500461875,
+      "loss": 0.1842,
+      "num_input_tokens_seen": 5511872,
+      "step": 4245
+    },
+    {
+      "epoch": 0.2076564141401803,
+      "grad_norm": 0.004800648428499699,
+      "learning_rate": 0.29172476633504435,
+      "loss": 0.1421,
+      "num_input_tokens_seen": 5518336,
+      "step": 4250
+    },
+    {
+      "epoch": 0.20790071580387462,
+      "grad_norm": 0.006702306214720011,
+      "learning_rate": 0.2917054607681612,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 5524384,
+      "step": 4255
+    },
+    {
+      "epoch": 0.20814501746756894,
+      "grad_norm": 0.006671188399195671,
+      "learning_rate": 0.29168613334851523,
+      "loss": 0.181,
+      "num_input_tokens_seen": 5530752,
+      "step": 4260
+    },
+    {
+      "epoch": 0.2083893191312633,
+      "grad_norm": 0.003431736258789897,
+      "learning_rate": 0.2916667840790869,
+      "loss": 0.1649,
+      "num_input_tokens_seen": 5537408,
+      "step": 4265
+    },
+    {
+      "epoch": 0.20863362079495762,
+      "grad_norm": 0.004184196703135967,
+      "learning_rate": 0.2916474129628603,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 5543776,
+      "step": 4270
+    },
+    {
+      "epoch": 0.20887792245865194,
+      "grad_norm": 0.0038570330943912268,
+      "learning_rate": 0.29162802000282245,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 5550208,
+      "step": 4275
+    },
+    {
+      "epoch": 0.20912222412234627,
+      "grad_norm": 0.0032389082480221987,
+      "learning_rate": 0.2916086052019642,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 5556736,
+      "step": 4280
+    },
+    {
+      "epoch": 0.2093665257860406,
+      "grad_norm": 0.004164968151599169,
+      "learning_rate": 0.2915891685632794,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 5563136,
+      "step": 4285
+    },
+    {
+      "epoch": 0.20961082744973494,
+      "grad_norm": 0.0029264141339808702,
+      "learning_rate": 0.29156971008976545,
+      "loss": 0.119,
+      "num_input_tokens_seen": 5569824,
+      "step": 4290
+    },
+    {
+      "epoch": 0.20985512911342927,
+      "grad_norm": 0.004589404910802841,
+      "learning_rate": 0.2915502297844232,
+      "loss": 0.152,
+      "num_input_tokens_seen": 5576384,
+      "step": 4295
+    },
+    {
+      "epoch": 0.2100994307771236,
+      "grad_norm": 0.009353786706924438,
+      "learning_rate": 0.2915307276502566,
+      "loss": 0.169,
+      "num_input_tokens_seen": 5582656,
+      "step": 4300
+    },
+    {
+      "epoch": 0.21034373244081792,
+      "grad_norm": 0.007468708325177431,
+      "learning_rate": 0.29151120369027334,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 5589312,
+      "step": 4305
+    },
+    {
+      "epoch": 0.21058803410451224,
+      "grad_norm": 0.002848197240382433,
+      "learning_rate": 0.29149165790748405,
+      "loss": 0.1309,
+      "num_input_tokens_seen": 5596000,
+      "step": 4310
+    },
+    {
+      "epoch": 0.2108323357682066,
+      "grad_norm": 0.003932049032300711,
+      "learning_rate": 0.291472090304903,
+      "loss": 0.1666,
+      "num_input_tokens_seen": 5602528,
+      "step": 4315
+    },
+    {
+      "epoch": 0.21107663743190092,
+      "grad_norm": 0.0035994071513414383,
+      "learning_rate": 0.2914525008855478,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 5609184,
+      "step": 4320
+    },
+    {
+      "epoch": 0.21132093909559524,
+      "grad_norm": 0.003262303536757827,
+      "learning_rate": 0.2914328896524394,
+      "loss": 0.1393,
+      "num_input_tokens_seen": 5615648,
+      "step": 4325
+    },
+    {
+      "epoch": 0.21156524075928956,
+      "grad_norm": 0.005344129633158445,
+      "learning_rate": 0.291413256608602,
+      "loss": 0.1499,
+      "num_input_tokens_seen": 5622432,
+      "step": 4330
+    },
+    {
+      "epoch": 0.2118095424229839,
+      "grad_norm": 0.008335319347679615,
+      "learning_rate": 0.29139360175706336,
+      "loss": 0.1644,
+      "num_input_tokens_seen": 5628832,
+      "step": 4335
+    },
+    {
+      "epoch": 0.21205384408667824,
+      "grad_norm": 0.003774066222831607,
+      "learning_rate": 0.2913739251008544,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 5634912,
+      "step": 4340
+    },
+    {
+      "epoch": 0.21229814575037256,
+      "grad_norm": 0.008106192573904991,
+      "learning_rate": 0.29135422664300964,
+      "loss": 0.138,
+      "num_input_tokens_seen": 5641184,
+      "step": 4345
+    },
+    {
+      "epoch": 0.2125424474140669,
+      "grad_norm": 0.003908166661858559,
+      "learning_rate": 0.29133450638656677,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 5647648,
+      "step": 4350
+    },
+    {
+      "epoch": 0.2127867490777612,
+      "grad_norm": 0.00907465536147356,
+      "learning_rate": 0.2913147643345669,
+      "loss": 0.1649,
+      "num_input_tokens_seen": 5653920,
+      "step": 4355
+    },
+    {
+      "epoch": 0.21303105074145554,
+      "grad_norm": 0.0036871707998216152,
+      "learning_rate": 0.29129500049005447,
+      "loss": 0.135,
+      "num_input_tokens_seen": 5660320,
+      "step": 4360
+    },
+    {
+      "epoch": 0.2132753524051499,
+      "grad_norm": 0.0043722582049667835,
+      "learning_rate": 0.2912752148560773,
+      "loss": 0.1552,
+      "num_input_tokens_seen": 5666464,
+      "step": 4365
+    },
+    {
+      "epoch": 0.2135196540688442,
+      "grad_norm": 0.0038825483061373234,
+      "learning_rate": 0.2912554074356866,
+      "loss": 0.1309,
+      "num_input_tokens_seen": 5672992,
+      "step": 4370
+    },
+    {
+      "epoch": 0.21376395573253854,
+      "grad_norm": 0.004383559804409742,
+      "learning_rate": 0.2912355782319371,
+      "loss": 0.1371,
+      "num_input_tokens_seen": 5679520,
+      "step": 4375
+    },
+    {
+      "epoch": 0.21400825739623286,
+      "grad_norm": 0.00546663161367178,
+      "learning_rate": 0.2912157272478864,
+      "loss": 0.131,
+      "num_input_tokens_seen": 5685696,
+      "step": 4380
+    },
+    {
+      "epoch": 0.2142525590599272,
+      "grad_norm": 0.003911165986210108,
+      "learning_rate": 0.291195854486596,
+      "loss": 0.1325,
+      "num_input_tokens_seen": 5691968,
+      "step": 4385
+    },
+    {
+      "epoch": 0.21449686072362154,
+      "grad_norm": 0.0033889079932123423,
+      "learning_rate": 0.2911759599511305,
+      "loss": 0.1614,
+      "num_input_tokens_seen": 5698144,
+      "step": 4390
+    },
+    {
+      "epoch": 0.21474116238731586,
+      "grad_norm": 0.004077570978552103,
+      "learning_rate": 0.29115604364455777,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 5704800,
+      "step": 4395
+    },
+    {
+      "epoch": 0.21498546405101018,
+      "grad_norm": 0.0029229833744466305,
+      "learning_rate": 0.2911361055699493,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 5711648,
+      "step": 4400
+    },
+    {
+      "epoch": 0.21498546405101018,
+      "eval_loss": 0.1436413824558258,
+      "eval_runtime": 402.0539,
+      "eval_samples_per_second": 90.498,
+      "eval_steps_per_second": 22.626,
+      "num_input_tokens_seen": 5711648,
+      "step": 4400
+    },
+    {
+      "epoch": 0.2152297657147045,
+      "grad_norm": 0.0029290823731571436,
+      "learning_rate": 0.2911161457303797,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 5718112,
+      "step": 4405
+    },
+    {
+      "epoch": 0.21547406737839886,
+      "grad_norm": 0.0028894494753330946,
+      "learning_rate": 0.291096164128927,
+      "loss": 0.1366,
+      "num_input_tokens_seen": 5724576,
+      "step": 4410
+    },
+    {
+      "epoch": 0.21571836904209318,
+      "grad_norm": 0.004369703121483326,
+      "learning_rate": 0.2910761607686727,
+      "loss": 0.1538,
+      "num_input_tokens_seen": 5730880,
+      "step": 4415
+    },
+    {
+      "epoch": 0.2159626707057875,
+      "grad_norm": 0.003256073221564293,
+      "learning_rate": 0.2910561356527016,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 5737568,
+      "step": 4420
+    },
+    {
+      "epoch": 0.21620697236948183,
+      "grad_norm": 0.008569875732064247,
+      "learning_rate": 0.2910360887841017,
+      "loss": 0.1949,
+      "num_input_tokens_seen": 5744000,
+      "step": 4425
+    },
+    {
+      "epoch": 0.21645127403317616,
+      "grad_norm": 0.0037908265367150307,
+      "learning_rate": 0.2910160201659645,
+      "loss": 0.1455,
+      "num_input_tokens_seen": 5750560,
+      "step": 4430
+    },
+    {
+      "epoch": 0.2166955756968705,
+      "grad_norm": 0.0037245475687086582,
+      "learning_rate": 0.29099592980138494,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 5756800,
+      "step": 4435
+    },
+    {
+      "epoch": 0.21693987736056483,
+      "grad_norm": 0.0032193236984312534,
+      "learning_rate": 0.29097581769346115,
+      "loss": 0.1438,
+      "num_input_tokens_seen": 5762976,
+      "step": 4440
+    },
+    {
+      "epoch": 0.21718417902425916,
+      "grad_norm": 0.0032669599168002605,
+      "learning_rate": 0.29095568384529463,
+      "loss": 0.153,
+      "num_input_tokens_seen": 5770176,
+      "step": 4445
+    },
+    {
+      "epoch": 0.21742848068795348,
+      "grad_norm": 0.005371781066060066,
+      "learning_rate": 0.2909355282599903,
+      "loss": 0.1586,
+      "num_input_tokens_seen": 5776512,
+      "step": 4450
+    },
+    {
+      "epoch": 0.2176727823516478,
+      "grad_norm": 0.002377155004069209,
+      "learning_rate": 0.29091535094065635,
+      "loss": 0.1337,
+      "num_input_tokens_seen": 5782720,
+      "step": 4455
+    },
+    {
+      "epoch": 0.21791708401534216,
+      "grad_norm": 0.003807287896052003,
+      "learning_rate": 0.2908951518904045,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 5788736,
+      "step": 4460
+    },
+    {
+      "epoch": 0.21816138567903648,
+      "grad_norm": 0.0032387799583375454,
+      "learning_rate": 0.29087493111234963,
+      "loss": 0.1539,
+      "num_input_tokens_seen": 5795328,
+      "step": 4465
+    },
+    {
+      "epoch": 0.2184056873427308,
+      "grad_norm": 0.003639101516455412,
+      "learning_rate": 0.29085468860961,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 5801344,
+      "step": 4470
+    },
+    {
+      "epoch": 0.21864998900642513,
+      "grad_norm": 0.004084721673280001,
+      "learning_rate": 0.2908344243853073,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 5807776,
+      "step": 4475
+    },
+    {
+      "epoch": 0.21889429067011945,
+      "grad_norm": 0.0028435245621949434,
+      "learning_rate": 0.2908141384425666,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 5814304,
+      "step": 4480
+    },
+    {
+      "epoch": 0.2191385923338138,
+      "grad_norm": 0.0039061401039361954,
+      "learning_rate": 0.2907938307845161,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 5820992,
+      "step": 4485
+    },
+    {
+      "epoch": 0.21938289399750813,
+      "grad_norm": 0.00815920066088438,
+      "learning_rate": 0.2907735014142876,
+      "loss": 0.1617,
+      "num_input_tokens_seen": 5827840,
+      "step": 4490
+    },
+    {
+      "epoch": 0.21962719566120245,
+      "grad_norm": 0.004781123250722885,
+      "learning_rate": 0.2907531503350161,
+      "loss": 0.1268,
+      "num_input_tokens_seen": 5833920,
+      "step": 4495
+    },
+    {
+      "epoch": 0.21987149732489678,
+      "grad_norm": 0.0034679702948778868,
+      "learning_rate": 0.29073277754983995,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 5840064,
+      "step": 4500
+    },
+    {
+      "epoch": 0.2201157989885911,
+      "grad_norm": 0.0030624668579548597,
+      "learning_rate": 0.290712383061901,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 5846400,
+      "step": 4505
+    },
+    {
+      "epoch": 0.22036010065228545,
+      "grad_norm": 0.002656269120052457,
+      "learning_rate": 0.2906919668743443,
+      "loss": 0.1573,
+      "num_input_tokens_seen": 5852544,
+      "step": 4510
+    },
+    {
+      "epoch": 0.22060440231597978,
+      "grad_norm": 0.002597316401079297,
+      "learning_rate": 0.29067152899031823,
+      "loss": 0.1581,
+      "num_input_tokens_seen": 5858464,
+      "step": 4515
+    },
+    {
+      "epoch": 0.2208487039796741,
+      "grad_norm": 0.0022498099133372307,
+      "learning_rate": 0.2906510694129746,
+      "loss": 0.1479,
+      "num_input_tokens_seen": 5864864,
+      "step": 4520
+    },
+    {
+      "epoch": 0.22109300564336842,
+      "grad_norm": 0.0025856096763163805,
+      "learning_rate": 0.2906305881454685,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 5871552,
+      "step": 4525
+    },
+    {
+      "epoch": 0.22133730730706275,
+      "grad_norm": 0.002537765773013234,
+      "learning_rate": 0.2906100851909585,
+      "loss": 0.136,
+      "num_input_tokens_seen": 5877888,
+      "step": 4530
+    },
+    {
+      "epoch": 0.2215816089707571,
+      "grad_norm": 0.004915823228657246,
+      "learning_rate": 0.29058956055260626,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 5884416,
+      "step": 4535
+    },
+    {
+      "epoch": 0.22182591063445142,
+      "grad_norm": 0.003281382843852043,
+      "learning_rate": 0.2905690142335771,
+      "loss": 0.1467,
+      "num_input_tokens_seen": 5891456,
+      "step": 4540
+    },
+    {
+      "epoch": 0.22207021229814575,
+      "grad_norm": 0.0033787053544074297,
+      "learning_rate": 0.29054844623703946,
+      "loss": 0.1323,
+      "num_input_tokens_seen": 5897728,
+      "step": 4545
+    },
+    {
+      "epoch": 0.22231451396184007,
+      "grad_norm": 0.006140438374131918,
+      "learning_rate": 0.2905278565661651,
+      "loss": 0.138,
+      "num_input_tokens_seen": 5904640,
+      "step": 4550
+    },
+    {
+      "epoch": 0.22255881562553442,
+      "grad_norm": 0.006658319849520922,
+      "learning_rate": 0.2905072452241293,
+      "loss": 0.135,
+      "num_input_tokens_seen": 5910976,
+      "step": 4555
+    },
+    {
+      "epoch": 0.22280311728922875,
+      "grad_norm": 0.0042272028513252735,
+      "learning_rate": 0.2904866122141106,
+      "loss": 0.1428,
+      "num_input_tokens_seen": 5917248,
+      "step": 4560
+    },
+    {
+      "epoch": 0.22304741895292307,
+      "grad_norm": 0.003121185814961791,
+      "learning_rate": 0.2904659575392908,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 5923520,
+      "step": 4565
+    },
+    {
+      "epoch": 0.2232917206166174,
+      "grad_norm": 0.0033863738644868135,
+      "learning_rate": 0.2904452812028551,
+      "loss": 0.1313,
+      "num_input_tokens_seen": 5929792,
+      "step": 4570
+    },
+    {
+      "epoch": 0.22353602228031172,
+      "grad_norm": 0.00487141078338027,
+      "learning_rate": 0.2904245832079922,
+      "loss": 0.1515,
+      "num_input_tokens_seen": 5936416,
+      "step": 4575
+    },
+    {
+      "epoch": 0.22378032394400607,
+      "grad_norm": 0.003733778605237603,
+      "learning_rate": 0.29040386355789377,
+      "loss": 0.1487,
+      "num_input_tokens_seen": 5943360,
+      "step": 4580
+    },
+    {
+      "epoch": 0.2240246256077004,
+      "grad_norm": 0.004387166351079941,
+      "learning_rate": 0.29038312225575524,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 5950080,
+      "step": 4585
+    },
+    {
+      "epoch": 0.22426892727139472,
+      "grad_norm": 0.004549412522464991,
+      "learning_rate": 0.29036235930477505,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 5957280,
+      "step": 4590
+    },
+    {
+      "epoch": 0.22451322893508904,
+      "grad_norm": 0.003586435690522194,
+      "learning_rate": 0.29034157470815514,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 5963712,
+      "step": 4595
+    },
+    {
+      "epoch": 0.22475753059878337,
+      "grad_norm": 0.005158006679266691,
+      "learning_rate": 0.2903207684691008,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 5970048,
+      "step": 4600
+    },
+    {
+      "epoch": 0.22475753059878337,
+      "eval_loss": 0.13764089345932007,
+      "eval_runtime": 401.9623,
+      "eval_samples_per_second": 90.518,
+      "eval_steps_per_second": 22.631,
+      "num_input_tokens_seen": 5970048,
+      "step": 4600
+    },
+    {
+      "epoch": 0.22500183226247772,
+      "grad_norm": 0.003115572966635227,
+      "learning_rate": 0.29029994059082054,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 5976416,
+      "step": 4605
+    },
+    {
+      "epoch": 0.22524613392617204,
+      "grad_norm": 0.004205652512609959,
+      "learning_rate": 0.2902790910765264,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 5982976,
+      "step": 4610
+    },
+    {
+      "epoch": 0.22549043558986637,
+      "grad_norm": 0.005134414415806532,
+      "learning_rate": 0.29025821992943346,
+      "loss": 0.152,
+      "num_input_tokens_seen": 5989152,
+      "step": 4615
+    },
+    {
+      "epoch": 0.2257347372535607,
+      "grad_norm": 0.004132261034101248,
+      "learning_rate": 0.29023732715276046,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 5995552,
+      "step": 4620
+    },
+    {
+      "epoch": 0.22597903891725502,
+      "grad_norm": 0.0024402861017733812,
+      "learning_rate": 0.2902164127497293,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 6001824,
+      "step": 4625
+    },
+    {
+      "epoch": 0.22622334058094937,
+      "grad_norm": 0.004677369259297848,
+      "learning_rate": 0.2901954767235652,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 6007936,
+      "step": 4630
+    },
+    {
+      "epoch": 0.2264676422446437,
+      "grad_norm": 0.003997212741523981,
+      "learning_rate": 0.2901745190774968,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 6014496,
+      "step": 4635
+    },
+    {
+      "epoch": 0.22671194390833802,
+      "grad_norm": 0.0036205295473337173,
+      "learning_rate": 0.290153539814756,
+      "loss": 0.1706,
+      "num_input_tokens_seen": 6020928,
+      "step": 4640
+    },
+    {
+      "epoch": 0.22695624557203234,
+      "grad_norm": 0.0039353277534246445,
+      "learning_rate": 0.2901325389385781,
+      "loss": 0.136,
+      "num_input_tokens_seen": 6027456,
+      "step": 4645
+    },
+    {
+      "epoch": 0.22720054723572666,
+      "grad_norm": 0.002605627989396453,
+      "learning_rate": 0.2901115164522016,
+      "loss": 0.1405,
+      "num_input_tokens_seen": 6033632,
+      "step": 4650
+    },
+    {
+      "epoch": 0.22744484889942101,
+      "grad_norm": 0.003144359914585948,
+      "learning_rate": 0.29009047235886865,
+      "loss": 0.1611,
+      "num_input_tokens_seen": 6039936,
+      "step": 4655
+    },
+    {
+      "epoch": 0.22768915056311534,
+      "grad_norm": 0.004494964610785246,
+      "learning_rate": 0.2900694066618243,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 6046848,
+      "step": 4660
+    },
+    {
+      "epoch": 0.22793345222680966,
+      "grad_norm": 0.00372843979857862,
+      "learning_rate": 0.2900483193643172,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 6052736,
+      "step": 4665
+    },
+    {
+      "epoch": 0.228177753890504,
+      "grad_norm": 0.0035504845436662436,
+      "learning_rate": 0.29002721046959934,
+      "loss": 0.142,
+      "num_input_tokens_seen": 6059008,
+      "step": 4670
+    },
+    {
+      "epoch": 0.2284220555541983,
+      "grad_norm": 0.004115863237529993,
+      "learning_rate": 0.29000607998092587,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 6065536,
+      "step": 4675
+    },
+    {
+      "epoch": 0.22866635721789266,
+      "grad_norm": 0.008130514994263649,
+      "learning_rate": 0.2899849279015555,
+      "loss": 0.1433,
+      "num_input_tokens_seen": 6072288,
+      "step": 4680
+    },
+    {
+      "epoch": 0.228910658881587,
+      "grad_norm": 0.005149946082383394,
+      "learning_rate": 0.28996375423475007,
+      "loss": 0.1609,
+      "num_input_tokens_seen": 6078560,
+      "step": 4685
+    },
+    {
+      "epoch": 0.2291549605452813,
+      "grad_norm": 0.003784746862947941,
+      "learning_rate": 0.28994255898377486,
+      "loss": 0.1326,
+      "num_input_tokens_seen": 6084960,
+      "step": 4690
+    },
+    {
+      "epoch": 0.22939926220897564,
+      "grad_norm": 0.0037589012645184994,
+      "learning_rate": 0.2899213421518984,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 6091392,
+      "step": 4695
+    },
+    {
+      "epoch": 0.22964356387266996,
+      "grad_norm": 0.004977487493306398,
+      "learning_rate": 0.2899001037423926,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 6097728,
+      "step": 4700
+    },
+    {
+      "epoch": 0.2298878655363643,
+      "grad_norm": 0.006066678557544947,
+      "learning_rate": 0.28987884375853273,
+      "loss": 0.1529,
+      "num_input_tokens_seen": 6104896,
+      "step": 4705
+    },
+    {
+      "epoch": 0.23013216720005863,
+      "grad_norm": 0.002540591172873974,
+      "learning_rate": 0.2898575622035974,
+      "loss": 0.125,
+      "num_input_tokens_seen": 6111456,
+      "step": 4710
+    },
+    {
+      "epoch": 0.23037646886375296,
+      "grad_norm": 0.0057541560381650925,
+      "learning_rate": 0.2898362590808683,
+      "loss": 0.1449,
+      "num_input_tokens_seen": 6117664,
+      "step": 4715
+    },
+    {
+      "epoch": 0.23062077052744728,
+      "grad_norm": 0.0038955274503678083,
+      "learning_rate": 0.2898149343936308,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 6124224,
+      "step": 4720
+    },
+    {
+      "epoch": 0.23086507219114163,
+      "grad_norm": 0.0040641063824296,
+      "learning_rate": 0.2897935881451734,
+      "loss": 0.136,
+      "num_input_tokens_seen": 6130720,
+      "step": 4725
+    },
+    {
+      "epoch": 0.23110937385483596,
+      "grad_norm": 0.0035288978833705187,
+      "learning_rate": 0.28977222033878797,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 6136992,
+      "step": 4730
+    },
+    {
+      "epoch": 0.23135367551853028,
+      "grad_norm": 0.004429074004292488,
+      "learning_rate": 0.28975083097776966,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 6143264,
+      "step": 4735
+    },
+    {
+      "epoch": 0.2315979771822246,
+      "grad_norm": 0.0055353082716465,
+      "learning_rate": 0.28972942006541696,
+      "loss": 0.1519,
+      "num_input_tokens_seen": 6149792,
+      "step": 4740
+    },
+    {
+      "epoch": 0.23184227884591893,
+      "grad_norm": 0.0034338997211307287,
+      "learning_rate": 0.2897079876050318,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 6156160,
+      "step": 4745
+    },
+    {
+      "epoch": 0.23208658050961328,
+      "grad_norm": 0.0037128457333892584,
+      "learning_rate": 0.2896865335999192,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 6162336,
+      "step": 4750
+    },
+    {
+      "epoch": 0.2323308821733076,
+      "grad_norm": 0.002697709482163191,
+      "learning_rate": 0.28966505805338777,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 6168896,
+      "step": 4755
+    },
+    {
+      "epoch": 0.23257518383700193,
+      "grad_norm": 0.005931569263339043,
+      "learning_rate": 0.2896435609687492,
+      "loss": 0.1511,
+      "num_input_tokens_seen": 6175200,
+      "step": 4760
+    },
+    {
+      "epoch": 0.23281948550069625,
+      "grad_norm": 0.0029333888087421656,
+      "learning_rate": 0.2896220423493187,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 6181664,
+      "step": 4765
+    },
+    {
+      "epoch": 0.23306378716439058,
+      "grad_norm": 0.005065467674285173,
+      "learning_rate": 0.28960050219841466,
+      "loss": 0.1484,
+      "num_input_tokens_seen": 6188032,
+      "step": 4770
+    },
+    {
+      "epoch": 0.23330808882808493,
+      "grad_norm": 0.0037458394654095173,
+      "learning_rate": 0.28957894051935884,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 6194560,
+      "step": 4775
+    },
+    {
+      "epoch": 0.23355239049177925,
+      "grad_norm": 0.004539848770946264,
+      "learning_rate": 0.2895573573154764,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 6201024,
+      "step": 4780
+    },
+    {
+      "epoch": 0.23379669215547358,
+      "grad_norm": 0.004385912790894508,
+      "learning_rate": 0.28953575259009556,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 6207392,
+      "step": 4785
+    },
+    {
+      "epoch": 0.2340409938191679,
+      "grad_norm": 0.005787061061710119,
+      "learning_rate": 0.2895141263465482,
+      "loss": 0.1459,
+      "num_input_tokens_seen": 6213792,
+      "step": 4790
+    },
+    {
+      "epoch": 0.23428529548286223,
+      "grad_norm": 0.0033092680387198925,
+      "learning_rate": 0.28949247858816934,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 6220320,
+      "step": 4795
+    },
+    {
+      "epoch": 0.23452959714655658,
+      "grad_norm": 0.003867699531838298,
+      "learning_rate": 0.2894708093182973,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 6226272,
+      "step": 4800
+    },
+    {
+      "epoch": 0.23452959714655658,
+      "eval_loss": 0.1406961977481842,
+      "eval_runtime": 402.4483,
+      "eval_samples_per_second": 90.409,
+      "eval_steps_per_second": 22.604,
+      "num_input_tokens_seen": 6226272,
+      "step": 4800
+    },
+    {
+      "epoch": 0.2347738988102509,
+      "grad_norm": 0.006409327033907175,
+      "learning_rate": 0.2894491185402737,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 6232832,
+      "step": 4805
+    },
+    {
+      "epoch": 0.23501820047394523,
+      "grad_norm": 0.005595401860773563,
+      "learning_rate": 0.2894274062574437,
+      "loss": 0.156,
+      "num_input_tokens_seen": 6239072,
+      "step": 4810
+    },
+    {
+      "epoch": 0.23526250213763955,
+      "grad_norm": 0.0045680818147957325,
+      "learning_rate": 0.2894056724731554,
+      "loss": 0.1311,
+      "num_input_tokens_seen": 6245344,
+      "step": 4815
+    },
+    {
+      "epoch": 0.23550680380133387,
+      "grad_norm": 0.003172369906678796,
+      "learning_rate": 0.28938391719076056,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 6251648,
+      "step": 4820
+    },
+    {
+      "epoch": 0.23575110546502823,
+      "grad_norm": 0.009710987098515034,
+      "learning_rate": 0.28936214041361413,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 6258048,
+      "step": 4825
+    },
+    {
+      "epoch": 0.23599540712872255,
+      "grad_norm": 0.010787338949739933,
+      "learning_rate": 0.2893403421450743,
+      "loss": 0.1538,
+      "num_input_tokens_seen": 6264448,
+      "step": 4830
+    },
+    {
+      "epoch": 0.23623970879241687,
+      "grad_norm": 0.0032449448481202126,
+      "learning_rate": 0.2893185223885026,
+      "loss": 0.134,
+      "num_input_tokens_seen": 6271296,
+      "step": 4835
+    },
+    {
+      "epoch": 0.2364840104561112,
+      "grad_norm": 0.0031164181418716908,
+      "learning_rate": 0.289296681147264,
+      "loss": 0.1323,
+      "num_input_tokens_seen": 6277888,
+      "step": 4840
+    },
+    {
+      "epoch": 0.23672831211980552,
+      "grad_norm": 0.002808895893394947,
+      "learning_rate": 0.28927481842472663,
+      "loss": 0.1544,
+      "num_input_tokens_seen": 6284416,
+      "step": 4845
+    },
+    {
+      "epoch": 0.23697261378349987,
+      "grad_norm": 0.003823480335995555,
+      "learning_rate": 0.28925293422426207,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 6290976,
+      "step": 4850
+    },
+    {
+      "epoch": 0.2372169154471942,
+      "grad_norm": 0.0030135682318359613,
+      "learning_rate": 0.28923102854924504,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 6297248,
+      "step": 4855
+    },
+    {
+      "epoch": 0.23746121711088852,
+      "grad_norm": 0.00448997039347887,
+      "learning_rate": 0.2892091014030537,
+      "loss": 0.139,
+      "num_input_tokens_seen": 6303968,
+      "step": 4860
+    },
+    {
+      "epoch": 0.23770551877458285,
+      "grad_norm": 0.005355511792004108,
+      "learning_rate": 0.2891871527890696,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 6310400,
+      "step": 4865
+    },
+    {
+      "epoch": 0.23794982043827717,
+      "grad_norm": 0.0040593575686216354,
+      "learning_rate": 0.2891651827106773,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 6316864,
+      "step": 4870
+    },
+    {
+      "epoch": 0.23819412210197152,
+      "grad_norm": 0.00439917529001832,
+      "learning_rate": 0.2891431911712651,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 6323744,
+      "step": 4875
+    },
+    {
+      "epoch": 0.23843842376566585,
+      "grad_norm": 0.00403089914470911,
+      "learning_rate": 0.2891211781742241,
+      "loss": 0.136,
+      "num_input_tokens_seen": 6330272,
+      "step": 4880
+    },
+    {
+      "epoch": 0.23868272542936017,
+      "grad_norm": 0.003431793302297592,
+      "learning_rate": 0.2890991437229492,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 6336800,
+      "step": 4885
+    },
+    {
+      "epoch": 0.2389270270930545,
+      "grad_norm": 0.0052152713760733604,
+      "learning_rate": 0.2890770878208383,
+      "loss": 0.1434,
+      "num_input_tokens_seen": 6343008,
+      "step": 4890
+    },
+    {
+      "epoch": 0.23917132875674885,
+      "grad_norm": 0.006440270692110062,
+      "learning_rate": 0.28905501047129273,
+      "loss": 0.1229,
+      "num_input_tokens_seen": 6349280,
+      "step": 4895
+    },
+    {
+      "epoch": 0.23941563042044317,
+      "grad_norm": 0.00581289641559124,
+      "learning_rate": 0.289032911677717,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 6355808,
+      "step": 4900
+    },
+    {
+      "epoch": 0.2396599320841375,
+      "grad_norm": 0.002963148755952716,
+      "learning_rate": 0.28901079144351915,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 6362208,
+      "step": 4905
+    },
+    {
+      "epoch": 0.23990423374783182,
+      "grad_norm": 0.007241689134389162,
+      "learning_rate": 0.2889886497721103,
+      "loss": 0.1715,
+      "num_input_tokens_seen": 6368576,
+      "step": 4910
+    },
+    {
+      "epoch": 0.24014853541152614,
+      "grad_norm": 0.005694471765309572,
+      "learning_rate": 0.28896648666690505,
+      "loss": 0.1453,
+      "num_input_tokens_seen": 6374656,
+      "step": 4915
+    },
+    {
+      "epoch": 0.2403928370752205,
+      "grad_norm": 0.002581710461527109,
+      "learning_rate": 0.2889443021313212,
+      "loss": 0.1499,
+      "num_input_tokens_seen": 6381312,
+      "step": 4920
+    },
+    {
+      "epoch": 0.24063713873891482,
+      "grad_norm": 0.003219661768525839,
+      "learning_rate": 0.28892209616877984,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 6388224,
+      "step": 4925
+    },
+    {
+      "epoch": 0.24088144040260914,
+      "grad_norm": 0.003194965422153473,
+      "learning_rate": 0.28889986878270546,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 6394336,
+      "step": 4930
+    },
+    {
+      "epoch": 0.24112574206630347,
+      "grad_norm": 0.003228870453312993,
+      "learning_rate": 0.28887761997652583,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 6400512,
+      "step": 4935
+    },
+    {
+      "epoch": 0.2413700437299978,
+      "grad_norm": 0.002667984925210476,
+      "learning_rate": 0.2888553497536719,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 6407200,
+      "step": 4940
+    },
+    {
+      "epoch": 0.24161434539369214,
+      "grad_norm": 0.0023510472383350134,
+      "learning_rate": 0.2888330581175781,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 6413984,
+      "step": 4945
+    },
+    {
+      "epoch": 0.24185864705738647,
+      "grad_norm": 0.004507054109126329,
+      "learning_rate": 0.28881074507168203,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 6420704,
+      "step": 4950
+    },
+    {
+      "epoch": 0.2421029487210808,
+      "grad_norm": 0.0038737363647669554,
+      "learning_rate": 0.2887884106194247,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 6427168,
+      "step": 4955
+    },
+    {
+      "epoch": 0.24234725038477511,
+      "grad_norm": 0.005534245166927576,
+      "learning_rate": 0.28876605476425027,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 6433664,
+      "step": 4960
+    },
+    {
+      "epoch": 0.24259155204846944,
+      "grad_norm": 0.005809430964291096,
+      "learning_rate": 0.2887436775096064,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 6439744,
+      "step": 4965
+    },
+    {
+      "epoch": 0.2428358537121638,
+      "grad_norm": 0.0035656532272696495,
+      "learning_rate": 0.2887212788589439,
+      "loss": 0.114,
+      "num_input_tokens_seen": 6446528,
+      "step": 4970
+    },
+    {
+      "epoch": 0.24308015537585811,
+      "grad_norm": 0.007235658820718527,
+      "learning_rate": 0.2886988588157169,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 6452896,
+      "step": 4975
+    },
+    {
+      "epoch": 0.24332445703955244,
+      "grad_norm": 0.005651682615280151,
+      "learning_rate": 0.28867641738338284,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 6459424,
+      "step": 4980
+    },
+    {
+      "epoch": 0.24356875870324676,
+      "grad_norm": 0.005846000276505947,
+      "learning_rate": 0.2886539545654026,
+      "loss": 0.1349,
+      "num_input_tokens_seen": 6466208,
+      "step": 4985
+    },
+    {
+      "epoch": 0.2438130603669411,
+      "grad_norm": 0.003531825728714466,
+      "learning_rate": 0.28863147036524006,
+      "loss": 0.1282,
+      "num_input_tokens_seen": 6473152,
+      "step": 4990
+    },
+    {
+      "epoch": 0.24405736203063544,
+      "grad_norm": 0.0032157679088413715,
+      "learning_rate": 0.2886089647863626,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 6479680,
+      "step": 4995
+    },
+    {
+      "epoch": 0.24430166369432976,
+      "grad_norm": 0.003658934962004423,
+      "learning_rate": 0.288586437832241,
+      "loss": 0.111,
+      "num_input_tokens_seen": 6486336,
+      "step": 5000
+    },
+    {
+      "epoch": 0.24430166369432976,
+      "eval_loss": 0.13413235545158386,
+      "eval_runtime": 402.2105,
+      "eval_samples_per_second": 90.463,
+      "eval_steps_per_second": 22.618,
+      "num_input_tokens_seen": 6486336,
+      "step": 5000
+    },
+    {
+      "epoch": 0.2445459653580241,
+      "grad_norm": 0.005628323648124933,
+      "learning_rate": 0.28856388950634904,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 6492992,
+      "step": 5005
+    },
+    {
+      "epoch": 0.2447902670217184,
+      "grad_norm": 0.004833749961107969,
+      "learning_rate": 0.288541319812164,
+      "loss": 0.1208,
+      "num_input_tokens_seen": 6499520,
+      "step": 5010
+    },
+    {
+      "epoch": 0.24503456868541273,
+      "grad_norm": 0.0063050673343241215,
+      "learning_rate": 0.2885187287531665,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 6505568,
+      "step": 5015
+    },
+    {
+      "epoch": 0.2452788703491071,
+      "grad_norm": 0.0061167161911726,
+      "learning_rate": 0.2884961163328402,
+      "loss": 0.115,
+      "num_input_tokens_seen": 6512160,
+      "step": 5020
+    },
+    {
+      "epoch": 0.2455231720128014,
+      "grad_norm": 0.007771620526909828,
+      "learning_rate": 0.28847348255467237,
+      "loss": 0.1279,
+      "num_input_tokens_seen": 6518144,
+      "step": 5025
+    },
+    {
+      "epoch": 0.24576747367649573,
+      "grad_norm": 0.005182047374546528,
+      "learning_rate": 0.28845082742215333,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 6524576,
+      "step": 5030
+    },
+    {
+      "epoch": 0.24601177534019006,
+      "grad_norm": 0.004479315131902695,
+      "learning_rate": 0.2884281509387769,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 6531008,
+      "step": 5035
+    },
+    {
+      "epoch": 0.24625607700388438,
+      "grad_norm": 0.004232538864016533,
+      "learning_rate": 0.2884054531080399,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 6537344,
+      "step": 5040
+    },
+    {
+      "epoch": 0.24650037866757873,
+      "grad_norm": 0.00310306902974844,
+      "learning_rate": 0.28838273393344277,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 6543904,
+      "step": 5045
+    },
+    {
+      "epoch": 0.24674468033127306,
+      "grad_norm": 0.004674668423831463,
+      "learning_rate": 0.288359993418489,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 6550272,
+      "step": 5050
+    },
+    {
+      "epoch": 0.24698898199496738,
+      "grad_norm": 0.005113111808896065,
+      "learning_rate": 0.28833723156668556,
+      "loss": 0.116,
+      "num_input_tokens_seen": 6556608,
+      "step": 5055
+    },
+    {
+      "epoch": 0.2472332836586617,
+      "grad_norm": 0.003800424747169018,
+      "learning_rate": 0.2883144483815425,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 6563168,
+      "step": 5060
+    },
+    {
+      "epoch": 0.24747758532235606,
+      "grad_norm": 0.0032585677690804005,
+      "learning_rate": 0.28829164386657335,
+      "loss": 0.121,
+      "num_input_tokens_seen": 6569472,
+      "step": 5065
+    },
+    {
+      "epoch": 0.24772188698605038,
+      "grad_norm": 0.006799273192882538,
+      "learning_rate": 0.28826881802529486,
+      "loss": 0.142,
+      "num_input_tokens_seen": 6575968,
+      "step": 5070
+    },
+    {
+      "epoch": 0.2479661886497447,
+      "grad_norm": 0.004573218058794737,
+      "learning_rate": 0.28824597086122705,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 6582112,
+      "step": 5075
+    },
+    {
+      "epoch": 0.24821049031343903,
+      "grad_norm": 0.0045999204739928246,
+      "learning_rate": 0.28822310237789317,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 6588576,
+      "step": 5080
+    },
+    {
+      "epoch": 0.24845479197713335,
+      "grad_norm": 0.0065007517114281654,
+      "learning_rate": 0.2882002125788199,
+      "loss": 0.1349,
+      "num_input_tokens_seen": 6594816,
+      "step": 5085
+    },
+    {
+      "epoch": 0.2486990936408277,
+      "grad_norm": 0.005319612100720406,
+      "learning_rate": 0.2881773014675371,
+      "loss": 0.144,
+      "num_input_tokens_seen": 6601184,
+      "step": 5090
+    },
+    {
+      "epoch": 0.24894339530452203,
+      "grad_norm": 0.003215676872059703,
+      "learning_rate": 0.288154369047578,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 6607616,
+      "step": 5095
+    },
+    {
+      "epoch": 0.24918769696821635,
+      "grad_norm": 0.0030264032538980246,
+      "learning_rate": 0.28813141532247905,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 6613984,
+      "step": 5100
+    },
+    {
+      "epoch": 0.24943199863191068,
+      "grad_norm": 0.0036272285506129265,
+      "learning_rate": 0.28810844029578,
+      "loss": 0.1268,
+      "num_input_tokens_seen": 6620544,
+      "step": 5105
+    },
+    {
+      "epoch": 0.249676300295605,
+      "grad_norm": 0.004190557636320591,
+      "learning_rate": 0.2880854439710238,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 6627232,
+      "step": 5110
+    },
+    {
+      "epoch": 0.24992060195929935,
+      "grad_norm": 0.0036716845352202654,
+      "learning_rate": 0.28806242635175694,
+      "loss": 0.1313,
+      "num_input_tokens_seen": 6633728,
+      "step": 5115
+    },
+    {
+      "epoch": 0.25016490362299365,
+      "grad_norm": 0.005418386310338974,
+      "learning_rate": 0.2880393874415289,
+      "loss": 0.1274,
+      "num_input_tokens_seen": 6640288,
+      "step": 5120
+    },
+    {
+      "epoch": 0.250409205286688,
+      "grad_norm": 0.0022259212564677,
+      "learning_rate": 0.2880163272438926,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 6647072,
+      "step": 5125
+    },
+    {
+      "epoch": 0.25065350695038235,
+      "grad_norm": 0.0023107435554265976,
+      "learning_rate": 0.2879932457624042,
+      "loss": 0.116,
+      "num_input_tokens_seen": 6654112,
+      "step": 5130
+    },
+    {
+      "epoch": 0.2508978086140767,
+      "grad_norm": 0.006231924053281546,
+      "learning_rate": 0.2879701430006232,
+      "loss": 0.1573,
+      "num_input_tokens_seen": 6661056,
+      "step": 5135
+    },
+    {
+      "epoch": 0.251142110277771,
+      "grad_norm": 0.0034895702265203,
+      "learning_rate": 0.28794701896211233,
+      "loss": 0.1775,
+      "num_input_tokens_seen": 6667648,
+      "step": 5140
+    },
+    {
+      "epoch": 0.2513864119414653,
+      "grad_norm": 0.004335740115493536,
+      "learning_rate": 0.28792387365043753,
+      "loss": 0.1309,
+      "num_input_tokens_seen": 6674208,
+      "step": 5145
+    },
+    {
+      "epoch": 0.25163071360515965,
+      "grad_norm": 0.004260957706719637,
+      "learning_rate": 0.28790070706916815,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 6680544,
+      "step": 5150
+    },
+    {
+      "epoch": 0.251875015268854,
+      "grad_norm": 0.003159480867907405,
+      "learning_rate": 0.2878775192218768,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 6687008,
+      "step": 5155
+    },
+    {
+      "epoch": 0.2521193169325483,
+      "grad_norm": 0.00369929987937212,
+      "learning_rate": 0.2878543101121393,
+      "loss": 0.1487,
+      "num_input_tokens_seen": 6693248,
+      "step": 5160
+    },
+    {
+      "epoch": 0.2523636185962426,
+      "grad_norm": 0.003381680464372039,
+      "learning_rate": 0.28783107974353483,
+      "loss": 0.1322,
+      "num_input_tokens_seen": 6700064,
+      "step": 5165
+    },
+    {
+      "epoch": 0.25260792025993695,
+      "grad_norm": 0.00345210125669837,
+      "learning_rate": 0.2878078281196457,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 6706528,
+      "step": 5170
+    },
+    {
+      "epoch": 0.2528522219236313,
+      "grad_norm": 0.00475513469427824,
+      "learning_rate": 0.28778455524405777,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 6712832,
+      "step": 5175
+    },
+    {
+      "epoch": 0.25309652358732565,
+      "grad_norm": 0.009362848475575447,
+      "learning_rate": 0.2877612611203598,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 6719200,
+      "step": 5180
+    },
+    {
+      "epoch": 0.25334082525102,
+      "grad_norm": 0.007876661606132984,
+      "learning_rate": 0.28773794575214423,
+      "loss": 0.1434,
+      "num_input_tokens_seen": 6725440,
+      "step": 5185
+    },
+    {
+      "epoch": 0.2535851269147143,
+      "grad_norm": 0.005508119240403175,
+      "learning_rate": 0.28771460914300645,
+      "loss": 0.1343,
+      "num_input_tokens_seen": 6732064,
+      "step": 5190
+    },
+    {
+      "epoch": 0.2538294285784086,
+      "grad_norm": 0.01184593141078949,
+      "learning_rate": 0.2876912512965454,
+      "loss": 0.1496,
+      "num_input_tokens_seen": 6738432,
+      "step": 5195
+    },
+    {
+      "epoch": 0.25407373024210295,
+      "grad_norm": 0.005316245835274458,
+      "learning_rate": 0.287667872216363,
+      "loss": 0.1272,
+      "num_input_tokens_seen": 6744864,
+      "step": 5200
+    },
+    {
+      "epoch": 0.25407373024210295,
+      "eval_loss": 0.13471271097660065,
+      "eval_runtime": 402.3136,
+      "eval_samples_per_second": 90.439,
+      "eval_steps_per_second": 22.612,
+      "num_input_tokens_seen": 6744864,
+      "step": 5200
+    },
+    {
+      "epoch": 0.25431803190579727,
+      "grad_norm": 0.004070569761097431,
+      "learning_rate": 0.2876444719060647,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 6751328,
+      "step": 5205
+    },
+    {
+      "epoch": 0.2545623335694916,
+      "grad_norm": 0.007996279746294022,
+      "learning_rate": 0.287621050369259,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 6757504,
+      "step": 5210
+    },
+    {
+      "epoch": 0.2548066352331859,
+      "grad_norm": 0.003846957581117749,
+      "learning_rate": 0.28759760760955794,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 6763744,
+      "step": 5215
+    },
+    {
+      "epoch": 0.25505093689688024,
+      "grad_norm": 0.0035930154845118523,
+      "learning_rate": 0.2875741436305766,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 6770400,
+      "step": 5220
+    },
+    {
+      "epoch": 0.2552952385605746,
+      "grad_norm": 0.005588141269981861,
+      "learning_rate": 0.28755065843593347,
+      "loss": 0.1325,
+      "num_input_tokens_seen": 6776960,
+      "step": 5225
+    },
+    {
+      "epoch": 0.25553954022426895,
+      "grad_norm": 0.009593975730240345,
+      "learning_rate": 0.2875271520292502,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 6783328,
+      "step": 5230
+    },
+    {
+      "epoch": 0.25578384188796327,
+      "grad_norm": 0.008006543852388859,
+      "learning_rate": 0.28750362441415184,
+      "loss": 0.1342,
+      "num_input_tokens_seen": 6789440,
+      "step": 5235
+    },
+    {
+      "epoch": 0.2560281435516576,
+      "grad_norm": 0.004480399657040834,
+      "learning_rate": 0.28748007559426664,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 6796832,
+      "step": 5240
+    },
+    {
+      "epoch": 0.2562724452153519,
+      "grad_norm": 0.004550971556454897,
+      "learning_rate": 0.2874565055732261,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 6803328,
+      "step": 5245
+    },
+    {
+      "epoch": 0.25651674687904624,
+      "grad_norm": 0.010320568457245827,
+      "learning_rate": 0.28743291435466495,
+      "loss": 0.142,
+      "num_input_tokens_seen": 6809728,
+      "step": 5250
+    },
+    {
+      "epoch": 0.25676104854274057,
+      "grad_norm": 0.005282815545797348,
+      "learning_rate": 0.2874093019422214,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 6816448,
+      "step": 5255
+    },
+    {
+      "epoch": 0.2570053502064349,
+      "grad_norm": 0.0038880875799804926,
+      "learning_rate": 0.28738566833953666,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 6823040,
+      "step": 5260
+    },
+    {
+      "epoch": 0.2572496518701292,
+      "grad_norm": 0.004238972906023264,
+      "learning_rate": 0.28736201355025537,
+      "loss": 0.1464,
+      "num_input_tokens_seen": 6829600,
+      "step": 5265
+    },
+    {
+      "epoch": 0.25749395353382354,
+      "grad_norm": 0.0034397707786411047,
+      "learning_rate": 0.28733833757802535,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 6836128,
+      "step": 5270
+    },
+    {
+      "epoch": 0.2577382551975179,
+      "grad_norm": 0.0021710984874516726,
+      "learning_rate": 0.28731464042649785,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 6842944,
+      "step": 5275
+    },
+    {
+      "epoch": 0.25798255686121224,
+      "grad_norm": 0.002989856991916895,
+      "learning_rate": 0.2872909220993271,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 6849792,
+      "step": 5280
+    },
+    {
+      "epoch": 0.25822685852490657,
+      "grad_norm": 0.0030976496636867523,
+      "learning_rate": 0.287267182600171,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 6856064,
+      "step": 5285
+    },
+    {
+      "epoch": 0.2584711601886009,
+      "grad_norm": 0.003915499430149794,
+      "learning_rate": 0.2872434219326902,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 6862272,
+      "step": 5290
+    },
+    {
+      "epoch": 0.2587154618522952,
+      "grad_norm": 0.00699248630553484,
+      "learning_rate": 0.28721964010054907,
+      "loss": 0.1546,
+      "num_input_tokens_seen": 6869120,
+      "step": 5295
+    },
+    {
+      "epoch": 0.25895976351598954,
+      "grad_norm": 0.007647676859050989,
+      "learning_rate": 0.28719583710741503,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 6875712,
+      "step": 5300
+    },
+    {
+      "epoch": 0.25920406517968386,
+      "grad_norm": 0.004205972421914339,
+      "learning_rate": 0.28717201295695877,
+      "loss": 0.1303,
+      "num_input_tokens_seen": 6882784,
+      "step": 5305
+    },
+    {
+      "epoch": 0.2594483668433782,
+      "grad_norm": 0.006530147045850754,
+      "learning_rate": 0.28714816765285434,
+      "loss": 0.1479,
+      "num_input_tokens_seen": 6889056,
+      "step": 5310
+    },
+    {
+      "epoch": 0.2596926685070725,
+      "grad_norm": 0.006116996519267559,
+      "learning_rate": 0.28712430119877896,
+      "loss": 0.1455,
+      "num_input_tokens_seen": 6895392,
+      "step": 5315
+    },
+    {
+      "epoch": 0.2599369701707669,
+      "grad_norm": 0.004145187325775623,
+      "learning_rate": 0.28710041359841304,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 6901760,
+      "step": 5320
+    },
+    {
+      "epoch": 0.2601812718344612,
+      "grad_norm": 0.005178912542760372,
+      "learning_rate": 0.28707650485544056,
+      "loss": 0.1303,
+      "num_input_tokens_seen": 6908800,
+      "step": 5325
+    },
+    {
+      "epoch": 0.26042557349815554,
+      "grad_norm": 0.0027162127662450075,
+      "learning_rate": 0.28705257497354836,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 6915040,
+      "step": 5330
+    },
+    {
+      "epoch": 0.26066987516184986,
+      "grad_norm": 0.005336425267159939,
+      "learning_rate": 0.28702862395642675,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 6921344,
+      "step": 5335
+    },
+    {
+      "epoch": 0.2609141768255442,
+      "grad_norm": 0.004297249484807253,
+      "learning_rate": 0.28700465180776935,
+      "loss": 0.1413,
+      "num_input_tokens_seen": 6928480,
+      "step": 5340
+    },
+    {
+      "epoch": 0.2611584784892385,
+      "grad_norm": 0.004572005942463875,
+      "learning_rate": 0.2869806585312729,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 6934976,
+      "step": 5345
+    },
+    {
+      "epoch": 0.26140278015293283,
+      "grad_norm": 0.0054540145210921764,
+      "learning_rate": 0.28695664413063754,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 6941600,
+      "step": 5350
+    },
+    {
+      "epoch": 0.26164708181662716,
+      "grad_norm": 0.003927123732864857,
+      "learning_rate": 0.28693260860956654,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 6947904,
+      "step": 5355
+    },
+    {
+      "epoch": 0.2618913834803215,
+      "grad_norm": 0.003003922523930669,
+      "learning_rate": 0.2869085519717665,
+      "loss": 0.1316,
+      "num_input_tokens_seen": 6954624,
+      "step": 5360
+    },
+    {
+      "epoch": 0.2621356851440158,
+      "grad_norm": 0.00245377398096025,
+      "learning_rate": 0.28688447422094726,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 6961152,
+      "step": 5365
+    },
+    {
+      "epoch": 0.2623799868077102,
+      "grad_norm": 0.003575288923457265,
+      "learning_rate": 0.2868603753608219,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 6967584,
+      "step": 5370
+    },
+    {
+      "epoch": 0.2626242884714045,
+      "grad_norm": 0.0027833881322294474,
+      "learning_rate": 0.28683625539510665,
+      "loss": 0.1359,
+      "num_input_tokens_seen": 6973952,
+      "step": 5375
+    },
+    {
+      "epoch": 0.26286859013509883,
+      "grad_norm": 0.002473176224157214,
+      "learning_rate": 0.28681211432752135,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 6980352,
+      "step": 5380
+    },
+    {
+      "epoch": 0.26311289179879316,
+      "grad_norm": 0.003131711622700095,
+      "learning_rate": 0.2867879521617887,
+      "loss": 0.134,
+      "num_input_tokens_seen": 6986752,
+      "step": 5385
+    },
+    {
+      "epoch": 0.2633571934624875,
+      "grad_norm": 0.003886363236233592,
+      "learning_rate": 0.28676376890163485,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 6993280,
+      "step": 5390
+    },
+    {
+      "epoch": 0.2636014951261818,
+      "grad_norm": 0.0033159193117171526,
+      "learning_rate": 0.2867395645507891,
+      "loss": 0.122,
+      "num_input_tokens_seen": 6999904,
+      "step": 5395
+    },
+    {
+      "epoch": 0.26384579678987613,
+      "grad_norm": 0.006251761224120855,
+      "learning_rate": 0.2867153391129842,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 7006944,
+      "step": 5400
+    },
+    {
+      "epoch": 0.26384579678987613,
+      "eval_loss": 0.1302129626274109,
+      "eval_runtime": 402.3891,
+      "eval_samples_per_second": 90.422,
+      "eval_steps_per_second": 22.607,
+      "num_input_tokens_seen": 7006944,
+      "step": 5400
+    },
+    {
+      "epoch": 0.26409009845357045,
+      "grad_norm": 0.005955981090664864,
+      "learning_rate": 0.28669109259195585,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 7013632,
+      "step": 5405
+    },
+    {
+      "epoch": 0.2643344001172648,
+      "grad_norm": 0.004658418241888285,
+      "learning_rate": 0.2866668249914433,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 7020192,
+      "step": 5410
+    },
+    {
+      "epoch": 0.2645787017809591,
+      "grad_norm": 0.004894699435681105,
+      "learning_rate": 0.2866425363151889,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 7026400,
+      "step": 5415
+    },
+    {
+      "epoch": 0.2648230034446535,
+      "grad_norm": 0.003387420903891325,
+      "learning_rate": 0.2866182265669382,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 7032544,
+      "step": 5420
+    },
+    {
+      "epoch": 0.2650673051083478,
+      "grad_norm": 0.00541591364890337,
+      "learning_rate": 0.28659389575044014,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 7039136,
+      "step": 5425
+    },
+    {
+      "epoch": 0.26531160677204213,
+      "grad_norm": 0.0065269251354038715,
+      "learning_rate": 0.28656954386944683,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 7045152,
+      "step": 5430
+    },
+    {
+      "epoch": 0.26555590843573645,
+      "grad_norm": 0.00591407110914588,
+      "learning_rate": 0.28654517092771353,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 7051680,
+      "step": 5435
+    },
+    {
+      "epoch": 0.2658002100994308,
+      "grad_norm": 0.004400928970426321,
+      "learning_rate": 0.286520776928999,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 7058112,
+      "step": 5440
+    },
+    {
+      "epoch": 0.2660445117631251,
+      "grad_norm": 0.004510826896876097,
+      "learning_rate": 0.286496361877065,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 7064832,
+      "step": 5445
+    },
+    {
+      "epoch": 0.2662888134268194,
+      "grad_norm": 0.0031608904246240854,
+      "learning_rate": 0.28647192577567676,
+      "loss": 0.1363,
+      "num_input_tokens_seen": 7071520,
+      "step": 5450
+    },
+    {
+      "epoch": 0.26653311509051375,
+      "grad_norm": 0.006053500808775425,
+      "learning_rate": 0.28644746862860254,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 7078016,
+      "step": 5455
+    },
+    {
+      "epoch": 0.2667774167542081,
+      "grad_norm": 0.0035545264836400747,
+      "learning_rate": 0.2864229904396139,
+      "loss": 0.1276,
+      "num_input_tokens_seen": 7084576,
+      "step": 5460
+    },
+    {
+      "epoch": 0.2670217184179024,
+      "grad_norm": 0.004954153206199408,
+      "learning_rate": 0.28639849121248573,
+      "loss": 0.1434,
+      "num_input_tokens_seen": 7091360,
+      "step": 5465
+    },
+    {
+      "epoch": 0.2672660200815968,
+      "grad_norm": 0.003700742730870843,
+      "learning_rate": 0.28637397095099615,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 7098016,
+      "step": 5470
+    },
+    {
+      "epoch": 0.2675103217452911,
+      "grad_norm": 0.0026276977732777596,
+      "learning_rate": 0.28634942965892646,
+      "loss": 0.1316,
+      "num_input_tokens_seen": 7104704,
+      "step": 5475
+    },
+    {
+      "epoch": 0.2677546234089854,
+      "grad_norm": 0.003253340721130371,
+      "learning_rate": 0.28632486734006124,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 7111360,
+      "step": 5480
+    },
+    {
+      "epoch": 0.26799892507267975,
+      "grad_norm": 0.0072964574210345745,
+      "learning_rate": 0.28630028399818835,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 7117728,
+      "step": 5485
+    },
+    {
+      "epoch": 0.2682432267363741,
+      "grad_norm": 0.0034082653000950813,
+      "learning_rate": 0.2862756796370987,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 7124192,
+      "step": 5490
+    },
+    {
+      "epoch": 0.2684875284000684,
+      "grad_norm": 0.005915261805057526,
+      "learning_rate": 0.2862510542605868,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 7131072,
+      "step": 5495
+    },
+    {
+      "epoch": 0.2687318300637627,
+      "grad_norm": 0.004800623282790184,
+      "learning_rate": 0.2862264078724501,
+      "loss": 0.1367,
+      "num_input_tokens_seen": 7137504,
+      "step": 5500
+    },
+    {
+      "epoch": 0.26897613172745705,
+      "grad_norm": 0.0043573444709181786,
+      "learning_rate": 0.28620174047648933,
+      "loss": 0.1441,
+      "num_input_tokens_seen": 7143904,
+      "step": 5505
+    },
+    {
+      "epoch": 0.26922043339115137,
+      "grad_norm": 0.006739671342074871,
+      "learning_rate": 0.2861770520765086,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 7150208,
+      "step": 5510
+    },
+    {
+      "epoch": 0.26946473505484575,
+      "grad_norm": 0.007493209093809128,
+      "learning_rate": 0.2861523426763151,
+      "loss": 0.126,
+      "num_input_tokens_seen": 7157088,
+      "step": 5515
+    },
+    {
+      "epoch": 0.2697090367185401,
+      "grad_norm": 0.005771221127361059,
+      "learning_rate": 0.2861276122797194,
+      "loss": 0.13,
+      "num_input_tokens_seen": 7163904,
+      "step": 5520
+    },
+    {
+      "epoch": 0.2699533383822344,
+      "grad_norm": 0.004787174519151449,
+      "learning_rate": 0.28610286089053516,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 7170176,
+      "step": 5525
+    },
+    {
+      "epoch": 0.2701976400459287,
+      "grad_norm": 0.0031659642700105906,
+      "learning_rate": 0.28607808851257943,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 7176864,
+      "step": 5530
+    },
+    {
+      "epoch": 0.27044194170962305,
+      "grad_norm": 0.005717766936868429,
+      "learning_rate": 0.28605329514967237,
+      "loss": 0.126,
+      "num_input_tokens_seen": 7183520,
+      "step": 5535
+    },
+    {
+      "epoch": 0.27068624337331737,
+      "grad_norm": 0.0038151063490659,
+      "learning_rate": 0.2860284808056374,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 7190112,
+      "step": 5540
+    },
+    {
+      "epoch": 0.2709305450370117,
+      "grad_norm": 0.002949526533484459,
+      "learning_rate": 0.28600364548430135,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 7196448,
+      "step": 5545
+    },
+    {
+      "epoch": 0.271174846700706,
+      "grad_norm": 0.0024889507330954075,
+      "learning_rate": 0.28597878918949393,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 7202816,
+      "step": 5550
+    },
+    {
+      "epoch": 0.27141914836440034,
+      "grad_norm": 0.0028458135202527046,
+      "learning_rate": 0.2859539119250485,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 7209408,
+      "step": 5555
+    },
+    {
+      "epoch": 0.27166345002809467,
+      "grad_norm": 0.007140621542930603,
+      "learning_rate": 0.2859290136948013,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 7215904,
+      "step": 5560
+    },
+    {
+      "epoch": 0.27190775169178905,
+      "grad_norm": 0.00449804961681366,
+      "learning_rate": 0.28590409450259197,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 7222240,
+      "step": 5565
+    },
+    {
+      "epoch": 0.27215205335548337,
+      "grad_norm": 0.00206343294121325,
+      "learning_rate": 0.28587915435226346,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 7228608,
+      "step": 5570
+    },
+    {
+      "epoch": 0.2723963550191777,
+      "grad_norm": 0.008042197674512863,
+      "learning_rate": 0.2858541932476617,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 7235744,
+      "step": 5575
+    },
+    {
+      "epoch": 0.272640656682872,
+      "grad_norm": 0.0058980765752494335,
+      "learning_rate": 0.2858292111926361,
+      "loss": 0.1345,
+      "num_input_tokens_seen": 7242176,
+      "step": 5580
+    },
+    {
+      "epoch": 0.27288495834656634,
+      "grad_norm": 0.004693014547228813,
+      "learning_rate": 0.28580420819103924,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 7248192,
+      "step": 5585
+    },
+    {
+      "epoch": 0.27312926001026067,
+      "grad_norm": 0.0027627339586615562,
+      "learning_rate": 0.2857791842467269,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 7254720,
+      "step": 5590
+    },
+    {
+      "epoch": 0.273373561673955,
+      "grad_norm": 0.004043642897158861,
+      "learning_rate": 0.2857541393635579,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 7261088,
+      "step": 5595
+    },
+    {
+      "epoch": 0.2736178633376493,
+      "grad_norm": 0.0037648712750524282,
+      "learning_rate": 0.2857290735453948,
+      "loss": 0.125,
+      "num_input_tokens_seen": 7267584,
+      "step": 5600
+    },
+    {
+      "epoch": 0.2736178633376493,
+      "eval_loss": 0.12559133768081665,
+      "eval_runtime": 402.7295,
+      "eval_samples_per_second": 90.346,
+      "eval_steps_per_second": 22.588,
+      "num_input_tokens_seen": 7267584,
+      "step": 5600
+    },
+    {
+      "epoch": 0.27386216500134364,
+      "grad_norm": 0.0053334664553403854,
+      "learning_rate": 0.28570398679610276,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 7274080,
+      "step": 5605
+    },
+    {
+      "epoch": 0.27410646666503796,
+      "grad_norm": 0.005375921726226807,
+      "learning_rate": 0.2856788791195506,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 7281824,
+      "step": 5610
+    },
+    {
+      "epoch": 0.27435076832873234,
+      "grad_norm": 0.007899930700659752,
+      "learning_rate": 0.28565375051961023,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 7288384,
+      "step": 5615
+    },
+    {
+      "epoch": 0.27459506999242667,
+      "grad_norm": 0.003922676667571068,
+      "learning_rate": 0.28562860100015686,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 7294976,
+      "step": 5620
+    },
+    {
+      "epoch": 0.274839371656121,
+      "grad_norm": 0.046299662441015244,
+      "learning_rate": 0.2856034305650687,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 7301568,
+      "step": 5625
+    },
+    {
+      "epoch": 0.2750836733198153,
+      "grad_norm": 0.01735769398510456,
+      "learning_rate": 0.28557823921822756,
+      "loss": 0.1806,
+      "num_input_tokens_seen": 7308192,
+      "step": 5630
+    },
+    {
+      "epoch": 0.27532797498350964,
+      "grad_norm": 0.019972674548625946,
+      "learning_rate": 0.2855530269635181,
+      "loss": 0.2099,
+      "num_input_tokens_seen": 7314432,
+      "step": 5635
+    },
+    {
+      "epoch": 0.27557227664720396,
+      "grad_norm": 0.005862708203494549,
+      "learning_rate": 0.2855277938048284,
+      "loss": 0.1799,
+      "num_input_tokens_seen": 7320864,
+      "step": 5640
+    },
+    {
+      "epoch": 0.2758165783108983,
+      "grad_norm": 0.011841526255011559,
+      "learning_rate": 0.2855025397460498,
+      "loss": 0.1645,
+      "num_input_tokens_seen": 7327904,
+      "step": 5645
+    },
+    {
+      "epoch": 0.2760608799745926,
+      "grad_norm": 0.024735702201724052,
+      "learning_rate": 0.28547726479107666,
+      "loss": 0.1925,
+      "num_input_tokens_seen": 7334208,
+      "step": 5650
+    },
+    {
+      "epoch": 0.27630518163828693,
+      "grad_norm": 0.0026390203274786472,
+      "learning_rate": 0.2854519689438068,
+      "loss": 0.1736,
+      "num_input_tokens_seen": 7340736,
+      "step": 5655
+    },
+    {
+      "epoch": 0.2765494833019813,
+      "grad_norm": 0.0053466251119971275,
+      "learning_rate": 0.2854266522081412,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 7347488,
+      "step": 5660
+    },
+    {
+      "epoch": 0.27679378496567564,
+      "grad_norm": 0.005495019257068634,
+      "learning_rate": 0.28540131458798385,
+      "loss": 0.1636,
+      "num_input_tokens_seen": 7353856,
+      "step": 5665
+    },
+    {
+      "epoch": 0.27703808662936996,
+      "grad_norm": 0.0036699676420539618,
+      "learning_rate": 0.28537595608724226,
+      "loss": 0.1757,
+      "num_input_tokens_seen": 7360192,
+      "step": 5670
+    },
+    {
+      "epoch": 0.2772823882930643,
+      "grad_norm": 0.0033017483074218035,
+      "learning_rate": 0.28535057670982705,
+      "loss": 0.1581,
+      "num_input_tokens_seen": 7366528,
+      "step": 5675
+    },
+    {
+      "epoch": 0.2775266899567586,
+      "grad_norm": 0.004743311088532209,
+      "learning_rate": 0.285325176459652,
+      "loss": 0.1842,
+      "num_input_tokens_seen": 7372672,
+      "step": 5680
+    },
+    {
+      "epoch": 0.27777099162045293,
+      "grad_norm": 0.002193101681768894,
+      "learning_rate": 0.28529975534063406,
+      "loss": 0.1832,
+      "num_input_tokens_seen": 7379456,
+      "step": 5685
+    },
+    {
+      "epoch": 0.27801529328414726,
+      "grad_norm": 0.0037478345911949873,
+      "learning_rate": 0.2852743133566936,
+      "loss": 0.1555,
+      "num_input_tokens_seen": 7385600,
+      "step": 5690
+    },
+    {
+      "epoch": 0.2782595949478416,
+      "grad_norm": 0.0027996350545436144,
+      "learning_rate": 0.2852488505117541,
+      "loss": 0.1675,
+      "num_input_tokens_seen": 7392224,
+      "step": 5695
+    },
+    {
+      "epoch": 0.2785038966115359,
+      "grad_norm": 0.002629923867061734,
+      "learning_rate": 0.28522336680974214,
+      "loss": 0.1625,
+      "num_input_tokens_seen": 7398656,
+      "step": 5700
+    },
+    {
+      "epoch": 0.27874819827523023,
+      "grad_norm": 0.0039253076538443565,
+      "learning_rate": 0.2851978622545877,
+      "loss": 0.1388,
+      "num_input_tokens_seen": 7405216,
+      "step": 5705
+    },
+    {
+      "epoch": 0.2789924999389246,
+      "grad_norm": 0.004253987688571215,
+      "learning_rate": 0.285172336850224,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 7411584,
+      "step": 5710
+    },
+    {
+      "epoch": 0.27923680160261893,
+      "grad_norm": 0.004213154315948486,
+      "learning_rate": 0.2851467906005871,
+      "loss": 0.1557,
+      "num_input_tokens_seen": 7418016,
+      "step": 5715
+    },
+    {
+      "epoch": 0.27948110326631326,
+      "grad_norm": 0.005310391541570425,
+      "learning_rate": 0.28512122350961683,
+      "loss": 0.1561,
+      "num_input_tokens_seen": 7424384,
+      "step": 5720
+    },
+    {
+      "epoch": 0.2797254049300076,
+      "grad_norm": 0.005298037081956863,
+      "learning_rate": 0.2850956355812559,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 7430912,
+      "step": 5725
+    },
+    {
+      "epoch": 0.2799697065937019,
+      "grad_norm": 0.005093451123684645,
+      "learning_rate": 0.28507002681945015,
+      "loss": 0.1781,
+      "num_input_tokens_seen": 7437504,
+      "step": 5730
+    },
+    {
+      "epoch": 0.28021400825739623,
+      "grad_norm": 0.005116675049066544,
+      "learning_rate": 0.28504439722814895,
+      "loss": 0.1673,
+      "num_input_tokens_seen": 7444480,
+      "step": 5735
+    },
+    {
+      "epoch": 0.28045830992109055,
+      "grad_norm": 0.0016365890624001622,
+      "learning_rate": 0.28501874681130457,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 7450464,
+      "step": 5740
+    },
+    {
+      "epoch": 0.2807026115847849,
+      "grad_norm": 0.002895343815907836,
+      "learning_rate": 0.2849930755728727,
+      "loss": 0.1279,
+      "num_input_tokens_seen": 7457280,
+      "step": 5745
+    },
+    {
+      "epoch": 0.2809469132484792,
+      "grad_norm": 0.003031200962141156,
+      "learning_rate": 0.28496738351681217,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 7463808,
+      "step": 5750
+    },
+    {
+      "epoch": 0.2811912149121735,
+      "grad_norm": 0.0046304636634886265,
+      "learning_rate": 0.284941670647085,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 7469952,
+      "step": 5755
+    },
+    {
+      "epoch": 0.2814355165758679,
+      "grad_norm": 0.0031242750119417906,
+      "learning_rate": 0.2849159369676563,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 7477088,
+      "step": 5760
+    },
+    {
+      "epoch": 0.28167981823956223,
+      "grad_norm": 0.0021155178546905518,
+      "learning_rate": 0.2848901824824948,
+      "loss": 0.155,
+      "num_input_tokens_seen": 7483392,
+      "step": 5765
+    },
+    {
+      "epoch": 0.28192411990325655,
+      "grad_norm": 0.0022575119510293007,
+      "learning_rate": 0.284864407195572,
+      "loss": 0.1675,
+      "num_input_tokens_seen": 7489568,
+      "step": 5770
+    },
+    {
+      "epoch": 0.2821684215669509,
+      "grad_norm": 0.0025158661883324385,
+      "learning_rate": 0.28483861111086284,
+      "loss": 0.1539,
+      "num_input_tokens_seen": 7496512,
+      "step": 5775
+    },
+    {
+      "epoch": 0.2824127232306452,
+      "grad_norm": 0.003578941337764263,
+      "learning_rate": 0.2848127942323453,
+      "loss": 0.1824,
+      "num_input_tokens_seen": 7503584,
+      "step": 5780
+    },
+    {
+      "epoch": 0.2826570248943395,
+      "grad_norm": 0.002583493944257498,
+      "learning_rate": 0.2847869565640007,
+      "loss": 0.1464,
+      "num_input_tokens_seen": 7510304,
+      "step": 5785
+    },
+    {
+      "epoch": 0.28290132655803385,
+      "grad_norm": 0.0017960165860131383,
+      "learning_rate": 0.2847610981098136,
+      "loss": 0.1483,
+      "num_input_tokens_seen": 7516576,
+      "step": 5790
+    },
+    {
+      "epoch": 0.2831456282217282,
+      "grad_norm": 0.002295809332281351,
+      "learning_rate": 0.2847352188737716,
+      "loss": 0.1676,
+      "num_input_tokens_seen": 7523104,
+      "step": 5795
+    },
+    {
+      "epoch": 0.2833899298854225,
+      "grad_norm": 0.0022400098387151957,
+      "learning_rate": 0.2847093188598658,
+      "loss": 0.1792,
+      "num_input_tokens_seen": 7529280,
+      "step": 5800
+    },
+    {
+      "epoch": 0.2833899298854225,
+      "eval_loss": 0.14302465319633484,
+      "eval_runtime": 402.2769,
+      "eval_samples_per_second": 90.448,
+      "eval_steps_per_second": 22.614,
+      "num_input_tokens_seen": 7529280,
+      "step": 5800
+    },
+    {
+      "epoch": 0.2836342315491168,
+      "grad_norm": 0.00530401524156332,
+      "learning_rate": 0.28468339807209003,
+      "loss": 0.1544,
+      "num_input_tokens_seen": 7536064,
+      "step": 5805
+    },
+    {
+      "epoch": 0.2838785332128112,
+      "grad_norm": 0.002451085252687335,
+      "learning_rate": 0.2846574565144418,
+      "loss": 0.1542,
+      "num_input_tokens_seen": 7542688,
+      "step": 5810
+    },
+    {
+      "epoch": 0.2841228348765055,
+      "grad_norm": 0.0039650131948292255,
+      "learning_rate": 0.28463149419092154,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 7548864,
+      "step": 5815
+    },
+    {
+      "epoch": 0.28436713654019985,
+      "grad_norm": 0.0029378836043179035,
+      "learning_rate": 0.284605511105533,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 7555360,
+      "step": 5820
+    },
+    {
+      "epoch": 0.2846114382038942,
+      "grad_norm": 0.0036574790719896555,
+      "learning_rate": 0.28457950726228315,
+      "loss": 0.1185,
+      "num_input_tokens_seen": 7561952,
+      "step": 5825
+    },
+    {
+      "epoch": 0.2848557398675885,
+      "grad_norm": 0.002634722040966153,
+      "learning_rate": 0.28455348266518193,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 7568416,
+      "step": 5830
+    },
+    {
+      "epoch": 0.2851000415312828,
+      "grad_norm": 0.003539833938702941,
+      "learning_rate": 0.28452743731824287,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 7575008,
+      "step": 5835
+    },
+    {
+      "epoch": 0.28534434319497715,
+      "grad_norm": 0.0030225946102291346,
+      "learning_rate": 0.28450137122548236,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 7581760,
+      "step": 5840
+    },
+    {
+      "epoch": 0.28558864485867147,
+      "grad_norm": 0.0022102987859398127,
+      "learning_rate": 0.2844752843909201,
+      "loss": 0.121,
+      "num_input_tokens_seen": 7588192,
+      "step": 5845
+    },
+    {
+      "epoch": 0.2858329465223658,
+      "grad_norm": 0.0038610845804214478,
+      "learning_rate": 0.28444917681857923,
+      "loss": 0.1506,
+      "num_input_tokens_seen": 7594304,
+      "step": 5850
+    },
+    {
+      "epoch": 0.2860772481860602,
+      "grad_norm": 0.0037222837563604116,
+      "learning_rate": 0.28442304851248557,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 7600352,
+      "step": 5855
+    },
+    {
+      "epoch": 0.2863215498497545,
+      "grad_norm": 0.003949276637285948,
+      "learning_rate": 0.2843968994766686,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 7607296,
+      "step": 5860
+    },
+    {
+      "epoch": 0.2865658515134488,
+      "grad_norm": 0.003001399338245392,
+      "learning_rate": 0.28437072971516075,
+      "loss": 0.1596,
+      "num_input_tokens_seen": 7614016,
+      "step": 5865
+    },
+    {
+      "epoch": 0.28681015317714315,
+      "grad_norm": 0.006335533689707518,
+      "learning_rate": 0.2843445392319979,
+      "loss": 0.156,
+      "num_input_tokens_seen": 7620320,
+      "step": 5870
+    },
+    {
+      "epoch": 0.28705445484083747,
+      "grad_norm": 0.0031090276315808296,
+      "learning_rate": 0.28431832803121865,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 7627040,
+      "step": 5875
+    },
+    {
+      "epoch": 0.2872987565045318,
+      "grad_norm": 0.002834859536960721,
+      "learning_rate": 0.28429209611686534,
+      "loss": 0.1416,
+      "num_input_tokens_seen": 7633664,
+      "step": 5880
+    },
+    {
+      "epoch": 0.2875430581682261,
+      "grad_norm": 0.0045402017422020435,
+      "learning_rate": 0.28426584349298323,
+      "loss": 0.123,
+      "num_input_tokens_seen": 7640032,
+      "step": 5885
+    },
+    {
+      "epoch": 0.28778735983192044,
+      "grad_norm": 0.005272164475172758,
+      "learning_rate": 0.2842395701636207,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 7646688,
+      "step": 5890
+    },
+    {
+      "epoch": 0.28803166149561477,
+      "grad_norm": 0.007197830826044083,
+      "learning_rate": 0.28421327613282954,
+      "loss": 0.1514,
+      "num_input_tokens_seen": 7653408,
+      "step": 5895
+    },
+    {
+      "epoch": 0.2882759631593091,
+      "grad_norm": 0.0030531056690961123,
+      "learning_rate": 0.28418696140466454,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 7659648,
+      "step": 5900
+    },
+    {
+      "epoch": 0.28852026482300347,
+      "grad_norm": 0.004124704282730818,
+      "learning_rate": 0.2841606259831838,
+      "loss": 0.16,
+      "num_input_tokens_seen": 7666400,
+      "step": 5905
+    },
+    {
+      "epoch": 0.2887645664866978,
+      "grad_norm": 0.0026871180161833763,
+      "learning_rate": 0.2841342698724486,
+      "loss": 0.1558,
+      "num_input_tokens_seen": 7672768,
+      "step": 5910
+    },
+    {
+      "epoch": 0.2890088681503921,
+      "grad_norm": 0.006417717784643173,
+      "learning_rate": 0.28410789307652334,
+      "loss": 0.1641,
+      "num_input_tokens_seen": 7679680,
+      "step": 5915
+    },
+    {
+      "epoch": 0.28925316981408644,
+      "grad_norm": 0.0028656520880758762,
+      "learning_rate": 0.2840814955994756,
+      "loss": 0.164,
+      "num_input_tokens_seen": 7686240,
+      "step": 5920
+    },
+    {
+      "epoch": 0.28949747147778077,
+      "grad_norm": 0.0019340679282322526,
+      "learning_rate": 0.2840550774453763,
+      "loss": 0.1527,
+      "num_input_tokens_seen": 7692640,
+      "step": 5925
+    },
+    {
+      "epoch": 0.2897417731414751,
+      "grad_norm": 0.001999280881136656,
+      "learning_rate": 0.28402863861829947,
+      "loss": 0.1723,
+      "num_input_tokens_seen": 7699072,
+      "step": 5930
+    },
+    {
+      "epoch": 0.2899860748051694,
+      "grad_norm": 0.0022148003336042166,
+      "learning_rate": 0.2840021791223222,
+      "loss": 0.1452,
+      "num_input_tokens_seen": 7705248,
+      "step": 5935
+    },
+    {
+      "epoch": 0.29023037646886374,
+      "grad_norm": 0.003384433453902602,
+      "learning_rate": 0.2839756989615249,
+      "loss": 0.1584,
+      "num_input_tokens_seen": 7711968,
+      "step": 5940
+    },
+    {
+      "epoch": 0.29047467813255806,
+      "grad_norm": 0.0021649221889674664,
+      "learning_rate": 0.28394919813999125,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 7718496,
+      "step": 5945
+    },
+    {
+      "epoch": 0.2907189797962524,
+      "grad_norm": 0.0024802943225950003,
+      "learning_rate": 0.28392267666180787,
+      "loss": 0.1342,
+      "num_input_tokens_seen": 7725440,
+      "step": 5950
+    },
+    {
+      "epoch": 0.29096328145994677,
+      "grad_norm": 0.0027223669458180666,
+      "learning_rate": 0.2838961345310648,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 7731424,
+      "step": 5955
+    },
+    {
+      "epoch": 0.2912075831236411,
+      "grad_norm": 0.003419796470552683,
+      "learning_rate": 0.2838695717518552,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 7737984,
+      "step": 5960
+    },
+    {
+      "epoch": 0.2914518847873354,
+      "grad_norm": 0.003257952630519867,
+      "learning_rate": 0.28384298832827526,
+      "loss": 0.1463,
+      "num_input_tokens_seen": 7744288,
+      "step": 5965
+    },
+    {
+      "epoch": 0.29169618645102974,
+      "grad_norm": 0.00265782093629241,
+      "learning_rate": 0.28381638426442457,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 7750944,
+      "step": 5970
+    },
+    {
+      "epoch": 0.29194048811472406,
+      "grad_norm": 0.0023359558545053005,
+      "learning_rate": 0.2837897595644057,
+      "loss": 0.1511,
+      "num_input_tokens_seen": 7757024,
+      "step": 5975
+    },
+    {
+      "epoch": 0.2921847897784184,
+      "grad_norm": 0.006324345245957375,
+      "learning_rate": 0.28376311423232475,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 7763360,
+      "step": 5980
+    },
+    {
+      "epoch": 0.2924290914421127,
+      "grad_norm": 0.004712031688541174,
+      "learning_rate": 0.2837364482722905,
+      "loss": 0.1528,
+      "num_input_tokens_seen": 7770144,
+      "step": 5985
+    },
+    {
+      "epoch": 0.29267339310580703,
+      "grad_norm": 0.0028683992568403482,
+      "learning_rate": 0.28370976168841533,
+      "loss": 0.152,
+      "num_input_tokens_seen": 7776192,
+      "step": 5990
+    },
+    {
+      "epoch": 0.29291769476950136,
+      "grad_norm": 0.001993064535781741,
+      "learning_rate": 0.2836830544848146,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 7782368,
+      "step": 5995
+    },
+    {
+      "epoch": 0.29316199643319574,
+      "grad_norm": 0.0026106189470738173,
+      "learning_rate": 0.2836563266656069,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 7788992,
+      "step": 6000
+    },
+    {
+      "epoch": 0.29316199643319574,
+      "eval_loss": 0.1473085582256317,
+      "eval_runtime": 402.1767,
+      "eval_samples_per_second": 90.47,
+      "eval_steps_per_second": 22.619,
+      "num_input_tokens_seen": 7788992,
+      "step": 6000
+    },
+    {
+      "epoch": 0.29340629809689006,
+      "grad_norm": 0.0028795951511710882,
+      "learning_rate": 0.283629578234914,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 7795872,
+      "step": 6005
+    },
+    {
+      "epoch": 0.2936505997605844,
+      "grad_norm": 0.00349132320843637,
+      "learning_rate": 0.2836028091968608,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 7802592,
+      "step": 6010
+    },
+    {
+      "epoch": 0.2938949014242787,
+      "grad_norm": 0.010197360068559647,
+      "learning_rate": 0.28357601955557554,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 7809376,
+      "step": 6015
+    },
+    {
+      "epoch": 0.29413920308797303,
+      "grad_norm": 0.0029040079098194838,
+      "learning_rate": 0.2835492093151894,
+      "loss": 0.1612,
+      "num_input_tokens_seen": 7815872,
+      "step": 6020
+    },
+    {
+      "epoch": 0.29438350475166736,
+      "grad_norm": 0.0048814513720571995,
+      "learning_rate": 0.2835223784798369,
+      "loss": 0.1388,
+      "num_input_tokens_seen": 7822592,
+      "step": 6025
+    },
+    {
+      "epoch": 0.2946278064153617,
+      "grad_norm": 0.00239000516012311,
+      "learning_rate": 0.2834955270536557,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 7829184,
+      "step": 6030
+    },
+    {
+      "epoch": 0.294872108079056,
+      "grad_norm": 0.004879494663327932,
+      "learning_rate": 0.2834686550407866,
+      "loss": 0.1192,
+      "num_input_tokens_seen": 7835744,
+      "step": 6035
+    },
+    {
+      "epoch": 0.29511640974275033,
+      "grad_norm": 0.0032097534276545048,
+      "learning_rate": 0.28344176244537367,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 7842624,
+      "step": 6040
+    },
+    {
+      "epoch": 0.29536071140644465,
+      "grad_norm": 0.004066155292093754,
+      "learning_rate": 0.28341484927156396,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 7848864,
+      "step": 6045
+    },
+    {
+      "epoch": 0.29560501307013903,
+      "grad_norm": 0.00380347459577024,
+      "learning_rate": 0.28338791552350795,
+      "loss": 0.1198,
+      "num_input_tokens_seen": 7856064,
+      "step": 6050
+    },
+    {
+      "epoch": 0.29584931473383336,
+      "grad_norm": 0.005192140582948923,
+      "learning_rate": 0.28336096120535914,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 7862432,
+      "step": 6055
+    },
+    {
+      "epoch": 0.2960936163975277,
+      "grad_norm": 0.00339495949447155,
+      "learning_rate": 0.2833339863212741,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 7868800,
+      "step": 6060
+    },
+    {
+      "epoch": 0.296337918061222,
+      "grad_norm": 0.0036287454422563314,
+      "learning_rate": 0.28330699087541283,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 7875040,
+      "step": 6065
+    },
+    {
+      "epoch": 0.29658221972491633,
+      "grad_norm": 0.0026034715119749308,
+      "learning_rate": 0.2832799748719384,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 7881664,
+      "step": 6070
+    },
+    {
+      "epoch": 0.29682652138861065,
+      "grad_norm": 0.0019847811199724674,
+      "learning_rate": 0.28325293831501686,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 7888320,
+      "step": 6075
+    },
+    {
+      "epoch": 0.297070823052305,
+      "grad_norm": 0.0045869797468185425,
+      "learning_rate": 0.2832258812088177,
+      "loss": 0.136,
+      "num_input_tokens_seen": 7894400,
+      "step": 6080
+    },
+    {
+      "epoch": 0.2973151247159993,
+      "grad_norm": 0.005016650538891554,
+      "learning_rate": 0.2831988035575134,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 7900864,
+      "step": 6085
+    },
+    {
+      "epoch": 0.2975594263796936,
+      "grad_norm": 0.008143165148794651,
+      "learning_rate": 0.28317170536527975,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 7907488,
+      "step": 6090
+    },
+    {
+      "epoch": 0.29780372804338795,
+      "grad_norm": 0.005242623388767242,
+      "learning_rate": 0.2831445866362956,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 7913728,
+      "step": 6095
+    },
+    {
+      "epoch": 0.29804802970708233,
+      "grad_norm": 0.005804647225886583,
+      "learning_rate": 0.2831174473747429,
+      "loss": 0.1596,
+      "num_input_tokens_seen": 7920384,
+      "step": 6100
+    },
+    {
+      "epoch": 0.29829233137077665,
+      "grad_norm": 0.0027167389634996653,
+      "learning_rate": 0.2830902875848071,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 7927072,
+      "step": 6105
+    },
+    {
+      "epoch": 0.298536633034471,
+      "grad_norm": 0.003480195067822933,
+      "learning_rate": 0.28306310727067635,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 7933952,
+      "step": 6110
+    },
+    {
+      "epoch": 0.2987809346981653,
+      "grad_norm": 0.005975958425551653,
+      "learning_rate": 0.2830359064365423,
+      "loss": 0.1325,
+      "num_input_tokens_seen": 7940544,
+      "step": 6115
+    },
+    {
+      "epoch": 0.2990252363618596,
+      "grad_norm": 0.005594910588115454,
+      "learning_rate": 0.28300868508659965,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 7947040,
+      "step": 6120
+    },
+    {
+      "epoch": 0.29926953802555395,
+      "grad_norm": 0.004734850954264402,
+      "learning_rate": 0.28298144322504626,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 7953792,
+      "step": 6125
+    },
+    {
+      "epoch": 0.2995138396892483,
+      "grad_norm": 0.0026224926114082336,
+      "learning_rate": 0.2829541808560832,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 7960448,
+      "step": 6130
+    },
+    {
+      "epoch": 0.2997581413529426,
+      "grad_norm": 0.0033648270182311535,
+      "learning_rate": 0.2829268979839146,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 7967360,
+      "step": 6135
+    },
+    {
+      "epoch": 0.3000024430166369,
+      "grad_norm": 0.005862207617610693,
+      "learning_rate": 0.2828995946127479,
+      "loss": 0.1555,
+      "num_input_tokens_seen": 7973664,
+      "step": 6140
+    },
+    {
+      "epoch": 0.30024674468033125,
+      "grad_norm": 0.0021076686680316925,
+      "learning_rate": 0.2828722707467936,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 7980064,
+      "step": 6145
+    },
+    {
+      "epoch": 0.3004910463440256,
+      "grad_norm": 0.005318042356520891,
+      "learning_rate": 0.2828449263902653,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 7986720,
+      "step": 6150
+    },
+    {
+      "epoch": 0.30073534800771995,
+      "grad_norm": 0.0031345009338110685,
+      "learning_rate": 0.28281756154738,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 7992960,
+      "step": 6155
+    },
+    {
+      "epoch": 0.3009796496714143,
+      "grad_norm": 0.0033173502888530493,
+      "learning_rate": 0.28279017622235764,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 8000544,
+      "step": 6160
+    },
+    {
+      "epoch": 0.3012239513351086,
+      "grad_norm": 0.0034150085411965847,
+      "learning_rate": 0.28276277041942127,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 8007424,
+      "step": 6165
+    },
+    {
+      "epoch": 0.3014682529988029,
+      "grad_norm": 0.0030458341352641582,
+      "learning_rate": 0.2827353441427974,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 8013920,
+      "step": 6170
+    },
+    {
+      "epoch": 0.30171255466249725,
+      "grad_norm": 0.004470922984182835,
+      "learning_rate": 0.2827078973967153,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 8020576,
+      "step": 6175
+    },
+    {
+      "epoch": 0.30195685632619157,
+      "grad_norm": 0.005556088872253895,
+      "learning_rate": 0.2826804301854078,
+      "loss": 0.1788,
+      "num_input_tokens_seen": 8027008,
+      "step": 6180
+    },
+    {
+      "epoch": 0.3022011579898859,
+      "grad_norm": 0.003629059996455908,
+      "learning_rate": 0.2826529425131105,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 8033696,
+      "step": 6185
+    },
+    {
+      "epoch": 0.3024454596535802,
+      "grad_norm": 0.006186873186379671,
+      "learning_rate": 0.2826254343840625,
+      "loss": 0.1617,
+      "num_input_tokens_seen": 8039808,
+      "step": 6190
+    },
+    {
+      "epoch": 0.3026897613172746,
+      "grad_norm": 0.004068624693900347,
+      "learning_rate": 0.2825979058025059,
+      "loss": 0.1383,
+      "num_input_tokens_seen": 8046208,
+      "step": 6195
+    },
+    {
+      "epoch": 0.3029340629809689,
+      "grad_norm": 0.002026492962613702,
+      "learning_rate": 0.2825703567726858,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 8052736,
+      "step": 6200
+    },
+    {
+      "epoch": 0.3029340629809689,
+      "eval_loss": 0.13456138968467712,
+      "eval_runtime": 402.2055,
+      "eval_samples_per_second": 90.464,
+      "eval_steps_per_second": 22.618,
+      "num_input_tokens_seen": 8052736,
+      "step": 6200
+    },
+    {
+      "epoch": 0.30317836464466325,
+      "grad_norm": 0.001919546746648848,
+      "learning_rate": 0.2825427872988508,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 8059104,
+      "step": 6205
+    },
+    {
+      "epoch": 0.30342266630835757,
+      "grad_norm": 0.0028260364197194576,
+      "learning_rate": 0.28251519738525227,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 8065280,
+      "step": 6210
+    },
+    {
+      "epoch": 0.3036669679720519,
+      "grad_norm": 0.0038642457220703363,
+      "learning_rate": 0.28248758703614507,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 8071808,
+      "step": 6215
+    },
+    {
+      "epoch": 0.3039112696357462,
+      "grad_norm": 0.002162781311199069,
+      "learning_rate": 0.28245995625578696,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 8078528,
+      "step": 6220
+    },
+    {
+      "epoch": 0.30415557129944054,
+      "grad_norm": 0.003990956116467714,
+      "learning_rate": 0.282432305048439,
+      "loss": 0.1777,
+      "num_input_tokens_seen": 8084800,
+      "step": 6225
+    },
+    {
+      "epoch": 0.30439987296313487,
+      "grad_norm": 0.003832306480035186,
+      "learning_rate": 0.28240463341836536,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 8091296,
+      "step": 6230
+    },
+    {
+      "epoch": 0.3046441746268292,
+      "grad_norm": 0.004154198337346315,
+      "learning_rate": 0.2823769413698334,
+      "loss": 0.1495,
+      "num_input_tokens_seen": 8097376,
+      "step": 6235
+    },
+    {
+      "epoch": 0.3048884762905235,
+      "grad_norm": 0.003754551289603114,
+      "learning_rate": 0.2823492289071135,
+      "loss": 0.146,
+      "num_input_tokens_seen": 8104128,
+      "step": 6240
+    },
+    {
+      "epoch": 0.3051327779542179,
+      "grad_norm": 0.002737839240580797,
+      "learning_rate": 0.2823214960344793,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 8110368,
+      "step": 6245
+    },
+    {
+      "epoch": 0.3053770796179122,
+      "grad_norm": 0.003031394677236676,
+      "learning_rate": 0.28229374275620756,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 8116704,
+      "step": 6250
+    },
+    {
+      "epoch": 0.30562138128160654,
+      "grad_norm": 0.0026930656749755144,
+      "learning_rate": 0.28226596907657814,
+      "loss": 0.1384,
+      "num_input_tokens_seen": 8123200,
+      "step": 6255
+    },
+    {
+      "epoch": 0.30586568294530087,
+      "grad_norm": 0.002657659351825714,
+      "learning_rate": 0.28223817499987414,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 8129440,
+      "step": 6260
+    },
+    {
+      "epoch": 0.3061099846089952,
+      "grad_norm": 0.0036364903207868338,
+      "learning_rate": 0.2822103605303818,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 8135968,
+      "step": 6265
+    },
+    {
+      "epoch": 0.3063542862726895,
+      "grad_norm": 0.00338316080160439,
+      "learning_rate": 0.2821825256723903,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 8142752,
+      "step": 6270
+    },
+    {
+      "epoch": 0.30659858793638384,
+      "grad_norm": 0.004045460373163223,
+      "learning_rate": 0.2821546704301923,
+      "loss": 0.1274,
+      "num_input_tokens_seen": 8148928,
+      "step": 6275
+    },
+    {
+      "epoch": 0.30684288960007816,
+      "grad_norm": 0.004249666351824999,
+      "learning_rate": 0.2821267948080834,
+      "loss": 0.1534,
+      "num_input_tokens_seen": 8155328,
+      "step": 6280
+    },
+    {
+      "epoch": 0.3070871912637725,
+      "grad_norm": 0.002140228869393468,
+      "learning_rate": 0.28209889881036226,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 8162080,
+      "step": 6285
+    },
+    {
+      "epoch": 0.3073314929274668,
+      "grad_norm": 0.0032928013242781162,
+      "learning_rate": 0.28207098244133094,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 8169184,
+      "step": 6290
+    },
+    {
+      "epoch": 0.3075757945911612,
+      "grad_norm": 0.00306359282694757,
+      "learning_rate": 0.2820430457052943,
+      "loss": 0.1393,
+      "num_input_tokens_seen": 8175680,
+      "step": 6295
+    },
+    {
+      "epoch": 0.3078200962548555,
+      "grad_norm": 0.003448140574619174,
+      "learning_rate": 0.28201508860656077,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 8182496,
+      "step": 6300
+    },
+    {
+      "epoch": 0.30806439791854984,
+      "grad_norm": 0.003530834335833788,
+      "learning_rate": 0.2819871111494415,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 8189088,
+      "step": 6305
+    },
+    {
+      "epoch": 0.30830869958224416,
+      "grad_norm": 0.006169646512717009,
+      "learning_rate": 0.28195911333825113,
+      "loss": 0.1471,
+      "num_input_tokens_seen": 8195776,
+      "step": 6310
+    },
+    {
+      "epoch": 0.3085530012459385,
+      "grad_norm": 0.005479929968714714,
+      "learning_rate": 0.28193109517730713,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 8202272,
+      "step": 6315
+    },
+    {
+      "epoch": 0.3087973029096328,
+      "grad_norm": 0.006138605996966362,
+      "learning_rate": 0.2819030566709303,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 8208640,
+      "step": 6320
+    },
+    {
+      "epoch": 0.30904160457332713,
+      "grad_norm": 0.005665651056915522,
+      "learning_rate": 0.2818749978234445,
+      "loss": 0.1585,
+      "num_input_tokens_seen": 8214944,
+      "step": 6325
+    },
+    {
+      "epoch": 0.30928590623702146,
+      "grad_norm": 0.002486680867150426,
+      "learning_rate": 0.2818469186391768,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 8221696,
+      "step": 6330
+    },
+    {
+      "epoch": 0.3095302079007158,
+      "grad_norm": 0.0024130044039338827,
+      "learning_rate": 0.28181881912245743,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 8227904,
+      "step": 6335
+    },
+    {
+      "epoch": 0.30977450956441016,
+      "grad_norm": 0.0032961054239422083,
+      "learning_rate": 0.2817906992776195,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 8234400,
+      "step": 6340
+    },
+    {
+      "epoch": 0.3100188112281045,
+      "grad_norm": 0.0020452190656214952,
+      "learning_rate": 0.28176255910899967,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 8241088,
+      "step": 6345
+    },
+    {
+      "epoch": 0.3102631128917988,
+      "grad_norm": 0.0029311918187886477,
+      "learning_rate": 0.2817343986209373,
+      "loss": 0.1415,
+      "num_input_tokens_seen": 8247136,
+      "step": 6350
+    },
+    {
+      "epoch": 0.31050741455549313,
+      "grad_norm": 0.00214764685370028,
+      "learning_rate": 0.2817062178177753,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 8253280,
+      "step": 6355
+    },
+    {
+      "epoch": 0.31075171621918746,
+      "grad_norm": 0.005673989187926054,
+      "learning_rate": 0.2816780167038593,
+      "loss": 0.1533,
+      "num_input_tokens_seen": 8259392,
+      "step": 6360
+    },
+    {
+      "epoch": 0.3109960178828818,
+      "grad_norm": 0.002737842034548521,
+      "learning_rate": 0.28164979528353834,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 8265920,
+      "step": 6365
+    },
+    {
+      "epoch": 0.3112403195465761,
+      "grad_norm": 0.004126700107008219,
+      "learning_rate": 0.28162155356116453,
+      "loss": 0.1431,
+      "num_input_tokens_seen": 8272960,
+      "step": 6370
+    },
+    {
+      "epoch": 0.31148462121027043,
+      "grad_norm": 0.0026592391077429056,
+      "learning_rate": 0.28159329154109314,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 8280000,
+      "step": 6375
+    },
+    {
+      "epoch": 0.31172892287396475,
+      "grad_norm": 0.0027857408858835697,
+      "learning_rate": 0.28156500922768246,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 8286144,
+      "step": 6380
+    },
+    {
+      "epoch": 0.3119732245376591,
+      "grad_norm": 0.0029285254422575235,
+      "learning_rate": 0.28153670662529406,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 8292320,
+      "step": 6385
+    },
+    {
+      "epoch": 0.31221752620135346,
+      "grad_norm": 0.003085540607571602,
+      "learning_rate": 0.28150838373829246,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 8298848,
+      "step": 6390
+    },
+    {
+      "epoch": 0.3124618278650478,
+      "grad_norm": 0.00454979483038187,
+      "learning_rate": 0.2814800405710455,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 8305120,
+      "step": 6395
+    },
+    {
+      "epoch": 0.3127061295287421,
+      "grad_norm": 0.002960595302283764,
+      "learning_rate": 0.2814516771279239,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 8311808,
+      "step": 6400
+    },
+    {
+      "epoch": 0.3127061295287421,
+      "eval_loss": 0.12723545730113983,
+      "eval_runtime": 402.8505,
+      "eval_samples_per_second": 90.319,
+      "eval_steps_per_second": 22.582,
+      "num_input_tokens_seen": 8311808,
+      "step": 6400
+    },
+    {
+      "epoch": 0.31295043119243643,
+      "grad_norm": 0.0027823520358651876,
+      "learning_rate": 0.28142329341330186,
+      "loss": 0.108,
+      "num_input_tokens_seen": 8317856,
+      "step": 6405
+    },
+    {
+      "epoch": 0.31319473285613075,
+      "grad_norm": 0.005752666387706995,
+      "learning_rate": 0.2813948894315564,
+      "loss": 0.134,
+      "num_input_tokens_seen": 8324608,
+      "step": 6410
+    },
+    {
+      "epoch": 0.3134390345198251,
+      "grad_norm": 0.0041052415035665035,
+      "learning_rate": 0.2813664651870677,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 8331456,
+      "step": 6415
+    },
+    {
+      "epoch": 0.3136833361835194,
+      "grad_norm": 0.005810683127492666,
+      "learning_rate": 0.28133802068421926,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 8337792,
+      "step": 6420
+    },
+    {
+      "epoch": 0.3139276378472137,
+      "grad_norm": 0.0058490317314863205,
+      "learning_rate": 0.28130955592739754,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 8344032,
+      "step": 6425
+    },
+    {
+      "epoch": 0.31417193951090805,
+      "grad_norm": 0.003976508043706417,
+      "learning_rate": 0.2812810709209922,
+      "loss": 0.1484,
+      "num_input_tokens_seen": 8350272,
+      "step": 6430
+    },
+    {
+      "epoch": 0.3144162411746024,
+      "grad_norm": 0.003760404186323285,
+      "learning_rate": 0.2812525656693959,
+      "loss": 0.1494,
+      "num_input_tokens_seen": 8357056,
+      "step": 6435
+    },
+    {
+      "epoch": 0.31466054283829675,
+      "grad_norm": 0.0017641382291913033,
+      "learning_rate": 0.28122404017700453,
+      "loss": 0.1448,
+      "num_input_tokens_seen": 8363360,
+      "step": 6440
+    },
+    {
+      "epoch": 0.3149048445019911,
+      "grad_norm": 0.001963495509698987,
+      "learning_rate": 0.2811954944482171,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 8370016,
+      "step": 6445
+    },
+    {
+      "epoch": 0.3151491461656854,
+      "grad_norm": 0.0031955870799720287,
+      "learning_rate": 0.2811669284874358,
+      "loss": 0.1492,
+      "num_input_tokens_seen": 8376128,
+      "step": 6450
+    },
+    {
+      "epoch": 0.3153934478293797,
+      "grad_norm": 0.0034956224262714386,
+      "learning_rate": 0.2811383422990657,
+      "loss": 0.1596,
+      "num_input_tokens_seen": 8382176,
+      "step": 6455
+    },
+    {
+      "epoch": 0.31563774949307405,
+      "grad_norm": 0.002924972213804722,
+      "learning_rate": 0.2811097358875152,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 8388512,
+      "step": 6460
+    },
+    {
+      "epoch": 0.3158820511567684,
+      "grad_norm": 0.0034850016236305237,
+      "learning_rate": 0.2810811092571959,
+      "loss": 0.1431,
+      "num_input_tokens_seen": 8394816,
+      "step": 6465
+    },
+    {
+      "epoch": 0.3161263528204627,
+      "grad_norm": 0.004422864411026239,
+      "learning_rate": 0.28105246241252224,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 8400800,
+      "step": 6470
+    },
+    {
+      "epoch": 0.316370654484157,
+      "grad_norm": 0.0020992918871343136,
+      "learning_rate": 0.28102379535791194,
+      "loss": 0.1349,
+      "num_input_tokens_seen": 8407072,
+      "step": 6475
+    },
+    {
+      "epoch": 0.31661495614785135,
+      "grad_norm": 0.0027320971712470055,
+      "learning_rate": 0.2809951080977859,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 8413632,
+      "step": 6480
+    },
+    {
+      "epoch": 0.31685925781154567,
+      "grad_norm": 0.0028902078047394753,
+      "learning_rate": 0.28096640063656797,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 8420128,
+      "step": 6485
+    },
+    {
+      "epoch": 0.31710355947524005,
+      "grad_norm": 0.003904265584424138,
+      "learning_rate": 0.2809376729786852,
+      "loss": 0.1252,
+      "num_input_tokens_seen": 8426816,
+      "step": 6490
+    },
+    {
+      "epoch": 0.3173478611389344,
+      "grad_norm": 0.0026544476859271526,
+      "learning_rate": 0.28090892512856785,
+      "loss": 0.1446,
+      "num_input_tokens_seen": 8433088,
+      "step": 6495
+    },
+    {
+      "epoch": 0.3175921628026287,
+      "grad_norm": 0.0025033163838088512,
+      "learning_rate": 0.2808801570906491,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 8439616,
+      "step": 6500
+    },
+    {
+      "epoch": 0.317836464466323,
+      "grad_norm": 0.0026304631028324366,
+      "learning_rate": 0.2808513688693654,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 8445952,
+      "step": 6505
+    },
+    {
+      "epoch": 0.31808076613001735,
+      "grad_norm": 0.002110283123329282,
+      "learning_rate": 0.28082256046915627,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 8451968,
+      "step": 6510
+    },
+    {
+      "epoch": 0.31832506779371167,
+      "grad_norm": 0.003970382269471884,
+      "learning_rate": 0.28079373189446427,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 8457984,
+      "step": 6515
+    },
+    {
+      "epoch": 0.318569369457406,
+      "grad_norm": 0.0051743267104029655,
+      "learning_rate": 0.28076488314973513,
+      "loss": 0.1499,
+      "num_input_tokens_seen": 8464288,
+      "step": 6520
+    },
+    {
+      "epoch": 0.3188136711211003,
+      "grad_norm": 0.0027670501731336117,
+      "learning_rate": 0.28073601423941774,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 8470656,
+      "step": 6525
+    },
+    {
+      "epoch": 0.31905797278479464,
+      "grad_norm": 0.004071767907589674,
+      "learning_rate": 0.28070712516796403,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 8476672,
+      "step": 6530
+    },
+    {
+      "epoch": 0.319302274448489,
+      "grad_norm": 0.003067601937800646,
+      "learning_rate": 0.28067821593982906,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 8483168,
+      "step": 6535
+    },
+    {
+      "epoch": 0.31954657611218334,
+      "grad_norm": 0.0034705260768532753,
+      "learning_rate": 0.28064928655947097,
+      "loss": 0.1457,
+      "num_input_tokens_seen": 8489472,
+      "step": 6540
+    },
+    {
+      "epoch": 0.31979087777587767,
+      "grad_norm": 0.0034792255610227585,
+      "learning_rate": 0.28062033703135103,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 8496256,
+      "step": 6545
+    },
+    {
+      "epoch": 0.320035179439572,
+      "grad_norm": 0.006296887062489986,
+      "learning_rate": 0.2805913673599337,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 8503744,
+      "step": 6550
+    },
+    {
+      "epoch": 0.3202794811032663,
+      "grad_norm": 0.0049893297255039215,
+      "learning_rate": 0.2805623775496864,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 8510560,
+      "step": 6555
+    },
+    {
+      "epoch": 0.32052378276696064,
+      "grad_norm": 0.002572352299466729,
+      "learning_rate": 0.2805333676050797,
+      "loss": 0.1277,
+      "num_input_tokens_seen": 8517344,
+      "step": 6560
+    },
+    {
+      "epoch": 0.32076808443065497,
+      "grad_norm": 0.0026679066941142082,
+      "learning_rate": 0.2805043375305873,
+      "loss": 0.1385,
+      "num_input_tokens_seen": 8523616,
+      "step": 6565
+    },
+    {
+      "epoch": 0.3210123860943493,
+      "grad_norm": 0.004374559968709946,
+      "learning_rate": 0.2804752873306861,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 8529920,
+      "step": 6570
+    },
+    {
+      "epoch": 0.3212566877580436,
+      "grad_norm": 0.003472002223134041,
+      "learning_rate": 0.2804462170098559,
+      "loss": 0.1337,
+      "num_input_tokens_seen": 8536160,
+      "step": 6575
+    },
+    {
+      "epoch": 0.32150098942173794,
+      "grad_norm": 0.005676683504134417,
+      "learning_rate": 0.2804171265725797,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 8542464,
+      "step": 6580
+    },
+    {
+      "epoch": 0.3217452910854323,
+      "grad_norm": 0.0032897561322897673,
+      "learning_rate": 0.28038801602334373,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 8548576,
+      "step": 6585
+    },
+    {
+      "epoch": 0.32198959274912664,
+      "grad_norm": 0.0029250297229737043,
+      "learning_rate": 0.28035888536663717,
+      "loss": 0.1303,
+      "num_input_tokens_seen": 8555552,
+      "step": 6590
+    },
+    {
+      "epoch": 0.32223389441282096,
+      "grad_norm": 0.002778823720291257,
+      "learning_rate": 0.2803297346069522,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 8562016,
+      "step": 6595
+    },
+    {
+      "epoch": 0.3224781960765153,
+      "grad_norm": 0.0030291143339127302,
+      "learning_rate": 0.28030056374878437,
+      "loss": 0.1323,
+      "num_input_tokens_seen": 8568416,
+      "step": 6600
+    },
+    {
+      "epoch": 0.3224781960765153,
+      "eval_loss": 0.13228586316108704,
+      "eval_runtime": 402.7949,
+      "eval_samples_per_second": 90.331,
+      "eval_steps_per_second": 22.585,
+      "num_input_tokens_seen": 8568416,
+      "step": 6600
+    },
+    {
+      "epoch": 0.3227224977402096,
+      "grad_norm": 0.003857929026708007,
+      "learning_rate": 0.2802713727966321,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 8574848,
+      "step": 6605
+    },
+    {
+      "epoch": 0.32296679940390394,
+      "grad_norm": 0.0035127669107168913,
+      "learning_rate": 0.28024216175499717,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 8581696,
+      "step": 6610
+    },
+    {
+      "epoch": 0.32321110106759826,
+      "grad_norm": 0.0031965940725058317,
+      "learning_rate": 0.2802129306283841,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 8588480,
+      "step": 6615
+    },
+    {
+      "epoch": 0.3234554027312926,
+      "grad_norm": 0.0021176966838538647,
+      "learning_rate": 0.28018367942130074,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 8595200,
+      "step": 6620
+    },
+    {
+      "epoch": 0.3236997043949869,
+      "grad_norm": 0.002701342338696122,
+      "learning_rate": 0.28015440813825804,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 8601824,
+      "step": 6625
+    },
+    {
+      "epoch": 0.32394400605868123,
+      "grad_norm": 0.0023307071533054113,
+      "learning_rate": 0.28012511678377006,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 8608320,
+      "step": 6630
+    },
+    {
+      "epoch": 0.3241883077223756,
+      "grad_norm": 0.0023747573141008615,
+      "learning_rate": 0.28009580536235373,
+      "loss": 0.093,
+      "num_input_tokens_seen": 8615552,
+      "step": 6635
+    },
+    {
+      "epoch": 0.32443260938606994,
+      "grad_norm": 0.004992429167032242,
+      "learning_rate": 0.28006647387852934,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 8622112,
+      "step": 6640
+    },
+    {
+      "epoch": 0.32467691104976426,
+      "grad_norm": 0.005166053306311369,
+      "learning_rate": 0.28003712233682015,
+      "loss": 0.1509,
+      "num_input_tokens_seen": 8628544,
+      "step": 6645
+    },
+    {
+      "epoch": 0.3249212127134586,
+      "grad_norm": 0.002472867490723729,
+      "learning_rate": 0.2800077507417526,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 8635200,
+      "step": 6650
+    },
+    {
+      "epoch": 0.3251655143771529,
+      "grad_norm": 0.001958477543666959,
+      "learning_rate": 0.2799783590978561,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 8641280,
+      "step": 6655
+    },
+    {
+      "epoch": 0.32540981604084723,
+      "grad_norm": 0.0031052096746861935,
+      "learning_rate": 0.2799489474096632,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 8648160,
+      "step": 6660
+    },
+    {
+      "epoch": 0.32565411770454156,
+      "grad_norm": 0.004212753847241402,
+      "learning_rate": 0.27991951568170953,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 8654400,
+      "step": 6665
+    },
+    {
+      "epoch": 0.3258984193682359,
+      "grad_norm": 0.003350746352225542,
+      "learning_rate": 0.2798900639185339,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 8661408,
+      "step": 6670
+    },
+    {
+      "epoch": 0.3261427210319302,
+      "grad_norm": 0.0028296762611716986,
+      "learning_rate": 0.2798605921246781,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 8667776,
+      "step": 6675
+    },
+    {
+      "epoch": 0.3263870226956246,
+      "grad_norm": 0.004757254384458065,
+      "learning_rate": 0.2798311003046871,
+      "loss": 0.1611,
+      "num_input_tokens_seen": 8674208,
+      "step": 6680
+    },
+    {
+      "epoch": 0.3266313243593189,
+      "grad_norm": 0.002534742932766676,
+      "learning_rate": 0.2798015884631089,
+      "loss": 0.1199,
+      "num_input_tokens_seen": 8680576,
+      "step": 6685
+    },
+    {
+      "epoch": 0.32687562602301323,
+      "grad_norm": 0.0013794016558676958,
+      "learning_rate": 0.27977205660449445,
+      "loss": 0.1617,
+      "num_input_tokens_seen": 8687360,
+      "step": 6690
+    },
+    {
+      "epoch": 0.32711992768670756,
+      "grad_norm": 0.0025193982291966677,
+      "learning_rate": 0.2797425047333981,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 8693728,
+      "step": 6695
+    },
+    {
+      "epoch": 0.3273642293504019,
+      "grad_norm": 0.0020046455319970846,
+      "learning_rate": 0.27971293285437715,
+      "loss": 0.1552,
+      "num_input_tokens_seen": 8700160,
+      "step": 6700
+    },
+    {
+      "epoch": 0.3276085310140962,
+      "grad_norm": 0.004626846872270107,
+      "learning_rate": 0.2796833409719918,
+      "loss": 0.1413,
+      "num_input_tokens_seen": 8706560,
+      "step": 6705
+    },
+    {
+      "epoch": 0.32785283267779053,
+      "grad_norm": 0.0019206784199923277,
+      "learning_rate": 0.27965372909080566,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 8712672,
+      "step": 6710
+    },
+    {
+      "epoch": 0.32809713434148485,
+      "grad_norm": 0.0028740086127072573,
+      "learning_rate": 0.27962409721538506,
+      "loss": 0.1532,
+      "num_input_tokens_seen": 8719584,
+      "step": 6715
+    },
+    {
+      "epoch": 0.3283414360051792,
+      "grad_norm": 0.0023436122573912144,
+      "learning_rate": 0.27959444535029976,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 8726688,
+      "step": 6720
+    },
+    {
+      "epoch": 0.3285857376688735,
+      "grad_norm": 0.0035289109218865633,
+      "learning_rate": 0.27956477350012243,
+      "loss": 0.1383,
+      "num_input_tokens_seen": 8733440,
+      "step": 6725
+    },
+    {
+      "epoch": 0.3288300393325679,
+      "grad_norm": 0.002691833768039942,
+      "learning_rate": 0.27953508166942875,
+      "loss": 0.1366,
+      "num_input_tokens_seen": 8739872,
+      "step": 6730
+    },
+    {
+      "epoch": 0.3290743409962622,
+      "grad_norm": 0.002394879935309291,
+      "learning_rate": 0.27950536986279767,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 8746528,
+      "step": 6735
+    },
+    {
+      "epoch": 0.32931864265995653,
+      "grad_norm": 0.0027530102524906397,
+      "learning_rate": 0.2794756380848111,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 8752864,
+      "step": 6740
+    },
+    {
+      "epoch": 0.32956294432365085,
+      "grad_norm": 0.002407361753284931,
+      "learning_rate": 0.279445886340054,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 8759744,
+      "step": 6745
+    },
+    {
+      "epoch": 0.3298072459873452,
+      "grad_norm": 0.00219430448487401,
+      "learning_rate": 0.27941611463311455,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 8765664,
+      "step": 6750
+    },
+    {
+      "epoch": 0.3300515476510395,
+      "grad_norm": 0.0032388358376920223,
+      "learning_rate": 0.2793863229685839,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 8771680,
+      "step": 6755
+    },
+    {
+      "epoch": 0.3302958493147338,
+      "grad_norm": 0.003104954957962036,
+      "learning_rate": 0.27935651135105627,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 8778528,
+      "step": 6760
+    },
+    {
+      "epoch": 0.33054015097842815,
+      "grad_norm": 0.003269845386967063,
+      "learning_rate": 0.279326679785129,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 8785088,
+      "step": 6765
+    },
+    {
+      "epoch": 0.3307844526421225,
+      "grad_norm": 0.0025573605671525,
+      "learning_rate": 0.2792968282754024,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 8791360,
+      "step": 6770
+    },
+    {
+      "epoch": 0.3310287543058168,
+      "grad_norm": 0.0029063464608043432,
+      "learning_rate": 0.2792669568264801,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 8797824,
+      "step": 6775
+    },
+    {
+      "epoch": 0.3312730559695112,
+      "grad_norm": 0.004732673522084951,
+      "learning_rate": 0.27923706544296856,
+      "loss": 0.151,
+      "num_input_tokens_seen": 8804160,
+      "step": 6780
+    },
+    {
+      "epoch": 0.3315173576332055,
+      "grad_norm": 0.0016730795614421368,
+      "learning_rate": 0.2792071541294775,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 8810848,
+      "step": 6785
+    },
+    {
+      "epoch": 0.3317616592968998,
+      "grad_norm": 0.004289437551051378,
+      "learning_rate": 0.27917722289061947,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 8817312,
+      "step": 6790
+    },
+    {
+      "epoch": 0.33200596096059415,
+      "grad_norm": 0.0034254351630806923,
+      "learning_rate": 0.27914727173101034,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 8824032,
+      "step": 6795
+    },
+    {
+      "epoch": 0.3322502626242885,
+      "grad_norm": 0.0019132319139316678,
+      "learning_rate": 0.279117300655269,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 8830400,
+      "step": 6800
+    },
+    {
+      "epoch": 0.3322502626242885,
+      "eval_loss": 0.13483087718486786,
+      "eval_runtime": 402.1516,
+      "eval_samples_per_second": 90.476,
+      "eval_steps_per_second": 22.621,
+      "num_input_tokens_seen": 8830400,
+      "step": 6800
+    },
+    {
+      "epoch": 0.3324945642879828,
+      "grad_norm": 0.002074110321700573,
+      "learning_rate": 0.2790873096680173,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 8836864,
+      "step": 6805
+    },
+    {
+      "epoch": 0.3327388659516771,
+      "grad_norm": 0.0020507483277469873,
+      "learning_rate": 0.2790572987738802,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 8843520,
+      "step": 6810
+    },
+    {
+      "epoch": 0.33298316761537144,
+      "grad_norm": 0.002114031696692109,
+      "learning_rate": 0.27902726797748584,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 8850016,
+      "step": 6815
+    },
+    {
+      "epoch": 0.33322746927906577,
+      "grad_norm": 0.004281722009181976,
+      "learning_rate": 0.2789972172834652,
+      "loss": 0.1199,
+      "num_input_tokens_seen": 8856384,
+      "step": 6820
+    },
+    {
+      "epoch": 0.3334717709427601,
+      "grad_norm": 0.0029327564407140017,
+      "learning_rate": 0.2789671466964527,
+      "loss": 0.1227,
+      "num_input_tokens_seen": 8863072,
+      "step": 6825
+    },
+    {
+      "epoch": 0.3337160726064545,
+      "grad_norm": 0.0031599407084286213,
+      "learning_rate": 0.2789370562210854,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 8869568,
+      "step": 6830
+    },
+    {
+      "epoch": 0.3339603742701488,
+      "grad_norm": 0.0016883196076378226,
+      "learning_rate": 0.27890694586200376,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 8876032,
+      "step": 6835
+    },
+    {
+      "epoch": 0.3342046759338431,
+      "grad_norm": 0.002406889805570245,
+      "learning_rate": 0.2788768156238511,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 8882208,
+      "step": 6840
+    },
+    {
+      "epoch": 0.33444897759753744,
+      "grad_norm": 0.001954546896740794,
+      "learning_rate": 0.27884666551127385,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 8888608,
+      "step": 6845
+    },
+    {
+      "epoch": 0.33469327926123177,
+      "grad_norm": 0.003744056448340416,
+      "learning_rate": 0.2788164955289217,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 8895872,
+      "step": 6850
+    },
+    {
+      "epoch": 0.3349375809249261,
+      "grad_norm": 0.002984281862154603,
+      "learning_rate": 0.27878630568144697,
+      "loss": 0.1425,
+      "num_input_tokens_seen": 8902496,
+      "step": 6855
+    },
+    {
+      "epoch": 0.3351818825886204,
+      "grad_norm": 0.002982716541737318,
+      "learning_rate": 0.2787560959735056,
+      "loss": 0.1342,
+      "num_input_tokens_seen": 8908832,
+      "step": 6860
+    },
+    {
+      "epoch": 0.33542618425231474,
+      "grad_norm": 0.0036153621040284634,
+      "learning_rate": 0.27872586640975616,
+      "loss": 0.1303,
+      "num_input_tokens_seen": 8915008,
+      "step": 6865
+    },
+    {
+      "epoch": 0.33567048591600906,
+      "grad_norm": 0.0032651619985699654,
+      "learning_rate": 0.27869561699486045,
+      "loss": 0.133,
+      "num_input_tokens_seen": 8920992,
+      "step": 6870
+    },
+    {
+      "epoch": 0.33591478757970344,
+      "grad_norm": 0.002830341923981905,
+      "learning_rate": 0.2786653477334833,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 8927744,
+      "step": 6875
+    },
+    {
+      "epoch": 0.33615908924339777,
+      "grad_norm": 0.001816625357605517,
+      "learning_rate": 0.2786350586302926,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 8934560,
+      "step": 6880
+    },
+    {
+      "epoch": 0.3364033909070921,
+      "grad_norm": 0.002336018718779087,
+      "learning_rate": 0.27860474968995935,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 8941344,
+      "step": 6885
+    },
+    {
+      "epoch": 0.3366476925707864,
+      "grad_norm": 0.0026598304975777864,
+      "learning_rate": 0.27857442091715756,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 8947936,
+      "step": 6890
+    },
+    {
+      "epoch": 0.33689199423448074,
+      "grad_norm": 0.002947137225419283,
+      "learning_rate": 0.27854407231656425,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 8955136,
+      "step": 6895
+    },
+    {
+      "epoch": 0.33713629589817506,
+      "grad_norm": 0.004111334681510925,
+      "learning_rate": 0.2785137038928596,
+      "loss": 0.1554,
+      "num_input_tokens_seen": 8961472,
+      "step": 6900
+    },
+    {
+      "epoch": 0.3373805975618694,
+      "grad_norm": 0.0020397789776325226,
+      "learning_rate": 0.27848331565072687,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 8967808,
+      "step": 6905
+    },
+    {
+      "epoch": 0.3376248992255637,
+      "grad_norm": 0.0017282790504395962,
+      "learning_rate": 0.27845290759485225,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 8974304,
+      "step": 6910
+    },
+    {
+      "epoch": 0.33786920088925804,
+      "grad_norm": 0.0027730048168450594,
+      "learning_rate": 0.278422479729925,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 8980928,
+      "step": 6915
+    },
+    {
+      "epoch": 0.33811350255295236,
+      "grad_norm": 0.0025923382490873337,
+      "learning_rate": 0.2783920320606375,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 8987264,
+      "step": 6920
+    },
+    {
+      "epoch": 0.33835780421664674,
+      "grad_norm": 0.002699461532756686,
+      "learning_rate": 0.2783615645916852,
+      "loss": 0.131,
+      "num_input_tokens_seen": 8993728,
+      "step": 6925
+    },
+    {
+      "epoch": 0.33860210588034106,
+      "grad_norm": 0.0019936533644795418,
+      "learning_rate": 0.2783310773277666,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 9000256,
+      "step": 6930
+    },
+    {
+      "epoch": 0.3388464075440354,
+      "grad_norm": 0.003877925453707576,
+      "learning_rate": 0.2783005702735831,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 9006752,
+      "step": 6935
+    },
+    {
+      "epoch": 0.3390907092077297,
+      "grad_norm": 0.0024562603794038296,
+      "learning_rate": 0.2782700434338394,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 9013856,
+      "step": 6940
+    },
+    {
+      "epoch": 0.33933501087142404,
+      "grad_norm": 0.002472254680469632,
+      "learning_rate": 0.278239496813243,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 9020128,
+      "step": 6945
+    },
+    {
+      "epoch": 0.33957931253511836,
+      "grad_norm": 0.004543050192296505,
+      "learning_rate": 0.27820893041650463,
+      "loss": 0.148,
+      "num_input_tokens_seen": 9026176,
+      "step": 6950
+    },
+    {
+      "epoch": 0.3398236141988127,
+      "grad_norm": 0.0013973558088764548,
+      "learning_rate": 0.27817834424833804,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 9032576,
+      "step": 6955
+    },
+    {
+      "epoch": 0.340067915862507,
+      "grad_norm": 0.0033213722053915262,
+      "learning_rate": 0.27814773831345996,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 9038752,
+      "step": 6960
+    },
+    {
+      "epoch": 0.34031221752620133,
+      "grad_norm": 0.0030946156475692987,
+      "learning_rate": 0.2781171126165902,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 9044960,
+      "step": 6965
+    },
+    {
+      "epoch": 0.34055651918989566,
+      "grad_norm": 0.00226924242451787,
+      "learning_rate": 0.2780864671624517,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 9051552,
+      "step": 6970
+    },
+    {
+      "epoch": 0.34080082085359004,
+      "grad_norm": 0.0022124694660305977,
+      "learning_rate": 0.27805580195577034,
+      "loss": 0.1384,
+      "num_input_tokens_seen": 9058048,
+      "step": 6975
+    },
+    {
+      "epoch": 0.34104512251728436,
+      "grad_norm": 0.0020963980350643396,
+      "learning_rate": 0.2780251170012751,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 9064480,
+      "step": 6980
+    },
+    {
+      "epoch": 0.3412894241809787,
+      "grad_norm": 0.0023328172974288464,
+      "learning_rate": 0.27799441230369787,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 9071488,
+      "step": 6985
+    },
+    {
+      "epoch": 0.341533725844673,
+      "grad_norm": 0.0028613926842808723,
+      "learning_rate": 0.27796368786777387,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 9077920,
+      "step": 6990
+    },
+    {
+      "epoch": 0.34177802750836733,
+      "grad_norm": 0.0030711647123098373,
+      "learning_rate": 0.277932943698241,
+      "loss": 0.1192,
+      "num_input_tokens_seen": 9084672,
+      "step": 6995
+    },
+    {
+      "epoch": 0.34202232917206166,
+      "grad_norm": 0.0021340837702155113,
+      "learning_rate": 0.2779021797998406,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 9091040,
+      "step": 7000
+    },
+    {
+      "epoch": 0.34202232917206166,
+      "eval_loss": 0.13825573027133942,
+      "eval_runtime": 402.6276,
+      "eval_samples_per_second": 90.369,
+      "eval_steps_per_second": 22.594,
+      "num_input_tokens_seen": 9091040,
+      "step": 7000
+    },
+    {
+      "epoch": 0.342266630835756,
+      "grad_norm": 0.0020070464815944433,
+      "learning_rate": 0.2778713961773167,
+      "loss": 0.1252,
+      "num_input_tokens_seen": 9097312,
+      "step": 7005
+    },
+    {
+      "epoch": 0.3425109324994503,
+      "grad_norm": 0.002990053268149495,
+      "learning_rate": 0.2778405928354166,
+      "loss": 0.1384,
+      "num_input_tokens_seen": 9104000,
+      "step": 7010
+    },
+    {
+      "epoch": 0.34275523416314463,
+      "grad_norm": 0.0025197495706379414,
+      "learning_rate": 0.27780976977889055,
+      "loss": 0.1132,
+      "num_input_tokens_seen": 9110304,
+      "step": 7015
+    },
+    {
+      "epoch": 0.342999535826839,
+      "grad_norm": 0.0026811507996171713,
+      "learning_rate": 0.27777892701249185,
+      "loss": 0.1422,
+      "num_input_tokens_seen": 9116736,
+      "step": 7020
+    },
+    {
+      "epoch": 0.34324383749053333,
+      "grad_norm": 0.0022911846172064543,
+      "learning_rate": 0.2777480645409768,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 9122912,
+      "step": 7025
+    },
+    {
+      "epoch": 0.34348813915422766,
+      "grad_norm": 0.0020218209829181433,
+      "learning_rate": 0.27771718236910486,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 9129440,
+      "step": 7030
+    },
+    {
+      "epoch": 0.343732440817922,
+      "grad_norm": 0.002343345433473587,
+      "learning_rate": 0.27768628050163835,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 9135712,
+      "step": 7035
+    },
+    {
+      "epoch": 0.3439767424816163,
+      "grad_norm": 0.0020744178909808397,
+      "learning_rate": 0.2776553589433428,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 9142528,
+      "step": 7040
+    },
+    {
+      "epoch": 0.34422104414531063,
+      "grad_norm": 0.0018253695452585816,
+      "learning_rate": 0.27762441769898666,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 9149472,
+      "step": 7045
+    },
+    {
+      "epoch": 0.34446534580900495,
+      "grad_norm": 0.002932059345766902,
+      "learning_rate": 0.2775934567733415,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 9155424,
+      "step": 7050
+    },
+    {
+      "epoch": 0.3447096474726993,
+      "grad_norm": 0.0030944638419896364,
+      "learning_rate": 0.2775624761711819,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 9162048,
+      "step": 7055
+    },
+    {
+      "epoch": 0.3449539491363936,
+      "grad_norm": 0.0038761920295655727,
+      "learning_rate": 0.2775314758972854,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 9169056,
+      "step": 7060
+    },
+    {
+      "epoch": 0.3451982508000879,
+      "grad_norm": 0.004873262252658606,
+      "learning_rate": 0.2775004559564327,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 9175424,
+      "step": 7065
+    },
+    {
+      "epoch": 0.3454425524637823,
+      "grad_norm": 0.005470145959407091,
+      "learning_rate": 0.2774694163534073,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 9181760,
+      "step": 7070
+    },
+    {
+      "epoch": 0.34568685412747663,
+      "grad_norm": 0.0030831668991595507,
+      "learning_rate": 0.27743835709299614,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 9188832,
+      "step": 7075
+    },
+    {
+      "epoch": 0.34593115579117095,
+      "grad_norm": 0.0026301895268261433,
+      "learning_rate": 0.2774072781799888,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 9194912,
+      "step": 7080
+    },
+    {
+      "epoch": 0.3461754574548653,
+      "grad_norm": 0.0018515140982344747,
+      "learning_rate": 0.27737617961917804,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 9201376,
+      "step": 7085
+    },
+    {
+      "epoch": 0.3464197591185596,
+      "grad_norm": 0.003136067185550928,
+      "learning_rate": 0.27734506141535964,
+      "loss": 0.141,
+      "num_input_tokens_seen": 9207840,
+      "step": 7090
+    },
+    {
+      "epoch": 0.3466640607822539,
+      "grad_norm": 0.003513040952384472,
+      "learning_rate": 0.2773139235733325,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 9214400,
+      "step": 7095
+    },
+    {
+      "epoch": 0.34690836244594825,
+      "grad_norm": 0.0034298195969313383,
+      "learning_rate": 0.2772827660978984,
+      "loss": 0.1325,
+      "num_input_tokens_seen": 9220768,
+      "step": 7100
+    },
+    {
+      "epoch": 0.3471526641096426,
+      "grad_norm": 0.0019972212612628937,
+      "learning_rate": 0.27725158899386226,
+      "loss": 0.1359,
+      "num_input_tokens_seen": 9227296,
+      "step": 7105
+    },
+    {
+      "epoch": 0.3473969657733369,
+      "grad_norm": 0.0017573405057191849,
+      "learning_rate": 0.27722039226603196,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 9233856,
+      "step": 7110
+    },
+    {
+      "epoch": 0.3476412674370312,
+      "grad_norm": 0.0026236565317958593,
+      "learning_rate": 0.2771891759192184,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 9239936,
+      "step": 7115
+    },
+    {
+      "epoch": 0.3478855691007256,
+      "grad_norm": 0.0025627072900533676,
+      "learning_rate": 0.2771579399582355,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 9246048,
+      "step": 7120
+    },
+    {
+      "epoch": 0.3481298707644199,
+      "grad_norm": 0.001962937880307436,
+      "learning_rate": 0.2771266843879004,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 9252288,
+      "step": 7125
+    },
+    {
+      "epoch": 0.34837417242811425,
+      "grad_norm": 0.0029408582486212254,
+      "learning_rate": 0.2770954092130329,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 9259520,
+      "step": 7130
+    },
+    {
+      "epoch": 0.3486184740918086,
+      "grad_norm": 0.003723337547853589,
+      "learning_rate": 0.27706411443845613,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 9265952,
+      "step": 7135
+    },
+    {
+      "epoch": 0.3488627757555029,
+      "grad_norm": 0.002133642788976431,
+      "learning_rate": 0.27703280006899617,
+      "loss": 0.129,
+      "num_input_tokens_seen": 9272096,
+      "step": 7140
+    },
+    {
+      "epoch": 0.3491070774191972,
+      "grad_norm": 0.002142610028386116,
+      "learning_rate": 0.277001466109482,
+      "loss": 0.1127,
+      "num_input_tokens_seen": 9278944,
+      "step": 7145
+    },
+    {
+      "epoch": 0.34935137908289154,
+      "grad_norm": 0.0030007169116288424,
+      "learning_rate": 0.2769701125647458,
+      "loss": 0.1229,
+      "num_input_tokens_seen": 9284992,
+      "step": 7150
+    },
+    {
+      "epoch": 0.34959568074658587,
+      "grad_norm": 0.002040762919932604,
+      "learning_rate": 0.27693873943962266,
+      "loss": 0.139,
+      "num_input_tokens_seen": 9291520,
+      "step": 7155
+    },
+    {
+      "epoch": 0.3498399824102802,
+      "grad_norm": 0.0024778342340141535,
+      "learning_rate": 0.2769073467389506,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 9298080,
+      "step": 7160
+    },
+    {
+      "epoch": 0.3500842840739745,
+      "grad_norm": 0.003192250384017825,
+      "learning_rate": 0.2768759344675709,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 9304192,
+      "step": 7165
+    },
+    {
+      "epoch": 0.3503285857376689,
+      "grad_norm": 0.002263388829305768,
+      "learning_rate": 0.27684450263032767,
+      "loss": 0.1467,
+      "num_input_tokens_seen": 9310528,
+      "step": 7170
+    },
+    {
+      "epoch": 0.3505728874013632,
+      "grad_norm": 0.005418370943516493,
+      "learning_rate": 0.2768130512320682,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 9317408,
+      "step": 7175
+    },
+    {
+      "epoch": 0.35081718906505754,
+      "grad_norm": 0.00346702104434371,
+      "learning_rate": 0.27678158027764244,
+      "loss": 0.1232,
+      "num_input_tokens_seen": 9324000,
+      "step": 7180
+    },
+    {
+      "epoch": 0.35106149072875187,
+      "grad_norm": 0.0037332396022975445,
+      "learning_rate": 0.27675008977190385,
+      "loss": 0.1444,
+      "num_input_tokens_seen": 9330368,
+      "step": 7185
+    },
+    {
+      "epoch": 0.3513057923924462,
+      "grad_norm": 0.003154112258926034,
+      "learning_rate": 0.2767185797197086,
+      "loss": 0.154,
+      "num_input_tokens_seen": 9336640,
+      "step": 7190
+    },
+    {
+      "epoch": 0.3515500940561405,
+      "grad_norm": 0.002642940729856491,
+      "learning_rate": 0.2766870501259159,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 9343392,
+      "step": 7195
+    },
+    {
+      "epoch": 0.35179439571983484,
+      "grad_norm": 0.002797856228426099,
+      "learning_rate": 0.276655500995388,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 9350272,
+      "step": 7200
+    },
+    {
+      "epoch": 0.35179439571983484,
+      "eval_loss": 0.12421122193336487,
+      "eval_runtime": 402.5806,
+      "eval_samples_per_second": 90.379,
+      "eval_steps_per_second": 22.597,
+      "num_input_tokens_seen": 9350272,
+      "step": 7200
+    },
+    {
+      "epoch": 0.35203869738352916,
+      "grad_norm": 0.0037258495576679707,
+      "learning_rate": 0.27662393233299015,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 9356576,
+      "step": 7205
+    },
+    {
+      "epoch": 0.3522829990472235,
+      "grad_norm": 0.0012894674437120557,
+      "learning_rate": 0.27659234414359074,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 9362848,
+      "step": 7210
+    },
+    {
+      "epoch": 0.35252730071091787,
+      "grad_norm": 0.004474330227822065,
+      "learning_rate": 0.27656073643206097,
+      "loss": 0.1455,
+      "num_input_tokens_seen": 9369472,
+      "step": 7215
+    },
+    {
+      "epoch": 0.3527716023746122,
+      "grad_norm": 0.003992806188762188,
+      "learning_rate": 0.27652910920327517,
+      "loss": 0.1515,
+      "num_input_tokens_seen": 9375360,
+      "step": 7220
+    },
+    {
+      "epoch": 0.3530159040383065,
+      "grad_norm": 0.0019338426645845175,
+      "learning_rate": 0.2764974624621107,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 9382720,
+      "step": 7225
+    },
+    {
+      "epoch": 0.35326020570200084,
+      "grad_norm": 0.001319100265391171,
+      "learning_rate": 0.2764657962134479,
+      "loss": 0.118,
+      "num_input_tokens_seen": 9389440,
+      "step": 7230
+    },
+    {
+      "epoch": 0.35350450736569516,
+      "grad_norm": 0.0017002467066049576,
+      "learning_rate": 0.27643411046217,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 9395520,
+      "step": 7235
+    },
+    {
+      "epoch": 0.3537488090293895,
+      "grad_norm": 0.0022162024397403,
+      "learning_rate": 0.27640240521316334,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 9401536,
+      "step": 7240
+    },
+    {
+      "epoch": 0.3539931106930838,
+      "grad_norm": 0.0027015635278075933,
+      "learning_rate": 0.2763706804713174,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 9408320,
+      "step": 7245
+    },
+    {
+      "epoch": 0.35423741235677814,
+      "grad_norm": 0.006211508996784687,
+      "learning_rate": 0.2763389362415245,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 9414688,
+      "step": 7250
+    },
+    {
+      "epoch": 0.35448171402047246,
+      "grad_norm": 0.0029202771838754416,
+      "learning_rate": 0.27630717252867987,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 9421536,
+      "step": 7255
+    },
+    {
+      "epoch": 0.3547260156841668,
+      "grad_norm": 0.004890897776931524,
+      "learning_rate": 0.276275389337682,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 9428032,
+      "step": 7260
+    },
+    {
+      "epoch": 0.35497031734786116,
+      "grad_norm": 0.0025375005789101124,
+      "learning_rate": 0.2762435866734322,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 9434272,
+      "step": 7265
+    },
+    {
+      "epoch": 0.3552146190115555,
+      "grad_norm": 0.0022274095099419355,
+      "learning_rate": 0.27621176454083485,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 9440768,
+      "step": 7270
+    },
+    {
+      "epoch": 0.3554589206752498,
+      "grad_norm": 0.0022265261504799128,
+      "learning_rate": 0.2761799229447973,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 9447328,
+      "step": 7275
+    },
+    {
+      "epoch": 0.35570322233894414,
+      "grad_norm": 0.00170320610050112,
+      "learning_rate": 0.27614806189023006,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 9454112,
+      "step": 7280
+    },
+    {
+      "epoch": 0.35594752400263846,
+      "grad_norm": 0.0032757704611867666,
+      "learning_rate": 0.27611618138204636,
+      "loss": 0.1362,
+      "num_input_tokens_seen": 9460224,
+      "step": 7285
+    },
+    {
+      "epoch": 0.3561918256663328,
+      "grad_norm": 0.003963279537856579,
+      "learning_rate": 0.2760842814251626,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 9466848,
+      "step": 7290
+    },
+    {
+      "epoch": 0.3564361273300271,
+      "grad_norm": 0.002555412007495761,
+      "learning_rate": 0.2760523620244982,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 9473536,
+      "step": 7295
+    },
+    {
+      "epoch": 0.35668042899372143,
+      "grad_norm": 0.0031811888329684734,
+      "learning_rate": 0.27602042318497544,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 9480352,
+      "step": 7300
+    },
+    {
+      "epoch": 0.35692473065741576,
+      "grad_norm": 0.0031037565786391497,
+      "learning_rate": 0.2759884649115198,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 9486656,
+      "step": 7305
+    },
+    {
+      "epoch": 0.3571690323211101,
+      "grad_norm": 0.0025446456857025623,
+      "learning_rate": 0.2759564872090596,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 9493280,
+      "step": 7310
+    },
+    {
+      "epoch": 0.35741333398480446,
+      "grad_norm": 0.0013413686538115144,
+      "learning_rate": 0.2759244900825262,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 9499616,
+      "step": 7315
+    },
+    {
+      "epoch": 0.3576576356484988,
+      "grad_norm": 0.0012052926467731595,
+      "learning_rate": 0.2758924735368539,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 9506432,
+      "step": 7320
+    },
+    {
+      "epoch": 0.3579019373121931,
+      "grad_norm": 0.0024893563240766525,
+      "learning_rate": 0.27586043757698014,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 9512608,
+      "step": 7325
+    },
+    {
+      "epoch": 0.35814623897588743,
+      "grad_norm": 0.0016121219377964735,
+      "learning_rate": 0.27582838220784534,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 9519104,
+      "step": 7330
+    },
+    {
+      "epoch": 0.35839054063958176,
+      "grad_norm": 0.002062853192910552,
+      "learning_rate": 0.27579630743439265,
+      "loss": 0.1462,
+      "num_input_tokens_seen": 9525760,
+      "step": 7335
+    },
+    {
+      "epoch": 0.3586348423032761,
+      "grad_norm": 0.001982499612495303,
+      "learning_rate": 0.2757642132615686,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 9531616,
+      "step": 7340
+    },
+    {
+      "epoch": 0.3588791439669704,
+      "grad_norm": 0.0015609990805387497,
+      "learning_rate": 0.2757320996943223,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 9538016,
+      "step": 7345
+    },
+    {
+      "epoch": 0.35912344563066473,
+      "grad_norm": 0.0017122182762250304,
+      "learning_rate": 0.2756999667376062,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 9544352,
+      "step": 7350
+    },
+    {
+      "epoch": 0.35936774729435905,
+      "grad_norm": 0.003573786234483123,
+      "learning_rate": 0.2756678143963756,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 9550816,
+      "step": 7355
+    },
+    {
+      "epoch": 0.35961204895805343,
+      "grad_norm": 0.002491450635716319,
+      "learning_rate": 0.2756356426755888,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 9557152,
+      "step": 7360
+    },
+    {
+      "epoch": 0.35985635062174776,
+      "grad_norm": 0.0039031612686812878,
+      "learning_rate": 0.27560345158020705,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 9563872,
+      "step": 7365
+    },
+    {
+      "epoch": 0.3601006522854421,
+      "grad_norm": 0.0012882878072559834,
+      "learning_rate": 0.27557124111519465,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 9570464,
+      "step": 7370
+    },
+    {
+      "epoch": 0.3603449539491364,
+      "grad_norm": 0.0020206118933856487,
+      "learning_rate": 0.27553901128551883,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 9576864,
+      "step": 7375
+    },
+    {
+      "epoch": 0.36058925561283073,
+      "grad_norm": 0.003871061373502016,
+      "learning_rate": 0.2755067620961498,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 9583616,
+      "step": 7380
+    },
+    {
+      "epoch": 0.36083355727652505,
+      "grad_norm": 0.0046318829990923405,
+      "learning_rate": 0.27547449355206094,
+      "loss": 0.139,
+      "num_input_tokens_seen": 9590048,
+      "step": 7385
+    },
+    {
+      "epoch": 0.3610778589402194,
+      "grad_norm": 0.001114042941480875,
+      "learning_rate": 0.2754422056582283,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 9596480,
+      "step": 7390
+    },
+    {
+      "epoch": 0.3613221606039137,
+      "grad_norm": 0.001184022519737482,
+      "learning_rate": 0.27540989841963115,
+      "loss": 0.1367,
+      "num_input_tokens_seen": 9602880,
+      "step": 7395
+    },
+    {
+      "epoch": 0.361566462267608,
+      "grad_norm": 0.0028406954370439053,
+      "learning_rate": 0.27537757184125167,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 9609312,
+      "step": 7400
+    },
+    {
+      "epoch": 0.361566462267608,
+      "eval_loss": 0.12593118846416473,
+      "eval_runtime": 402.4141,
+      "eval_samples_per_second": 90.417,
+      "eval_steps_per_second": 22.606,
+      "num_input_tokens_seen": 9609312,
+      "step": 7400
+    },
+    {
+      "epoch": 0.36181076393130235,
+      "grad_norm": 0.002168842125684023,
+      "learning_rate": 0.275345225928075,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 9615360,
+      "step": 7405
+    },
+    {
+      "epoch": 0.36205506559499673,
+      "grad_norm": 0.001848980668000877,
+      "learning_rate": 0.2753128606850893,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 9621888,
+      "step": 7410
+    },
+    {
+      "epoch": 0.36229936725869105,
+      "grad_norm": 0.0023958648089319468,
+      "learning_rate": 0.2752804761172858,
+      "loss": 0.1395,
+      "num_input_tokens_seen": 9628384,
+      "step": 7415
+    },
+    {
+      "epoch": 0.3625436689223854,
+      "grad_norm": 0.003298250027000904,
+      "learning_rate": 0.27524807222965836,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 9634816,
+      "step": 7420
+    },
+    {
+      "epoch": 0.3627879705860797,
+      "grad_norm": 0.0025726526509970427,
+      "learning_rate": 0.27521564902720436,
+      "loss": 0.1641,
+      "num_input_tokens_seen": 9640800,
+      "step": 7425
+    },
+    {
+      "epoch": 0.363032272249774,
+      "grad_norm": 0.002160405507311225,
+      "learning_rate": 0.2751832065149236,
+      "loss": 0.1274,
+      "num_input_tokens_seen": 9646944,
+      "step": 7430
+    },
+    {
+      "epoch": 0.36327657391346835,
+      "grad_norm": 0.0016923682997003198,
+      "learning_rate": 0.2751507446978193,
+      "loss": 0.11,
+      "num_input_tokens_seen": 9653760,
+      "step": 7435
+    },
+    {
+      "epoch": 0.36352087557716267,
+      "grad_norm": 0.003916827496141195,
+      "learning_rate": 0.2751182635808974,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 9660480,
+      "step": 7440
+    },
+    {
+      "epoch": 0.363765177240857,
+      "grad_norm": 0.002783439354971051,
+      "learning_rate": 0.27508576316916694,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 9666752,
+      "step": 7445
+    },
+    {
+      "epoch": 0.3640094789045513,
+      "grad_norm": 0.002857765182852745,
+      "learning_rate": 0.2750532434676399,
+      "loss": 0.1342,
+      "num_input_tokens_seen": 9673312,
+      "step": 7450
+    },
+    {
+      "epoch": 0.36425378056824564,
+      "grad_norm": 0.0019760369323194027,
+      "learning_rate": 0.27502070448133115,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 9679872,
+      "step": 7455
+    },
+    {
+      "epoch": 0.36449808223194,
+      "grad_norm": 0.0021007279865443707,
+      "learning_rate": 0.2749881462152587,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 9686560,
+      "step": 7460
+    },
+    {
+      "epoch": 0.36474238389563435,
+      "grad_norm": 0.0031044352799654007,
+      "learning_rate": 0.2749555686744434,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 9693056,
+      "step": 7465
+    },
+    {
+      "epoch": 0.36498668555932867,
+      "grad_norm": 0.0025338432751595974,
+      "learning_rate": 0.2749229718639091,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 9699264,
+      "step": 7470
+    },
+    {
+      "epoch": 0.365230987223023,
+      "grad_norm": 0.002642212901264429,
+      "learning_rate": 0.27489035578868265,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 9705472,
+      "step": 7475
+    },
+    {
+      "epoch": 0.3654752888867173,
+      "grad_norm": 0.001850885571911931,
+      "learning_rate": 0.2748577204537939,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 9712672,
+      "step": 7480
+    },
+    {
+      "epoch": 0.36571959055041164,
+      "grad_norm": 0.002320363186299801,
+      "learning_rate": 0.2748250658642756,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 9719200,
+      "step": 7485
+    },
+    {
+      "epoch": 0.36596389221410597,
+      "grad_norm": 0.0018324661068618298,
+      "learning_rate": 0.2747923920251634,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 9725696,
+      "step": 7490
+    },
+    {
+      "epoch": 0.3662081938778003,
+      "grad_norm": 0.0020671100355684757,
+      "learning_rate": 0.27475969894149627,
+      "loss": 0.1487,
+      "num_input_tokens_seen": 9732064,
+      "step": 7495
+    },
+    {
+      "epoch": 0.3664524955414946,
+      "grad_norm": 0.003149796277284622,
+      "learning_rate": 0.2747269866183156,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 9738432,
+      "step": 7500
+    },
+    {
+      "epoch": 0.36669679720518894,
+      "grad_norm": 0.0016423652414232492,
+      "learning_rate": 0.27469425506066625,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 9744832,
+      "step": 7505
+    },
+    {
+      "epoch": 0.3669410988688833,
+      "grad_norm": 0.0013490989804267883,
+      "learning_rate": 0.27466150427359576,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 9751616,
+      "step": 7510
+    },
+    {
+      "epoch": 0.36718540053257764,
+      "grad_norm": 0.0018916231347247958,
+      "learning_rate": 0.2746287342621547,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 9758176,
+      "step": 7515
+    },
+    {
+      "epoch": 0.36742970219627197,
+      "grad_norm": 0.002810888923704624,
+      "learning_rate": 0.2745959450313966,
+      "loss": 0.134,
+      "num_input_tokens_seen": 9764672,
+      "step": 7520
+    },
+    {
+      "epoch": 0.3676740038599663,
+      "grad_norm": 0.0015303079271689057,
+      "learning_rate": 0.27456313658637804,
+      "loss": 0.1362,
+      "num_input_tokens_seen": 9770880,
+      "step": 7525
+    },
+    {
+      "epoch": 0.3679183055236606,
+      "grad_norm": 0.0012582441559061408,
+      "learning_rate": 0.27453030893215846,
+      "loss": 0.1246,
+      "num_input_tokens_seen": 9777152,
+      "step": 7530
+    },
+    {
+      "epoch": 0.36816260718735494,
+      "grad_norm": 0.0030383856501430273,
+      "learning_rate": 0.2744974620738003,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 9783680,
+      "step": 7535
+    },
+    {
+      "epoch": 0.36840690885104926,
+      "grad_norm": 0.0019713121000677347,
+      "learning_rate": 0.27446459601636897,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 9790240,
+      "step": 7540
+    },
+    {
+      "epoch": 0.3686512105147436,
+      "grad_norm": 0.002882863860577345,
+      "learning_rate": 0.2744317107649328,
+      "loss": 0.1401,
+      "num_input_tokens_seen": 9796576,
+      "step": 7545
+    },
+    {
+      "epoch": 0.3688955121784379,
+      "grad_norm": 0.0025806433986872435,
+      "learning_rate": 0.2743988063245631,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 9802944,
+      "step": 7550
+    },
+    {
+      "epoch": 0.3691398138421323,
+      "grad_norm": 0.0023907723370939493,
+      "learning_rate": 0.2743658827003342,
+      "loss": 0.1328,
+      "num_input_tokens_seen": 9809760,
+      "step": 7555
+    },
+    {
+      "epoch": 0.3693841155058266,
+      "grad_norm": 0.001974572893232107,
+      "learning_rate": 0.27433293989732327,
+      "loss": 0.1,
+      "num_input_tokens_seen": 9816224,
+      "step": 7560
+    },
+    {
+      "epoch": 0.36962841716952094,
+      "grad_norm": 0.00442466652020812,
+      "learning_rate": 0.27429997792061056,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 9822400,
+      "step": 7565
+    },
+    {
+      "epoch": 0.36987271883321526,
+      "grad_norm": 0.003477678168565035,
+      "learning_rate": 0.27426699677527927,
+      "loss": 0.1528,
+      "num_input_tokens_seen": 9829248,
+      "step": 7570
+    },
+    {
+      "epoch": 0.3701170204969096,
+      "grad_norm": 0.0020294233690947294,
+      "learning_rate": 0.2742339964664154,
+      "loss": 0.109,
+      "num_input_tokens_seen": 9835328,
+      "step": 7575
+    },
+    {
+      "epoch": 0.3703613221606039,
+      "grad_norm": 0.00445043807849288,
+      "learning_rate": 0.274200976999108,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 9841952,
+      "step": 7580
+    },
+    {
+      "epoch": 0.37060562382429824,
+      "grad_norm": 0.003106245305389166,
+      "learning_rate": 0.27416793837844916,
+      "loss": 0.1322,
+      "num_input_tokens_seen": 9848576,
+      "step": 7585
+    },
+    {
+      "epoch": 0.37084992548799256,
+      "grad_norm": 0.0021511248778551817,
+      "learning_rate": 0.27413488060953384,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 9854880,
+      "step": 7590
+    },
+    {
+      "epoch": 0.3710942271516869,
+      "grad_norm": 0.0020999989937990904,
+      "learning_rate": 0.27410180369745996,
+      "loss": 0.1348,
+      "num_input_tokens_seen": 9861088,
+      "step": 7595
+    },
+    {
+      "epoch": 0.3713385288153812,
+      "grad_norm": 0.003084902884438634,
+      "learning_rate": 0.27406870764732844,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 9867648,
+      "step": 7600
+    },
+    {
+      "epoch": 0.3713385288153812,
+      "eval_loss": 0.12342973798513412,
+      "eval_runtime": 401.8699,
+      "eval_samples_per_second": 90.539,
+      "eval_steps_per_second": 22.637,
+      "num_input_tokens_seen": 9867648,
+      "step": 7600
+    },
+    {
+      "epoch": 0.3715828304790756,
+      "grad_norm": 0.002049222821369767,
+      "learning_rate": 0.27403559246424297,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 9873856,
+      "step": 7605
+    },
+    {
+      "epoch": 0.3718271321427699,
+      "grad_norm": 0.002550648059695959,
+      "learning_rate": 0.2740024581533105,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 9880352,
+      "step": 7610
+    },
+    {
+      "epoch": 0.37207143380646424,
+      "grad_norm": 0.002044799504801631,
+      "learning_rate": 0.2739693047196406,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 9886848,
+      "step": 7615
+    },
+    {
+      "epoch": 0.37231573547015856,
+      "grad_norm": 0.0017144574085250497,
+      "learning_rate": 0.27393613216834606,
+      "loss": 0.125,
+      "num_input_tokens_seen": 9893408,
+      "step": 7620
+    },
+    {
+      "epoch": 0.3725600371338529,
+      "grad_norm": 0.0018377610249444842,
+      "learning_rate": 0.2739029405045424,
+      "loss": 0.14,
+      "num_input_tokens_seen": 9899968,
+      "step": 7625
+    },
+    {
+      "epoch": 0.3728043387975472,
+      "grad_norm": 0.0013830572133883834,
+      "learning_rate": 0.2738697297333483,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 9906752,
+      "step": 7630
+    },
+    {
+      "epoch": 0.37304864046124153,
+      "grad_norm": 0.001437742030248046,
+      "learning_rate": 0.2738364998598852,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 9913632,
+      "step": 7635
+    },
+    {
+      "epoch": 0.37329294212493586,
+      "grad_norm": 0.0018899746937677264,
+      "learning_rate": 0.27380325088927765,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 9920128,
+      "step": 7640
+    },
+    {
+      "epoch": 0.3735372437886302,
+      "grad_norm": 0.0019836081191897392,
+      "learning_rate": 0.27376998282665294,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 9926496,
+      "step": 7645
+    },
+    {
+      "epoch": 0.3737815454523245,
+      "grad_norm": 0.003316993825137615,
+      "learning_rate": 0.27373669567714154,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 9932960,
+      "step": 7650
+    },
+    {
+      "epoch": 0.3740258471160189,
+      "grad_norm": 0.0021188054233789444,
+      "learning_rate": 0.27370338944587663,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 9939424,
+      "step": 7655
+    },
+    {
+      "epoch": 0.3742701487797132,
+      "grad_norm": 0.0017606158507987857,
+      "learning_rate": 0.27367006413799455,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 9946400,
+      "step": 7660
+    },
+    {
+      "epoch": 0.37451445044340753,
+      "grad_norm": 0.002127890009433031,
+      "learning_rate": 0.2736367197586345,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 9952736,
+      "step": 7665
+    },
+    {
+      "epoch": 0.37475875210710186,
+      "grad_norm": 0.0016976326005533338,
+      "learning_rate": 0.2736033563129385,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 9958816,
+      "step": 7670
+    },
+    {
+      "epoch": 0.3750030537707962,
+      "grad_norm": 0.001550232875160873,
+      "learning_rate": 0.27356997380605164,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 9965504,
+      "step": 7675
+    },
+    {
+      "epoch": 0.3752473554344905,
+      "grad_norm": 0.001709447824396193,
+      "learning_rate": 0.27353657224312194,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 9971680,
+      "step": 7680
+    },
+    {
+      "epoch": 0.37549165709818483,
+      "grad_norm": 0.002377287019044161,
+      "learning_rate": 0.2735031516293004,
+      "loss": 0.1459,
+      "num_input_tokens_seen": 9978080,
+      "step": 7685
+    },
+    {
+      "epoch": 0.37573595876187915,
+      "grad_norm": 0.002683205297216773,
+      "learning_rate": 0.2734697119697408,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 9984672,
+      "step": 7690
+    },
+    {
+      "epoch": 0.3759802604255735,
+      "grad_norm": 0.0023123316932469606,
+      "learning_rate": 0.27343625326959997,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 9991136,
+      "step": 7695
+    },
+    {
+      "epoch": 0.37622456208926786,
+      "grad_norm": 0.002695098053663969,
+      "learning_rate": 0.27340277553403775,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 9997632,
+      "step": 7700
+    },
+    {
+      "epoch": 0.3764688637529622,
+      "grad_norm": 0.0032365666702389717,
+      "learning_rate": 0.2733692787682167,
+      "loss": 0.1309,
+      "num_input_tokens_seen": 10004544,
+      "step": 7705
+    },
+    {
+      "epoch": 0.3767131654166565,
+      "grad_norm": 0.00205387850292027,
+      "learning_rate": 0.27333576297730255,
+      "loss": 0.11,
+      "num_input_tokens_seen": 10011200,
+      "step": 7710
+    },
+    {
+      "epoch": 0.3769574670803508,
+      "grad_norm": 0.002847490832209587,
+      "learning_rate": 0.2733022281664638,
+      "loss": 0.145,
+      "num_input_tokens_seen": 10017504,
+      "step": 7715
+    },
+    {
+      "epoch": 0.37720176874404515,
+      "grad_norm": 0.002164345933124423,
+      "learning_rate": 0.273268674340872,
+      "loss": 0.117,
+      "num_input_tokens_seen": 10023456,
+      "step": 7720
+    },
+    {
+      "epoch": 0.3774460704077395,
+      "grad_norm": 0.0023255778942257166,
+      "learning_rate": 0.27323510150570146,
+      "loss": 0.09,
+      "num_input_tokens_seen": 10030464,
+      "step": 7725
+    },
+    {
+      "epoch": 0.3776903720714338,
+      "grad_norm": 0.001770451315678656,
+      "learning_rate": 0.27320150966612966,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 10037120,
+      "step": 7730
+    },
+    {
+      "epoch": 0.3779346737351281,
+      "grad_norm": 0.002065513748675585,
+      "learning_rate": 0.2731678988273368,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 10043520,
+      "step": 7735
+    },
+    {
+      "epoch": 0.37817897539882245,
+      "grad_norm": 0.0013571828603744507,
+      "learning_rate": 0.27313426899450605,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 10049728,
+      "step": 7740
+    },
+    {
+      "epoch": 0.37842327706251677,
+      "grad_norm": 0.003530866000801325,
+      "learning_rate": 0.27310062017282366,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 10056064,
+      "step": 7745
+    },
+    {
+      "epoch": 0.37866757872621115,
+      "grad_norm": 0.0037026498466730118,
+      "learning_rate": 0.2730669523674787,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 10062464,
+      "step": 7750
+    },
+    {
+      "epoch": 0.3789118803899055,
+      "grad_norm": 0.002494010142982006,
+      "learning_rate": 0.2730332655836631,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 10068896,
+      "step": 7755
+    },
+    {
+      "epoch": 0.3791561820535998,
+      "grad_norm": 0.0017692589899525046,
+      "learning_rate": 0.2729995598265718,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 10075872,
+      "step": 7760
+    },
+    {
+      "epoch": 0.3794004837172941,
+      "grad_norm": 0.0025179972872138023,
+      "learning_rate": 0.2729658351014027,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 10083104,
+      "step": 7765
+    },
+    {
+      "epoch": 0.37964478538098845,
+      "grad_norm": 0.0023394147865474224,
+      "learning_rate": 0.27293209141335656,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 10089408,
+      "step": 7770
+    },
+    {
+      "epoch": 0.37988908704468277,
+      "grad_norm": 0.0016096326289698482,
+      "learning_rate": 0.27289832876763703,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 10095488,
+      "step": 7775
+    },
+    {
+      "epoch": 0.3801333887083771,
+      "grad_norm": 0.0031759506091475487,
+      "learning_rate": 0.27286454716945074,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 10101856,
+      "step": 7780
+    },
+    {
+      "epoch": 0.3803776903720714,
+      "grad_norm": 0.0037635029293596745,
+      "learning_rate": 0.27283074662400725,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 10108320,
+      "step": 7785
+    },
+    {
+      "epoch": 0.38062199203576574,
+      "grad_norm": 0.0024070325307548046,
+      "learning_rate": 0.2727969271365191,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 10114496,
+      "step": 7790
+    },
+    {
+      "epoch": 0.38086629369946007,
+      "grad_norm": 0.0031683300621807575,
+      "learning_rate": 0.2727630887122016,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 10120768,
+      "step": 7795
+    },
+    {
+      "epoch": 0.38111059536315445,
+      "grad_norm": 0.004189035389572382,
+      "learning_rate": 0.27272923135627314,
+      "loss": 0.1238,
+      "num_input_tokens_seen": 10127328,
+      "step": 7800
+    },
+    {
+      "epoch": 0.38111059536315445,
+      "eval_loss": 0.12052765488624573,
+      "eval_runtime": 401.9088,
+      "eval_samples_per_second": 90.53,
+      "eval_steps_per_second": 22.634,
+      "num_input_tokens_seen": 10127328,
+      "step": 7800
+    },
+    {
+      "epoch": 0.38135489702684877,
+      "grad_norm": 0.0017912487965077162,
+      "learning_rate": 0.2726953550739548,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 10133760,
+      "step": 7805
+    },
+    {
+      "epoch": 0.3815991986905431,
+      "grad_norm": 0.003177400678396225,
+      "learning_rate": 0.27266145987047086,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 10140480,
+      "step": 7810
+    },
+    {
+      "epoch": 0.3818435003542374,
+      "grad_norm": 0.0019356351112946868,
+      "learning_rate": 0.27262754575104836,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 10147264,
+      "step": 7815
+    },
+    {
+      "epoch": 0.38208780201793174,
+      "grad_norm": 0.002727528801187873,
+      "learning_rate": 0.27259361272091726,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 10153728,
+      "step": 7820
+    },
+    {
+      "epoch": 0.38233210368162607,
+      "grad_norm": 0.0027826414443552494,
+      "learning_rate": 0.27255966078531046,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 10160288,
+      "step": 7825
+    },
+    {
+      "epoch": 0.3825764053453204,
+      "grad_norm": 0.0013036481104791164,
+      "learning_rate": 0.2725256899494638,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 10166848,
+      "step": 7830
+    },
+    {
+      "epoch": 0.3828207070090147,
+      "grad_norm": 0.0029509614687412977,
+      "learning_rate": 0.272491700218616,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 10173632,
+      "step": 7835
+    },
+    {
+      "epoch": 0.38306500867270904,
+      "grad_norm": 0.0055826581083238125,
+      "learning_rate": 0.27245769159800876,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 10180096,
+      "step": 7840
+    },
+    {
+      "epoch": 0.38330931033640336,
+      "grad_norm": 0.0023483007680624723,
+      "learning_rate": 0.2724236640928865,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 10186528,
+      "step": 7845
+    },
+    {
+      "epoch": 0.38355361200009774,
+      "grad_norm": 0.0012781292898580432,
+      "learning_rate": 0.27238961770849673,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 10192992,
+      "step": 7850
+    },
+    {
+      "epoch": 0.38379791366379207,
+      "grad_norm": 0.0013371494133025408,
+      "learning_rate": 0.27235555245008997,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 10198784,
+      "step": 7855
+    },
+    {
+      "epoch": 0.3840422153274864,
+      "grad_norm": 0.001777885016053915,
+      "learning_rate": 0.2723214683229193,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 10205344,
+      "step": 7860
+    },
+    {
+      "epoch": 0.3842865169911807,
+      "grad_norm": 0.0031794551759958267,
+      "learning_rate": 0.27228736533224107,
+      "loss": 0.1604,
+      "num_input_tokens_seen": 10211840,
+      "step": 7865
+    },
+    {
+      "epoch": 0.38453081865487504,
+      "grad_norm": 0.001560469507239759,
+      "learning_rate": 0.27225324348331437,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 10218496,
+      "step": 7870
+    },
+    {
+      "epoch": 0.38477512031856936,
+      "grad_norm": 0.0014136170502752066,
+      "learning_rate": 0.27221910278140116,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 10225248,
+      "step": 7875
+    },
+    {
+      "epoch": 0.3850194219822637,
+      "grad_norm": 0.0013797241263091564,
+      "learning_rate": 0.2721849432317664,
+      "loss": 0.149,
+      "num_input_tokens_seen": 10231808,
+      "step": 7880
+    },
+    {
+      "epoch": 0.385263723645958,
+      "grad_norm": 0.001923521631397307,
+      "learning_rate": 0.2721507648396779,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 10238176,
+      "step": 7885
+    },
+    {
+      "epoch": 0.38550802530965234,
+      "grad_norm": 0.002184925600886345,
+      "learning_rate": 0.27211656761040653,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 10244704,
+      "step": 7890
+    },
+    {
+      "epoch": 0.3857523269733467,
+      "grad_norm": 0.0019107665866613388,
+      "learning_rate": 0.2720823515492257,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 10250688,
+      "step": 7895
+    },
+    {
+      "epoch": 0.38599662863704104,
+      "grad_norm": 0.0020972401835024357,
+      "learning_rate": 0.27204811666141215,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 10257088,
+      "step": 7900
+    },
+    {
+      "epoch": 0.38624093030073536,
+      "grad_norm": 0.0020473720505833626,
+      "learning_rate": 0.2720138629522452,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 10263488,
+      "step": 7905
+    },
+    {
+      "epoch": 0.3864852319644297,
+      "grad_norm": 0.004475435707718134,
+      "learning_rate": 0.2719795904270073,
+      "loss": 0.1203,
+      "num_input_tokens_seen": 10269984,
+      "step": 7910
+    },
+    {
+      "epoch": 0.386729533628124,
+      "grad_norm": 0.002370283240452409,
+      "learning_rate": 0.2719452990909837,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 10276576,
+      "step": 7915
+    },
+    {
+      "epoch": 0.38697383529181834,
+      "grad_norm": 0.001713331090286374,
+      "learning_rate": 0.2719109889494625,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 10282656,
+      "step": 7920
+    },
+    {
+      "epoch": 0.38721813695551266,
+      "grad_norm": 0.003303506877273321,
+      "learning_rate": 0.27187666000773475,
+      "loss": 0.13,
+      "num_input_tokens_seen": 10288992,
+      "step": 7925
+    },
+    {
+      "epoch": 0.387462438619207,
+      "grad_norm": 0.0024179660249501467,
+      "learning_rate": 0.2718423122710944,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 10295232,
+      "step": 7930
+    },
+    {
+      "epoch": 0.3877067402829013,
+      "grad_norm": 0.003044150536879897,
+      "learning_rate": 0.2718079457448384,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 10301920,
+      "step": 7935
+    },
+    {
+      "epoch": 0.38795104194659563,
+      "grad_norm": 0.0022416480351239443,
+      "learning_rate": 0.27177356043426637,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 10307712,
+      "step": 7940
+    },
+    {
+      "epoch": 0.38819534361029,
+      "grad_norm": 0.004101255442947149,
+      "learning_rate": 0.27173915634468104,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 10314112,
+      "step": 7945
+    },
+    {
+      "epoch": 0.38843964527398434,
+      "grad_norm": 0.0017383542144671082,
+      "learning_rate": 0.27170473348138796,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 10320608,
+      "step": 7950
+    },
+    {
+      "epoch": 0.38868394693767866,
+      "grad_norm": 0.0025607720017433167,
+      "learning_rate": 0.27167029184969554,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 10326848,
+      "step": 7955
+    },
+    {
+      "epoch": 0.388928248601373,
+      "grad_norm": 0.0018131325487047434,
+      "learning_rate": 0.27163583145491504,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 10332864,
+      "step": 7960
+    },
+    {
+      "epoch": 0.3891725502650673,
+      "grad_norm": 0.0018715865444391966,
+      "learning_rate": 0.2716013523023608,
+      "loss": 0.1287,
+      "num_input_tokens_seen": 10339008,
+      "step": 7965
+    },
+    {
+      "epoch": 0.38941685192876163,
+      "grad_norm": 0.0015323760453611612,
+      "learning_rate": 0.27156685439734995,
+      "loss": 0.125,
+      "num_input_tokens_seen": 10345504,
+      "step": 7970
+    },
+    {
+      "epoch": 0.38966115359245596,
+      "grad_norm": 0.001849826192483306,
+      "learning_rate": 0.2715323377452024,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 10352064,
+      "step": 7975
+    },
+    {
+      "epoch": 0.3899054552561503,
+      "grad_norm": 0.002213564934208989,
+      "learning_rate": 0.2714978023512411,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 10358496,
+      "step": 7980
+    },
+    {
+      "epoch": 0.3901497569198446,
+      "grad_norm": 0.0031396602280437946,
+      "learning_rate": 0.2714632482207918,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 10364864,
+      "step": 7985
+    },
+    {
+      "epoch": 0.3903940585835389,
+      "grad_norm": 0.0021937869023531675,
+      "learning_rate": 0.2714286753591833,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 10371264,
+      "step": 7990
+    },
+    {
+      "epoch": 0.3906383602472333,
+      "grad_norm": 0.0027515850961208344,
+      "learning_rate": 0.27139408377174706,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 10377568,
+      "step": 7995
+    },
+    {
+      "epoch": 0.39088266191092763,
+      "grad_norm": 0.0016413168050348759,
+      "learning_rate": 0.27135947346381756,
+      "loss": 0.1282,
+      "num_input_tokens_seen": 10383808,
+      "step": 8000
+    },
+    {
+      "epoch": 0.39088266191092763,
+      "eval_loss": 0.12104450166225433,
+      "eval_runtime": 402.7819,
+      "eval_samples_per_second": 90.334,
+      "eval_steps_per_second": 22.585,
+      "num_input_tokens_seen": 10383808,
+      "step": 8000
+    },
+    {
+      "epoch": 0.39112696357462196,
+      "grad_norm": 0.0020676685962826014,
+      "learning_rate": 0.2713248444407322,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 10390048,
+      "step": 8005
+    },
+    {
+      "epoch": 0.3913712652383163,
+      "grad_norm": 0.0018032853258773685,
+      "learning_rate": 0.27129019670783106,
+      "loss": 0.101,
+      "num_input_tokens_seen": 10397248,
+      "step": 8010
+    },
+    {
+      "epoch": 0.3916155669020106,
+      "grad_norm": 0.0027258743066340685,
+      "learning_rate": 0.27125553027045746,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 10404224,
+      "step": 8015
+    },
+    {
+      "epoch": 0.3918598685657049,
+      "grad_norm": 0.0026562896091490984,
+      "learning_rate": 0.2712208451339572,
+      "loss": 0.1323,
+      "num_input_tokens_seen": 10410272,
+      "step": 8020
+    },
+    {
+      "epoch": 0.39210417022939925,
+      "grad_norm": 0.002526727970689535,
+      "learning_rate": 0.27118614130367935,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 10416320,
+      "step": 8025
+    },
+    {
+      "epoch": 0.3923484718930936,
+      "grad_norm": 0.002498963614925742,
+      "learning_rate": 0.2711514187849756,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 10422912,
+      "step": 8030
+    },
+    {
+      "epoch": 0.3925927735567879,
+      "grad_norm": 0.002390380948781967,
+      "learning_rate": 0.27111667758320057,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 10429664,
+      "step": 8035
+    },
+    {
+      "epoch": 0.3928370752204823,
+      "grad_norm": 0.0020587944891303778,
+      "learning_rate": 0.27108191770371176,
+      "loss": 0.1125,
+      "num_input_tokens_seen": 10436224,
+      "step": 8040
+    },
+    {
+      "epoch": 0.3930813768841766,
+      "grad_norm": 0.003427353221923113,
+      "learning_rate": 0.2710471391518697,
+      "loss": 0.1474,
+      "num_input_tokens_seen": 10443168,
+      "step": 8045
+    },
+    {
+      "epoch": 0.3933256785478709,
+      "grad_norm": 0.0015256068436428905,
+      "learning_rate": 0.2710123419330375,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 10449600,
+      "step": 8050
+    },
+    {
+      "epoch": 0.39356998021156525,
+      "grad_norm": 0.0013021731283515692,
+      "learning_rate": 0.2709775260525816,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 10455968,
+      "step": 8055
+    },
+    {
+      "epoch": 0.3938142818752596,
+      "grad_norm": 0.0019237123196944594,
+      "learning_rate": 0.27094269151587075,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 10462592,
+      "step": 8060
+    },
+    {
+      "epoch": 0.3940585835389539,
+      "grad_norm": 0.0025090433191508055,
+      "learning_rate": 0.27090783832827703,
+      "loss": 0.113,
+      "num_input_tokens_seen": 10469024,
+      "step": 8065
+    },
+    {
+      "epoch": 0.3943028852026482,
+      "grad_norm": 0.002161596203222871,
+      "learning_rate": 0.2708729664951753,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 10476320,
+      "step": 8070
+    },
+    {
+      "epoch": 0.39454718686634255,
+      "grad_norm": 0.0038104259874671698,
+      "learning_rate": 0.27083807602194304,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 10482976,
+      "step": 8075
+    },
+    {
+      "epoch": 0.39479148853003687,
+      "grad_norm": 0.002516265958547592,
+      "learning_rate": 0.270803166913961,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 10489632,
+      "step": 8080
+    },
+    {
+      "epoch": 0.3950357901937312,
+      "grad_norm": 0.0021680137142539024,
+      "learning_rate": 0.27076823917661247,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 10496000,
+      "step": 8085
+    },
+    {
+      "epoch": 0.3952800918574256,
+      "grad_norm": 0.0038401037454605103,
+      "learning_rate": 0.2707332928152838,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 10502208,
+      "step": 8090
+    },
+    {
+      "epoch": 0.3955243935211199,
+      "grad_norm": 0.0021904471796005964,
+      "learning_rate": 0.2706983278353641,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 10508544,
+      "step": 8095
+    },
+    {
+      "epoch": 0.3957686951848142,
+      "grad_norm": 0.00478410767391324,
+      "learning_rate": 0.27066334424224553,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 10514752,
+      "step": 8100
+    },
+    {
+      "epoch": 0.39601299684850855,
+      "grad_norm": 0.0024337219074368477,
+      "learning_rate": 0.27062834204132297,
+      "loss": 0.1443,
+      "num_input_tokens_seen": 10520992,
+      "step": 8105
+    },
+    {
+      "epoch": 0.39625729851220287,
+      "grad_norm": 0.0015252643497660756,
+      "learning_rate": 0.27059332123799407,
+      "loss": 0.1535,
+      "num_input_tokens_seen": 10527456,
+      "step": 8110
+    },
+    {
+      "epoch": 0.3965016001758972,
+      "grad_norm": 0.001838701544329524,
+      "learning_rate": 0.27055828183765956,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 10534080,
+      "step": 8115
+    },
+    {
+      "epoch": 0.3967459018395915,
+      "grad_norm": 0.0026454380713403225,
+      "learning_rate": 0.270523223845723,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 10540576,
+      "step": 8120
+    },
+    {
+      "epoch": 0.39699020350328584,
+      "grad_norm": 0.0025884921196848154,
+      "learning_rate": 0.2704881472675907,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 10547392,
+      "step": 8125
+    },
+    {
+      "epoch": 0.39723450516698017,
+      "grad_norm": 0.0027118995785713196,
+      "learning_rate": 0.270453052108672,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 10553632,
+      "step": 8130
+    },
+    {
+      "epoch": 0.3974788068306745,
+      "grad_norm": 0.002633922267705202,
+      "learning_rate": 0.2704179383743789,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 10560064,
+      "step": 8135
+    },
+    {
+      "epoch": 0.39772310849436887,
+      "grad_norm": 0.002194406231865287,
+      "learning_rate": 0.27038280607012644,
+      "loss": 0.1246,
+      "num_input_tokens_seen": 10566944,
+      "step": 8140
+    },
+    {
+      "epoch": 0.3979674101580632,
+      "grad_norm": 0.002468876773491502,
+      "learning_rate": 0.27034765520133247,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 10572992,
+      "step": 8145
+    },
+    {
+      "epoch": 0.3982117118217575,
+      "grad_norm": 0.001767450012266636,
+      "learning_rate": 0.2703124857734177,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 10579104,
+      "step": 8150
+    },
+    {
+      "epoch": 0.39845601348545184,
+      "grad_norm": 0.0026503901463001966,
+      "learning_rate": 0.27027729779180565,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 10585248,
+      "step": 8155
+    },
+    {
+      "epoch": 0.39870031514914617,
+      "grad_norm": 0.0027843150310218334,
+      "learning_rate": 0.27024209126192283,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 10592256,
+      "step": 8160
+    },
+    {
+      "epoch": 0.3989446168128405,
+      "grad_norm": 0.002124324906617403,
+      "learning_rate": 0.2702068661891984,
+      "loss": 0.1274,
+      "num_input_tokens_seen": 10598720,
+      "step": 8165
+    },
+    {
+      "epoch": 0.3991889184765348,
+      "grad_norm": 0.0013394440757110715,
+      "learning_rate": 0.2701716225790647,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 10605856,
+      "step": 8170
+    },
+    {
+      "epoch": 0.39943322014022914,
+      "grad_norm": 0.0027202204801142216,
+      "learning_rate": 0.27013636043695655,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 10612256,
+      "step": 8175
+    },
+    {
+      "epoch": 0.39967752180392346,
+      "grad_norm": 0.004821546841412783,
+      "learning_rate": 0.27010107976831194,
+      "loss": 0.1568,
+      "num_input_tokens_seen": 10618144,
+      "step": 8180
+    },
+    {
+      "epoch": 0.3999218234676178,
+      "grad_norm": 0.0021518918219953775,
+      "learning_rate": 0.2700657805785715,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 10624192,
+      "step": 8185
+    },
+    {
+      "epoch": 0.40016612513131217,
+      "grad_norm": 0.0015377324307337403,
+      "learning_rate": 0.2700304628731789,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 10630816,
+      "step": 8190
+    },
+    {
+      "epoch": 0.4004104267950065,
+      "grad_norm": 0.002189243445172906,
+      "learning_rate": 0.26999512665758046,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 10637088,
+      "step": 8195
+    },
+    {
+      "epoch": 0.4006547284587008,
+      "grad_norm": 0.0031488381791859865,
+      "learning_rate": 0.2699597719372256,
+      "loss": 0.1402,
+      "num_input_tokens_seen": 10643424,
+      "step": 8200
+    },
+    {
+      "epoch": 0.4006547284587008,
+      "eval_loss": 0.1194489598274231,
+      "eval_runtime": 402.2335,
+      "eval_samples_per_second": 90.457,
+      "eval_steps_per_second": 22.616,
+      "num_input_tokens_seen": 10643424,
+      "step": 8200
+    },
+    {
+      "epoch": 0.40089903012239514,
+      "grad_norm": 0.0015146147925406694,
+      "learning_rate": 0.26992439871756635,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 10650144,
+      "step": 8205
+    },
+    {
+      "epoch": 0.40114333178608946,
+      "grad_norm": 0.002002829685807228,
+      "learning_rate": 0.2698890070040578,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 10656544,
+      "step": 8210
+    },
+    {
+      "epoch": 0.4013876334497838,
+      "grad_norm": 0.0029545146971940994,
+      "learning_rate": 0.2698535968021577,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 10663040,
+      "step": 8215
+    },
+    {
+      "epoch": 0.4016319351134781,
+      "grad_norm": 0.002086552092805505,
+      "learning_rate": 0.26981816811732684,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 10669280,
+      "step": 8220
+    },
+    {
+      "epoch": 0.40187623677717244,
+      "grad_norm": 0.003230522619560361,
+      "learning_rate": 0.26978272095502875,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 10675552,
+      "step": 8225
+    },
+    {
+      "epoch": 0.40212053844086676,
+      "grad_norm": 0.003049519145861268,
+      "learning_rate": 0.26974725532072974,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 10681792,
+      "step": 8230
+    },
+    {
+      "epoch": 0.40236484010456114,
+      "grad_norm": 0.0014684071065858006,
+      "learning_rate": 0.26971177121989914,
+      "loss": 0.114,
+      "num_input_tokens_seen": 10688320,
+      "step": 8235
+    },
+    {
+      "epoch": 0.40260914176825546,
+      "grad_norm": 0.0020681116729974747,
+      "learning_rate": 0.2696762686580091,
+      "loss": 0.141,
+      "num_input_tokens_seen": 10694112,
+      "step": 8240
+    },
+    {
+      "epoch": 0.4028534434319498,
+      "grad_norm": 0.002046123845502734,
+      "learning_rate": 0.26964074764053436,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 10700288,
+      "step": 8245
+    },
+    {
+      "epoch": 0.4030977450956441,
+      "grad_norm": 0.0015810613986104727,
+      "learning_rate": 0.2696052081729529,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 10706720,
+      "step": 8250
+    },
+    {
+      "epoch": 0.40334204675933844,
+      "grad_norm": 0.002118562115356326,
+      "learning_rate": 0.2695696502607453,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 10713440,
+      "step": 8255
+    },
+    {
+      "epoch": 0.40358634842303276,
+      "grad_norm": 0.002548815682530403,
+      "learning_rate": 0.26953407390939504,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 10720128,
+      "step": 8260
+    },
+    {
+      "epoch": 0.4038306500867271,
+      "grad_norm": 0.0017595704412087798,
+      "learning_rate": 0.26949847912438835,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 10726272,
+      "step": 8265
+    },
+    {
+      "epoch": 0.4040749517504214,
+      "grad_norm": 0.0017366640968248248,
+      "learning_rate": 0.26946286591121454,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 10732192,
+      "step": 8270
+    },
+    {
+      "epoch": 0.40431925341411573,
+      "grad_norm": 0.001920292736031115,
+      "learning_rate": 0.2694272342753655,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 10738272,
+      "step": 8275
+    },
+    {
+      "epoch": 0.40456355507781006,
+      "grad_norm": 0.001016492722555995,
+      "learning_rate": 0.26939158422233617,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 10745088,
+      "step": 8280
+    },
+    {
+      "epoch": 0.40480785674150443,
+      "grad_norm": 0.0018402293790131807,
+      "learning_rate": 0.26935591575762413,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 10751456,
+      "step": 8285
+    },
+    {
+      "epoch": 0.40505215840519876,
+      "grad_norm": 0.00346456584520638,
+      "learning_rate": 0.26932022888672996,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 10758016,
+      "step": 8290
+    },
+    {
+      "epoch": 0.4052964600688931,
+      "grad_norm": 0.002272997749969363,
+      "learning_rate": 0.26928452361515703,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 10764064,
+      "step": 8295
+    },
+    {
+      "epoch": 0.4055407617325874,
+      "grad_norm": 0.0017569845076650381,
+      "learning_rate": 0.26924879994841155,
+      "loss": 0.1509,
+      "num_input_tokens_seen": 10770400,
+      "step": 8300
+    },
+    {
+      "epoch": 0.40578506339628173,
+      "grad_norm": 0.0019188195001333952,
+      "learning_rate": 0.2692130578920025,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 10777312,
+      "step": 8305
+    },
+    {
+      "epoch": 0.40602936505997606,
+      "grad_norm": 0.0031161285005509853,
+      "learning_rate": 0.26917729745144187,
+      "loss": 0.1285,
+      "num_input_tokens_seen": 10783840,
+      "step": 8310
+    },
+    {
+      "epoch": 0.4062736667236704,
+      "grad_norm": 0.0011725384974852204,
+      "learning_rate": 0.2691415186322443,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 10790272,
+      "step": 8315
+    },
+    {
+      "epoch": 0.4065179683873647,
+      "grad_norm": 0.0026635429821908474,
+      "learning_rate": 0.2691057214399273,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 10796320,
+      "step": 8320
+    },
+    {
+      "epoch": 0.406762270051059,
+      "grad_norm": 0.0012246649712324142,
+      "learning_rate": 0.2690699058800113,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 10803072,
+      "step": 8325
+    },
+    {
+      "epoch": 0.40700657171475335,
+      "grad_norm": 0.0015835892409086227,
+      "learning_rate": 0.2690340719580194,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 10809856,
+      "step": 8330
+    },
+    {
+      "epoch": 0.40725087337844773,
+      "grad_norm": 0.002570734592154622,
+      "learning_rate": 0.2689982196794778,
+      "loss": 0.1337,
+      "num_input_tokens_seen": 10816064,
+      "step": 8335
+    },
+    {
+      "epoch": 0.40749517504214205,
+      "grad_norm": 0.0028382979799062014,
+      "learning_rate": 0.2689623490499153,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 10822976,
+      "step": 8340
+    },
+    {
+      "epoch": 0.4077394767058364,
+      "grad_norm": 0.0019881308544427156,
+      "learning_rate": 0.2689264600748636,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 10829312,
+      "step": 8345
+    },
+    {
+      "epoch": 0.4079837783695307,
+      "grad_norm": 0.00104097172152251,
+      "learning_rate": 0.26889055275985724,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 10835584,
+      "step": 8350
+    },
+    {
+      "epoch": 0.408228080033225,
+      "grad_norm": 0.0011896246578544378,
+      "learning_rate": 0.2688546271104335,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 10842272,
+      "step": 8355
+    },
+    {
+      "epoch": 0.40847238169691935,
+      "grad_norm": 0.001988227479159832,
+      "learning_rate": 0.26881868313213275,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 10848576,
+      "step": 8360
+    },
+    {
+      "epoch": 0.4087166833606137,
+      "grad_norm": 0.0028741061687469482,
+      "learning_rate": 0.2687827208304978,
+      "loss": 0.1311,
+      "num_input_tokens_seen": 10856064,
+      "step": 8365
+    },
+    {
+      "epoch": 0.408960985024308,
+      "grad_norm": 0.0017674355767667294,
+      "learning_rate": 0.26874674021107464,
+      "loss": 0.112,
+      "num_input_tokens_seen": 10863008,
+      "step": 8370
+    },
+    {
+      "epoch": 0.4092052866880023,
+      "grad_norm": 0.0017061857506632805,
+      "learning_rate": 0.2687107412794118,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 10869568,
+      "step": 8375
+    },
+    {
+      "epoch": 0.4094495883516967,
+      "grad_norm": 0.0016132640885189176,
+      "learning_rate": 0.26867472404106096,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 10876064,
+      "step": 8380
+    },
+    {
+      "epoch": 0.409693890015391,
+      "grad_norm": 0.003455166006460786,
+      "learning_rate": 0.26863868850157624,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 10882656,
+      "step": 8385
+    },
+    {
+      "epoch": 0.40993819167908535,
+      "grad_norm": 0.0037914991844445467,
+      "learning_rate": 0.26860263466651485,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 10888832,
+      "step": 8390
+    },
+    {
+      "epoch": 0.4101824933427797,
+      "grad_norm": 0.003106464399024844,
+      "learning_rate": 0.26856656254143674,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 10895328,
+      "step": 8395
+    },
+    {
+      "epoch": 0.410426795006474,
+      "grad_norm": 0.002832240192219615,
+      "learning_rate": 0.2685304721319047,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 10901760,
+      "step": 8400
+    },
+    {
+      "epoch": 0.410426795006474,
+      "eval_loss": 0.1417899876832962,
+      "eval_runtime": 401.911,
+      "eval_samples_per_second": 90.53,
+      "eval_steps_per_second": 22.634,
+      "num_input_tokens_seen": 10901760,
+      "step": 8400
+    },
+    {
+      "epoch": 0.4106710966701683,
+      "grad_norm": 0.0018740847008302808,
+      "learning_rate": 0.2684943634434843,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 10908224,
+      "step": 8405
+    },
+    {
+      "epoch": 0.41091539833386265,
+      "grad_norm": 0.001579017611220479,
+      "learning_rate": 0.268458236481744,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 10914976,
+      "step": 8410
+    },
+    {
+      "epoch": 0.41115969999755697,
+      "grad_norm": 0.002169471699744463,
+      "learning_rate": 0.2684220912522549,
+      "loss": 0.134,
+      "num_input_tokens_seen": 10920896,
+      "step": 8415
+    },
+    {
+      "epoch": 0.4114040016612513,
+      "grad_norm": 0.0012824153527617455,
+      "learning_rate": 0.2683859277605913,
+      "loss": 0.1316,
+      "num_input_tokens_seen": 10926976,
+      "step": 8420
+    },
+    {
+      "epoch": 0.4116483033249456,
+      "grad_norm": 0.002342204563319683,
+      "learning_rate": 0.2683497460123298,
+      "loss": 0.1227,
+      "num_input_tokens_seen": 10933568,
+      "step": 8425
+    },
+    {
+      "epoch": 0.41189260498864,
+      "grad_norm": 0.0022555477917194366,
+      "learning_rate": 0.26831354601305013,
+      "loss": 0.1399,
+      "num_input_tokens_seen": 10939808,
+      "step": 8430
+    },
+    {
+      "epoch": 0.4121369066523343,
+      "grad_norm": 0.003004958853125572,
+      "learning_rate": 0.26827732776833496,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 10946464,
+      "step": 8435
+    },
+    {
+      "epoch": 0.41238120831602865,
+      "grad_norm": 0.002412147121503949,
+      "learning_rate": 0.26824109128376944,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 10952736,
+      "step": 8440
+    },
+    {
+      "epoch": 0.41262550997972297,
+      "grad_norm": 0.001923397765494883,
+      "learning_rate": 0.2682048365649417,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 10958848,
+      "step": 8445
+    },
+    {
+      "epoch": 0.4128698116434173,
+      "grad_norm": 0.001997373066842556,
+      "learning_rate": 0.2681685636174428,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 10965568,
+      "step": 8450
+    },
+    {
+      "epoch": 0.4131141133071116,
+      "grad_norm": 0.0018087903736159205,
+      "learning_rate": 0.2681322724468663,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 10972160,
+      "step": 8455
+    },
+    {
+      "epoch": 0.41335841497080594,
+      "grad_norm": 0.0021285961847752333,
+      "learning_rate": 0.2680959630588089,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 10978720,
+      "step": 8460
+    },
+    {
+      "epoch": 0.41360271663450027,
+      "grad_norm": 0.0012703731190413237,
+      "learning_rate": 0.26805963545886985,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 10985440,
+      "step": 8465
+    },
+    {
+      "epoch": 0.4138470182981946,
+      "grad_norm": 0.003307791892439127,
+      "learning_rate": 0.26802328965265143,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 10992320,
+      "step": 8470
+    },
+    {
+      "epoch": 0.4140913199618889,
+      "grad_norm": 0.0038223962765187025,
+      "learning_rate": 0.26798692564575854,
+      "loss": 0.1274,
+      "num_input_tokens_seen": 10998432,
+      "step": 8475
+    },
+    {
+      "epoch": 0.4143356216255833,
+      "grad_norm": 0.0018129568779841065,
+      "learning_rate": 0.26795054344379904,
+      "loss": 0.1281,
+      "num_input_tokens_seen": 11004896,
+      "step": 8480
+    },
+    {
+      "epoch": 0.4145799232892776,
+      "grad_norm": 0.001770673436112702,
+      "learning_rate": 0.2679141430523835,
+      "loss": 0.1227,
+      "num_input_tokens_seen": 11011168,
+      "step": 8485
+    },
+    {
+      "epoch": 0.41482422495297194,
+      "grad_norm": 0.00415611919015646,
+      "learning_rate": 0.2678777244771252,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 11017472,
+      "step": 8490
+    },
+    {
+      "epoch": 0.41506852661666627,
+      "grad_norm": 0.0018737594364210963,
+      "learning_rate": 0.2678412877236405,
+      "loss": 0.11,
+      "num_input_tokens_seen": 11023968,
+      "step": 8495
+    },
+    {
+      "epoch": 0.4153128282803606,
+      "grad_norm": 0.0024082374293357134,
+      "learning_rate": 0.2678048327975484,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 11030784,
+      "step": 8500
+    },
+    {
+      "epoch": 0.4155571299440549,
+      "grad_norm": 0.0015394017100334167,
+      "learning_rate": 0.2677683597044706,
+      "loss": 0.1246,
+      "num_input_tokens_seen": 11037472,
+      "step": 8505
+    },
+    {
+      "epoch": 0.41580143160774924,
+      "grad_norm": 0.0017078814562410116,
+      "learning_rate": 0.2677318684500318,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 11043616,
+      "step": 8510
+    },
+    {
+      "epoch": 0.41604573327144356,
+      "grad_norm": 0.0030322589445859194,
+      "learning_rate": 0.2676953590398593,
+      "loss": 0.114,
+      "num_input_tokens_seen": 11049984,
+      "step": 8515
+    },
+    {
+      "epoch": 0.4162900349351379,
+      "grad_norm": 0.0016455788863822818,
+      "learning_rate": 0.2676588314795834,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 11056768,
+      "step": 8520
+    },
+    {
+      "epoch": 0.4165343365988322,
+      "grad_norm": 0.0037527307868003845,
+      "learning_rate": 0.26762228577483715,
+      "loss": 0.1221,
+      "num_input_tokens_seen": 11062912,
+      "step": 8525
+    },
+    {
+      "epoch": 0.4167786382625266,
+      "grad_norm": 0.0020997398532927036,
+      "learning_rate": 0.2675857219312563,
+      "loss": 0.082,
+      "num_input_tokens_seen": 11069856,
+      "step": 8530
+    },
+    {
+      "epoch": 0.4170229399262209,
+      "grad_norm": 0.0018376193474978209,
+      "learning_rate": 0.2675491399544794,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 11076288,
+      "step": 8535
+    },
+    {
+      "epoch": 0.41726724158991524,
+      "grad_norm": 0.0022036924492567778,
+      "learning_rate": 0.2675125398501479,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 11082624,
+      "step": 8540
+    },
+    {
+      "epoch": 0.41751154325360956,
+      "grad_norm": 0.0025160883087664843,
+      "learning_rate": 0.26747592162390604,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 11088736,
+      "step": 8545
+    },
+    {
+      "epoch": 0.4177558449173039,
+      "grad_norm": 0.0023649109061807394,
+      "learning_rate": 0.26743928528140076,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 11095360,
+      "step": 8550
+    },
+    {
+      "epoch": 0.4180001465809982,
+      "grad_norm": 0.0031786379404366016,
+      "learning_rate": 0.26740263082828186,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 11101600,
+      "step": 8555
+    },
+    {
+      "epoch": 0.41824444824469253,
+      "grad_norm": 0.0016661053523421288,
+      "learning_rate": 0.2673659582702019,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 11107712,
+      "step": 8560
+    },
+    {
+      "epoch": 0.41848874990838686,
+      "grad_norm": 0.0031932962592691183,
+      "learning_rate": 0.2673292676128163,
+      "loss": 0.111,
+      "num_input_tokens_seen": 11114144,
+      "step": 8565
+    },
+    {
+      "epoch": 0.4187330515720812,
+      "grad_norm": 0.0012970675015822053,
+      "learning_rate": 0.2672925588617831,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 11121120,
+      "step": 8570
+    },
+    {
+      "epoch": 0.41897735323577556,
+      "grad_norm": 0.0026346698869019747,
+      "learning_rate": 0.2672558320227634,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 11127680,
+      "step": 8575
+    },
+    {
+      "epoch": 0.4192216548994699,
+      "grad_norm": 0.0024427929893136024,
+      "learning_rate": 0.2672190871014209,
+      "loss": 0.1198,
+      "num_input_tokens_seen": 11134144,
+      "step": 8580
+    },
+    {
+      "epoch": 0.4194659565631642,
+      "grad_norm": 0.002220229711383581,
+      "learning_rate": 0.267182324103422,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 11140864,
+      "step": 8585
+    },
+    {
+      "epoch": 0.41971025822685853,
+      "grad_norm": 0.002222313079982996,
+      "learning_rate": 0.2671455430344362,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 11147264,
+      "step": 8590
+    },
+    {
+      "epoch": 0.41995455989055286,
+      "grad_norm": 0.0017383054364472628,
+      "learning_rate": 0.2671087439001355,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 11153472,
+      "step": 8595
+    },
+    {
+      "epoch": 0.4201988615542472,
+      "grad_norm": 0.0016718142433091998,
+      "learning_rate": 0.2670719267061948,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 11159584,
+      "step": 8600
+    },
+    {
+      "epoch": 0.4201988615542472,
+      "eval_loss": 0.12285719066858292,
+      "eval_runtime": 402.1741,
+      "eval_samples_per_second": 90.471,
+      "eval_steps_per_second": 22.62,
+      "num_input_tokens_seen": 11159584,
+      "step": 8600
+    },
+    {
+      "epoch": 0.4204431632179415,
+      "grad_norm": 0.0012926559429615736,
+      "learning_rate": 0.2670350914582918,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 11166080,
+      "step": 8605
+    },
+    {
+      "epoch": 0.42068746488163583,
+      "grad_norm": 0.00288716540671885,
+      "learning_rate": 0.26699823816210694,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 11172256,
+      "step": 8610
+    },
+    {
+      "epoch": 0.42093176654533015,
+      "grad_norm": 0.0028995031025260687,
+      "learning_rate": 0.26696136682332344,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 11179136,
+      "step": 8615
+    },
+    {
+      "epoch": 0.4211760682090245,
+      "grad_norm": 0.002667696215212345,
+      "learning_rate": 0.2669244774476274,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 11185568,
+      "step": 8620
+    },
+    {
+      "epoch": 0.42142036987271886,
+      "grad_norm": 0.0014246124774217606,
+      "learning_rate": 0.2668875700407075,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 11192160,
+      "step": 8625
+    },
+    {
+      "epoch": 0.4216646715364132,
+      "grad_norm": 0.0019492862047627568,
+      "learning_rate": 0.26685064460825547,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 11198336,
+      "step": 8630
+    },
+    {
+      "epoch": 0.4219089732001075,
+      "grad_norm": 0.001849992899224162,
+      "learning_rate": 0.26681370115596553,
+      "loss": 0.107,
+      "num_input_tokens_seen": 11204416,
+      "step": 8635
+    },
+    {
+      "epoch": 0.42215327486380183,
+      "grad_norm": 0.0013617109507322311,
+      "learning_rate": 0.26677673968953497,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 11210688,
+      "step": 8640
+    },
+    {
+      "epoch": 0.42239757652749615,
+      "grad_norm": 0.0017919200472533703,
+      "learning_rate": 0.2667397602146636,
+      "loss": 0.1359,
+      "num_input_tokens_seen": 11217248,
+      "step": 8645
+    },
+    {
+      "epoch": 0.4226418781911905,
+      "grad_norm": 0.0014593367232009768,
+      "learning_rate": 0.2667027627370542,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 11223648,
+      "step": 8650
+    },
+    {
+      "epoch": 0.4228861798548848,
+      "grad_norm": 0.001491276896558702,
+      "learning_rate": 0.26666574726241216,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 11230208,
+      "step": 8655
+    },
+    {
+      "epoch": 0.4231304815185791,
+      "grad_norm": 0.0016823392361402512,
+      "learning_rate": 0.2666287137964458,
+      "loss": 0.136,
+      "num_input_tokens_seen": 11236576,
+      "step": 8660
+    },
+    {
+      "epoch": 0.42337478318227345,
+      "grad_norm": 0.0019483222858980298,
+      "learning_rate": 0.26659166234486614,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 11242816,
+      "step": 8665
+    },
+    {
+      "epoch": 0.4236190848459678,
+      "grad_norm": 0.0022160138469189405,
+      "learning_rate": 0.2665545929133869,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 11249504,
+      "step": 8670
+    },
+    {
+      "epoch": 0.42386338650966215,
+      "grad_norm": 0.0012175405863672495,
+      "learning_rate": 0.2665175055077248,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 11256128,
+      "step": 8675
+    },
+    {
+      "epoch": 0.4241076881733565,
+      "grad_norm": 0.00166202278342098,
+      "learning_rate": 0.2664804001335991,
+      "loss": 0.1471,
+      "num_input_tokens_seen": 11263200,
+      "step": 8680
+    },
+    {
+      "epoch": 0.4243519898370508,
+      "grad_norm": 0.0015605940716341138,
+      "learning_rate": 0.26644327679673185,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 11270048,
+      "step": 8685
+    },
+    {
+      "epoch": 0.4245962915007451,
+      "grad_norm": 0.0018200743943452835,
+      "learning_rate": 0.26640613550284803,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 11276992,
+      "step": 8690
+    },
+    {
+      "epoch": 0.42484059316443945,
+      "grad_norm": 0.002948121167719364,
+      "learning_rate": 0.26636897625767525,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 11283872,
+      "step": 8695
+    },
+    {
+      "epoch": 0.4250848948281338,
+      "grad_norm": 0.0043955338187515736,
+      "learning_rate": 0.266331799066944,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 11289824,
+      "step": 8700
+    },
+    {
+      "epoch": 0.4253291964918281,
+      "grad_norm": 0.0021259335335344076,
+      "learning_rate": 0.2662946039363874,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 11296064,
+      "step": 8705
+    },
+    {
+      "epoch": 0.4255734981555224,
+      "grad_norm": 0.0017243740148842335,
+      "learning_rate": 0.2662573908717414,
+      "loss": 0.124,
+      "num_input_tokens_seen": 11302368,
+      "step": 8710
+    },
+    {
+      "epoch": 0.42581779981921675,
+      "grad_norm": 0.0012987854424864054,
+      "learning_rate": 0.2662201598787447,
+      "loss": 0.114,
+      "num_input_tokens_seen": 11308704,
+      "step": 8715
+    },
+    {
+      "epoch": 0.42606210148291107,
+      "grad_norm": 0.002564179478213191,
+      "learning_rate": 0.2661829109631389,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 11315360,
+      "step": 8720
+    },
+    {
+      "epoch": 0.42630640314660545,
+      "grad_norm": 0.0050730109214782715,
+      "learning_rate": 0.26614564413066816,
+      "loss": 0.1428,
+      "num_input_tokens_seen": 11321792,
+      "step": 8725
+    },
+    {
+      "epoch": 0.4265507048102998,
+      "grad_norm": 0.00138062983751297,
+      "learning_rate": 0.2661083593870795,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 11328000,
+      "step": 8730
+    },
+    {
+      "epoch": 0.4267950064739941,
+      "grad_norm": 0.0014999915147200227,
+      "learning_rate": 0.26607105673812276,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 11334560,
+      "step": 8735
+    },
+    {
+      "epoch": 0.4270393081376884,
+      "grad_norm": 0.0035878163762390614,
+      "learning_rate": 0.2660337361895504,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 11340864,
+      "step": 8740
+    },
+    {
+      "epoch": 0.42728360980138275,
+      "grad_norm": 0.0023311516270041466,
+      "learning_rate": 0.26599639774711775,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 11347360,
+      "step": 8745
+    },
+    {
+      "epoch": 0.42752791146507707,
+      "grad_norm": 0.002790671307593584,
+      "learning_rate": 0.2659590414165829,
+      "loss": 0.115,
+      "num_input_tokens_seen": 11353856,
+      "step": 8750
+    },
+    {
+      "epoch": 0.4277722131287714,
+      "grad_norm": 0.002665047300979495,
+      "learning_rate": 0.2659216672037066,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 11360288,
+      "step": 8755
+    },
+    {
+      "epoch": 0.4280165147924657,
+      "grad_norm": 0.0015852123033255339,
+      "learning_rate": 0.26588427511425244,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 11367040,
+      "step": 8760
+    },
+    {
+      "epoch": 0.42826081645616004,
+      "grad_norm": 0.0018599340692162514,
+      "learning_rate": 0.26584686515398676,
+      "loss": 0.119,
+      "num_input_tokens_seen": 11373536,
+      "step": 8765
+    },
+    {
+      "epoch": 0.4285051181198544,
+      "grad_norm": 0.001695821643806994,
+      "learning_rate": 0.2658094373286787,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 11379808,
+      "step": 8770
+    },
+    {
+      "epoch": 0.42874941978354875,
+      "grad_norm": 0.002995660761371255,
+      "learning_rate": 0.2657719916441,
+      "loss": 0.093,
+      "num_input_tokens_seen": 11386784,
+      "step": 8775
+    },
+    {
+      "epoch": 0.42899372144724307,
+      "grad_norm": 0.003485628869384527,
+      "learning_rate": 0.2657345281060253,
+      "loss": 0.1584,
+      "num_input_tokens_seen": 11393536,
+      "step": 8780
+    },
+    {
+      "epoch": 0.4292380231109374,
+      "grad_norm": 0.0021771183237433434,
+      "learning_rate": 0.26569704672023203,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 11399808,
+      "step": 8785
+    },
+    {
+      "epoch": 0.4294823247746317,
+      "grad_norm": 0.0013848635135218501,
+      "learning_rate": 0.26565954749250015,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 11407648,
+      "step": 8790
+    },
+    {
+      "epoch": 0.42972662643832604,
+      "grad_norm": 0.0029214471578598022,
+      "learning_rate": 0.2656220304286126,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 11414368,
+      "step": 8795
+    },
+    {
+      "epoch": 0.42997092810202037,
+      "grad_norm": 0.0018665335373952985,
+      "learning_rate": 0.265584495534355,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 11420640,
+      "step": 8800
+    },
+    {
+      "epoch": 0.42997092810202037,
+      "eval_loss": 0.11826534569263458,
+      "eval_runtime": 402.1628,
+      "eval_samples_per_second": 90.473,
+      "eval_steps_per_second": 22.62,
+      "num_input_tokens_seen": 11420640,
+      "step": 8800
+    },
+    {
+      "epoch": 0.4302152297657147,
+      "grad_norm": 0.0025163046084344387,
+      "learning_rate": 0.2655469428155156,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 11427168,
+      "step": 8805
+    },
+    {
+      "epoch": 0.430459531429409,
+      "grad_norm": 0.0011722870403900743,
+      "learning_rate": 0.2655093722778856,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 11433856,
+      "step": 8810
+    },
+    {
+      "epoch": 0.43070383309310334,
+      "grad_norm": 0.0015859046252444386,
+      "learning_rate": 0.2654717839272588,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 11440192,
+      "step": 8815
+    },
+    {
+      "epoch": 0.4309481347567977,
+      "grad_norm": 0.002255168044939637,
+      "learning_rate": 0.2654341777694318,
+      "loss": 0.1467,
+      "num_input_tokens_seen": 11446464,
+      "step": 8820
+    },
+    {
+      "epoch": 0.43119243642049204,
+      "grad_norm": 0.002421680837869644,
+      "learning_rate": 0.265396553810204,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 11453024,
+      "step": 8825
+    },
+    {
+      "epoch": 0.43143673808418637,
+      "grad_norm": 0.0019156846683472395,
+      "learning_rate": 0.26535891205537737,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 11459136,
+      "step": 8830
+    },
+    {
+      "epoch": 0.4316810397478807,
+      "grad_norm": 0.001887961057946086,
+      "learning_rate": 0.26532125251075683,
+      "loss": 0.1389,
+      "num_input_tokens_seen": 11465664,
+      "step": 8835
+    },
+    {
+      "epoch": 0.431925341411575,
+      "grad_norm": 0.0019274724181741476,
+      "learning_rate": 0.26528357518214996,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 11472320,
+      "step": 8840
+    },
+    {
+      "epoch": 0.43216964307526934,
+      "grad_norm": 0.002570975571870804,
+      "learning_rate": 0.26524588007536704,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 11478944,
+      "step": 8845
+    },
+    {
+      "epoch": 0.43241394473896366,
+      "grad_norm": 0.0017025596462190151,
+      "learning_rate": 0.26520816719622115,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 11485568,
+      "step": 8850
+    },
+    {
+      "epoch": 0.432658246402658,
+      "grad_norm": 0.0017411599401384592,
+      "learning_rate": 0.2651704365505281,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 11492448,
+      "step": 8855
+    },
+    {
+      "epoch": 0.4329025480663523,
+      "grad_norm": 0.0018653451697900891,
+      "learning_rate": 0.26513268814410634,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 11498848,
+      "step": 8860
+    },
+    {
+      "epoch": 0.43314684973004663,
+      "grad_norm": 0.0032851763535290956,
+      "learning_rate": 0.2650949219827773,
+      "loss": 0.1309,
+      "num_input_tokens_seen": 11505408,
+      "step": 8865
+    },
+    {
+      "epoch": 0.433391151393741,
+      "grad_norm": 0.002683092374354601,
+      "learning_rate": 0.26505713807236486,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 11512128,
+      "step": 8870
+    },
+    {
+      "epoch": 0.43363545305743534,
+      "grad_norm": 0.0024909055791795254,
+      "learning_rate": 0.26501933641869585,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 11518816,
+      "step": 8875
+    },
+    {
+      "epoch": 0.43387975472112966,
+      "grad_norm": 0.001551453024148941,
+      "learning_rate": 0.26498151702759976,
+      "loss": 0.096,
+      "num_input_tokens_seen": 11525632,
+      "step": 8880
+    },
+    {
+      "epoch": 0.434124056384824,
+      "grad_norm": 0.0026416853070259094,
+      "learning_rate": 0.2649436799049088,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 11531840,
+      "step": 8885
+    },
+    {
+      "epoch": 0.4343683580485183,
+      "grad_norm": 0.003487675217911601,
+      "learning_rate": 0.2649058250564579,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 11538144,
+      "step": 8890
+    },
+    {
+      "epoch": 0.43461265971221263,
+      "grad_norm": 0.0021253693848848343,
+      "learning_rate": 0.26486795248808476,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 11545280,
+      "step": 8895
+    },
+    {
+      "epoch": 0.43485696137590696,
+      "grad_norm": 0.0017142021097242832,
+      "learning_rate": 0.2648300622056298,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 11552032,
+      "step": 8900
+    },
+    {
+      "epoch": 0.4351012630396013,
+      "grad_norm": 0.0009975186549127102,
+      "learning_rate": 0.2647921542149363,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 11558464,
+      "step": 8905
+    },
+    {
+      "epoch": 0.4353455647032956,
+      "grad_norm": 0.001429248950444162,
+      "learning_rate": 0.26475422852185,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 11565280,
+      "step": 8910
+    },
+    {
+      "epoch": 0.43558986636699,
+      "grad_norm": 0.0013571723829954863,
+      "learning_rate": 0.2647162851322196,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 11571680,
+      "step": 8915
+    },
+    {
+      "epoch": 0.4358341680306843,
+      "grad_norm": 0.001886855810880661,
+      "learning_rate": 0.2646783240518964,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 11577856,
+      "step": 8920
+    },
+    {
+      "epoch": 0.43607846969437863,
+      "grad_norm": 0.0022957175970077515,
+      "learning_rate": 0.26464034528673447,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 11584768,
+      "step": 8925
+    },
+    {
+      "epoch": 0.43632277135807296,
+      "grad_norm": 0.002662458922713995,
+      "learning_rate": 0.26460234884259065,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 11591136,
+      "step": 8930
+    },
+    {
+      "epoch": 0.4365670730217673,
+      "grad_norm": 0.0018211626447737217,
+      "learning_rate": 0.2645643347253245,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 11598176,
+      "step": 8935
+    },
+    {
+      "epoch": 0.4368113746854616,
+      "grad_norm": 0.0022534679155796766,
+      "learning_rate": 0.2645263029407982,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 11604384,
+      "step": 8940
+    },
+    {
+      "epoch": 0.43705567634915593,
+      "grad_norm": 0.0027752716559916735,
+      "learning_rate": 0.2644882534948767,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 11611104,
+      "step": 8945
+    },
+    {
+      "epoch": 0.43729997801285025,
+      "grad_norm": 0.0015400294214487076,
+      "learning_rate": 0.2644501863934278,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 11617248,
+      "step": 8950
+    },
+    {
+      "epoch": 0.4375442796765446,
+      "grad_norm": 0.001632792060263455,
+      "learning_rate": 0.26441210164232193,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 11623936,
+      "step": 8955
+    },
+    {
+      "epoch": 0.4377885813402389,
+      "grad_norm": 0.002623960142955184,
+      "learning_rate": 0.26437399924743216,
+      "loss": 0.113,
+      "num_input_tokens_seen": 11630432,
+      "step": 8960
+    },
+    {
+      "epoch": 0.4380328830039333,
+      "grad_norm": 0.0013759031426161528,
+      "learning_rate": 0.26433587921463436,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 11636992,
+      "step": 8965
+    },
+    {
+      "epoch": 0.4382771846676276,
+      "grad_norm": 0.002036179881542921,
+      "learning_rate": 0.2642977415498072,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 11643200,
+      "step": 8970
+    },
+    {
+      "epoch": 0.43852148633132193,
+      "grad_norm": 0.001788203022442758,
+      "learning_rate": 0.26425958625883195,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 11650240,
+      "step": 8975
+    },
+    {
+      "epoch": 0.43876578799501625,
+      "grad_norm": 0.0017959765391424298,
+      "learning_rate": 0.2642214133475926,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 11657216,
+      "step": 8980
+    },
+    {
+      "epoch": 0.4390100896587106,
+      "grad_norm": 0.0018187452806159854,
+      "learning_rate": 0.26418322282197587,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 11663808,
+      "step": 8985
+    },
+    {
+      "epoch": 0.4392543913224049,
+      "grad_norm": 0.002429420128464699,
+      "learning_rate": 0.2641450146878714,
+      "loss": 0.107,
+      "num_input_tokens_seen": 11670048,
+      "step": 8990
+    },
+    {
+      "epoch": 0.4394986929860992,
+      "grad_norm": 0.0037240502424538136,
+      "learning_rate": 0.26410678895117107,
+      "loss": 0.1328,
+      "num_input_tokens_seen": 11676480,
+      "step": 8995
+    },
+    {
+      "epoch": 0.43974299464979355,
+      "grad_norm": 0.0018834053771570325,
+      "learning_rate": 0.26406854561777,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 11683072,
+      "step": 9000
+    },
+    {
+      "epoch": 0.43974299464979355,
+      "eval_loss": 0.12034117430448532,
+      "eval_runtime": 402.2531,
+      "eval_samples_per_second": 90.453,
+      "eval_steps_per_second": 22.615,
+      "num_input_tokens_seen": 11683072,
+      "step": 9000
+    },
+    {
+      "epoch": 0.4399872963134879,
+      "grad_norm": 0.002557415049523115,
+      "learning_rate": 0.26403028469356576,
+      "loss": 0.101,
+      "num_input_tokens_seen": 11689920,
+      "step": 9005
+    },
+    {
+      "epoch": 0.4402315979771822,
+      "grad_norm": 0.002290467731654644,
+      "learning_rate": 0.2639920061844585,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 11696448,
+      "step": 9010
+    },
+    {
+      "epoch": 0.4404758996408766,
+      "grad_norm": 0.0034132921136915684,
+      "learning_rate": 0.2639537100963515,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 11703200,
+      "step": 9015
+    },
+    {
+      "epoch": 0.4407202013045709,
+      "grad_norm": 0.00524330185726285,
+      "learning_rate": 0.26391539643515033,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 11709504,
+      "step": 9020
+    },
+    {
+      "epoch": 0.4409645029682652,
+      "grad_norm": 0.0022474760189652443,
+      "learning_rate": 0.26387706520676346,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 11716224,
+      "step": 9025
+    },
+    {
+      "epoch": 0.44120880463195955,
+      "grad_norm": 0.002126373117789626,
+      "learning_rate": 0.26383871641710205,
+      "loss": 0.1448,
+      "num_input_tokens_seen": 11722496,
+      "step": 9030
+    },
+    {
+      "epoch": 0.4414531062956539,
+      "grad_norm": 0.0022601985838264227,
+      "learning_rate": 0.26380035007208,
+      "loss": 0.1345,
+      "num_input_tokens_seen": 11728768,
+      "step": 9035
+    },
+    {
+      "epoch": 0.4416974079593482,
+      "grad_norm": 0.0017375649185851216,
+      "learning_rate": 0.26376196617761394,
+      "loss": 0.1547,
+      "num_input_tokens_seen": 11735136,
+      "step": 9040
+    },
+    {
+      "epoch": 0.4419417096230425,
+      "grad_norm": 0.0015359192620962858,
+      "learning_rate": 0.263723564739623,
+      "loss": 0.1198,
+      "num_input_tokens_seen": 11741664,
+      "step": 9045
+    },
+    {
+      "epoch": 0.44218601128673685,
+      "grad_norm": 0.0022156445775181055,
+      "learning_rate": 0.2636851457640293,
+      "loss": 0.1125,
+      "num_input_tokens_seen": 11748256,
+      "step": 9050
+    },
+    {
+      "epoch": 0.44243031295043117,
+      "grad_norm": 0.0023132520727813244,
+      "learning_rate": 0.26364670925675737,
+      "loss": 0.114,
+      "num_input_tokens_seen": 11754752,
+      "step": 9055
+    },
+    {
+      "epoch": 0.4426746146141255,
+      "grad_norm": 0.001171464566141367,
+      "learning_rate": 0.2636082552237347,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 11760992,
+      "step": 9060
+    },
+    {
+      "epoch": 0.4429189162778199,
+      "grad_norm": 0.0010063581867143512,
+      "learning_rate": 0.26356978367089146,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 11767616,
+      "step": 9065
+    },
+    {
+      "epoch": 0.4431632179415142,
+      "grad_norm": 0.0011378675699234009,
+      "learning_rate": 0.26353129460416036,
+      "loss": 0.1393,
+      "num_input_tokens_seen": 11774368,
+      "step": 9070
+    },
+    {
+      "epoch": 0.4434075196052085,
+      "grad_norm": 0.0035764267668128014,
+      "learning_rate": 0.2634927880294769,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 11780736,
+      "step": 9075
+    },
+    {
+      "epoch": 0.44365182126890285,
+      "grad_norm": 0.0015640412457287312,
+      "learning_rate": 0.26345426395277927,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 11787040,
+      "step": 9080
+    },
+    {
+      "epoch": 0.44389612293259717,
+      "grad_norm": 0.0012411418138071895,
+      "learning_rate": 0.2634157223800084,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 11793376,
+      "step": 9085
+    },
+    {
+      "epoch": 0.4441404245962915,
+      "grad_norm": 0.0010976764606311917,
+      "learning_rate": 0.26337716331710787,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 11799904,
+      "step": 9090
+    },
+    {
+      "epoch": 0.4443847262599858,
+      "grad_norm": 0.0014623973984271288,
+      "learning_rate": 0.2633385867700239,
+      "loss": 0.087,
+      "num_input_tokens_seen": 11806368,
+      "step": 9095
+    },
+    {
+      "epoch": 0.44462902792368014,
+      "grad_norm": 0.00239299307577312,
+      "learning_rate": 0.2632999927447056,
+      "loss": 0.145,
+      "num_input_tokens_seen": 11812928,
+      "step": 9100
+    },
+    {
+      "epoch": 0.44487332958737447,
+      "grad_norm": 0.0017962581478059292,
+      "learning_rate": 0.2632613812471046,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 11819072,
+      "step": 9105
+    },
+    {
+      "epoch": 0.44511763125106885,
+      "grad_norm": 0.0014893646584823728,
+      "learning_rate": 0.2632227522831753,
+      "loss": 0.11,
+      "num_input_tokens_seen": 11825120,
+      "step": 9110
+    },
+    {
+      "epoch": 0.44536193291476317,
+      "grad_norm": 0.0019630859605968,
+      "learning_rate": 0.26318410585887475,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 11831936,
+      "step": 9115
+    },
+    {
+      "epoch": 0.4456062345784575,
+      "grad_norm": 0.0028764407616108656,
+      "learning_rate": 0.2631454419801627,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 11838624,
+      "step": 9120
+    },
+    {
+      "epoch": 0.4458505362421518,
+      "grad_norm": 0.0013777747517451644,
+      "learning_rate": 0.2631067606530016,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 11844576,
+      "step": 9125
+    },
+    {
+      "epoch": 0.44609483790584614,
+      "grad_norm": 0.002590556163340807,
+      "learning_rate": 0.2630680618833567,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 11851072,
+      "step": 9130
+    },
+    {
+      "epoch": 0.44633913956954047,
+      "grad_norm": 0.002640369813889265,
+      "learning_rate": 0.26302934567719566,
+      "loss": 0.1313,
+      "num_input_tokens_seen": 11856640,
+      "step": 9135
+    },
+    {
+      "epoch": 0.4465834412332348,
+      "grad_norm": 0.0022120848298072815,
+      "learning_rate": 0.2629906120404892,
+      "loss": 0.1246,
+      "num_input_tokens_seen": 11863392,
+      "step": 9140
+    },
+    {
+      "epoch": 0.4468277428969291,
+      "grad_norm": 0.001769366324879229,
+      "learning_rate": 0.26295186097921036,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 11869984,
+      "step": 9145
+    },
+    {
+      "epoch": 0.44707204456062344,
+      "grad_norm": 0.0019285785965621471,
+      "learning_rate": 0.2629130924993351,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 11877312,
+      "step": 9150
+    },
+    {
+      "epoch": 0.44731634622431776,
+      "grad_norm": 0.0013378934236243367,
+      "learning_rate": 0.2628743066068421,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 11883904,
+      "step": 9155
+    },
+    {
+      "epoch": 0.44756064788801214,
+      "grad_norm": 0.0020684958435595036,
+      "learning_rate": 0.26283550330771244,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 11890368,
+      "step": 9160
+    },
+    {
+      "epoch": 0.44780494955170647,
+      "grad_norm": 0.002584735630080104,
+      "learning_rate": 0.2627966826079303,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 11896640,
+      "step": 9165
+    },
+    {
+      "epoch": 0.4480492512154008,
+      "grad_norm": 0.0023232433013617992,
+      "learning_rate": 0.26275784451348216,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 11902752,
+      "step": 9170
+    },
+    {
+      "epoch": 0.4482935528790951,
+      "grad_norm": 0.0010321438312530518,
+      "learning_rate": 0.2627189890303574,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 11909376,
+      "step": 9175
+    },
+    {
+      "epoch": 0.44853785454278944,
+      "grad_norm": 0.0019698869436979294,
+      "learning_rate": 0.262680116164548,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 11915680,
+      "step": 9180
+    },
+    {
+      "epoch": 0.44878215620648376,
+      "grad_norm": 0.001826184568926692,
+      "learning_rate": 0.2626412259220487,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 11922048,
+      "step": 9185
+    },
+    {
+      "epoch": 0.4490264578701781,
+      "grad_norm": 0.0016570942243561149,
+      "learning_rate": 0.2626023183088568,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 11928448,
+      "step": 9190
+    },
+    {
+      "epoch": 0.4492707595338724,
+      "grad_norm": 0.0014291489496827126,
+      "learning_rate": 0.26256339333097234,
+      "loss": 0.114,
+      "num_input_tokens_seen": 11934816,
+      "step": 9195
+    },
+    {
+      "epoch": 0.44951506119756673,
+      "grad_norm": 0.0011657498544082046,
+      "learning_rate": 0.2625244509943981,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 11941600,
+      "step": 9200
+    },
+    {
+      "epoch": 0.44951506119756673,
+      "eval_loss": 0.1146330013871193,
+      "eval_runtime": 402.1407,
+      "eval_samples_per_second": 90.478,
+      "eval_steps_per_second": 22.621,
+      "num_input_tokens_seen": 11941600,
+      "step": 9200
+    },
+    {
+      "epoch": 0.44975936286126106,
+      "grad_norm": 0.0011073033092543483,
+      "learning_rate": 0.2624854913051395,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 11948064,
+      "step": 9205
+    },
+    {
+      "epoch": 0.45000366452495544,
+      "grad_norm": 0.0017226141644641757,
+      "learning_rate": 0.26244651426920446,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 11954624,
+      "step": 9210
+    },
+    {
+      "epoch": 0.45024796618864976,
+      "grad_norm": 0.0023958920501172543,
+      "learning_rate": 0.26240751989260386,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 11961184,
+      "step": 9215
+    },
+    {
+      "epoch": 0.4504922678523441,
+      "grad_norm": 0.0036157863214612007,
+      "learning_rate": 0.2623685081813511,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 11967136,
+      "step": 9220
+    },
+    {
+      "epoch": 0.4507365695160384,
+      "grad_norm": 0.003134384984150529,
+      "learning_rate": 0.2623294791414623,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 11973408,
+      "step": 9225
+    },
+    {
+      "epoch": 0.45098087117973273,
+      "grad_norm": 0.0010734651004895568,
+      "learning_rate": 0.26229043277895614,
+      "loss": 0.084,
+      "num_input_tokens_seen": 11979840,
+      "step": 9230
+    },
+    {
+      "epoch": 0.45122517284342706,
+      "grad_norm": 0.0016958445776253939,
+      "learning_rate": 0.2622513690998542,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 11986272,
+      "step": 9235
+    },
+    {
+      "epoch": 0.4514694745071214,
+      "grad_norm": 0.00256561697460711,
+      "learning_rate": 0.26221228811018044,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 11992928,
+      "step": 9240
+    },
+    {
+      "epoch": 0.4517137761708157,
+      "grad_norm": 0.002256878651678562,
+      "learning_rate": 0.2621731898159617,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 11999584,
+      "step": 9245
+    },
+    {
+      "epoch": 0.45195807783451003,
+      "grad_norm": 0.001957976259291172,
+      "learning_rate": 0.26213407422322743,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 12005984,
+      "step": 9250
+    },
+    {
+      "epoch": 0.4522023794982044,
+      "grad_norm": 0.002139823976904154,
+      "learning_rate": 0.2620949413380098,
+      "loss": 0.1345,
+      "num_input_tokens_seen": 12012288,
+      "step": 9255
+    },
+    {
+      "epoch": 0.45244668116189873,
+      "grad_norm": 0.0032425750978291035,
+      "learning_rate": 0.26205579116634353,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 12018560,
+      "step": 9260
+    },
+    {
+      "epoch": 0.45269098282559306,
+      "grad_norm": 0.0021802254486829042,
+      "learning_rate": 0.26201662371426604,
+      "loss": 0.121,
+      "num_input_tokens_seen": 12024864,
+      "step": 9265
+    },
+    {
+      "epoch": 0.4529352844892874,
+      "grad_norm": 0.0011156175751239061,
+      "learning_rate": 0.2619774389878175,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 12031520,
+      "step": 9270
+    },
+    {
+      "epoch": 0.4531795861529817,
+      "grad_norm": 0.001094771665520966,
+      "learning_rate": 0.2619382369930407,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 12038048,
+      "step": 9275
+    },
+    {
+      "epoch": 0.45342388781667603,
+      "grad_norm": 0.0014694473939016461,
+      "learning_rate": 0.261899017735981,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 12044512,
+      "step": 9280
+    },
+    {
+      "epoch": 0.45366818948037035,
+      "grad_norm": 0.001670975354500115,
+      "learning_rate": 0.2618597812226866,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 12051072,
+      "step": 9285
+    },
+    {
+      "epoch": 0.4539124911440647,
+      "grad_norm": 0.0028907645028084517,
+      "learning_rate": 0.2618205274592082,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 12057664,
+      "step": 9290
+    },
+    {
+      "epoch": 0.454156792807759,
+      "grad_norm": 0.0020426781848073006,
+      "learning_rate": 0.2617812564515992,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 12063776,
+      "step": 9295
+    },
+    {
+      "epoch": 0.4544010944714533,
+      "grad_norm": 0.002740218536928296,
+      "learning_rate": 0.2617419682059158,
+      "loss": 0.121,
+      "num_input_tokens_seen": 12070080,
+      "step": 9300
+    },
+    {
+      "epoch": 0.4546453961351477,
+      "grad_norm": 0.001886610989458859,
+      "learning_rate": 0.26170266272821663,
+      "loss": 0.1198,
+      "num_input_tokens_seen": 12076192,
+      "step": 9305
+    },
+    {
+      "epoch": 0.45488969779884203,
+      "grad_norm": 0.002268022857606411,
+      "learning_rate": 0.26166334002456315,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 12082464,
+      "step": 9310
+    },
+    {
+      "epoch": 0.45513399946253635,
+      "grad_norm": 0.0026142869610339403,
+      "learning_rate": 0.2616240001010194,
+      "loss": 0.127,
+      "num_input_tokens_seen": 12088672,
+      "step": 9315
+    },
+    {
+      "epoch": 0.4553783011262307,
+      "grad_norm": 0.0013029661495238543,
+      "learning_rate": 0.26158464296365197,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 12094816,
+      "step": 9320
+    },
+    {
+      "epoch": 0.455622602789925,
+      "grad_norm": 0.002033480443060398,
+      "learning_rate": 0.2615452686185304,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 12101152,
+      "step": 9325
+    },
+    {
+      "epoch": 0.4558669044536193,
+      "grad_norm": 0.0014218236319720745,
+      "learning_rate": 0.26150587707172673,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 12107712,
+      "step": 9330
+    },
+    {
+      "epoch": 0.45611120611731365,
+      "grad_norm": 0.0014370223507285118,
+      "learning_rate": 0.2614664683293154,
+      "loss": 0.128,
+      "num_input_tokens_seen": 12114048,
+      "step": 9335
+    },
+    {
+      "epoch": 0.456355507781008,
+      "grad_norm": 0.002167262602597475,
+      "learning_rate": 0.26142704239737397,
+      "loss": 0.1511,
+      "num_input_tokens_seen": 12120160,
+      "step": 9340
+    },
+    {
+      "epoch": 0.4565998094447023,
+      "grad_norm": 0.0028348069172352552,
+      "learning_rate": 0.26138759928198235,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 12126304,
+      "step": 9345
+    },
+    {
+      "epoch": 0.4568441111083966,
+      "grad_norm": 0.0014207769418135285,
+      "learning_rate": 0.26134813898922304,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 12132544,
+      "step": 9350
+    },
+    {
+      "epoch": 0.457088412772091,
+      "grad_norm": 0.0017334086587652564,
+      "learning_rate": 0.26130866152518145,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 12139168,
+      "step": 9355
+    },
+    {
+      "epoch": 0.4573327144357853,
+      "grad_norm": 0.0022396938875317574,
+      "learning_rate": 0.2612691668959455,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 12146240,
+      "step": 9360
+    },
+    {
+      "epoch": 0.45757701609947965,
+      "grad_norm": 0.0022876220755279064,
+      "learning_rate": 0.2612296551076057,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 12152768,
+      "step": 9365
+    },
+    {
+      "epoch": 0.457821317763174,
+      "grad_norm": 0.0015683344099670649,
+      "learning_rate": 0.26119012616625525,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 12159392,
+      "step": 9370
+    },
+    {
+      "epoch": 0.4580656194268683,
+      "grad_norm": 0.0016378553118556738,
+      "learning_rate": 0.26115058007799,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 12165600,
+      "step": 9375
+    },
+    {
+      "epoch": 0.4583099210905626,
+      "grad_norm": 0.0021402479615062475,
+      "learning_rate": 0.26111101684890864,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 12172320,
+      "step": 9380
+    },
+    {
+      "epoch": 0.45855422275425695,
+      "grad_norm": 0.0013484145747497678,
+      "learning_rate": 0.26107143648511205,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 12178400,
+      "step": 9385
+    },
+    {
+      "epoch": 0.45879852441795127,
+      "grad_norm": 0.0013505170354619622,
+      "learning_rate": 0.2610318389927042,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 12185088,
+      "step": 9390
+    },
+    {
+      "epoch": 0.4590428260816456,
+      "grad_norm": 0.001789761008694768,
+      "learning_rate": 0.26099222437779146,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 12192032,
+      "step": 9395
+    },
+    {
+      "epoch": 0.4592871277453399,
+      "grad_norm": 0.003130918135866523,
+      "learning_rate": 0.26095259264648285,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 12198528,
+      "step": 9400
+    },
+    {
+      "epoch": 0.4592871277453399,
+      "eval_loss": 0.11861297488212585,
+      "eval_runtime": 402.77,
+      "eval_samples_per_second": 90.337,
+      "eval_steps_per_second": 22.586,
+      "num_input_tokens_seen": 12198528,
+      "step": 9400
+    },
+    {
+      "epoch": 0.4595314294090343,
+      "grad_norm": 0.0015851401258260012,
+      "learning_rate": 0.2609129438048902,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 12204928,
+      "step": 9405
+    },
+    {
+      "epoch": 0.4597757310727286,
+      "grad_norm": 0.0023109375033527613,
+      "learning_rate": 0.2608732778591278,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 12211136,
+      "step": 9410
+    },
+    {
+      "epoch": 0.46002003273642295,
+      "grad_norm": 0.002475339686498046,
+      "learning_rate": 0.2608335948153126,
+      "loss": 0.124,
+      "num_input_tokens_seen": 12217408,
+      "step": 9415
+    },
+    {
+      "epoch": 0.46026433440011727,
+      "grad_norm": 0.0019865883514285088,
+      "learning_rate": 0.26079389467956426,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 12223392,
+      "step": 9420
+    },
+    {
+      "epoch": 0.4605086360638116,
+      "grad_norm": 0.0010653880890458822,
+      "learning_rate": 0.26075417745800505,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 12229824,
+      "step": 9425
+    },
+    {
+      "epoch": 0.4607529377275059,
+      "grad_norm": 0.001659730332903564,
+      "learning_rate": 0.26071444315675985,
+      "loss": 0.103,
+      "num_input_tokens_seen": 12236128,
+      "step": 9430
+    },
+    {
+      "epoch": 0.46099723939120024,
+      "grad_norm": 0.002870383206754923,
+      "learning_rate": 0.2606746917819562,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 12242816,
+      "step": 9435
+    },
+    {
+      "epoch": 0.46124154105489457,
+      "grad_norm": 0.0027968939393758774,
+      "learning_rate": 0.2606349233397242,
+      "loss": 0.12,
+      "num_input_tokens_seen": 12249184,
+      "step": 9440
+    },
+    {
+      "epoch": 0.4614858427185889,
+      "grad_norm": 0.0018239696510136127,
+      "learning_rate": 0.26059513783619676,
+      "loss": 0.1479,
+      "num_input_tokens_seen": 12255456,
+      "step": 9445
+    },
+    {
+      "epoch": 0.46173014438228327,
+      "grad_norm": 0.0013693226501345634,
+      "learning_rate": 0.26055533527750924,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 12261952,
+      "step": 9450
+    },
+    {
+      "epoch": 0.4619744460459776,
+      "grad_norm": 0.0015338868834078312,
+      "learning_rate": 0.26051551566979964,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 12268384,
+      "step": 9455
+    },
+    {
+      "epoch": 0.4622187477096719,
+      "grad_norm": 0.00217537977732718,
+      "learning_rate": 0.26047567901920876,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 12274720,
+      "step": 9460
+    },
+    {
+      "epoch": 0.46246304937336624,
+      "grad_norm": 0.0016157124191522598,
+      "learning_rate": 0.2604358253318798,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 12281120,
+      "step": 9465
+    },
+    {
+      "epoch": 0.46270735103706057,
+      "grad_norm": 0.0023394664749503136,
+      "learning_rate": 0.26039595461395876,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 12287456,
+      "step": 9470
+    },
+    {
+      "epoch": 0.4629516527007549,
+      "grad_norm": 0.0016941194189712405,
+      "learning_rate": 0.26035606687159424,
+      "loss": 0.088,
+      "num_input_tokens_seen": 12294496,
+      "step": 9475
+    },
+    {
+      "epoch": 0.4631959543644492,
+      "grad_norm": 0.0024506286717951298,
+      "learning_rate": 0.26031616211093733,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 12301152,
+      "step": 9480
+    },
+    {
+      "epoch": 0.46344025602814354,
+      "grad_norm": 0.0021266897674649954,
+      "learning_rate": 0.26027624033814195,
+      "loss": 0.1413,
+      "num_input_tokens_seen": 12307232,
+      "step": 9485
+    },
+    {
+      "epoch": 0.46368455769183786,
+      "grad_norm": 0.002030021511018276,
+      "learning_rate": 0.2602363015593645,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 12313568,
+      "step": 9490
+    },
+    {
+      "epoch": 0.4639288593555322,
+      "grad_norm": 0.0014898955123499036,
+      "learning_rate": 0.26019634578076395,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 12320416,
+      "step": 9495
+    },
+    {
+      "epoch": 0.46417316101922657,
+      "grad_norm": 0.0013589262962341309,
+      "learning_rate": 0.26015637300850214,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 12327456,
+      "step": 9500
+    },
+    {
+      "epoch": 0.4644174626829209,
+      "grad_norm": 0.0013907881220802665,
+      "learning_rate": 0.26011638324874325,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 12334368,
+      "step": 9505
+    },
+    {
+      "epoch": 0.4646617643466152,
+      "grad_norm": 0.0019354267278686166,
+      "learning_rate": 0.2600763765076543,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 12340736,
+      "step": 9510
+    },
+    {
+      "epoch": 0.46490606601030954,
+      "grad_norm": 0.003043456468731165,
+      "learning_rate": 0.2600363527914048,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 12347296,
+      "step": 9515
+    },
+    {
+      "epoch": 0.46515036767400386,
+      "grad_norm": 0.0022584330290555954,
+      "learning_rate": 0.25999631210616686,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 12353792,
+      "step": 9520
+    },
+    {
+      "epoch": 0.4653946693376982,
+      "grad_norm": 0.0013535235775634646,
+      "learning_rate": 0.25995625445811527,
+      "loss": 0.12,
+      "num_input_tokens_seen": 12360480,
+      "step": 9525
+    },
+    {
+      "epoch": 0.4656389710013925,
+      "grad_norm": 0.002541502006351948,
+      "learning_rate": 0.2599161798534275,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 12366688,
+      "step": 9530
+    },
+    {
+      "epoch": 0.46588327266508683,
+      "grad_norm": 0.0031577800400555134,
+      "learning_rate": 0.25987608829828346,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 12372736,
+      "step": 9535
+    },
+    {
+      "epoch": 0.46612757432878116,
+      "grad_norm": 0.0016064719529822469,
+      "learning_rate": 0.25983597979886586,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 12379328,
+      "step": 9540
+    },
+    {
+      "epoch": 0.4663718759924755,
+      "grad_norm": 0.0027581716421991587,
+      "learning_rate": 0.2597958543613599,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 12385888,
+      "step": 9545
+    },
+    {
+      "epoch": 0.46661617765616986,
+      "grad_norm": 0.0016666068695485592,
+      "learning_rate": 0.25975571199195335,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 12392192,
+      "step": 9550
+    },
+    {
+      "epoch": 0.4668604793198642,
+      "grad_norm": 0.0017462203977629542,
+      "learning_rate": 0.25971555269683677,
+      "loss": 0.097,
+      "num_input_tokens_seen": 12398624,
+      "step": 9555
+    },
+    {
+      "epoch": 0.4671047809835585,
+      "grad_norm": 0.002779419533908367,
+      "learning_rate": 0.25967537648220324,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 12404768,
+      "step": 9560
+    },
+    {
+      "epoch": 0.46734908264725283,
+      "grad_norm": 0.0016655056970193982,
+      "learning_rate": 0.2596351833542483,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 12410880,
+      "step": 9565
+    },
+    {
+      "epoch": 0.46759338431094716,
+      "grad_norm": 0.0022677171509712934,
+      "learning_rate": 0.25959497331917036,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 12417280,
+      "step": 9570
+    },
+    {
+      "epoch": 0.4678376859746415,
+      "grad_norm": 0.002046798123046756,
+      "learning_rate": 0.2595547463831703,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 12423808,
+      "step": 9575
+    },
+    {
+      "epoch": 0.4680819876383358,
+      "grad_norm": 0.001124708796851337,
+      "learning_rate": 0.25951450255245156,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 12430560,
+      "step": 9580
+    },
+    {
+      "epoch": 0.46832628930203013,
+      "grad_norm": 0.0025589230936020613,
+      "learning_rate": 0.2594742418332203,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 12436992,
+      "step": 9585
+    },
+    {
+      "epoch": 0.46857059096572445,
+      "grad_norm": 0.0013295823009684682,
+      "learning_rate": 0.2594339642316852,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 12443136,
+      "step": 9590
+    },
+    {
+      "epoch": 0.46881489262941883,
+      "grad_norm": 0.0026515605859458447,
+      "learning_rate": 0.2593936697540576,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 12449472,
+      "step": 9595
+    },
+    {
+      "epoch": 0.46905919429311316,
+      "grad_norm": 0.0016618132358416915,
+      "learning_rate": 0.2593533584065514,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 12455968,
+      "step": 9600
+    },
+    {
+      "epoch": 0.46905919429311316,
+      "eval_loss": 0.12838327884674072,
+      "eval_runtime": 402.2159,
+      "eval_samples_per_second": 90.461,
+      "eval_steps_per_second": 22.617,
+      "num_input_tokens_seen": 12455968,
+      "step": 9600
+    },
+    {
+      "epoch": 0.4693034959568075,
+      "grad_norm": 0.0013023335486650467,
+      "learning_rate": 0.2593130301953831,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 12462304,
+      "step": 9605
+    },
+    {
+      "epoch": 0.4695477976205018,
+      "grad_norm": 0.0020031898748129606,
+      "learning_rate": 0.2592726851267718,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 12469088,
+      "step": 9610
+    },
+    {
+      "epoch": 0.46979209928419613,
+      "grad_norm": 0.0010194906499236822,
+      "learning_rate": 0.2592323232069393,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 12475296,
+      "step": 9615
+    },
+    {
+      "epoch": 0.47003640094789045,
+      "grad_norm": 0.002372491406276822,
+      "learning_rate": 0.25919194444210986,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 12481824,
+      "step": 9620
+    },
+    {
+      "epoch": 0.4702807026115848,
+      "grad_norm": 0.001661317190155387,
+      "learning_rate": 0.2591515488385103,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 12488928,
+      "step": 9625
+    },
+    {
+      "epoch": 0.4705250042752791,
+      "grad_norm": 0.0016091769794002175,
+      "learning_rate": 0.2591111364023704,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 12495584,
+      "step": 9630
+    },
+    {
+      "epoch": 0.4707693059389734,
+      "grad_norm": 0.001319811912253499,
+      "learning_rate": 0.259070707139922,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 12502336,
+      "step": 9635
+    },
+    {
+      "epoch": 0.47101360760266775,
+      "grad_norm": 0.000991817214526236,
+      "learning_rate": 0.25903026105739985,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 12509120,
+      "step": 9640
+    },
+    {
+      "epoch": 0.47125790926636213,
+      "grad_norm": 0.0015194264706224203,
+      "learning_rate": 0.2589897981610413,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 12515296,
+      "step": 9645
+    },
+    {
+      "epoch": 0.47150221093005645,
+      "grad_norm": 0.0027461450081318617,
+      "learning_rate": 0.2589493184570863,
+      "loss": 0.1401,
+      "num_input_tokens_seen": 12521792,
+      "step": 9650
+    },
+    {
+      "epoch": 0.4717465125937508,
+      "grad_norm": 0.0020115585066378117,
+      "learning_rate": 0.25890882195177717,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 12528064,
+      "step": 9655
+    },
+    {
+      "epoch": 0.4719908142574451,
+      "grad_norm": 0.0018000085838139057,
+      "learning_rate": 0.25886830865135907,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 12535328,
+      "step": 9660
+    },
+    {
+      "epoch": 0.4722351159211394,
+      "grad_norm": 0.0016057674074545503,
+      "learning_rate": 0.25882777856207967,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 12542400,
+      "step": 9665
+    },
+    {
+      "epoch": 0.47247941758483375,
+      "grad_norm": 0.0015737981302663684,
+      "learning_rate": 0.2587872316901892,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 12548832,
+      "step": 9670
+    },
+    {
+      "epoch": 0.4727237192485281,
+      "grad_norm": 0.0019519173074513674,
+      "learning_rate": 0.25874666804194046,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 12555264,
+      "step": 9675
+    },
+    {
+      "epoch": 0.4729680209122224,
+      "grad_norm": 0.001297205570153892,
+      "learning_rate": 0.258706087623589,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 12561312,
+      "step": 9680
+    },
+    {
+      "epoch": 0.4732123225759167,
+      "grad_norm": 0.0018688627751544118,
+      "learning_rate": 0.25866549044139264,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 12567616,
+      "step": 9685
+    },
+    {
+      "epoch": 0.47345662423961105,
+      "grad_norm": 0.0042114038951694965,
+      "learning_rate": 0.25862487650161214,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 12574048,
+      "step": 9690
+    },
+    {
+      "epoch": 0.4737009259033054,
+      "grad_norm": 0.0022727439645677805,
+      "learning_rate": 0.2585842458105106,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 12580896,
+      "step": 9695
+    },
+    {
+      "epoch": 0.47394522756699975,
+      "grad_norm": 0.0009233637829311192,
+      "learning_rate": 0.2585435983743538,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 12587552,
+      "step": 9700
+    },
+    {
+      "epoch": 0.4741895292306941,
+      "grad_norm": 0.0017936071380972862,
+      "learning_rate": 0.2585029341994101,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 12593696,
+      "step": 9705
+    },
+    {
+      "epoch": 0.4744338308943884,
+      "grad_norm": 0.0033004742581397295,
+      "learning_rate": 0.2584622532919504,
+      "loss": 0.1227,
+      "num_input_tokens_seen": 12600576,
+      "step": 9710
+    },
+    {
+      "epoch": 0.4746781325580827,
+      "grad_norm": 0.0017023446271196008,
+      "learning_rate": 0.2584215556582482,
+      "loss": 0.1127,
+      "num_input_tokens_seen": 12606912,
+      "step": 9715
+    },
+    {
+      "epoch": 0.47492243422177705,
+      "grad_norm": 0.0014545820886269212,
+      "learning_rate": 0.25838084130457967,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 12613312,
+      "step": 9720
+    },
+    {
+      "epoch": 0.47516673588547137,
+      "grad_norm": 0.0015381575794890523,
+      "learning_rate": 0.2583401102372234,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 12620128,
+      "step": 9725
+    },
+    {
+      "epoch": 0.4754110375491657,
+      "grad_norm": 0.0014243015320971608,
+      "learning_rate": 0.2582993624624606,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 12627040,
+      "step": 9730
+    },
+    {
+      "epoch": 0.47565533921286,
+      "grad_norm": 0.00251763011328876,
+      "learning_rate": 0.25825859798657513,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 12634112,
+      "step": 9735
+    },
+    {
+      "epoch": 0.47589964087655434,
+      "grad_norm": 0.0018161151092499495,
+      "learning_rate": 0.25821781681585343,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 12640864,
+      "step": 9740
+    },
+    {
+      "epoch": 0.4761439425402487,
+      "grad_norm": 0.0020431424491107464,
+      "learning_rate": 0.2581770189565844,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 12647296,
+      "step": 9745
+    },
+    {
+      "epoch": 0.47638824420394305,
+      "grad_norm": 0.0018527675420045853,
+      "learning_rate": 0.25813620441505963,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 12653632,
+      "step": 9750
+    },
+    {
+      "epoch": 0.47663254586763737,
+      "grad_norm": 0.0020877488423138857,
+      "learning_rate": 0.2580953731975732,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 12659872,
+      "step": 9755
+    },
+    {
+      "epoch": 0.4768768475313317,
+      "grad_norm": 0.0019499447662383318,
+      "learning_rate": 0.2580545253104218,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 12666272,
+      "step": 9760
+    },
+    {
+      "epoch": 0.477121149195026,
+      "grad_norm": 0.0015313151525333524,
+      "learning_rate": 0.2580136607599047,
+      "loss": 0.115,
+      "num_input_tokens_seen": 12672544,
+      "step": 9765
+    },
+    {
+      "epoch": 0.47736545085872034,
+      "grad_norm": 0.001127170748077333,
+      "learning_rate": 0.2579727795523238,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 12678944,
+      "step": 9770
+    },
+    {
+      "epoch": 0.47760975252241467,
+      "grad_norm": 0.0013875799486413598,
+      "learning_rate": 0.25793188169398334,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 12685568,
+      "step": 9775
+    },
+    {
+      "epoch": 0.477854054186109,
+      "grad_norm": 0.0025148168206214905,
+      "learning_rate": 0.25789096719119037,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 12691648,
+      "step": 9780
+    },
+    {
+      "epoch": 0.4780983558498033,
+      "grad_norm": 0.001895428984425962,
+      "learning_rate": 0.2578500360502544,
+      "loss": 0.11,
+      "num_input_tokens_seen": 12698048,
+      "step": 9785
+    },
+    {
+      "epoch": 0.4783426575134977,
+      "grad_norm": 0.0025196673814207315,
+      "learning_rate": 0.2578090882774876,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 12704256,
+      "step": 9790
+    },
+    {
+      "epoch": 0.478586959177192,
+      "grad_norm": 0.0020912790205329657,
+      "learning_rate": 0.25776812387920456,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 12710560,
+      "step": 9795
+    },
+    {
+      "epoch": 0.47883126084088634,
+      "grad_norm": 0.0013552403543144464,
+      "learning_rate": 0.2577271428617225,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 12716992,
+      "step": 9800
+    },
+    {
+      "epoch": 0.47883126084088634,
+      "eval_loss": 0.11165111511945724,
+      "eval_runtime": 402.7606,
+      "eval_samples_per_second": 90.339,
+      "eval_steps_per_second": 22.587,
+      "num_input_tokens_seen": 12716992,
+      "step": 9800
+    },
+    {
+      "epoch": 0.47907556250458067,
+      "grad_norm": 0.0034787915647029877,
+      "learning_rate": 0.25768614523136124,
+      "loss": 0.1279,
+      "num_input_tokens_seen": 12722976,
+      "step": 9805
+    },
+    {
+      "epoch": 0.479319864168275,
+      "grad_norm": 0.0019449025858193636,
+      "learning_rate": 0.25764513099444314,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 12729088,
+      "step": 9810
+    },
+    {
+      "epoch": 0.4795641658319693,
+      "grad_norm": 0.0008894497877918184,
+      "learning_rate": 0.25760410015729307,
+      "loss": 0.091,
+      "num_input_tokens_seen": 12735456,
+      "step": 9815
+    },
+    {
+      "epoch": 0.47980846749566364,
+      "grad_norm": 0.0021570250391960144,
+      "learning_rate": 0.2575630527262385,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 12742208,
+      "step": 9820
+    },
+    {
+      "epoch": 0.48005276915935796,
+      "grad_norm": 0.001462982501834631,
+      "learning_rate": 0.25752198870760945,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 12748704,
+      "step": 9825
+    },
+    {
+      "epoch": 0.4802970708230523,
+      "grad_norm": 0.0016204760177060962,
+      "learning_rate": 0.2574809081077386,
+      "loss": 0.1192,
+      "num_input_tokens_seen": 12754784,
+      "step": 9830
+    },
+    {
+      "epoch": 0.4805413724867466,
+      "grad_norm": 0.0011354495072737336,
+      "learning_rate": 0.257439810932961,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 12761024,
+      "step": 9835
+    },
+    {
+      "epoch": 0.480785674150441,
+      "grad_norm": 0.002648488152772188,
+      "learning_rate": 0.2573986971896144,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 12767616,
+      "step": 9840
+    },
+    {
+      "epoch": 0.4810299758141353,
+      "grad_norm": 0.0018123837653547525,
+      "learning_rate": 0.257357566884039,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 12774080,
+      "step": 9845
+    },
+    {
+      "epoch": 0.48127427747782964,
+      "grad_norm": 0.0017283849883824587,
+      "learning_rate": 0.25731642002257765,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 12780352,
+      "step": 9850
+    },
+    {
+      "epoch": 0.48151857914152396,
+      "grad_norm": 0.002899334765970707,
+      "learning_rate": 0.25727525661157574,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 12786816,
+      "step": 9855
+    },
+    {
+      "epoch": 0.4817628808052183,
+      "grad_norm": 0.002107046078890562,
+      "learning_rate": 0.2572340766573811,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 12793696,
+      "step": 9860
+    },
+    {
+      "epoch": 0.4820071824689126,
+      "grad_norm": 0.0027606934309005737,
+      "learning_rate": 0.25719288016634434,
+      "loss": 0.1238,
+      "num_input_tokens_seen": 12799904,
+      "step": 9865
+    },
+    {
+      "epoch": 0.48225148413260693,
+      "grad_norm": 0.0023630838841199875,
+      "learning_rate": 0.25715166714481835,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 12806848,
+      "step": 9870
+    },
+    {
+      "epoch": 0.48249578579630126,
+      "grad_norm": 0.0014539749827235937,
+      "learning_rate": 0.2571104375991587,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 12813440,
+      "step": 9875
+    },
+    {
+      "epoch": 0.4827400874599956,
+      "grad_norm": 0.001291996450163424,
+      "learning_rate": 0.2570691915357236,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 12819648,
+      "step": 9880
+    },
+    {
+      "epoch": 0.4829843891236899,
+      "grad_norm": 0.001057955319993198,
+      "learning_rate": 0.2570279289608736,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 12825760,
+      "step": 9885
+    },
+    {
+      "epoch": 0.4832286907873843,
+      "grad_norm": 0.001002384815365076,
+      "learning_rate": 0.256986649880972,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 12832768,
+      "step": 9890
+    },
+    {
+      "epoch": 0.4834729924510786,
+      "grad_norm": 0.0009498866857029498,
+      "learning_rate": 0.25694535430238447,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 12838944,
+      "step": 9895
+    },
+    {
+      "epoch": 0.48371729411477293,
+      "grad_norm": 0.0024899851996451616,
+      "learning_rate": 0.25690404223147933,
+      "loss": 0.1441,
+      "num_input_tokens_seen": 12844992,
+      "step": 9900
+    },
+    {
+      "epoch": 0.48396159577846726,
+      "grad_norm": 0.0012028546771034598,
+      "learning_rate": 0.2568627136746275,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 12851296,
+      "step": 9905
+    },
+    {
+      "epoch": 0.4842058974421616,
+      "grad_norm": 0.001034553861245513,
+      "learning_rate": 0.25682136863820226,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 12857472,
+      "step": 9910
+    },
+    {
+      "epoch": 0.4844501991058559,
+      "grad_norm": 0.001249017077498138,
+      "learning_rate": 0.25678000712857957,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 12863904,
+      "step": 9915
+    },
+    {
+      "epoch": 0.48469450076955023,
+      "grad_norm": 0.0017015141202136874,
+      "learning_rate": 0.2567386291521379,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 12870016,
+      "step": 9920
+    },
+    {
+      "epoch": 0.48493880243324455,
+      "grad_norm": 0.002595057711005211,
+      "learning_rate": 0.2566972347152583,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 12876800,
+      "step": 9925
+    },
+    {
+      "epoch": 0.4851831040969389,
+      "grad_norm": 0.0014667087234556675,
+      "learning_rate": 0.2566558238243242,
+      "loss": 0.123,
+      "num_input_tokens_seen": 12883072,
+      "step": 9930
+    },
+    {
+      "epoch": 0.48542740576063326,
+      "grad_norm": 0.0012832414358854294,
+      "learning_rate": 0.25661439648572176,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 12889440,
+      "step": 9935
+    },
+    {
+      "epoch": 0.4856717074243276,
+      "grad_norm": 0.0014175500255078077,
+      "learning_rate": 0.25657295270583963,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 12895744,
+      "step": 9940
+    },
+    {
+      "epoch": 0.4859160090880219,
+      "grad_norm": 0.0013960934011265635,
+      "learning_rate": 0.25653149249106894,
+      "loss": 0.1185,
+      "num_input_tokens_seen": 12902016,
+      "step": 9945
+    },
+    {
+      "epoch": 0.48616031075171623,
+      "grad_norm": 0.0013120381627231836,
+      "learning_rate": 0.25649001584780323,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 12908576,
+      "step": 9950
+    },
+    {
+      "epoch": 0.48640461241541055,
+      "grad_norm": 0.001381564186885953,
+      "learning_rate": 0.2564485227824389,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 12914688,
+      "step": 9955
+    },
+    {
+      "epoch": 0.4866489140791049,
+      "grad_norm": 0.0021526897326111794,
+      "learning_rate": 0.25640701330137466,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 12921024,
+      "step": 9960
+    },
+    {
+      "epoch": 0.4868932157427992,
+      "grad_norm": 0.0024423464201390743,
+      "learning_rate": 0.2563654874110117,
+      "loss": 0.084,
+      "num_input_tokens_seen": 12927872,
+      "step": 9965
+    },
+    {
+      "epoch": 0.4871375174064935,
+      "grad_norm": 0.0011521651176735759,
+      "learning_rate": 0.256323945117754,
+      "loss": 0.1198,
+      "num_input_tokens_seen": 12934208,
+      "step": 9970
+    },
+    {
+      "epoch": 0.48738181907018785,
+      "grad_norm": 0.0019722143188118935,
+      "learning_rate": 0.2562823864280078,
+      "loss": 0.118,
+      "num_input_tokens_seen": 12940736,
+      "step": 9975
+    },
+    {
+      "epoch": 0.4876261207338822,
+      "grad_norm": 0.0016280540730804205,
+      "learning_rate": 0.25624081134818194,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 12947360,
+      "step": 9980
+    },
+    {
+      "epoch": 0.48787042239757655,
+      "grad_norm": 0.002261681016534567,
+      "learning_rate": 0.2561992198846879,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 12954176,
+      "step": 9985
+    },
+    {
+      "epoch": 0.4881147240612709,
+      "grad_norm": 0.0026697234716266394,
+      "learning_rate": 0.25615761204393955,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 12960928,
+      "step": 9990
+    },
+    {
+      "epoch": 0.4883590257249652,
+      "grad_norm": 0.0022933045402169228,
+      "learning_rate": 0.2561159878323534,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 12967648,
+      "step": 9995
+    },
+    {
+      "epoch": 0.4886033273886595,
+      "grad_norm": 0.0008182452875189483,
+      "learning_rate": 0.2560743472563483,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 12974048,
+      "step": 10000
+    },
+    {
+      "epoch": 0.4886033273886595,
+      "eval_loss": 0.11820349842309952,
+      "eval_runtime": 401.8554,
+      "eval_samples_per_second": 90.543,
+      "eval_steps_per_second": 22.637,
+      "num_input_tokens_seen": 12974048,
+      "step": 10000
+    },
+    {
+      "epoch": 0.48884762905235385,
+      "grad_norm": 0.0018146659713238478,
+      "learning_rate": 0.25603269032234593,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 12980960,
+      "step": 10005
+    },
+    {
+      "epoch": 0.4890919307160482,
+      "grad_norm": 0.002811427926644683,
+      "learning_rate": 0.2559910170367702,
+      "loss": 0.1359,
+      "num_input_tokens_seen": 12987456,
+      "step": 10010
+    },
+    {
+      "epoch": 0.4893362323797425,
+      "grad_norm": 0.0013212288031354547,
+      "learning_rate": 0.2559493274060477,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 12994016,
+      "step": 10015
+    },
+    {
+      "epoch": 0.4895805340434368,
+      "grad_norm": 0.003728148527443409,
+      "learning_rate": 0.2559076214366074,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 13000256,
+      "step": 10020
+    },
+    {
+      "epoch": 0.48982483570713115,
+      "grad_norm": 0.001283983699977398,
+      "learning_rate": 0.25586589913488106,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 13006368,
+      "step": 10025
+    },
+    {
+      "epoch": 0.49006913737082547,
+      "grad_norm": 0.0012187574757263064,
+      "learning_rate": 0.2558241605073026,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 13012736,
+      "step": 10030
+    },
+    {
+      "epoch": 0.49031343903451985,
+      "grad_norm": 0.0010102998930960894,
+      "learning_rate": 0.25578240556030873,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 13019072,
+      "step": 10035
+    },
+    {
+      "epoch": 0.4905577406982142,
+      "grad_norm": 0.0020058350637555122,
+      "learning_rate": 0.2557406343003386,
+      "loss": 0.13,
+      "num_input_tokens_seen": 13025472,
+      "step": 10040
+    },
+    {
+      "epoch": 0.4908020423619085,
+      "grad_norm": 0.0012518564471974969,
+      "learning_rate": 0.25569884673383375,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 13031840,
+      "step": 10045
+    },
+    {
+      "epoch": 0.4910463440256028,
+      "grad_norm": 0.0014018358197063208,
+      "learning_rate": 0.25565704286723856,
+      "loss": 0.1,
+      "num_input_tokens_seen": 13038272,
+      "step": 10050
+    },
+    {
+      "epoch": 0.49129064568929715,
+      "grad_norm": 0.0027738846838474274,
+      "learning_rate": 0.25561522270699955,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 13044544,
+      "step": 10055
+    },
+    {
+      "epoch": 0.49153494735299147,
+      "grad_norm": 0.0021554380655288696,
+      "learning_rate": 0.25557338625956594,
+      "loss": 0.1531,
+      "num_input_tokens_seen": 13050848,
+      "step": 10060
+    },
+    {
+      "epoch": 0.4917792490166858,
+      "grad_norm": 0.0009380607516504824,
+      "learning_rate": 0.25553153353138947,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 13057280,
+      "step": 10065
+    },
+    {
+      "epoch": 0.4920235506803801,
+      "grad_norm": 0.0009417547844350338,
+      "learning_rate": 0.2554896645289243,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 13063744,
+      "step": 10070
+    },
+    {
+      "epoch": 0.49226785234407444,
+      "grad_norm": 0.0016230018809437752,
+      "learning_rate": 0.2554477792586272,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 13070304,
+      "step": 10075
+    },
+    {
+      "epoch": 0.49251215400776877,
+      "grad_norm": 0.0009458018466830254,
+      "learning_rate": 0.25540587772695744,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 13076416,
+      "step": 10080
+    },
+    {
+      "epoch": 0.49275645567146314,
+      "grad_norm": 0.0011661236640065908,
+      "learning_rate": 0.2553639599403767,
+      "loss": 0.1229,
+      "num_input_tokens_seen": 13082816,
+      "step": 10085
+    },
+    {
+      "epoch": 0.49300075733515747,
+      "grad_norm": 0.0008761748904362321,
+      "learning_rate": 0.2553220259053493,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 13089280,
+      "step": 10090
+    },
+    {
+      "epoch": 0.4932450589988518,
+      "grad_norm": 0.002006860449910164,
+      "learning_rate": 0.2552800756283419,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 13095680,
+      "step": 10095
+    },
+    {
+      "epoch": 0.4934893606625461,
+      "grad_norm": 0.0011931119952350855,
+      "learning_rate": 0.25523810911582373,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 13102112,
+      "step": 10100
+    },
+    {
+      "epoch": 0.49373366232624044,
+      "grad_norm": 0.0017533862264826894,
+      "learning_rate": 0.25519612637426675,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 13108640,
+      "step": 10105
+    },
+    {
+      "epoch": 0.49397796398993477,
+      "grad_norm": 0.0027104017790406942,
+      "learning_rate": 0.25515412741014504,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 13115136,
+      "step": 10110
+    },
+    {
+      "epoch": 0.4942222656536291,
+      "grad_norm": 0.0018405918963253498,
+      "learning_rate": 0.2551121122299355,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 13121600,
+      "step": 10115
+    },
+    {
+      "epoch": 0.4944665673173234,
+      "grad_norm": 0.0017820430221036077,
+      "learning_rate": 0.2550700808401173,
+      "loss": 0.107,
+      "num_input_tokens_seen": 13128288,
+      "step": 10120
+    },
+    {
+      "epoch": 0.49471086898101774,
+      "grad_norm": 0.002238648710772395,
+      "learning_rate": 0.2550280332471722,
+      "loss": 0.1199,
+      "num_input_tokens_seen": 13134272,
+      "step": 10125
+    },
+    {
+      "epoch": 0.4949551706447121,
+      "grad_norm": 0.0009641119395382702,
+      "learning_rate": 0.2549859694575845,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 13140576,
+      "step": 10130
+    },
+    {
+      "epoch": 0.49519947230840644,
+      "grad_norm": 0.0019614319317042828,
+      "learning_rate": 0.254943889477841,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 13147040,
+      "step": 10135
+    },
+    {
+      "epoch": 0.49544377397210076,
+      "grad_norm": 0.0024499250575900078,
+      "learning_rate": 0.25490179331443097,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 13154016,
+      "step": 10140
+    },
+    {
+      "epoch": 0.4956880756357951,
+      "grad_norm": 0.0015940091107040644,
+      "learning_rate": 0.25485968097384615,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 13160288,
+      "step": 10145
+    },
+    {
+      "epoch": 0.4959323772994894,
+      "grad_norm": 0.0018942024325951934,
+      "learning_rate": 0.25481755246258075,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 13166752,
+      "step": 10150
+    },
+    {
+      "epoch": 0.49617667896318374,
+      "grad_norm": 0.0018232122529298067,
+      "learning_rate": 0.2547754077871315,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 13173632,
+      "step": 10155
+    },
+    {
+      "epoch": 0.49642098062687806,
+      "grad_norm": 0.0018774359486997128,
+      "learning_rate": 0.25473324695399774,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 13180512,
+      "step": 10160
+    },
+    {
+      "epoch": 0.4966652822905724,
+      "grad_norm": 0.002090892056003213,
+      "learning_rate": 0.25469106996968105,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 13186752,
+      "step": 10165
+    },
+    {
+      "epoch": 0.4969095839542667,
+      "grad_norm": 0.001595717971213162,
+      "learning_rate": 0.2546488768406858,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 13193152,
+      "step": 10170
+    },
+    {
+      "epoch": 0.49715388561796103,
+      "grad_norm": 0.0020495248027145863,
+      "learning_rate": 0.25460666757351863,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 13199456,
+      "step": 10175
+    },
+    {
+      "epoch": 0.4973981872816554,
+      "grad_norm": 0.0015856140526011586,
+      "learning_rate": 0.25456444217468877,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 13205728,
+      "step": 10180
+    },
+    {
+      "epoch": 0.49764248894534974,
+      "grad_norm": 0.0011678090086206794,
+      "learning_rate": 0.25452220065070785,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 13212000,
+      "step": 10185
+    },
+    {
+      "epoch": 0.49788679060904406,
+      "grad_norm": 0.0028825311455875635,
+      "learning_rate": 0.2544799430080901,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 13218048,
+      "step": 10190
+    },
+    {
+      "epoch": 0.4981310922727384,
+      "grad_norm": 0.001694979378953576,
+      "learning_rate": 0.2544376692533522,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 13224640,
+      "step": 10195
+    },
+    {
+      "epoch": 0.4983753939364327,
+      "grad_norm": 0.0013776409905403852,
+      "learning_rate": 0.2543953793930132,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 13231360,
+      "step": 10200
+    },
+    {
+      "epoch": 0.4983753939364327,
+      "eval_loss": 0.11140511929988861,
+      "eval_runtime": 402.3341,
+      "eval_samples_per_second": 90.435,
+      "eval_steps_per_second": 22.611,
+      "num_input_tokens_seen": 13231360,
+      "step": 10200
+    },
+    {
+      "epoch": 0.49861969560012703,
+      "grad_norm": 0.0010741668520495296,
+      "learning_rate": 0.2543530734335948,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 13237600,
+      "step": 10205
+    },
+    {
+      "epoch": 0.49886399726382136,
+      "grad_norm": 0.001955880783498287,
+      "learning_rate": 0.2543107513816211,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 13244256,
+      "step": 10210
+    },
+    {
+      "epoch": 0.4991082989275157,
+      "grad_norm": 0.001390855060890317,
+      "learning_rate": 0.25426841324361865,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 13251136,
+      "step": 10215
+    },
+    {
+      "epoch": 0.49935260059121,
+      "grad_norm": 0.0018839439144358039,
+      "learning_rate": 0.2542260590261166,
+      "loss": 0.103,
+      "num_input_tokens_seen": 13257536,
+      "step": 10220
+    },
+    {
+      "epoch": 0.49959690225490433,
+      "grad_norm": 0.0014259060844779015,
+      "learning_rate": 0.2541836887356465,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 13264000,
+      "step": 10225
+    },
+    {
+      "epoch": 0.4998412039185987,
+      "grad_norm": 0.0021618162281811237,
+      "learning_rate": 0.2541413023787423,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 13270560,
+      "step": 10230
+    },
+    {
+      "epoch": 0.500085505582293,
+      "grad_norm": 0.0016483257059007883,
+      "learning_rate": 0.2540988999619405,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 13276864,
+      "step": 10235
+    },
+    {
+      "epoch": 0.5003298072459873,
+      "grad_norm": 0.0023259338922798634,
+      "learning_rate": 0.25405648149178023,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 13283360,
+      "step": 10240
+    },
+    {
+      "epoch": 0.5005741089096817,
+      "grad_norm": 0.0013770764926448464,
+      "learning_rate": 0.2540140469748028,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 13290048,
+      "step": 10245
+    },
+    {
+      "epoch": 0.500818410573376,
+      "grad_norm": 0.0022583291865885258,
+      "learning_rate": 0.25397159641755224,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 13296032,
+      "step": 10250
+    },
+    {
+      "epoch": 0.5010627122370703,
+      "grad_norm": 0.0015590139664709568,
+      "learning_rate": 0.2539291298265749,
+      "loss": 0.119,
+      "num_input_tokens_seen": 13303200,
+      "step": 10255
+    },
+    {
+      "epoch": 0.5013070139007647,
+      "grad_norm": 0.003224806161597371,
+      "learning_rate": 0.2538866472084197,
+      "loss": 0.1338,
+      "num_input_tokens_seen": 13309504,
+      "step": 10260
+    },
+    {
+      "epoch": 0.501551315564459,
+      "grad_norm": 0.0019217501394450665,
+      "learning_rate": 0.25384414856963794,
+      "loss": 0.1514,
+      "num_input_tokens_seen": 13315712,
+      "step": 10265
+    },
+    {
+      "epoch": 0.5017956172281534,
+      "grad_norm": 0.0024106239434331656,
+      "learning_rate": 0.25380163391678356,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 13322272,
+      "step": 10270
+    },
+    {
+      "epoch": 0.5020399188918476,
+      "grad_norm": 0.0010539956856518984,
+      "learning_rate": 0.2537591032564127,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 13328416,
+      "step": 10275
+    },
+    {
+      "epoch": 0.502284220555542,
+      "grad_norm": 0.0014405617257580161,
+      "learning_rate": 0.25371655659508424,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 13335296,
+      "step": 10280
+    },
+    {
+      "epoch": 0.5025285222192363,
+      "grad_norm": 0.002158868359401822,
+      "learning_rate": 0.25367399393935935,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 13342496,
+      "step": 10285
+    },
+    {
+      "epoch": 0.5027728238829307,
+      "grad_norm": 0.0011546713067218661,
+      "learning_rate": 0.25363141529580174,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 13348576,
+      "step": 10290
+    },
+    {
+      "epoch": 0.5030171255466249,
+      "grad_norm": 0.0014888821169734001,
+      "learning_rate": 0.2535888206709776,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 13355008,
+      "step": 10295
+    },
+    {
+      "epoch": 0.5032614272103193,
+      "grad_norm": 0.0012215025490149856,
+      "learning_rate": 0.2535462100714555,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 13361728,
+      "step": 10300
+    },
+    {
+      "epoch": 0.5035057288740137,
+      "grad_norm": 0.0014805456157773733,
+      "learning_rate": 0.2535035835038066,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 13368032,
+      "step": 10305
+    },
+    {
+      "epoch": 0.503750030537708,
+      "grad_norm": 0.0020920278038829565,
+      "learning_rate": 0.2534609409746044,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 13374752,
+      "step": 10310
+    },
+    {
+      "epoch": 0.5039943322014023,
+      "grad_norm": 0.001314655877649784,
+      "learning_rate": 0.253418282490425,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 13380800,
+      "step": 10315
+    },
+    {
+      "epoch": 0.5042386338650966,
+      "grad_norm": 0.0011245508212596178,
+      "learning_rate": 0.2533756080578467,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 13387200,
+      "step": 10320
+    },
+    {
+      "epoch": 0.504482935528791,
+      "grad_norm": 0.00118116638623178,
+      "learning_rate": 0.25333291768345056,
+      "loss": 0.1203,
+      "num_input_tokens_seen": 13393920,
+      "step": 10325
+    },
+    {
+      "epoch": 0.5047272371924852,
+      "grad_norm": 0.0016984047833830118,
+      "learning_rate": 0.25329021137381996,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 13400736,
+      "step": 10330
+    },
+    {
+      "epoch": 0.5049715388561796,
+      "grad_norm": 0.0014488531742244959,
+      "learning_rate": 0.25324748913554074,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 13407424,
+      "step": 10335
+    },
+    {
+      "epoch": 0.5052158405198739,
+      "grad_norm": 0.001806766726076603,
+      "learning_rate": 0.2532047509752013,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 13414432,
+      "step": 10340
+    },
+    {
+      "epoch": 0.5054601421835683,
+      "grad_norm": 0.0016406466020271182,
+      "learning_rate": 0.25316199689939217,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 13420960,
+      "step": 10345
+    },
+    {
+      "epoch": 0.5057044438472627,
+      "grad_norm": 0.0015145428478717804,
+      "learning_rate": 0.2531192269147068,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 13427168,
+      "step": 10350
+    },
+    {
+      "epoch": 0.5059487455109569,
+      "grad_norm": 0.002183835953474045,
+      "learning_rate": 0.2530764410277407,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 13433568,
+      "step": 10355
+    },
+    {
+      "epoch": 0.5061930471746513,
+      "grad_norm": 0.0009240178624168038,
+      "learning_rate": 0.25303363924509203,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 13439648,
+      "step": 10360
+    },
+    {
+      "epoch": 0.5064373488383456,
+      "grad_norm": 0.001213107374496758,
+      "learning_rate": 0.25299082157336145,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 13446272,
+      "step": 10365
+    },
+    {
+      "epoch": 0.50668165050204,
+      "grad_norm": 0.0012211932335048914,
+      "learning_rate": 0.2529479880191519,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 13452672,
+      "step": 10370
+    },
+    {
+      "epoch": 0.5069259521657342,
+      "grad_norm": 0.0011349242413416505,
+      "learning_rate": 0.2529051385890689,
+      "loss": 0.1124,
+      "num_input_tokens_seen": 13459040,
+      "step": 10375
+    },
+    {
+      "epoch": 0.5071702538294286,
+      "grad_norm": 0.0013254669029265642,
+      "learning_rate": 0.2528622732897203,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 13465824,
+      "step": 10380
+    },
+    {
+      "epoch": 0.5074145554931229,
+      "grad_norm": 0.0012858441332355142,
+      "learning_rate": 0.25281939212771654,
+      "loss": 0.1272,
+      "num_input_tokens_seen": 13471904,
+      "step": 10385
+    },
+    {
+      "epoch": 0.5076588571568172,
+      "grad_norm": 0.0025245589204132557,
+      "learning_rate": 0.2527764951096704,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 13477856,
+      "step": 10390
+    },
+    {
+      "epoch": 0.5079031588205115,
+      "grad_norm": 0.002354786265641451,
+      "learning_rate": 0.2527335822421971,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 13483552,
+      "step": 10395
+    },
+    {
+      "epoch": 0.5081474604842059,
+      "grad_norm": 0.001969563076272607,
+      "learning_rate": 0.25269065353191444,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 13489760,
+      "step": 10400
+    },
+    {
+      "epoch": 0.5081474604842059,
+      "eval_loss": 0.11623179167509079,
+      "eval_runtime": 402.3775,
+      "eval_samples_per_second": 90.425,
+      "eval_steps_per_second": 22.608,
+      "num_input_tokens_seen": 13489760,
+      "step": 10400
+    },
+    {
+      "epoch": 0.5083917621479003,
+      "grad_norm": 0.001495670061558485,
+      "learning_rate": 0.2526477089854425,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 13496160,
+      "step": 10405
+    },
+    {
+      "epoch": 0.5086360638115945,
+      "grad_norm": 0.002736422698944807,
+      "learning_rate": 0.25260474860940385,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 13503072,
+      "step": 10410
+    },
+    {
+      "epoch": 0.5088803654752889,
+      "grad_norm": 0.0023960794787853956,
+      "learning_rate": 0.2525617724104236,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 13509120,
+      "step": 10415
+    },
+    {
+      "epoch": 0.5091246671389832,
+      "grad_norm": 0.001421345747075975,
+      "learning_rate": 0.25251878039512915,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 13515616,
+      "step": 10420
+    },
+    {
+      "epoch": 0.5093689688026776,
+      "grad_norm": 0.0021058539859950542,
+      "learning_rate": 0.25247577257015047,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 13522240,
+      "step": 10425
+    },
+    {
+      "epoch": 0.5096132704663718,
+      "grad_norm": 0.0012945587513968349,
+      "learning_rate": 0.2524327489421198,
+      "loss": 0.098,
+      "num_input_tokens_seen": 13528512,
+      "step": 10430
+    },
+    {
+      "epoch": 0.5098575721300662,
+      "grad_norm": 0.0019859240856021643,
+      "learning_rate": 0.25238970951767203,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 13534528,
+      "step": 10435
+    },
+    {
+      "epoch": 0.5101018737937605,
+      "grad_norm": 0.001702063367702067,
+      "learning_rate": 0.25234665430344433,
+      "loss": 0.0931,
+      "num_input_tokens_seen": 13541120,
+      "step": 10440
+    },
+    {
+      "epoch": 0.5103461754574549,
+      "grad_norm": 0.001672688638791442,
+      "learning_rate": 0.2523035833060764,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 13547904,
+      "step": 10445
+    },
+    {
+      "epoch": 0.5105904771211492,
+      "grad_norm": 0.001304520876146853,
+      "learning_rate": 0.2522604965322103,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 13554400,
+      "step": 10450
+    },
+    {
+      "epoch": 0.5108347787848435,
+      "grad_norm": 0.0019980366341769695,
+      "learning_rate": 0.25221739398849047,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 13560864,
+      "step": 10455
+    },
+    {
+      "epoch": 0.5110790804485379,
+      "grad_norm": 0.001317598856985569,
+      "learning_rate": 0.252174275681564,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 13567264,
+      "step": 10460
+    },
+    {
+      "epoch": 0.5113233821122322,
+      "grad_norm": 0.002019987441599369,
+      "learning_rate": 0.2521311416180802,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 13573568,
+      "step": 10465
+    },
+    {
+      "epoch": 0.5115676837759265,
+      "grad_norm": 0.001819878350943327,
+      "learning_rate": 0.25208799180469094,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 13579552,
+      "step": 10470
+    },
+    {
+      "epoch": 0.5118119854396208,
+      "grad_norm": 0.0014593073865398765,
+      "learning_rate": 0.2520448262480504,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 13586080,
+      "step": 10475
+    },
+    {
+      "epoch": 0.5120562871033152,
+      "grad_norm": 0.0013555069454014301,
+      "learning_rate": 0.25200164495481525,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 13592928,
+      "step": 10480
+    },
+    {
+      "epoch": 0.5123005887670095,
+      "grad_norm": 0.003069641999900341,
+      "learning_rate": 0.25195844793164474,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 13600064,
+      "step": 10485
+    },
+    {
+      "epoch": 0.5125448904307038,
+      "grad_norm": 0.00222374708391726,
+      "learning_rate": 0.2519152351852001,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 13606880,
+      "step": 10490
+    },
+    {
+      "epoch": 0.5127891920943982,
+      "grad_norm": 0.001463662483729422,
+      "learning_rate": 0.25187200672214555,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 13613216,
+      "step": 10495
+    },
+    {
+      "epoch": 0.5130334937580925,
+      "grad_norm": 0.0009306384017691016,
+      "learning_rate": 0.2518287625491473,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 13619776,
+      "step": 10500
+    },
+    {
+      "epoch": 0.5132777954217869,
+      "grad_norm": 0.0016621758695691824,
+      "learning_rate": 0.25178550267287425,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 13626400,
+      "step": 10505
+    },
+    {
+      "epoch": 0.5135220970854811,
+      "grad_norm": 0.0022571177687495947,
+      "learning_rate": 0.2517422270999976,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 13632480,
+      "step": 10510
+    },
+    {
+      "epoch": 0.5137663987491755,
+      "grad_norm": 0.0017553361831232905,
+      "learning_rate": 0.2516989358371909,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 13639456,
+      "step": 10515
+    },
+    {
+      "epoch": 0.5140107004128698,
+      "grad_norm": 0.001829514279961586,
+      "learning_rate": 0.25165562889113025,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 13645600,
+      "step": 10520
+    },
+    {
+      "epoch": 0.5142550020765642,
+      "grad_norm": 0.0012940785381942987,
+      "learning_rate": 0.2516123062684942,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 13651904,
+      "step": 10525
+    },
+    {
+      "epoch": 0.5144993037402584,
+      "grad_norm": 0.001664554001763463,
+      "learning_rate": 0.25156896797596356,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 13658336,
+      "step": 10530
+    },
+    {
+      "epoch": 0.5147436054039528,
+      "grad_norm": 0.0018766829743981361,
+      "learning_rate": 0.2515256140202216,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 13664480,
+      "step": 10535
+    },
+    {
+      "epoch": 0.5149879070676471,
+      "grad_norm": 0.0016662696143612266,
+      "learning_rate": 0.25148224440795425,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 13670720,
+      "step": 10540
+    },
+    {
+      "epoch": 0.5152322087313415,
+      "grad_norm": 0.001529004774056375,
+      "learning_rate": 0.2514388591458494,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 13677152,
+      "step": 10545
+    },
+    {
+      "epoch": 0.5154765103950358,
+      "grad_norm": 0.001983480527997017,
+      "learning_rate": 0.2513954582405977,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 13683616,
+      "step": 10550
+    },
+    {
+      "epoch": 0.5157208120587301,
+      "grad_norm": 0.0013539961073547602,
+      "learning_rate": 0.2513520416988922,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 13689696,
+      "step": 10555
+    },
+    {
+      "epoch": 0.5159651137224245,
+      "grad_norm": 0.0009956650901585817,
+      "learning_rate": 0.2513086095274281,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 13696416,
+      "step": 10560
+    },
+    {
+      "epoch": 0.5162094153861188,
+      "grad_norm": 0.0012999052414670587,
+      "learning_rate": 0.25126516173290336,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 13703136,
+      "step": 10565
+    },
+    {
+      "epoch": 0.5164537170498131,
+      "grad_norm": 0.001188030350022018,
+      "learning_rate": 0.2512216983220181,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 13709216,
+      "step": 10570
+    },
+    {
+      "epoch": 0.5166980187135074,
+      "grad_norm": 0.0012600376503542066,
+      "learning_rate": 0.25117821930147494,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 13716480,
+      "step": 10575
+    },
+    {
+      "epoch": 0.5169423203772018,
+      "grad_norm": 0.0017034104093909264,
+      "learning_rate": 0.2511347246779788,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 13723936,
+      "step": 10580
+    },
+    {
+      "epoch": 0.517186622040896,
+      "grad_norm": 0.001125931041315198,
+      "learning_rate": 0.25109121445823723,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 13730592,
+      "step": 10585
+    },
+    {
+      "epoch": 0.5174309237045904,
+      "grad_norm": 0.0026348368264734745,
+      "learning_rate": 0.25104768864896004,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 13737152,
+      "step": 10590
+    },
+    {
+      "epoch": 0.5176752253682848,
+      "grad_norm": 0.0017300941981375217,
+      "learning_rate": 0.2510041472568594,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 13743808,
+      "step": 10595
+    },
+    {
+      "epoch": 0.5179195270319791,
+      "grad_norm": 0.0014441937673836946,
+      "learning_rate": 0.25096059028864987,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 13750592,
+      "step": 10600
+    },
+    {
+      "epoch": 0.5179195270319791,
+      "eval_loss": 0.11015040427446365,
+      "eval_runtime": 402.01,
+      "eval_samples_per_second": 90.508,
+      "eval_steps_per_second": 22.629,
+      "num_input_tokens_seen": 13750592,
+      "step": 10600
+    },
+    {
+      "epoch": 0.5181638286956735,
+      "grad_norm": 0.0019387531792744994,
+      "learning_rate": 0.25091701775104863,
+      "loss": 0.111,
+      "num_input_tokens_seen": 13756896,
+      "step": 10605
+    },
+    {
+      "epoch": 0.5184081303593677,
+      "grad_norm": 0.0020773683208972216,
+      "learning_rate": 0.250873429650775,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 13763328,
+      "step": 10610
+    },
+    {
+      "epoch": 0.5186524320230621,
+      "grad_norm": 0.0013712659711018205,
+      "learning_rate": 0.25082982599455095,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 13769696,
+      "step": 10615
+    },
+    {
+      "epoch": 0.5188967336867564,
+      "grad_norm": 0.0012630640994757414,
+      "learning_rate": 0.2507862067891006,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 13775808,
+      "step": 10620
+    },
+    {
+      "epoch": 0.5191410353504508,
+      "grad_norm": 0.0019027084344998002,
+      "learning_rate": 0.25074257204115064,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 13781952,
+      "step": 10625
+    },
+    {
+      "epoch": 0.519385337014145,
+      "grad_norm": 0.0013097012415528297,
+      "learning_rate": 0.25069892175742997,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 13788064,
+      "step": 10630
+    },
+    {
+      "epoch": 0.5196296386778394,
+      "grad_norm": 0.0021589817479252815,
+      "learning_rate": 0.25065525594467014,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 13794112,
+      "step": 10635
+    },
+    {
+      "epoch": 0.5198739403415338,
+      "grad_norm": 0.0017306477529928088,
+      "learning_rate": 0.2506115746096049,
+      "loss": 0.1229,
+      "num_input_tokens_seen": 13800736,
+      "step": 10640
+    },
+    {
+      "epoch": 0.520118242005228,
+      "grad_norm": 0.0012866974575445056,
+      "learning_rate": 0.25056787775897055,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 13807008,
+      "step": 10645
+    },
+    {
+      "epoch": 0.5203625436689224,
+      "grad_norm": 0.0009840653510764241,
+      "learning_rate": 0.2505241653995056,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 13813760,
+      "step": 10650
+    },
+    {
+      "epoch": 0.5206068453326167,
+      "grad_norm": 0.001333807478658855,
+      "learning_rate": 0.25048043753795113,
+      "loss": 0.093,
+      "num_input_tokens_seen": 13820224,
+      "step": 10655
+    },
+    {
+      "epoch": 0.5208511469963111,
+      "grad_norm": 0.0014747707173228264,
+      "learning_rate": 0.2504366941810504,
+      "loss": 0.135,
+      "num_input_tokens_seen": 13826976,
+      "step": 10660
+    },
+    {
+      "epoch": 0.5210954486600053,
+      "grad_norm": 0.0013075354509055614,
+      "learning_rate": 0.2503929353355493,
+      "loss": 0.113,
+      "num_input_tokens_seen": 13833184,
+      "step": 10665
+    },
+    {
+      "epoch": 0.5213397503236997,
+      "grad_norm": 0.0019209507154300809,
+      "learning_rate": 0.250349161008196,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 13839936,
+      "step": 10670
+    },
+    {
+      "epoch": 0.521584051987394,
+      "grad_norm": 0.0012993625132367015,
+      "learning_rate": 0.2503053712057409,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 13846144,
+      "step": 10675
+    },
+    {
+      "epoch": 0.5218283536510884,
+      "grad_norm": 0.002098111668601632,
+      "learning_rate": 0.25026156593493715,
+      "loss": 0.099,
+      "num_input_tokens_seen": 13852736,
+      "step": 10680
+    },
+    {
+      "epoch": 0.5220726553147826,
+      "grad_norm": 0.0019454223802313209,
+      "learning_rate": 0.2502177452025399,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 13859552,
+      "step": 10685
+    },
+    {
+      "epoch": 0.522316956978477,
+      "grad_norm": 0.0017071864567697048,
+      "learning_rate": 0.25017390901530695,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 13866016,
+      "step": 10690
+    },
+    {
+      "epoch": 0.5225612586421714,
+      "grad_norm": 0.0030082897283136845,
+      "learning_rate": 0.2501300573799984,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 13872160,
+      "step": 10695
+    },
+    {
+      "epoch": 0.5228055603058657,
+      "grad_norm": 0.002473636996001005,
+      "learning_rate": 0.2500861903033766,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 13878368,
+      "step": 10700
+    },
+    {
+      "epoch": 0.52304986196956,
+      "grad_norm": 0.0015367644373327494,
+      "learning_rate": 0.25004230779220654,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 13884928,
+      "step": 10705
+    },
+    {
+      "epoch": 0.5232941636332543,
+      "grad_norm": 0.001264012767933309,
+      "learning_rate": 0.24999840985325542,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 13891360,
+      "step": 10710
+    },
+    {
+      "epoch": 0.5235384652969487,
+      "grad_norm": 0.0014951216289773583,
+      "learning_rate": 0.24995449649329285,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 13898272,
+      "step": 10715
+    },
+    {
+      "epoch": 0.523782766960643,
+      "grad_norm": 0.001311751315370202,
+      "learning_rate": 0.2499105677190908,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 13904992,
+      "step": 10720
+    },
+    {
+      "epoch": 0.5240270686243373,
+      "grad_norm": 0.001982693560421467,
+      "learning_rate": 0.24986662353742364,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 13911744,
+      "step": 10725
+    },
+    {
+      "epoch": 0.5242713702880316,
+      "grad_norm": 0.0020960066467523575,
+      "learning_rate": 0.24982266395506814,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 13918112,
+      "step": 10730
+    },
+    {
+      "epoch": 0.524515671951726,
+      "grad_norm": 0.001956281950697303,
+      "learning_rate": 0.2497786889788034,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 13924224,
+      "step": 10735
+    },
+    {
+      "epoch": 0.5247599736154204,
+      "grad_norm": 0.001759157283231616,
+      "learning_rate": 0.24973469861541095,
+      "loss": 0.1274,
+      "num_input_tokens_seen": 13930624,
+      "step": 10740
+    },
+    {
+      "epoch": 0.5250042752791146,
+      "grad_norm": 0.0009564183419570327,
+      "learning_rate": 0.24969069287167456,
+      "loss": 0.104,
+      "num_input_tokens_seen": 13936992,
+      "step": 10745
+    },
+    {
+      "epoch": 0.525248576942809,
+      "grad_norm": 0.001706930692307651,
+      "learning_rate": 0.2496466717543806,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 13943360,
+      "step": 10750
+    },
+    {
+      "epoch": 0.5254928786065033,
+      "grad_norm": 0.001745807589031756,
+      "learning_rate": 0.24960263527031762,
+      "loss": 0.1238,
+      "num_input_tokens_seen": 13949792,
+      "step": 10755
+    },
+    {
+      "epoch": 0.5257371802701977,
+      "grad_norm": 0.0031445471104234457,
+      "learning_rate": 0.24955858342627657,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 13956480,
+      "step": 10760
+    },
+    {
+      "epoch": 0.5259814819338919,
+      "grad_norm": 0.0013161319075152278,
+      "learning_rate": 0.24951451622905083,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 13962688,
+      "step": 10765
+    },
+    {
+      "epoch": 0.5262257835975863,
+      "grad_norm": 0.0013531798031181097,
+      "learning_rate": 0.24947043368543612,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 13969888,
+      "step": 10770
+    },
+    {
+      "epoch": 0.5264700852612806,
+      "grad_norm": 0.0017245005583390594,
+      "learning_rate": 0.2494263358022305,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 13976768,
+      "step": 10775
+    },
+    {
+      "epoch": 0.526714386924975,
+      "grad_norm": 0.001760319690220058,
+      "learning_rate": 0.24938222258623444,
+      "loss": 0.1448,
+      "num_input_tokens_seen": 13983360,
+      "step": 10780
+    },
+    {
+      "epoch": 0.5269586885886693,
+      "grad_norm": 0.0015171509003266692,
+      "learning_rate": 0.24933809404425075,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 13989504,
+      "step": 10785
+    },
+    {
+      "epoch": 0.5272029902523636,
+      "grad_norm": 0.00176490587182343,
+      "learning_rate": 0.24929395018308453,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 13996320,
+      "step": 10790
+    },
+    {
+      "epoch": 0.527447291916058,
+      "grad_norm": 0.0024009624030441046,
+      "learning_rate": 0.24924979100954348,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 14003040,
+      "step": 10795
+    },
+    {
+      "epoch": 0.5276915935797523,
+      "grad_norm": 0.001639460795558989,
+      "learning_rate": 0.24920561653043735,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 14009088,
+      "step": 10800
+    },
+    {
+      "epoch": 0.5276915935797523,
+      "eval_loss": 0.11233407258987427,
+      "eval_runtime": 402.3578,
+      "eval_samples_per_second": 90.429,
+      "eval_steps_per_second": 22.609,
+      "num_input_tokens_seen": 14009088,
+      "step": 10800
+    },
+    {
+      "epoch": 0.5279358952434466,
+      "grad_norm": 0.0010506178950890899,
+      "learning_rate": 0.24916142675257846,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 14015776,
+      "step": 10805
+    },
+    {
+      "epoch": 0.5281801969071409,
+      "grad_norm": 0.0010298562701791525,
+      "learning_rate": 0.24911722168278144,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 14022144,
+      "step": 10810
+    },
+    {
+      "epoch": 0.5284244985708353,
+      "grad_norm": 0.0012871791841462255,
+      "learning_rate": 0.24907300132786328,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 14028864,
+      "step": 10815
+    },
+    {
+      "epoch": 0.5286688002345296,
+      "grad_norm": 0.00202836561948061,
+      "learning_rate": 0.24902876569464322,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 14035392,
+      "step": 10820
+    },
+    {
+      "epoch": 0.5289131018982239,
+      "grad_norm": 0.001338908914476633,
+      "learning_rate": 0.24898451478994305,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 14041888,
+      "step": 10825
+    },
+    {
+      "epoch": 0.5291574035619182,
+      "grad_norm": 0.0018045541364699602,
+      "learning_rate": 0.2489402486205868,
+      "loss": 0.124,
+      "num_input_tokens_seen": 14048768,
+      "step": 10830
+    },
+    {
+      "epoch": 0.5294017052256126,
+      "grad_norm": 0.0019813550170511007,
+      "learning_rate": 0.24889596719340085,
+      "loss": 0.127,
+      "num_input_tokens_seen": 14054944,
+      "step": 10835
+    },
+    {
+      "epoch": 0.529646006889307,
+      "grad_norm": 0.0022456333972513676,
+      "learning_rate": 0.24885167051521392,
+      "loss": 0.108,
+      "num_input_tokens_seen": 14061568,
+      "step": 10840
+    },
+    {
+      "epoch": 0.5298903085530012,
+      "grad_norm": 0.0010676010278984904,
+      "learning_rate": 0.24880735859285716,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 14067872,
+      "step": 10845
+    },
+    {
+      "epoch": 0.5301346102166956,
+      "grad_norm": 0.0007500868523493409,
+      "learning_rate": 0.24876303143316406,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 14073824,
+      "step": 10850
+    },
+    {
+      "epoch": 0.5303789118803899,
+      "grad_norm": 0.0015099674928933382,
+      "learning_rate": 0.24871868904297031,
+      "loss": 0.111,
+      "num_input_tokens_seen": 14079968,
+      "step": 10855
+    },
+    {
+      "epoch": 0.5306232135440843,
+      "grad_norm": 0.002198414411395788,
+      "learning_rate": 0.24867433142911416,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 14087040,
+      "step": 10860
+    },
+    {
+      "epoch": 0.5308675152077785,
+      "grad_norm": 0.0014415087644010782,
+      "learning_rate": 0.24862995859843612,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 14094432,
+      "step": 10865
+    },
+    {
+      "epoch": 0.5311118168714729,
+      "grad_norm": 0.0021472019143402576,
+      "learning_rate": 0.24858557055777897,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 14100480,
+      "step": 10870
+    },
+    {
+      "epoch": 0.5313561185351672,
+      "grad_norm": 0.0032043657265603542,
+      "learning_rate": 0.24854116731398793,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 14106848,
+      "step": 10875
+    },
+    {
+      "epoch": 0.5316004201988616,
+      "grad_norm": 0.002146227518096566,
+      "learning_rate": 0.24849674887391052,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 14112800,
+      "step": 10880
+    },
+    {
+      "epoch": 0.5318447218625559,
+      "grad_norm": 0.0020355740562081337,
+      "learning_rate": 0.2484523152443967,
+      "loss": 0.1238,
+      "num_input_tokens_seen": 14119328,
+      "step": 10885
+    },
+    {
+      "epoch": 0.5320890235262502,
+      "grad_norm": 0.002448880113661289,
+      "learning_rate": 0.24840786643229862,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 14126080,
+      "step": 10890
+    },
+    {
+      "epoch": 0.5323333251899446,
+      "grad_norm": 0.001217106357216835,
+      "learning_rate": 0.2483634024444709,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 14132320,
+      "step": 10895
+    },
+    {
+      "epoch": 0.5325776268536389,
+      "grad_norm": 0.0008433673647232354,
+      "learning_rate": 0.24831892328777033,
+      "loss": 0.107,
+      "num_input_tokens_seen": 14138464,
+      "step": 10900
+    },
+    {
+      "epoch": 0.5328219285173332,
+      "grad_norm": 0.001392542035318911,
+      "learning_rate": 0.2482744289690563,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 14144768,
+      "step": 10905
+    },
+    {
+      "epoch": 0.5330662301810275,
+      "grad_norm": 0.0016061124624684453,
+      "learning_rate": 0.2482299194951903,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 14151584,
+      "step": 10910
+    },
+    {
+      "epoch": 0.5333105318447219,
+      "grad_norm": 0.0012232520384714007,
+      "learning_rate": 0.2481853948730363,
+      "loss": 0.1185,
+      "num_input_tokens_seen": 14158400,
+      "step": 10915
+    },
+    {
+      "epoch": 0.5335548335084161,
+      "grad_norm": 0.0012601087801158428,
+      "learning_rate": 0.24814085510946052,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 14164608,
+      "step": 10920
+    },
+    {
+      "epoch": 0.5337991351721105,
+      "grad_norm": 0.0006942101754248142,
+      "learning_rate": 0.24809630021133158,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 14171232,
+      "step": 10925
+    },
+    {
+      "epoch": 0.5340434368358048,
+      "grad_norm": 0.0011418143985792994,
+      "learning_rate": 0.24805173018552037,
+      "loss": 0.105,
+      "num_input_tokens_seen": 14177696,
+      "step": 10930
+    },
+    {
+      "epoch": 0.5342877384994992,
+      "grad_norm": 0.0013452030252665281,
+      "learning_rate": 0.2480071450389002,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 14184544,
+      "step": 10935
+    },
+    {
+      "epoch": 0.5345320401631936,
+      "grad_norm": 0.0008317091269418597,
+      "learning_rate": 0.24796254477834662,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 14190784,
+      "step": 10940
+    },
+    {
+      "epoch": 0.5347763418268878,
+      "grad_norm": 0.0008900338434614241,
+      "learning_rate": 0.24791792941073754,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 14196896,
+      "step": 10945
+    },
+    {
+      "epoch": 0.5350206434905822,
+      "grad_norm": 0.0018141018226742744,
+      "learning_rate": 0.2478732989429533,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 14203424,
+      "step": 10950
+    },
+    {
+      "epoch": 0.5352649451542765,
+      "grad_norm": 0.001401800662279129,
+      "learning_rate": 0.24782865338187632,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 14210080,
+      "step": 10955
+    },
+    {
+      "epoch": 0.5355092468179709,
+      "grad_norm": 0.0021286909468472004,
+      "learning_rate": 0.2477839927343916,
+      "loss": 0.1395,
+      "num_input_tokens_seen": 14216160,
+      "step": 10960
+    },
+    {
+      "epoch": 0.5357535484816651,
+      "grad_norm": 0.0017903412226587534,
+      "learning_rate": 0.2477393170073864,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 14222592,
+      "step": 10965
+    },
+    {
+      "epoch": 0.5359978501453595,
+      "grad_norm": 0.0031504356302320957,
+      "learning_rate": 0.2476946262077503,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 14229664,
+      "step": 10970
+    },
+    {
+      "epoch": 0.5362421518090538,
+      "grad_norm": 0.000762486073654145,
+      "learning_rate": 0.24764992034237507,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 14235968,
+      "step": 10975
+    },
+    {
+      "epoch": 0.5364864534727481,
+      "grad_norm": 0.0021405688021332026,
+      "learning_rate": 0.24760519941815498,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 14242592,
+      "step": 10980
+    },
+    {
+      "epoch": 0.5367307551364425,
+      "grad_norm": 0.001193955889903009,
+      "learning_rate": 0.2475604634419866,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 14249056,
+      "step": 10985
+    },
+    {
+      "epoch": 0.5369750568001368,
+      "grad_norm": 0.0013813746627420187,
+      "learning_rate": 0.24751571242076872,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 14255488,
+      "step": 10990
+    },
+    {
+      "epoch": 0.5372193584638312,
+      "grad_norm": 0.001454840530641377,
+      "learning_rate": 0.2474709463614025,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 14262080,
+      "step": 10995
+    },
+    {
+      "epoch": 0.5374636601275254,
+      "grad_norm": 0.0015893186209723353,
+      "learning_rate": 0.24742616527079145,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 14268352,
+      "step": 11000
+    },
+    {
+      "epoch": 0.5374636601275254,
+      "eval_loss": 0.11256943643093109,
+      "eval_runtime": 402.7188,
+      "eval_samples_per_second": 90.348,
+      "eval_steps_per_second": 22.589,
+      "num_input_tokens_seen": 14268352,
+      "step": 11000
+    },
+    {
+      "epoch": 0.5377079617912198,
+      "grad_norm": 0.0013034285511821508,
+      "learning_rate": 0.24738136915584139,
+      "loss": 0.083,
+      "num_input_tokens_seen": 14274656,
+      "step": 11005
+    },
+    {
+      "epoch": 0.5379522634549141,
+      "grad_norm": 0.0026484366971999407,
+      "learning_rate": 0.24733655802346047,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 14280672,
+      "step": 11010
+    },
+    {
+      "epoch": 0.5381965651186085,
+      "grad_norm": 0.002655264688655734,
+      "learning_rate": 0.24729173188055906,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 14287104,
+      "step": 11015
+    },
+    {
+      "epoch": 0.5384408667823027,
+      "grad_norm": 0.002454804489389062,
+      "learning_rate": 0.24724689073404996,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 14293504,
+      "step": 11020
+    },
+    {
+      "epoch": 0.5386851684459971,
+      "grad_norm": 0.0016575338086113334,
+      "learning_rate": 0.24720203459084822,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 14299328,
+      "step": 11025
+    },
+    {
+      "epoch": 0.5389294701096915,
+      "grad_norm": 0.0013502378715202212,
+      "learning_rate": 0.24715716345787123,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 14305664,
+      "step": 11030
+    },
+    {
+      "epoch": 0.5391737717733858,
+      "grad_norm": 0.0017488976009190083,
+      "learning_rate": 0.2471122773420387,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 14312096,
+      "step": 11035
+    },
+    {
+      "epoch": 0.5394180734370801,
+      "grad_norm": 0.001063516829162836,
+      "learning_rate": 0.24706737625027259,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 14318368,
+      "step": 11040
+    },
+    {
+      "epoch": 0.5396623751007744,
+      "grad_norm": 0.0013701067073270679,
+      "learning_rate": 0.24702246018949725,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 14324448,
+      "step": 11045
+    },
+    {
+      "epoch": 0.5399066767644688,
+      "grad_norm": 0.0030957504641264677,
+      "learning_rate": 0.2469775291666393,
+      "loss": 0.11,
+      "num_input_tokens_seen": 14331200,
+      "step": 11050
+    },
+    {
+      "epoch": 0.5401509784281631,
+      "grad_norm": 0.0013287820620462298,
+      "learning_rate": 0.24693258318862765,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 14337472,
+      "step": 11055
+    },
+    {
+      "epoch": 0.5403952800918574,
+      "grad_norm": 0.001855275477282703,
+      "learning_rate": 0.2468876222623935,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 14343872,
+      "step": 11060
+    },
+    {
+      "epoch": 0.5406395817555517,
+      "grad_norm": 0.001819952973164618,
+      "learning_rate": 0.2468426463948705,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 14350720,
+      "step": 11065
+    },
+    {
+      "epoch": 0.5408838834192461,
+      "grad_norm": 0.0017901096725836396,
+      "learning_rate": 0.24679765559299438,
+      "loss": 0.112,
+      "num_input_tokens_seen": 14357280,
+      "step": 11070
+    },
+    {
+      "epoch": 0.5411281850829404,
+      "grad_norm": 0.0012608241522684693,
+      "learning_rate": 0.24675264986370332,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 14363872,
+      "step": 11075
+    },
+    {
+      "epoch": 0.5413724867466347,
+      "grad_norm": 0.0018643528455868363,
+      "learning_rate": 0.2467076292139378,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 14370048,
+      "step": 11080
+    },
+    {
+      "epoch": 0.5416167884103291,
+      "grad_norm": 0.001080165384337306,
+      "learning_rate": 0.24666259365064055,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 14376416,
+      "step": 11085
+    },
+    {
+      "epoch": 0.5418610900740234,
+      "grad_norm": 0.0017822706140577793,
+      "learning_rate": 0.24661754318075663,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 14382816,
+      "step": 11090
+    },
+    {
+      "epoch": 0.5421053917377178,
+      "grad_norm": 0.001504267449490726,
+      "learning_rate": 0.2465724778112334,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 14389888,
+      "step": 11095
+    },
+    {
+      "epoch": 0.542349693401412,
+      "grad_norm": 0.0011343329679220915,
+      "learning_rate": 0.24652739754902042,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 14396448,
+      "step": 11100
+    },
+    {
+      "epoch": 0.5425939950651064,
+      "grad_norm": 0.0014250566018745303,
+      "learning_rate": 0.24648230240106975,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 14402688,
+      "step": 11105
+    },
+    {
+      "epoch": 0.5428382967288007,
+      "grad_norm": 0.001798174693249166,
+      "learning_rate": 0.2464371923743356,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 14409472,
+      "step": 11110
+    },
+    {
+      "epoch": 0.5430825983924951,
+      "grad_norm": 0.0007593840709887445,
+      "learning_rate": 0.24639206747577444,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 14415968,
+      "step": 11115
+    },
+    {
+      "epoch": 0.5433269000561893,
+      "grad_norm": 0.0013187275035306811,
+      "learning_rate": 0.24634692771234515,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 14422688,
+      "step": 11120
+    },
+    {
+      "epoch": 0.5435712017198837,
+      "grad_norm": 0.0011279114987701178,
+      "learning_rate": 0.2463017730910088,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 14429312,
+      "step": 11125
+    },
+    {
+      "epoch": 0.5438155033835781,
+      "grad_norm": 0.001235799863934517,
+      "learning_rate": 0.2462566036187289,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 14435968,
+      "step": 11130
+    },
+    {
+      "epoch": 0.5440598050472724,
+      "grad_norm": 0.001079428126104176,
+      "learning_rate": 0.24621141930247106,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 14442592,
+      "step": 11135
+    },
+    {
+      "epoch": 0.5443041067109667,
+      "grad_norm": 0.001784582156687975,
+      "learning_rate": 0.2461662201492033,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 14448832,
+      "step": 11140
+    },
+    {
+      "epoch": 0.544548408374661,
+      "grad_norm": 0.0017814160091802478,
+      "learning_rate": 0.24612100616589586,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 14455328,
+      "step": 11145
+    },
+    {
+      "epoch": 0.5447927100383554,
+      "grad_norm": 0.0009529789676889777,
+      "learning_rate": 0.24607577735952135,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 14461664,
+      "step": 11150
+    },
+    {
+      "epoch": 0.5450370117020497,
+      "grad_norm": 0.001968234544619918,
+      "learning_rate": 0.24603053373705464,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 14467968,
+      "step": 11155
+    },
+    {
+      "epoch": 0.545281313365744,
+      "grad_norm": 0.0013042062055319548,
+      "learning_rate": 0.2459852753054728,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 14474368,
+      "step": 11160
+    },
+    {
+      "epoch": 0.5455256150294383,
+      "grad_norm": 0.0013361782766878605,
+      "learning_rate": 0.24594000207175526,
+      "loss": 0.094,
+      "num_input_tokens_seen": 14481216,
+      "step": 11165
+    },
+    {
+      "epoch": 0.5457699166931327,
+      "grad_norm": 0.0014705279609188437,
+      "learning_rate": 0.2458947140428838,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 14487776,
+      "step": 11170
+    },
+    {
+      "epoch": 0.5460142183568271,
+      "grad_norm": 0.0015681280056014657,
+      "learning_rate": 0.24584941122584233,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 14494304,
+      "step": 11175
+    },
+    {
+      "epoch": 0.5462585200205213,
+      "grad_norm": 0.001394380466081202,
+      "learning_rate": 0.24580409362761713,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 14501120,
+      "step": 11180
+    },
+    {
+      "epoch": 0.5465028216842157,
+      "grad_norm": 0.0019721011631190777,
+      "learning_rate": 0.2457587612551967,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 14507424,
+      "step": 11185
+    },
+    {
+      "epoch": 0.54674712334791,
+      "grad_norm": 0.0013357134303078055,
+      "learning_rate": 0.24571341411557193,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 14513728,
+      "step": 11190
+    },
+    {
+      "epoch": 0.5469914250116044,
+      "grad_norm": 0.0018028619233518839,
+      "learning_rate": 0.2456680522157359,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 14520480,
+      "step": 11195
+    },
+    {
+      "epoch": 0.5472357266752986,
+      "grad_norm": 0.0009778968524187803,
+      "learning_rate": 0.245622675562684,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 14527072,
+      "step": 11200
+    },
+    {
+      "epoch": 0.5472357266752986,
+      "eval_loss": 0.11581385135650635,
+      "eval_runtime": 402.7735,
+      "eval_samples_per_second": 90.336,
+      "eval_steps_per_second": 22.586,
+      "num_input_tokens_seen": 14527072,
+      "step": 11200
+    },
+    {
+      "epoch": 0.547480028338993,
+      "grad_norm": 0.0017773914150893688,
+      "learning_rate": 0.24557728416341384,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 14533888,
+      "step": 11205
+    },
+    {
+      "epoch": 0.5477243300026873,
+      "grad_norm": 0.0012074729893356562,
+      "learning_rate": 0.24553187802492538,
+      "loss": 0.11,
+      "num_input_tokens_seen": 14540224,
+      "step": 11210
+    },
+    {
+      "epoch": 0.5479686316663817,
+      "grad_norm": 0.0018558134324848652,
+      "learning_rate": 0.24548645715422074,
+      "loss": 0.1309,
+      "num_input_tokens_seen": 14547264,
+      "step": 11215
+    },
+    {
+      "epoch": 0.5482129333300759,
+      "grad_norm": 0.0011238940060138702,
+      "learning_rate": 0.2454410215583045,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 14553952,
+      "step": 11220
+    },
+    {
+      "epoch": 0.5484572349937703,
+      "grad_norm": 0.0017263019690290093,
+      "learning_rate": 0.24539557124418332,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 14560128,
+      "step": 11225
+    },
+    {
+      "epoch": 0.5487015366574647,
+      "grad_norm": 0.00154199730604887,
+      "learning_rate": 0.24535010621886624,
+      "loss": 0.1406,
+      "num_input_tokens_seen": 14566368,
+      "step": 11230
+    },
+    {
+      "epoch": 0.548945838321159,
+      "grad_norm": 0.001285576494410634,
+      "learning_rate": 0.2453046264893646,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 14572960,
+      "step": 11235
+    },
+    {
+      "epoch": 0.5491901399848533,
+      "grad_norm": 0.0017508980818092823,
+      "learning_rate": 0.24525913206269184,
+      "loss": 0.135,
+      "num_input_tokens_seen": 14579424,
+      "step": 11240
+    },
+    {
+      "epoch": 0.5494344416485476,
+      "grad_norm": 0.0032836163882166147,
+      "learning_rate": 0.2452136229458638,
+      "loss": 0.1322,
+      "num_input_tokens_seen": 14585696,
+      "step": 11245
+    },
+    {
+      "epoch": 0.549678743312242,
+      "grad_norm": 0.0015208754921332002,
+      "learning_rate": 0.24516809914589857,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 14591968,
+      "step": 11250
+    },
+    {
+      "epoch": 0.5499230449759362,
+      "grad_norm": 0.0015789070166647434,
+      "learning_rate": 0.2451225606698165,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 14598144,
+      "step": 11255
+    },
+    {
+      "epoch": 0.5501673466396306,
+      "grad_norm": 0.002115763258188963,
+      "learning_rate": 0.2450770075246402,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 14605024,
+      "step": 11260
+    },
+    {
+      "epoch": 0.5504116483033249,
+      "grad_norm": 0.0016656288644298911,
+      "learning_rate": 0.24503143971739455,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 14611232,
+      "step": 11265
+    },
+    {
+      "epoch": 0.5506559499670193,
+      "grad_norm": 0.001983663300052285,
+      "learning_rate": 0.24498585725510663,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 14618048,
+      "step": 11270
+    },
+    {
+      "epoch": 0.5509002516307137,
+      "grad_norm": 0.0014986100140959024,
+      "learning_rate": 0.24494026014480583,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 14624416,
+      "step": 11275
+    },
+    {
+      "epoch": 0.5511445532944079,
+      "grad_norm": 0.0016263348516076803,
+      "learning_rate": 0.24489464839352387,
+      "loss": 0.1227,
+      "num_input_tokens_seen": 14630432,
+      "step": 11280
+    },
+    {
+      "epoch": 0.5513888549581023,
+      "grad_norm": 0.0020681945607066154,
+      "learning_rate": 0.2448490220082946,
+      "loss": 0.1323,
+      "num_input_tokens_seen": 14637696,
+      "step": 11285
+    },
+    {
+      "epoch": 0.5516331566217966,
+      "grad_norm": 0.0008560725254938006,
+      "learning_rate": 0.24480338099615415,
+      "loss": 0.102,
+      "num_input_tokens_seen": 14644224,
+      "step": 11290
+    },
+    {
+      "epoch": 0.551877458285491,
+      "grad_norm": 0.0015458551933988929,
+      "learning_rate": 0.244757725364141,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 14650560,
+      "step": 11295
+    },
+    {
+      "epoch": 0.5521217599491852,
+      "grad_norm": 0.0008292314596474171,
+      "learning_rate": 0.24471205511929583,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 14657312,
+      "step": 11300
+    },
+    {
+      "epoch": 0.5523660616128796,
+      "grad_norm": 0.0014661946333944798,
+      "learning_rate": 0.24466637026866145,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 14663520,
+      "step": 11305
+    },
+    {
+      "epoch": 0.5526103632765739,
+      "grad_norm": 0.001428675022907555,
+      "learning_rate": 0.2446206708192832,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 14670304,
+      "step": 11310
+    },
+    {
+      "epoch": 0.5528546649402682,
+      "grad_norm": 0.0026945997960865498,
+      "learning_rate": 0.2445749567782084,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 14676480,
+      "step": 11315
+    },
+    {
+      "epoch": 0.5530989666039626,
+      "grad_norm": 0.0012068471405655146,
+      "learning_rate": 0.2445292281524868,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 14682944,
+      "step": 11320
+    },
+    {
+      "epoch": 0.5533432682676569,
+      "grad_norm": 0.001895078574307263,
+      "learning_rate": 0.24448348494917022,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 14689568,
+      "step": 11325
+    },
+    {
+      "epoch": 0.5535875699313513,
+      "grad_norm": 0.0016049318946897984,
+      "learning_rate": 0.24443772717531295,
+      "loss": 0.114,
+      "num_input_tokens_seen": 14696064,
+      "step": 11330
+    },
+    {
+      "epoch": 0.5538318715950455,
+      "grad_norm": 0.0009523323969915509,
+      "learning_rate": 0.24439195483797138,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 14702464,
+      "step": 11335
+    },
+    {
+      "epoch": 0.5540761732587399,
+      "grad_norm": 0.0012892765225842595,
+      "learning_rate": 0.24434616794420416,
+      "loss": 0.1311,
+      "num_input_tokens_seen": 14709184,
+      "step": 11340
+    },
+    {
+      "epoch": 0.5543204749224342,
+      "grad_norm": 0.0019412097753956914,
+      "learning_rate": 0.24430036650107223,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 14716096,
+      "step": 11345
+    },
+    {
+      "epoch": 0.5545647765861286,
+      "grad_norm": 0.0018839450785890222,
+      "learning_rate": 0.2442545505156387,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 14722752,
+      "step": 11350
+    },
+    {
+      "epoch": 0.5548090782498228,
+      "grad_norm": 0.0015076635172590613,
+      "learning_rate": 0.24420871999496904,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 14729216,
+      "step": 11355
+    },
+    {
+      "epoch": 0.5550533799135172,
+      "grad_norm": 0.003294466994702816,
+      "learning_rate": 0.24416287494613084,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 14735744,
+      "step": 11360
+    },
+    {
+      "epoch": 0.5552976815772115,
+      "grad_norm": 0.002478353213518858,
+      "learning_rate": 0.24411701537619399,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 14742112,
+      "step": 11365
+    },
+    {
+      "epoch": 0.5555419832409059,
+      "grad_norm": 0.0015347194857895374,
+      "learning_rate": 0.24407114129223062,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 14748192,
+      "step": 11370
+    },
+    {
+      "epoch": 0.5557862849046002,
+      "grad_norm": 0.0020096369553357363,
+      "learning_rate": 0.2440252527013151,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 14754432,
+      "step": 11375
+    },
+    {
+      "epoch": 0.5560305865682945,
+      "grad_norm": 0.0016868861857801676,
+      "learning_rate": 0.24397934961052403,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 14760896,
+      "step": 11380
+    },
+    {
+      "epoch": 0.5562748882319889,
+      "grad_norm": 0.0012782831909134984,
+      "learning_rate": 0.24393343202693618,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 14767680,
+      "step": 11385
+    },
+    {
+      "epoch": 0.5565191898956832,
+      "grad_norm": 0.002434576628729701,
+      "learning_rate": 0.2438874999576327,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 14773824,
+      "step": 11390
+    },
+    {
+      "epoch": 0.5567634915593775,
+      "grad_norm": 0.0017287294613197446,
+      "learning_rate": 0.24384155340969688,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 14780544,
+      "step": 11395
+    },
+    {
+      "epoch": 0.5570077932230718,
+      "grad_norm": 0.0024389575701206923,
+      "learning_rate": 0.24379559239021423,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 14787040,
+      "step": 11400
+    },
+    {
+      "epoch": 0.5570077932230718,
+      "eval_loss": 0.11395267397165298,
+      "eval_runtime": 402.7503,
+      "eval_samples_per_second": 90.341,
+      "eval_steps_per_second": 22.587,
+      "num_input_tokens_seen": 14787040,
+      "step": 11400
+    },
+    {
+      "epoch": 0.5572520948867662,
+      "grad_norm": 0.0011832150630652905,
+      "learning_rate": 0.2437496169062725,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 14793568,
+      "step": 11405
+    },
+    {
+      "epoch": 0.5574963965504605,
+      "grad_norm": 0.002184587763622403,
+      "learning_rate": 0.24370362696496176,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 14800096,
+      "step": 11410
+    },
+    {
+      "epoch": 0.5577406982141548,
+      "grad_norm": 0.0013009199174121022,
+      "learning_rate": 0.24365762257337417,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 14806304,
+      "step": 11415
+    },
+    {
+      "epoch": 0.5579849998778492,
+      "grad_norm": 0.0012713023461401463,
+      "learning_rate": 0.2436116037386042,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 14812576,
+      "step": 11420
+    },
+    {
+      "epoch": 0.5582293015415435,
+      "grad_norm": 0.0015254468889907002,
+      "learning_rate": 0.24356557046774852,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 14819264,
+      "step": 11425
+    },
+    {
+      "epoch": 0.5584736032052379,
+      "grad_norm": 0.0019373849499970675,
+      "learning_rate": 0.24351952276790606,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 14825888,
+      "step": 11430
+    },
+    {
+      "epoch": 0.5587179048689321,
+      "grad_norm": 0.0022877042647451162,
+      "learning_rate": 0.24347346064617797,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 14832864,
+      "step": 11435
+    },
+    {
+      "epoch": 0.5589622065326265,
+      "grad_norm": 0.002225275384262204,
+      "learning_rate": 0.24342738410966758,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 14839392,
+      "step": 11440
+    },
+    {
+      "epoch": 0.5592065081963208,
+      "grad_norm": 0.0033781242091208696,
+      "learning_rate": 0.24338129316548046,
+      "loss": 0.1769,
+      "num_input_tokens_seen": 14845952,
+      "step": 11445
+    },
+    {
+      "epoch": 0.5594508098600152,
+      "grad_norm": 0.002704952610656619,
+      "learning_rate": 0.24333518782072444,
+      "loss": 0.1276,
+      "num_input_tokens_seen": 14852832,
+      "step": 11450
+    },
+    {
+      "epoch": 0.5596951115237094,
+      "grad_norm": 0.0016089119017124176,
+      "learning_rate": 0.24328906808250952,
+      "loss": 0.1464,
+      "num_input_tokens_seen": 14858976,
+      "step": 11455
+    },
+    {
+      "epoch": 0.5599394131874038,
+      "grad_norm": 0.0011421851813793182,
+      "learning_rate": 0.243242933957948,
+      "loss": 0.111,
+      "num_input_tokens_seen": 14865696,
+      "step": 11460
+    },
+    {
+      "epoch": 0.5601837148510982,
+      "grad_norm": 0.0013675530208274722,
+      "learning_rate": 0.24319678545415427,
+      "loss": 0.13,
+      "num_input_tokens_seen": 14872192,
+      "step": 11465
+    },
+    {
+      "epoch": 0.5604280165147925,
+      "grad_norm": 0.0025732165668159723,
+      "learning_rate": 0.24315062257824507,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 14878464,
+      "step": 11470
+    },
+    {
+      "epoch": 0.5606723181784868,
+      "grad_norm": 0.001260278164409101,
+      "learning_rate": 0.24310444533733921,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 14884672,
+      "step": 11475
+    },
+    {
+      "epoch": 0.5609166198421811,
+      "grad_norm": 0.0009347221930511296,
+      "learning_rate": 0.2430582537385579,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 14891136,
+      "step": 11480
+    },
+    {
+      "epoch": 0.5611609215058755,
+      "grad_norm": 0.0015056222910061479,
+      "learning_rate": 0.2430120477890244,
+      "loss": 0.104,
+      "num_input_tokens_seen": 14897312,
+      "step": 11485
+    },
+    {
+      "epoch": 0.5614052231695698,
+      "grad_norm": 0.001937590423040092,
+      "learning_rate": 0.24296582749586426,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 14903360,
+      "step": 11490
+    },
+    {
+      "epoch": 0.5616495248332641,
+      "grad_norm": 0.0010741751175373793,
+      "learning_rate": 0.24291959286620526,
+      "loss": 0.125,
+      "num_input_tokens_seen": 14909824,
+      "step": 11495
+    },
+    {
+      "epoch": 0.5618938264969584,
+      "grad_norm": 0.0017459038645029068,
+      "learning_rate": 0.24287334390717738,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 14916128,
+      "step": 11500
+    },
+    {
+      "epoch": 0.5621381281606528,
+      "grad_norm": 0.0014132227515801787,
+      "learning_rate": 0.24282708062591268,
+      "loss": 0.108,
+      "num_input_tokens_seen": 14922656,
+      "step": 11505
+    },
+    {
+      "epoch": 0.562382429824347,
+      "grad_norm": 0.001221425598487258,
+      "learning_rate": 0.24278080302954563,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 14928896,
+      "step": 11510
+    },
+    {
+      "epoch": 0.5626267314880414,
+      "grad_norm": 0.0012052204692736268,
+      "learning_rate": 0.24273451112521283,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 14935328,
+      "step": 11515
+    },
+    {
+      "epoch": 0.5628710331517358,
+      "grad_norm": 0.0015065264888107777,
+      "learning_rate": 0.242688204920053,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 14942112,
+      "step": 11520
+    },
+    {
+      "epoch": 0.5631153348154301,
+      "grad_norm": 0.0010948526905849576,
+      "learning_rate": 0.24264188442120715,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 14949216,
+      "step": 11525
+    },
+    {
+      "epoch": 0.5633596364791245,
+      "grad_norm": 0.0010763512691482902,
+      "learning_rate": 0.24259554963581853,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 14955392,
+      "step": 11530
+    },
+    {
+      "epoch": 0.5636039381428187,
+      "grad_norm": 0.001158498926088214,
+      "learning_rate": 0.24254920057103257,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 14961856,
+      "step": 11535
+    },
+    {
+      "epoch": 0.5638482398065131,
+      "grad_norm": 0.0011312643764540553,
+      "learning_rate": 0.24250283723399685,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 14968448,
+      "step": 11540
+    },
+    {
+      "epoch": 0.5640925414702074,
+      "grad_norm": 0.0018821106059476733,
+      "learning_rate": 0.24245645963186108,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 14975040,
+      "step": 11545
+    },
+    {
+      "epoch": 0.5643368431339018,
+      "grad_norm": 0.0024614848662167788,
+      "learning_rate": 0.2424100677717774,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 14981344,
+      "step": 11550
+    },
+    {
+      "epoch": 0.564581144797596,
+      "grad_norm": 0.0007948394049890339,
+      "learning_rate": 0.24236366166090004,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 14987552,
+      "step": 11555
+    },
+    {
+      "epoch": 0.5648254464612904,
+      "grad_norm": 0.0015990306856110692,
+      "learning_rate": 0.24231724130638527,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 14993824,
+      "step": 11560
+    },
+    {
+      "epoch": 0.5650697481249848,
+      "grad_norm": 0.0014295704895630479,
+      "learning_rate": 0.2422708067153917,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 15000384,
+      "step": 11565
+    },
+    {
+      "epoch": 0.565314049788679,
+      "grad_norm": 0.0010567022254690528,
+      "learning_rate": 0.24222435789508026,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 15006848,
+      "step": 11570
+    },
+    {
+      "epoch": 0.5655583514523734,
+      "grad_norm": 0.0010339751606807113,
+      "learning_rate": 0.24217789485261387,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 15013312,
+      "step": 11575
+    },
+    {
+      "epoch": 0.5658026531160677,
+      "grad_norm": 0.001597579219378531,
+      "learning_rate": 0.2421314175951577,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 15019488,
+      "step": 11580
+    },
+    {
+      "epoch": 0.5660469547797621,
+      "grad_norm": 0.001557440496981144,
+      "learning_rate": 0.2420849261298791,
+      "loss": 0.1378,
+      "num_input_tokens_seen": 15025888,
+      "step": 11585
+    },
+    {
+      "epoch": 0.5662912564434563,
+      "grad_norm": 0.0015267248963937163,
+      "learning_rate": 0.24203842046394775,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 15032768,
+      "step": 11590
+    },
+    {
+      "epoch": 0.5665355581071507,
+      "grad_norm": 0.0012487717904150486,
+      "learning_rate": 0.24199190060453535,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 15039424,
+      "step": 11595
+    },
+    {
+      "epoch": 0.566779859770845,
+      "grad_norm": 0.0014452928444370627,
+      "learning_rate": 0.2419453665588158,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 15045600,
+      "step": 11600
+    },
+    {
+      "epoch": 0.566779859770845,
+      "eval_loss": 0.11164794117212296,
+      "eval_runtime": 402.5499,
+      "eval_samples_per_second": 90.386,
+      "eval_steps_per_second": 22.598,
+      "num_input_tokens_seen": 15045600,
+      "step": 11600
+    },
+    {
+      "epoch": 0.5670241614345394,
+      "grad_norm": 0.001318547292612493,
+      "learning_rate": 0.24189881833396523,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 15051872,
+      "step": 11605
+    },
+    {
+      "epoch": 0.5672684630982336,
+      "grad_norm": 0.0015450221253558993,
+      "learning_rate": 0.24185225593716203,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 15058400,
+      "step": 11610
+    },
+    {
+      "epoch": 0.567512764761928,
+      "grad_norm": 0.0021991138346493244,
+      "learning_rate": 0.2418056793755867,
+      "loss": 0.09,
+      "num_input_tokens_seen": 15064896,
+      "step": 11615
+    },
+    {
+      "epoch": 0.5677570664256224,
+      "grad_norm": 0.0026518201921135187,
+      "learning_rate": 0.24175908865642187,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 15071584,
+      "step": 11620
+    },
+    {
+      "epoch": 0.5680013680893167,
+      "grad_norm": 0.0021245419047772884,
+      "learning_rate": 0.24171248378685248,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 15077824,
+      "step": 11625
+    },
+    {
+      "epoch": 0.568245669753011,
+      "grad_norm": 0.0014747640816494823,
+      "learning_rate": 0.24166586477406554,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 15084160,
+      "step": 11630
+    },
+    {
+      "epoch": 0.5684899714167053,
+      "grad_norm": 0.0027814176864922047,
+      "learning_rate": 0.24161923162525034,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 15090880,
+      "step": 11635
+    },
+    {
+      "epoch": 0.5687342730803997,
+      "grad_norm": 0.0015725069679319859,
+      "learning_rate": 0.2415725843475982,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 15097184,
+      "step": 11640
+    },
+    {
+      "epoch": 0.568978574744094,
+      "grad_norm": 0.0014006971614435315,
+      "learning_rate": 0.24152592294830286,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 15103552,
+      "step": 11645
+    },
+    {
+      "epoch": 0.5692228764077883,
+      "grad_norm": 0.0013920129276812077,
+      "learning_rate": 0.24147924743455995,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 15110176,
+      "step": 11650
+    },
+    {
+      "epoch": 0.5694671780714826,
+      "grad_norm": 0.002987067447975278,
+      "learning_rate": 0.24143255781356754,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 15116736,
+      "step": 11655
+    },
+    {
+      "epoch": 0.569711479735177,
+      "grad_norm": 0.0013322869781404734,
+      "learning_rate": 0.24138585409252566,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 15123936,
+      "step": 11660
+    },
+    {
+      "epoch": 0.5699557813988714,
+      "grad_norm": 0.0011435127817094326,
+      "learning_rate": 0.24133913627863662,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 15130368,
+      "step": 11665
+    },
+    {
+      "epoch": 0.5702000830625656,
+      "grad_norm": 0.0019906319212168455,
+      "learning_rate": 0.241292404379105,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 15136928,
+      "step": 11670
+    },
+    {
+      "epoch": 0.57044438472626,
+      "grad_norm": 0.0023459424264729023,
+      "learning_rate": 0.24124565840113735,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 15144032,
+      "step": 11675
+    },
+    {
+      "epoch": 0.5706886863899543,
+      "grad_norm": 0.001703434158116579,
+      "learning_rate": 0.2411988983519425,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 15150528,
+      "step": 11680
+    },
+    {
+      "epoch": 0.5709329880536487,
+      "grad_norm": 0.0013600512174889445,
+      "learning_rate": 0.24115212423873145,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 15156800,
+      "step": 11685
+    },
+    {
+      "epoch": 0.5711772897173429,
+      "grad_norm": 0.001391325960867107,
+      "learning_rate": 0.24110533606871737,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 15163072,
+      "step": 11690
+    },
+    {
+      "epoch": 0.5714215913810373,
+      "grad_norm": 0.0010905131930485368,
+      "learning_rate": 0.24105853384911552,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 15169568,
+      "step": 11695
+    },
+    {
+      "epoch": 0.5716658930447316,
+      "grad_norm": 0.0015948658110573888,
+      "learning_rate": 0.24101171758714346,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 15175904,
+      "step": 11700
+    },
+    {
+      "epoch": 0.571910194708426,
+      "grad_norm": 0.0017204697942361236,
+      "learning_rate": 0.24096488729002086,
+      "loss": 0.1378,
+      "num_input_tokens_seen": 15181728,
+      "step": 11705
+    },
+    {
+      "epoch": 0.5721544963721203,
+      "grad_norm": 0.001709102070890367,
+      "learning_rate": 0.24091804296496946,
+      "loss": 0.124,
+      "num_input_tokens_seen": 15188288,
+      "step": 11710
+    },
+    {
+      "epoch": 0.5723987980358146,
+      "grad_norm": 0.001620293129235506,
+      "learning_rate": 0.2408711846192133,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 15194848,
+      "step": 11715
+    },
+    {
+      "epoch": 0.572643099699509,
+      "grad_norm": 0.0017812387086451054,
+      "learning_rate": 0.24082431225997855,
+      "loss": 0.1285,
+      "num_input_tokens_seen": 15201536,
+      "step": 11720
+    },
+    {
+      "epoch": 0.5728874013632033,
+      "grad_norm": 0.001677782041952014,
+      "learning_rate": 0.24077742589449344,
+      "loss": 0.1281,
+      "num_input_tokens_seen": 15208032,
+      "step": 11725
+    },
+    {
+      "epoch": 0.5731317030268976,
+      "grad_norm": 0.0013796011917293072,
+      "learning_rate": 0.24073052552998844,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 15214272,
+      "step": 11730
+    },
+    {
+      "epoch": 0.5733760046905919,
+      "grad_norm": 0.0009304159320890903,
+      "learning_rate": 0.2406836111736963,
+      "loss": 0.104,
+      "num_input_tokens_seen": 15220672,
+      "step": 11735
+    },
+    {
+      "epoch": 0.5736203063542863,
+      "grad_norm": 0.0012493119575083256,
+      "learning_rate": 0.2406366828328517,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 15227136,
+      "step": 11740
+    },
+    {
+      "epoch": 0.5738646080179806,
+      "grad_norm": 0.0009395433007739484,
+      "learning_rate": 0.2405897405146915,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 15233536,
+      "step": 11745
+    },
+    {
+      "epoch": 0.5741089096816749,
+      "grad_norm": 0.0017960087861865759,
+      "learning_rate": 0.240542784226455,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 15240512,
+      "step": 11750
+    },
+    {
+      "epoch": 0.5743532113453692,
+      "grad_norm": 0.0013072504661977291,
+      "learning_rate": 0.24049581397538328,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 15246784,
+      "step": 11755
+    },
+    {
+      "epoch": 0.5745975130090636,
+      "grad_norm": 0.0028275400400161743,
+      "learning_rate": 0.24044882976871984,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 15252896,
+      "step": 11760
+    },
+    {
+      "epoch": 0.574841814672758,
+      "grad_norm": 0.0017289331881329417,
+      "learning_rate": 0.2404018316137102,
+      "loss": 0.118,
+      "num_input_tokens_seen": 15259232,
+      "step": 11765
+    },
+    {
+      "epoch": 0.5750861163364522,
+      "grad_norm": 0.0018260376527905464,
+      "learning_rate": 0.24035481951760204,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 15265760,
+      "step": 11770
+    },
+    {
+      "epoch": 0.5753304180001466,
+      "grad_norm": 0.0032464771065860987,
+      "learning_rate": 0.2403077934876452,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 15272416,
+      "step": 11775
+    },
+    {
+      "epoch": 0.5755747196638409,
+      "grad_norm": 0.0017124894075095654,
+      "learning_rate": 0.2402607535310918,
+      "loss": 0.082,
+      "num_input_tokens_seen": 15278624,
+      "step": 11780
+    },
+    {
+      "epoch": 0.5758190213275353,
+      "grad_norm": 0.0011474089697003365,
+      "learning_rate": 0.2402136996551959,
+      "loss": 0.115,
+      "num_input_tokens_seen": 15284960,
+      "step": 11785
+    },
+    {
+      "epoch": 0.5760633229912295,
+      "grad_norm": 0.0019029222894459963,
+      "learning_rate": 0.24016663186721376,
+      "loss": 0.119,
+      "num_input_tokens_seen": 15292960,
+      "step": 11790
+    },
+    {
+      "epoch": 0.5763076246549239,
+      "grad_norm": 0.002032611519098282,
+      "learning_rate": 0.24011955017440395,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 15299648,
+      "step": 11795
+    },
+    {
+      "epoch": 0.5765519263186182,
+      "grad_norm": 0.0015277423663064837,
+      "learning_rate": 0.24007245458402696,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 15306176,
+      "step": 11800
+    },
+    {
+      "epoch": 0.5765519263186182,
+      "eval_loss": 0.1122361421585083,
+      "eval_runtime": 401.9577,
+      "eval_samples_per_second": 90.519,
+      "eval_steps_per_second": 22.632,
+      "num_input_tokens_seen": 15306176,
+      "step": 11800
+    },
+    {
+      "epoch": 0.5767962279823126,
+      "grad_norm": 0.0011827271664515138,
+      "learning_rate": 0.2400253451033456,
+      "loss": 0.1469,
+      "num_input_tokens_seen": 15312416,
+      "step": 11805
+    },
+    {
+      "epoch": 0.5770405296460069,
+      "grad_norm": 0.0010047375690191984,
+      "learning_rate": 0.23997822173962463,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 15318656,
+      "step": 11810
+    },
+    {
+      "epoch": 0.5772848313097012,
+      "grad_norm": 0.00103290774859488,
+      "learning_rate": 0.23993108450013118,
+      "loss": 0.089,
+      "num_input_tokens_seen": 15325376,
+      "step": 11815
+    },
+    {
+      "epoch": 0.5775291329733956,
+      "grad_norm": 0.0014592770021408796,
+      "learning_rate": 0.2398839333921343,
+      "loss": 0.1221,
+      "num_input_tokens_seen": 15331872,
+      "step": 11820
+    },
+    {
+      "epoch": 0.5777734346370899,
+      "grad_norm": 0.0012722001411020756,
+      "learning_rate": 0.23983676842290536,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 15338240,
+      "step": 11825
+    },
+    {
+      "epoch": 0.5780177363007842,
+      "grad_norm": 0.0011032192269340158,
+      "learning_rate": 0.2397895895997178,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 15345184,
+      "step": 11830
+    },
+    {
+      "epoch": 0.5782620379644785,
+      "grad_norm": 0.0017443806864321232,
+      "learning_rate": 0.23974239692984714,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 15351744,
+      "step": 11835
+    },
+    {
+      "epoch": 0.5785063396281729,
+      "grad_norm": 0.001426875707693398,
+      "learning_rate": 0.2396951904205711,
+      "loss": 0.1203,
+      "num_input_tokens_seen": 15358048,
+      "step": 11840
+    },
+    {
+      "epoch": 0.5787506412918672,
+      "grad_norm": 0.0013794427504763007,
+      "learning_rate": 0.23964797007916952,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 15364288,
+      "step": 11845
+    },
+    {
+      "epoch": 0.5789949429555615,
+      "grad_norm": 0.0009837074903771281,
+      "learning_rate": 0.23960073591292436,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 15370848,
+      "step": 11850
+    },
+    {
+      "epoch": 0.5792392446192559,
+      "grad_norm": 0.001238429918885231,
+      "learning_rate": 0.2395534879291197,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 15377088,
+      "step": 11855
+    },
+    {
+      "epoch": 0.5794835462829502,
+      "grad_norm": 0.0011017810320481658,
+      "learning_rate": 0.23950622613504186,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 15383808,
+      "step": 11860
+    },
+    {
+      "epoch": 0.5797278479466446,
+      "grad_norm": 0.0010625721188262105,
+      "learning_rate": 0.2394589505379791,
+      "loss": 0.108,
+      "num_input_tokens_seen": 15390624,
+      "step": 11865
+    },
+    {
+      "epoch": 0.5799721496103388,
+      "grad_norm": 0.0011119891423732042,
+      "learning_rate": 0.23941166114522197,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 15397280,
+      "step": 11870
+    },
+    {
+      "epoch": 0.5802164512740332,
+      "grad_norm": 0.001379081280902028,
+      "learning_rate": 0.23936435796406308,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 15404096,
+      "step": 11875
+    },
+    {
+      "epoch": 0.5804607529377275,
+      "grad_norm": 0.0015813177451491356,
+      "learning_rate": 0.23931704100179715,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 15410464,
+      "step": 11880
+    },
+    {
+      "epoch": 0.5807050546014219,
+      "grad_norm": 0.0011183293536305428,
+      "learning_rate": 0.2392697102657211,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 15416736,
+      "step": 11885
+    },
+    {
+      "epoch": 0.5809493562651161,
+      "grad_norm": 0.0012102625332772732,
+      "learning_rate": 0.23922236576313388,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 15422720,
+      "step": 11890
+    },
+    {
+      "epoch": 0.5811936579288105,
+      "grad_norm": 0.0010288865305483341,
+      "learning_rate": 0.2391750075013366,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 15429184,
+      "step": 11895
+    },
+    {
+      "epoch": 0.5814379595925048,
+      "grad_norm": 0.0012024604948237538,
+      "learning_rate": 0.2391276354876326,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 15435584,
+      "step": 11900
+    },
+    {
+      "epoch": 0.5816822612561992,
+      "grad_norm": 0.001683708280324936,
+      "learning_rate": 0.23908024972932707,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 15442176,
+      "step": 11905
+    },
+    {
+      "epoch": 0.5819265629198935,
+      "grad_norm": 0.0013687602477148175,
+      "learning_rate": 0.2390328502337276,
+      "loss": 0.1566,
+      "num_input_tokens_seen": 15448384,
+      "step": 11910
+    },
+    {
+      "epoch": 0.5821708645835878,
+      "grad_norm": 0.001590246451087296,
+      "learning_rate": 0.23898543700814376,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 15454848,
+      "step": 11915
+    },
+    {
+      "epoch": 0.5824151662472822,
+      "grad_norm": 0.0010712285293266177,
+      "learning_rate": 0.2389380100598873,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 15461376,
+      "step": 11920
+    },
+    {
+      "epoch": 0.5826594679109764,
+      "grad_norm": 0.0015578127931803465,
+      "learning_rate": 0.23889056939627207,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 15468448,
+      "step": 11925
+    },
+    {
+      "epoch": 0.5829037695746708,
+      "grad_norm": 0.001238176366314292,
+      "learning_rate": 0.23884311502461386,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 15474880,
+      "step": 11930
+    },
+    {
+      "epoch": 0.5831480712383651,
+      "grad_norm": 0.002311030635610223,
+      "learning_rate": 0.23879564695223088,
+      "loss": 0.1088,
+      "num_input_tokens_seen": 15480928,
+      "step": 11935
+    },
+    {
+      "epoch": 0.5833923729020595,
+      "grad_norm": 0.0018359377281740308,
+      "learning_rate": 0.23874816518644332,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 15486976,
+      "step": 11940
+    },
+    {
+      "epoch": 0.5836366745657537,
+      "grad_norm": 0.0015617316821590066,
+      "learning_rate": 0.23870066973457335,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 15493696,
+      "step": 11945
+    },
+    {
+      "epoch": 0.5838809762294481,
+      "grad_norm": 0.002083169063553214,
+      "learning_rate": 0.23865316060394545,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 15500352,
+      "step": 11950
+    },
+    {
+      "epoch": 0.5841252778931425,
+      "grad_norm": 0.001053516403771937,
+      "learning_rate": 0.2386056378018861,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 15506304,
+      "step": 11955
+    },
+    {
+      "epoch": 0.5843695795568368,
+      "grad_norm": 0.0015384553698822856,
+      "learning_rate": 0.2385581013357239,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 15512512,
+      "step": 11960
+    },
+    {
+      "epoch": 0.5846138812205312,
+      "grad_norm": 0.0012236356269568205,
+      "learning_rate": 0.23851055121278958,
+      "loss": 0.1259,
+      "num_input_tokens_seen": 15519136,
+      "step": 11965
+    },
+    {
+      "epoch": 0.5848581828842254,
+      "grad_norm": 0.0014309228863567114,
+      "learning_rate": 0.23846298744041594,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 15525664,
+      "step": 11970
+    },
+    {
+      "epoch": 0.5851024845479198,
+      "grad_norm": 0.0011318294564262033,
+      "learning_rate": 0.23841541002593802,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 15532064,
+      "step": 11975
+    },
+    {
+      "epoch": 0.5853467862116141,
+      "grad_norm": 0.0007187177543528378,
+      "learning_rate": 0.23836781897669276,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 15538688,
+      "step": 11980
+    },
+    {
+      "epoch": 0.5855910878753084,
+      "grad_norm": 0.0012476478004828095,
+      "learning_rate": 0.23832021430001926,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 15545344,
+      "step": 11985
+    },
+    {
+      "epoch": 0.5858353895390027,
+      "grad_norm": 0.0017969021573662758,
+      "learning_rate": 0.2382725960032588,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 15551904,
+      "step": 11990
+    },
+    {
+      "epoch": 0.5860796912026971,
+      "grad_norm": 0.001153708784841001,
+      "learning_rate": 0.23822496409375482,
+      "loss": 0.108,
+      "num_input_tokens_seen": 15558400,
+      "step": 11995
+    },
+    {
+      "epoch": 0.5863239928663915,
+      "grad_norm": 0.0010171188041567802,
+      "learning_rate": 0.2381773185788526,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 15565184,
+      "step": 12000
+    },
+    {
+      "epoch": 0.5863239928663915,
+      "eval_loss": 0.11005989462137222,
+      "eval_runtime": 402.3126,
+      "eval_samples_per_second": 90.44,
+      "eval_steps_per_second": 22.612,
+      "num_input_tokens_seen": 15565184,
+      "step": 12000
+    },
+    {
+      "epoch": 0.5865682945300857,
+      "grad_norm": 0.0015140643808990717,
+      "learning_rate": 0.2381296594658998,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 15572096,
+      "step": 12005
+    },
+    {
+      "epoch": 0.5868125961937801,
+      "grad_norm": 0.0010640190448611975,
+      "learning_rate": 0.238081986762246,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 15578688,
+      "step": 12010
+    },
+    {
+      "epoch": 0.5870568978574744,
+      "grad_norm": 0.0014085060684010386,
+      "learning_rate": 0.23803430047524293,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 15584896,
+      "step": 12015
+    },
+    {
+      "epoch": 0.5873011995211688,
+      "grad_norm": 0.007793162949383259,
+      "learning_rate": 0.23798660061224441,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 15591392,
+      "step": 12020
+    },
+    {
+      "epoch": 0.587545501184863,
+      "grad_norm": 0.0011614178074523807,
+      "learning_rate": 0.23793888718060632,
+      "loss": 0.097,
+      "num_input_tokens_seen": 15597792,
+      "step": 12025
+    },
+    {
+      "epoch": 0.5877898028485574,
+      "grad_norm": 0.0016030187252908945,
+      "learning_rate": 0.23789116018768675,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 15603968,
+      "step": 12030
+    },
+    {
+      "epoch": 0.5880341045122517,
+      "grad_norm": 0.0018213804578408599,
+      "learning_rate": 0.2378434196408458,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 15610400,
+      "step": 12035
+    },
+    {
+      "epoch": 0.5882784061759461,
+      "grad_norm": 0.0016409712843596935,
+      "learning_rate": 0.23779566554744563,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 15617056,
+      "step": 12040
+    },
+    {
+      "epoch": 0.5885227078396403,
+      "grad_norm": 0.0016002495540305972,
+      "learning_rate": 0.23774789791485051,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 15624096,
+      "step": 12045
+    },
+    {
+      "epoch": 0.5887670095033347,
+      "grad_norm": 0.0016420213505625725,
+      "learning_rate": 0.2377001167504268,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 15630208,
+      "step": 12050
+    },
+    {
+      "epoch": 0.5890113111670291,
+      "grad_norm": 0.0012045642361044884,
+      "learning_rate": 0.23765232206154302,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 15637184,
+      "step": 12055
+    },
+    {
+      "epoch": 0.5892556128307234,
+      "grad_norm": 0.0011566239409148693,
+      "learning_rate": 0.23760451385556966,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 15643552,
+      "step": 12060
+    },
+    {
+      "epoch": 0.5894999144944177,
+      "grad_norm": 0.0038011192809790373,
+      "learning_rate": 0.23755669213987932,
+      "loss": 0.118,
+      "num_input_tokens_seen": 15649984,
+      "step": 12065
+    },
+    {
+      "epoch": 0.589744216158112,
+      "grad_norm": 0.0015374976210296154,
+      "learning_rate": 0.23750885692184676,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 15656448,
+      "step": 12070
+    },
+    {
+      "epoch": 0.5899885178218064,
+      "grad_norm": 0.0025869738310575485,
+      "learning_rate": 0.23746100820884875,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 15662912,
+      "step": 12075
+    },
+    {
+      "epoch": 0.5902328194855007,
+      "grad_norm": 0.001597653841599822,
+      "learning_rate": 0.23741314600826421,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 15669024,
+      "step": 12080
+    },
+    {
+      "epoch": 0.590477121149195,
+      "grad_norm": 0.0014349487610161304,
+      "learning_rate": 0.23736527032747406,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 15675424,
+      "step": 12085
+    },
+    {
+      "epoch": 0.5907214228128893,
+      "grad_norm": 0.002687078434973955,
+      "learning_rate": 0.23731738117386128,
+      "loss": 0.1287,
+      "num_input_tokens_seen": 15681760,
+      "step": 12090
+    },
+    {
+      "epoch": 0.5909657244765837,
+      "grad_norm": 0.0014797502662986517,
+      "learning_rate": 0.237269478554811,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 15688416,
+      "step": 12095
+    },
+    {
+      "epoch": 0.5912100261402781,
+      "grad_norm": 0.002034678589552641,
+      "learning_rate": 0.23722156247771053,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 15694880,
+      "step": 12100
+    },
+    {
+      "epoch": 0.5914543278039723,
+      "grad_norm": 0.001043852069415152,
+      "learning_rate": 0.23717363294994895,
+      "loss": 0.121,
+      "num_input_tokens_seen": 15701760,
+      "step": 12105
+    },
+    {
+      "epoch": 0.5916986294676667,
+      "grad_norm": 0.0012600959744304419,
+      "learning_rate": 0.2371256899789177,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 15708768,
+      "step": 12110
+    },
+    {
+      "epoch": 0.591942931131361,
+      "grad_norm": 0.0026835305616259575,
+      "learning_rate": 0.23707773357201017,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 15715136,
+      "step": 12115
+    },
+    {
+      "epoch": 0.5921872327950554,
+      "grad_norm": 0.0010674366494640708,
+      "learning_rate": 0.2370297637366218,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 15721760,
+      "step": 12120
+    },
+    {
+      "epoch": 0.5924315344587496,
+      "grad_norm": 0.0009911528322845697,
+      "learning_rate": 0.23698178048015026,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 15727840,
+      "step": 12125
+    },
+    {
+      "epoch": 0.592675836122444,
+      "grad_norm": 0.0009286325075663626,
+      "learning_rate": 0.236933783809995,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 15734240,
+      "step": 12130
+    },
+    {
+      "epoch": 0.5929201377861383,
+      "grad_norm": 0.0009774963837116957,
+      "learning_rate": 0.23688577373355785,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 15740640,
+      "step": 12135
+    },
+    {
+      "epoch": 0.5931644394498327,
+      "grad_norm": 0.0014737161109223962,
+      "learning_rate": 0.23683775025824247,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 15746848,
+      "step": 12140
+    },
+    {
+      "epoch": 0.593408741113527,
+      "grad_norm": 0.0020287686493247747,
+      "learning_rate": 0.2367897133914548,
+      "loss": 0.1552,
+      "num_input_tokens_seen": 15753344,
+      "step": 12145
+    },
+    {
+      "epoch": 0.5936530427772213,
+      "grad_norm": 0.0007548218709416687,
+      "learning_rate": 0.2367416631406026,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 15759648,
+      "step": 12150
+    },
+    {
+      "epoch": 0.5938973444409157,
+      "grad_norm": 0.0014700426254421473,
+      "learning_rate": 0.23669359951309588,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 15765760,
+      "step": 12155
+    },
+    {
+      "epoch": 0.59414164610461,
+      "grad_norm": 0.0016162481624633074,
+      "learning_rate": 0.23664552251634666,
+      "loss": 0.113,
+      "num_input_tokens_seen": 15772032,
+      "step": 12160
+    },
+    {
+      "epoch": 0.5943859477683043,
+      "grad_norm": 0.0011765433009713888,
+      "learning_rate": 0.23659743215776907,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 15778400,
+      "step": 12165
+    },
+    {
+      "epoch": 0.5946302494319986,
+      "grad_norm": 0.0009115681750699878,
+      "learning_rate": 0.23654932844477908,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 15785056,
+      "step": 12170
+    },
+    {
+      "epoch": 0.594874551095693,
+      "grad_norm": 0.0021609836257994175,
+      "learning_rate": 0.23650121138479507,
+      "loss": 0.1337,
+      "num_input_tokens_seen": 15791552,
+      "step": 12175
+    },
+    {
+      "epoch": 0.5951188527593873,
+      "grad_norm": 0.0016663889400660992,
+      "learning_rate": 0.23645308098523724,
+      "loss": 0.12,
+      "num_input_tokens_seen": 15797632,
+      "step": 12180
+    },
+    {
+      "epoch": 0.5953631544230816,
+      "grad_norm": 0.0013181301765143871,
+      "learning_rate": 0.23640493725352785,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 15804448,
+      "step": 12185
+    },
+    {
+      "epoch": 0.5956074560867759,
+      "grad_norm": 0.0012329915771260858,
+      "learning_rate": 0.2363567801970913,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 15811264,
+      "step": 12190
+    },
+    {
+      "epoch": 0.5958517577504703,
+      "grad_norm": 0.0013742762384936213,
+      "learning_rate": 0.236308609823354,
+      "loss": 0.1736,
+      "num_input_tokens_seen": 15817600,
+      "step": 12195
+    },
+    {
+      "epoch": 0.5960960594141647,
+      "grad_norm": 0.0012791340705007315,
+      "learning_rate": 0.23626042613974452,
+      "loss": 0.1279,
+      "num_input_tokens_seen": 15824576,
+      "step": 12200
+    },
+    {
+      "epoch": 0.5960960594141647,
+      "eval_loss": 0.12056899815797806,
+      "eval_runtime": 401.7121,
+      "eval_samples_per_second": 90.575,
+      "eval_steps_per_second": 22.646,
+      "num_input_tokens_seen": 15824576,
+      "step": 12200
+    },
+    {
+      "epoch": 0.5963403610778589,
+      "grad_norm": 0.001577141578309238,
+      "learning_rate": 0.23621222915369325,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 15831360,
+      "step": 12205
+    },
+    {
+      "epoch": 0.5965846627415533,
+      "grad_norm": 0.0016324950847774744,
+      "learning_rate": 0.23616401887263283,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 15837856,
+      "step": 12210
+    },
+    {
+      "epoch": 0.5968289644052476,
+      "grad_norm": 0.000990736298263073,
+      "learning_rate": 0.23611579530399793,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 15844448,
+      "step": 12215
+    },
+    {
+      "epoch": 0.597073266068942,
+      "grad_norm": 0.0016432367265224457,
+      "learning_rate": 0.23606755845522517,
+      "loss": 0.109,
+      "num_input_tokens_seen": 15850976,
+      "step": 12220
+    },
+    {
+      "epoch": 0.5973175677326362,
+      "grad_norm": 0.0007243150030262768,
+      "learning_rate": 0.23601930833375329,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 15857472,
+      "step": 12225
+    },
+    {
+      "epoch": 0.5975618693963306,
+      "grad_norm": 0.0016828509978950024,
+      "learning_rate": 0.23597104494702312,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 15863744,
+      "step": 12230
+    },
+    {
+      "epoch": 0.5978061710600249,
+      "grad_norm": 0.0008966794121079147,
+      "learning_rate": 0.23592276830247744,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 15870400,
+      "step": 12235
+    },
+    {
+      "epoch": 0.5980504727237193,
+      "grad_norm": 0.0018228372791782022,
+      "learning_rate": 0.2358744784075611,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 15877280,
+      "step": 12240
+    },
+    {
+      "epoch": 0.5982947743874136,
+      "grad_norm": 0.0014049974270164967,
+      "learning_rate": 0.235826175269721,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 15883520,
+      "step": 12245
+    },
+    {
+      "epoch": 0.5985390760511079,
+      "grad_norm": 0.0017737760208547115,
+      "learning_rate": 0.23577785889640612,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 15889888,
+      "step": 12250
+    },
+    {
+      "epoch": 0.5987833777148023,
+      "grad_norm": 0.0006780466646887362,
+      "learning_rate": 0.23572952929506744,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 15896448,
+      "step": 12255
+    },
+    {
+      "epoch": 0.5990276793784965,
+      "grad_norm": 0.0025699445977807045,
+      "learning_rate": 0.23568118647315803,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 15902432,
+      "step": 12260
+    },
+    {
+      "epoch": 0.5992719810421909,
+      "grad_norm": 0.0015352084301412106,
+      "learning_rate": 0.23563283043813296,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 15908992,
+      "step": 12265
+    },
+    {
+      "epoch": 0.5995162827058852,
+      "grad_norm": 0.0019590090960264206,
+      "learning_rate": 0.23558446119744922,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 15915392,
+      "step": 12270
+    },
+    {
+      "epoch": 0.5997605843695796,
+      "grad_norm": 0.0015590678667649627,
+      "learning_rate": 0.23553607875856608,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 15921728,
+      "step": 12275
+    },
+    {
+      "epoch": 0.6000048860332738,
+      "grad_norm": 0.0025057292077690363,
+      "learning_rate": 0.2354876831289447,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 15928160,
+      "step": 12280
+    },
+    {
+      "epoch": 0.6002491876969682,
+      "grad_norm": 0.0016128862043842673,
+      "learning_rate": 0.23543927431604827,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 15934464,
+      "step": 12285
+    },
+    {
+      "epoch": 0.6004934893606625,
+      "grad_norm": 0.001124630100093782,
+      "learning_rate": 0.23539085232734203,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 15940800,
+      "step": 12290
+    },
+    {
+      "epoch": 0.6007377910243569,
+      "grad_norm": 0.0009270780719816685,
+      "learning_rate": 0.2353424171702933,
+      "loss": 0.139,
+      "num_input_tokens_seen": 15947296,
+      "step": 12295
+    },
+    {
+      "epoch": 0.6009820926880513,
+      "grad_norm": 0.002091828268021345,
+      "learning_rate": 0.23529396885237133,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 15953664,
+      "step": 12300
+    },
+    {
+      "epoch": 0.6012263943517455,
+      "grad_norm": 0.0015733905602246523,
+      "learning_rate": 0.2352455073810475,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 15960608,
+      "step": 12305
+    },
+    {
+      "epoch": 0.6014706960154399,
+      "grad_norm": 0.0008417971548624337,
+      "learning_rate": 0.23519703276379517,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 15966912,
+      "step": 12310
+    },
+    {
+      "epoch": 0.6017149976791342,
+      "grad_norm": 0.0010291243670508265,
+      "learning_rate": 0.2351485450080897,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 15973120,
+      "step": 12315
+    },
+    {
+      "epoch": 0.6019592993428285,
+      "grad_norm": 0.0012895339168608189,
+      "learning_rate": 0.2351000441214086,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 15979360,
+      "step": 12320
+    },
+    {
+      "epoch": 0.6022036010065228,
+      "grad_norm": 0.001383866649121046,
+      "learning_rate": 0.23505153011123125,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 15986400,
+      "step": 12325
+    },
+    {
+      "epoch": 0.6024479026702172,
+      "grad_norm": 0.0018827106105163693,
+      "learning_rate": 0.23500300298503912,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 15992992,
+      "step": 12330
+    },
+    {
+      "epoch": 0.6026922043339115,
+      "grad_norm": 0.0018338961526751518,
+      "learning_rate": 0.23495446275031576,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 15999040,
+      "step": 12335
+    },
+    {
+      "epoch": 0.6029365059976058,
+      "grad_norm": 0.0021866706665605307,
+      "learning_rate": 0.2349059094145466,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 16006048,
+      "step": 12340
+    },
+    {
+      "epoch": 0.6031808076613002,
+      "grad_norm": 0.0021065999753773212,
+      "learning_rate": 0.2348573429852192,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 16012224,
+      "step": 12345
+    },
+    {
+      "epoch": 0.6034251093249945,
+      "grad_norm": 0.002246052958071232,
+      "learning_rate": 0.23480876346982313,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 16018816,
+      "step": 12350
+    },
+    {
+      "epoch": 0.6036694109886889,
+      "grad_norm": 0.002775737317278981,
+      "learning_rate": 0.23476017087585,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 16025248,
+      "step": 12355
+    },
+    {
+      "epoch": 0.6039137126523831,
+      "grad_norm": 0.0012704615946859121,
+      "learning_rate": 0.23471156521079334,
+      "loss": 0.1443,
+      "num_input_tokens_seen": 16031744,
+      "step": 12360
+    },
+    {
+      "epoch": 0.6041580143160775,
+      "grad_norm": 0.0012831159401685,
+      "learning_rate": 0.23466294648214875,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 16038944,
+      "step": 12365
+    },
+    {
+      "epoch": 0.6044023159797718,
+      "grad_norm": 0.0016806893981993198,
+      "learning_rate": 0.2346143146974139,
+      "loss": 0.1323,
+      "num_input_tokens_seen": 16045216,
+      "step": 12370
+    },
+    {
+      "epoch": 0.6046466176434662,
+      "grad_norm": 0.0006810103659518063,
+      "learning_rate": 0.23456566986408836,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 16051584,
+      "step": 12375
+    },
+    {
+      "epoch": 0.6048909193071604,
+      "grad_norm": 0.001217854442074895,
+      "learning_rate": 0.23451701198967384,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 16057664,
+      "step": 12380
+    },
+    {
+      "epoch": 0.6051352209708548,
+      "grad_norm": 0.0008935760124586523,
+      "learning_rate": 0.23446834108167397,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 16064032,
+      "step": 12385
+    },
+    {
+      "epoch": 0.6053795226345492,
+      "grad_norm": 0.0013791992096230388,
+      "learning_rate": 0.23441965714759438,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 16070528,
+      "step": 12390
+    },
+    {
+      "epoch": 0.6056238242982435,
+      "grad_norm": 0.0012658762279897928,
+      "learning_rate": 0.23437096019494277,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 16076960,
+      "step": 12395
+    },
+    {
+      "epoch": 0.6058681259619378,
+      "grad_norm": 0.0015569081297144294,
+      "learning_rate": 0.23432225023122885,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 16083104,
+      "step": 12400
+    },
+    {
+      "epoch": 0.6058681259619378,
+      "eval_loss": 0.11391448229551315,
+      "eval_runtime": 402.4417,
+      "eval_samples_per_second": 90.411,
+      "eval_steps_per_second": 22.605,
+      "num_input_tokens_seen": 16083104,
+      "step": 12400
+    },
+    {
+      "epoch": 0.6061124276256321,
+      "grad_norm": 0.0012908090138807893,
+      "learning_rate": 0.23427352726396428,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 16089376,
+      "step": 12405
+    },
+    {
+      "epoch": 0.6063567292893265,
+      "grad_norm": 0.0014192218659445643,
+      "learning_rate": 0.2342247913006628,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 16095808,
+      "step": 12410
+    },
+    {
+      "epoch": 0.6066010309530208,
+      "grad_norm": 0.0009670749423094094,
+      "learning_rate": 0.23417604234883999,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 16102112,
+      "step": 12415
+    },
+    {
+      "epoch": 0.6068453326167151,
+      "grad_norm": 0.0011176335392519832,
+      "learning_rate": 0.23412728041601363,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 16108960,
+      "step": 12420
+    },
+    {
+      "epoch": 0.6070896342804094,
+      "grad_norm": 0.0019523907685652375,
+      "learning_rate": 0.23407850550970347,
+      "loss": 0.1506,
+      "num_input_tokens_seen": 16115488,
+      "step": 12425
+    },
+    {
+      "epoch": 0.6073339359441038,
+      "grad_norm": 0.001731379539705813,
+      "learning_rate": 0.23402971763743116,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 16121824,
+      "step": 12430
+    },
+    {
+      "epoch": 0.607578237607798,
+      "grad_norm": 0.0011134300148114562,
+      "learning_rate": 0.23398091680672037,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 16128512,
+      "step": 12435
+    },
+    {
+      "epoch": 0.6078225392714924,
+      "grad_norm": 0.0008287748205475509,
+      "learning_rate": 0.23393210302509687,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 16135264,
+      "step": 12440
+    },
+    {
+      "epoch": 0.6080668409351868,
+      "grad_norm": 0.0015408076578751206,
+      "learning_rate": 0.23388327630008832,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 16142176,
+      "step": 12445
+    },
+    {
+      "epoch": 0.6083111425988811,
+      "grad_norm": 0.0010726078180596232,
+      "learning_rate": 0.23383443663922443,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 16148832,
+      "step": 12450
+    },
+    {
+      "epoch": 0.6085554442625755,
+      "grad_norm": 0.0011842964449897408,
+      "learning_rate": 0.23378558405003685,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 16154752,
+      "step": 12455
+    },
+    {
+      "epoch": 0.6087997459262697,
+      "grad_norm": 0.0008360505453310907,
+      "learning_rate": 0.2337367185400593,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 16161344,
+      "step": 12460
+    },
+    {
+      "epoch": 0.6090440475899641,
+      "grad_norm": 0.0016866285586729646,
+      "learning_rate": 0.23368784011682747,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 16167424,
+      "step": 12465
+    },
+    {
+      "epoch": 0.6092883492536584,
+      "grad_norm": 0.0013768522767350078,
+      "learning_rate": 0.23363894878787902,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 16174112,
+      "step": 12470
+    },
+    {
+      "epoch": 0.6095326509173528,
+      "grad_norm": 0.0016268228646367788,
+      "learning_rate": 0.23359004456075352,
+      "loss": 0.14,
+      "num_input_tokens_seen": 16180640,
+      "step": 12475
+    },
+    {
+      "epoch": 0.609776952581047,
+      "grad_norm": 0.0010325873736292124,
+      "learning_rate": 0.23354112744299277,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 16187104,
+      "step": 12480
+    },
+    {
+      "epoch": 0.6100212542447414,
+      "grad_norm": 0.001988989068195224,
+      "learning_rate": 0.2334921974421403,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 16193280,
+      "step": 12485
+    },
+    {
+      "epoch": 0.6102655559084358,
+      "grad_norm": 0.0020813369192183018,
+      "learning_rate": 0.23344325456574178,
+      "loss": 0.1497,
+      "num_input_tokens_seen": 16199840,
+      "step": 12490
+    },
+    {
+      "epoch": 0.61050985757213,
+      "grad_norm": 0.0021927908528596163,
+      "learning_rate": 0.23339429882134477,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 16206080,
+      "step": 12495
+    },
+    {
+      "epoch": 0.6107541592358244,
+      "grad_norm": 0.0012842605356127024,
+      "learning_rate": 0.23334533021649884,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 16213152,
+      "step": 12500
+    },
+    {
+      "epoch": 0.6109984608995187,
+      "grad_norm": 0.0010611488251015544,
+      "learning_rate": 0.23329634875875566,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 16219296,
+      "step": 12505
+    },
+    {
+      "epoch": 0.6112427625632131,
+      "grad_norm": 0.0010946044931188226,
+      "learning_rate": 0.23324735445566874,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 16225792,
+      "step": 12510
+    },
+    {
+      "epoch": 0.6114870642269074,
+      "grad_norm": 0.001132210367359221,
+      "learning_rate": 0.2331983473147936,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 16232576,
+      "step": 12515
+    },
+    {
+      "epoch": 0.6117313658906017,
+      "grad_norm": 0.0012123016640543938,
+      "learning_rate": 0.23314932734368776,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 16239328,
+      "step": 12520
+    },
+    {
+      "epoch": 0.611975667554296,
+      "grad_norm": 0.0009508246439509094,
+      "learning_rate": 0.2331002945499107,
+      "loss": 0.1127,
+      "num_input_tokens_seen": 16245728,
+      "step": 12525
+    },
+    {
+      "epoch": 0.6122199692179904,
+      "grad_norm": 0.0010745598701760173,
+      "learning_rate": 0.23305124894102397,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 16252288,
+      "step": 12530
+    },
+    {
+      "epoch": 0.6124642708816848,
+      "grad_norm": 0.0018324770499020815,
+      "learning_rate": 0.23300219052459092,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 16258528,
+      "step": 12535
+    },
+    {
+      "epoch": 0.612708572545379,
+      "grad_norm": 0.0014496067306026816,
+      "learning_rate": 0.23295311930817708,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 16264992,
+      "step": 12540
+    },
+    {
+      "epoch": 0.6129528742090734,
+      "grad_norm": 0.0012151874834671617,
+      "learning_rate": 0.23290403529934972,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 16271296,
+      "step": 12545
+    },
+    {
+      "epoch": 0.6131971758727677,
+      "grad_norm": 0.0020848989952355623,
+      "learning_rate": 0.23285493850567832,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 16277280,
+      "step": 12550
+    },
+    {
+      "epoch": 0.613441477536462,
+      "grad_norm": 0.0009628408588469028,
+      "learning_rate": 0.23280582893473414,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 16283840,
+      "step": 12555
+    },
+    {
+      "epoch": 0.6136857792001563,
+      "grad_norm": 0.001002756180241704,
+      "learning_rate": 0.2327567065940906,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 16290528,
+      "step": 12560
+    },
+    {
+      "epoch": 0.6139300808638507,
+      "grad_norm": 0.002822086913511157,
+      "learning_rate": 0.23270757149132285,
+      "loss": 0.131,
+      "num_input_tokens_seen": 16296928,
+      "step": 12565
+    },
+    {
+      "epoch": 0.614174382527545,
+      "grad_norm": 0.00163533806335181,
+      "learning_rate": 0.23265842363400827,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 16303904,
+      "step": 12570
+    },
+    {
+      "epoch": 0.6144186841912394,
+      "grad_norm": 0.0011325915111228824,
+      "learning_rate": 0.23260926302972595,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 16310496,
+      "step": 12575
+    },
+    {
+      "epoch": 0.6146629858549336,
+      "grad_norm": 0.0015836353413760662,
+      "learning_rate": 0.2325600896860572,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 16316960,
+      "step": 12580
+    },
+    {
+      "epoch": 0.614907287518628,
+      "grad_norm": 0.0016632906626909971,
+      "learning_rate": 0.23251090361058505,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 16323456,
+      "step": 12585
+    },
+    {
+      "epoch": 0.6151515891823224,
+      "grad_norm": 0.0010867482051253319,
+      "learning_rate": 0.23246170481089476,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 16329952,
+      "step": 12590
+    },
+    {
+      "epoch": 0.6153958908460166,
+      "grad_norm": 0.0017031070310622454,
+      "learning_rate": 0.23241249329457317,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 16336384,
+      "step": 12595
+    },
+    {
+      "epoch": 0.615640192509711,
+      "grad_norm": 0.0012889440404251218,
+      "learning_rate": 0.23236326906920957,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 16342784,
+      "step": 12600
+    },
+    {
+      "epoch": 0.615640192509711,
+      "eval_loss": 0.10645465552806854,
+      "eval_runtime": 402.4213,
+      "eval_samples_per_second": 90.415,
+      "eval_steps_per_second": 22.606,
+      "num_input_tokens_seen": 16342784,
+      "step": 12600
+    },
+    {
+      "epoch": 0.6158844941734053,
+      "grad_norm": 0.0014068447053432465,
+      "learning_rate": 0.2323140321423948,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 16349088,
+      "step": 12605
+    },
+    {
+      "epoch": 0.6161287958370997,
+      "grad_norm": 0.0020024715922772884,
+      "learning_rate": 0.23226478252172184,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 16355456,
+      "step": 12610
+    },
+    {
+      "epoch": 0.6163730975007939,
+      "grad_norm": 0.0020538046956062317,
+      "learning_rate": 0.23221552021478561,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 16361984,
+      "step": 12615
+    },
+    {
+      "epoch": 0.6166173991644883,
+      "grad_norm": 0.0010944042587652802,
+      "learning_rate": 0.232166245229183,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 16368128,
+      "step": 12620
+    },
+    {
+      "epoch": 0.6168617008281826,
+      "grad_norm": 0.001425561378709972,
+      "learning_rate": 0.2321169575725128,
+      "loss": 0.087,
+      "num_input_tokens_seen": 16374720,
+      "step": 12625
+    },
+    {
+      "epoch": 0.617106002491877,
+      "grad_norm": 0.001858038012869656,
+      "learning_rate": 0.23206765725237577,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 16380896,
+      "step": 12630
+    },
+    {
+      "epoch": 0.6173503041555713,
+      "grad_norm": 0.0015200490597635508,
+      "learning_rate": 0.2320183442763747,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 16387296,
+      "step": 12635
+    },
+    {
+      "epoch": 0.6175946058192656,
+      "grad_norm": 0.0010653476929292083,
+      "learning_rate": 0.23196901865211422,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 16394400,
+      "step": 12640
+    },
+    {
+      "epoch": 0.61783890748296,
+      "grad_norm": 0.001187328714877367,
+      "learning_rate": 0.231919680387201,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 16400896,
+      "step": 12645
+    },
+    {
+      "epoch": 0.6180832091466543,
+      "grad_norm": 0.0014724974753335118,
+      "learning_rate": 0.23187032948924358,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 16407616,
+      "step": 12650
+    },
+    {
+      "epoch": 0.6183275108103486,
+      "grad_norm": 0.0010999146616086364,
+      "learning_rate": 0.23182096596585247,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 16414272,
+      "step": 12655
+    },
+    {
+      "epoch": 0.6185718124740429,
+      "grad_norm": 0.001234204857610166,
+      "learning_rate": 0.23177158982464025,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 16421088,
+      "step": 12660
+    },
+    {
+      "epoch": 0.6188161141377373,
+      "grad_norm": 0.0014916668878868222,
+      "learning_rate": 0.23172220107322122,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 16427392,
+      "step": 12665
+    },
+    {
+      "epoch": 0.6190604158014316,
+      "grad_norm": 0.000853530946187675,
+      "learning_rate": 0.23167279971921184,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 16433440,
+      "step": 12670
+    },
+    {
+      "epoch": 0.6193047174651259,
+      "grad_norm": 0.0013385777128860354,
+      "learning_rate": 0.23162338577023034,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 16440032,
+      "step": 12675
+    },
+    {
+      "epoch": 0.6195490191288203,
+      "grad_norm": 0.002221467671915889,
+      "learning_rate": 0.23157395923389704,
+      "loss": 0.116,
+      "num_input_tokens_seen": 16446688,
+      "step": 12680
+    },
+    {
+      "epoch": 0.6197933207925146,
+      "grad_norm": 0.0011005854466930032,
+      "learning_rate": 0.2315245201178341,
+      "loss": 0.103,
+      "num_input_tokens_seen": 16453184,
+      "step": 12685
+    },
+    {
+      "epoch": 0.620037622456209,
+      "grad_norm": 0.0019573981408029795,
+      "learning_rate": 0.23147506842966564,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 16459936,
+      "step": 12690
+    },
+    {
+      "epoch": 0.6202819241199032,
+      "grad_norm": 0.0013534866739064455,
+      "learning_rate": 0.23142560417701774,
+      "loss": 0.084,
+      "num_input_tokens_seen": 16466240,
+      "step": 12695
+    },
+    {
+      "epoch": 0.6205262257835976,
+      "grad_norm": 0.0014923571143299341,
+      "learning_rate": 0.23137612736751845,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 16472896,
+      "step": 12700
+    },
+    {
+      "epoch": 0.6207705274472919,
+      "grad_norm": 0.0011959545081481338,
+      "learning_rate": 0.23132663800879766,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 16478848,
+      "step": 12705
+    },
+    {
+      "epoch": 0.6210148291109863,
+      "grad_norm": 0.0008801005315035582,
+      "learning_rate": 0.2312771361084873,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 16485312,
+      "step": 12710
+    },
+    {
+      "epoch": 0.6212591307746805,
+      "grad_norm": 0.0013885198859497905,
+      "learning_rate": 0.23122762167422112,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 16491552,
+      "step": 12715
+    },
+    {
+      "epoch": 0.6215034324383749,
+      "grad_norm": 0.0008954186923801899,
+      "learning_rate": 0.23117809471363493,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 16498144,
+      "step": 12720
+    },
+    {
+      "epoch": 0.6217477341020692,
+      "grad_norm": 0.001668691635131836,
+      "learning_rate": 0.23112855523436637,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 16504096,
+      "step": 12725
+    },
+    {
+      "epoch": 0.6219920357657636,
+      "grad_norm": 0.0012167154345661402,
+      "learning_rate": 0.23107900324405511,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 16510656,
+      "step": 12730
+    },
+    {
+      "epoch": 0.6222363374294579,
+      "grad_norm": 0.0011426006676629186,
+      "learning_rate": 0.2310294387503426,
+      "loss": 0.118,
+      "num_input_tokens_seen": 16517120,
+      "step": 12735
+    },
+    {
+      "epoch": 0.6224806390931522,
+      "grad_norm": 0.0007488809642381966,
+      "learning_rate": 0.23097986176087237,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 16523616,
+      "step": 12740
+    },
+    {
+      "epoch": 0.6227249407568466,
+      "grad_norm": 0.0009615637827664614,
+      "learning_rate": 0.23093027228328986,
+      "loss": 0.106,
+      "num_input_tokens_seen": 16529696,
+      "step": 12745
+    },
+    {
+      "epoch": 0.6229692424205409,
+      "grad_norm": 0.0007325618644244969,
+      "learning_rate": 0.23088067032524226,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 16536064,
+      "step": 12750
+    },
+    {
+      "epoch": 0.6232135440842352,
+      "grad_norm": 0.002515033818781376,
+      "learning_rate": 0.23083105589437888,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 16542848,
+      "step": 12755
+    },
+    {
+      "epoch": 0.6234578457479295,
+      "grad_norm": 0.0009235243778675795,
+      "learning_rate": 0.23078142899835094,
+      "loss": 0.1208,
+      "num_input_tokens_seen": 16549440,
+      "step": 12760
+    },
+    {
+      "epoch": 0.6237021474116239,
+      "grad_norm": 0.001003371668048203,
+      "learning_rate": 0.23073178964481147,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 16556160,
+      "step": 12765
+    },
+    {
+      "epoch": 0.6239464490753182,
+      "grad_norm": 0.001218398567289114,
+      "learning_rate": 0.2306821378414155,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 16562976,
+      "step": 12770
+    },
+    {
+      "epoch": 0.6241907507390125,
+      "grad_norm": 0.0015451700892299414,
+      "learning_rate": 0.2306324735958199,
+      "loss": 0.118,
+      "num_input_tokens_seen": 16569632,
+      "step": 12775
+    },
+    {
+      "epoch": 0.6244350524027069,
+      "grad_norm": 0.0012639230117201805,
+      "learning_rate": 0.23058279691568362,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 16575840,
+      "step": 12780
+    },
+    {
+      "epoch": 0.6246793540664012,
+      "grad_norm": 0.0014723290223628283,
+      "learning_rate": 0.23053310780866745,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 16582240,
+      "step": 12785
+    },
+    {
+      "epoch": 0.6249236557300956,
+      "grad_norm": 0.0014985466841608286,
+      "learning_rate": 0.23048340628243397,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 16588608,
+      "step": 12790
+    },
+    {
+      "epoch": 0.6251679573937898,
+      "grad_norm": 0.0012799467658624053,
+      "learning_rate": 0.23043369234464783,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 16595168,
+      "step": 12795
+    },
+    {
+      "epoch": 0.6254122590574842,
+      "grad_norm": 0.0010792043758556247,
+      "learning_rate": 0.2303839660029755,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 16601824,
+      "step": 12800
+    },
+    {
+      "epoch": 0.6254122590574842,
+      "eval_loss": 0.1107550710439682,
+      "eval_runtime": 402.4441,
+      "eval_samples_per_second": 90.41,
+      "eval_steps_per_second": 22.604,
+      "num_input_tokens_seen": 16601824,
+      "step": 12800
+    },
+    {
+      "epoch": 0.6256565607211785,
+      "grad_norm": 0.0010198826203122735,
+      "learning_rate": 0.23033422726508548,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 16607968,
+      "step": 12805
+    },
+    {
+      "epoch": 0.6259008623848729,
+      "grad_norm": 0.0013283143052831292,
+      "learning_rate": 0.23028447613864808,
+      "loss": 0.108,
+      "num_input_tokens_seen": 16613984,
+      "step": 12810
+    },
+    {
+      "epoch": 0.6261451640485671,
+      "grad_norm": 0.0017451042076572776,
+      "learning_rate": 0.2302347126313355,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 16620160,
+      "step": 12815
+    },
+    {
+      "epoch": 0.6263894657122615,
+      "grad_norm": 0.0017517040250822902,
+      "learning_rate": 0.23018493675082197,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 16626912,
+      "step": 12820
+    },
+    {
+      "epoch": 0.6266337673759559,
+      "grad_norm": 0.0022268127650022507,
+      "learning_rate": 0.2301351485047835,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 16633472,
+      "step": 12825
+    },
+    {
+      "epoch": 0.6268780690396502,
+      "grad_norm": 0.0015398989198729396,
+      "learning_rate": 0.23008534790089813,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 16639616,
+      "step": 12830
+    },
+    {
+      "epoch": 0.6271223707033445,
+      "grad_norm": 0.0013734705280512571,
+      "learning_rate": 0.2300355349468457,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 16645792,
+      "step": 12835
+    },
+    {
+      "epoch": 0.6273666723670388,
+      "grad_norm": 0.0013185490388423204,
+      "learning_rate": 0.22998570965030793,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 16652256,
+      "step": 12840
+    },
+    {
+      "epoch": 0.6276109740307332,
+      "grad_norm": 0.001497848890721798,
+      "learning_rate": 0.22993587201896862,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 16658336,
+      "step": 12845
+    },
+    {
+      "epoch": 0.6278552756944275,
+      "grad_norm": 0.0012546360958367586,
+      "learning_rate": 0.2298860220605133,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 16664640,
+      "step": 12850
+    },
+    {
+      "epoch": 0.6280995773581218,
+      "grad_norm": 0.0010489443084225059,
+      "learning_rate": 0.22983615978262942,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 16671424,
+      "step": 12855
+    },
+    {
+      "epoch": 0.6283438790218161,
+      "grad_norm": 0.0010586235439404845,
+      "learning_rate": 0.22978628519300648,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 16677856,
+      "step": 12860
+    },
+    {
+      "epoch": 0.6285881806855105,
+      "grad_norm": 0.001768506015650928,
+      "learning_rate": 0.22973639829933568,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 16684256,
+      "step": 12865
+    },
+    {
+      "epoch": 0.6288324823492047,
+      "grad_norm": 0.0014042898546904325,
+      "learning_rate": 0.22968649910931027,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 16690688,
+      "step": 12870
+    },
+    {
+      "epoch": 0.6290767840128991,
+      "grad_norm": 0.001371703576296568,
+      "learning_rate": 0.22963658763062528,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 16697312,
+      "step": 12875
+    },
+    {
+      "epoch": 0.6293210856765935,
+      "grad_norm": 0.0010991463204845786,
+      "learning_rate": 0.22958666387097765,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 16703360,
+      "step": 12880
+    },
+    {
+      "epoch": 0.6295653873402878,
+      "grad_norm": 0.0008378818165510893,
+      "learning_rate": 0.22953672783806633,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 16709824,
+      "step": 12885
+    },
+    {
+      "epoch": 0.6298096890039822,
+      "grad_norm": 0.0010934779420495033,
+      "learning_rate": 0.22948677953959207,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 16716256,
+      "step": 12890
+    },
+    {
+      "epoch": 0.6300539906676764,
+      "grad_norm": 0.0011933633359149098,
+      "learning_rate": 0.2294368189832575,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 16722720,
+      "step": 12895
+    },
+    {
+      "epoch": 0.6302982923313708,
+      "grad_norm": 0.0016720844432711601,
+      "learning_rate": 0.2293868461767672,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 16729504,
+      "step": 12900
+    },
+    {
+      "epoch": 0.6305425939950651,
+      "grad_norm": 0.0012119815219193697,
+      "learning_rate": 0.22933686112782758,
+      "loss": 0.1199,
+      "num_input_tokens_seen": 16735808,
+      "step": 12905
+    },
+    {
+      "epoch": 0.6307868956587595,
+      "grad_norm": 0.0014895603526383638,
+      "learning_rate": 0.22928686384414698,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 16742880,
+      "step": 12910
+    },
+    {
+      "epoch": 0.6310311973224537,
+      "grad_norm": 0.0008453723276033998,
+      "learning_rate": 0.22923685433343552,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 16749152,
+      "step": 12915
+    },
+    {
+      "epoch": 0.6312754989861481,
+      "grad_norm": 0.0022616719361394644,
+      "learning_rate": 0.22918683260340542,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 16755712,
+      "step": 12920
+    },
+    {
+      "epoch": 0.6315198006498425,
+      "grad_norm": 0.0012098680017516017,
+      "learning_rate": 0.2291367986617706,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 16762176,
+      "step": 12925
+    },
+    {
+      "epoch": 0.6317641023135367,
+      "grad_norm": 0.0018164002103731036,
+      "learning_rate": 0.22908675251624697,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 16768672,
+      "step": 12930
+    },
+    {
+      "epoch": 0.6320084039772311,
+      "grad_norm": 0.0011526258895173669,
+      "learning_rate": 0.22903669417455216,
+      "loss": 0.1088,
+      "num_input_tokens_seen": 16774976,
+      "step": 12935
+    },
+    {
+      "epoch": 0.6322527056409254,
+      "grad_norm": 0.0010156650096178055,
+      "learning_rate": 0.22898662364440592,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 16781408,
+      "step": 12940
+    },
+    {
+      "epoch": 0.6324970073046198,
+      "grad_norm": 0.0016187349101528525,
+      "learning_rate": 0.2289365409335297,
+      "loss": 0.1088,
+      "num_input_tokens_seen": 16788064,
+      "step": 12945
+    },
+    {
+      "epoch": 0.632741308968314,
+      "grad_norm": 0.0010766369523480535,
+      "learning_rate": 0.2288864460496469,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 16794336,
+      "step": 12950
+    },
+    {
+      "epoch": 0.6329856106320084,
+      "grad_norm": 0.0009428428602404892,
+      "learning_rate": 0.22883633900048272,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 16800992,
+      "step": 12955
+    },
+    {
+      "epoch": 0.6332299122957027,
+      "grad_norm": 0.0015927883796393871,
+      "learning_rate": 0.2287862197937644,
+      "loss": 0.1195,
+      "num_input_tokens_seen": 16807104,
+      "step": 12960
+    },
+    {
+      "epoch": 0.6334742139593971,
+      "grad_norm": 0.0016807891661301255,
+      "learning_rate": 0.2287360884372209,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 16813664,
+      "step": 12965
+    },
+    {
+      "epoch": 0.6337185156230913,
+      "grad_norm": 0.0009956368012353778,
+      "learning_rate": 0.22868594493858307,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 16819936,
+      "step": 12970
+    },
+    {
+      "epoch": 0.6339628172867857,
+      "grad_norm": 0.00247167213819921,
+      "learning_rate": 0.2286357893055837,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 16825792,
+      "step": 12975
+    },
+    {
+      "epoch": 0.6342071189504801,
+      "grad_norm": 0.0015453778905794024,
+      "learning_rate": 0.22858562154595746,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 16832704,
+      "step": 12980
+    },
+    {
+      "epoch": 0.6344514206141744,
+      "grad_norm": 0.0015505588380619884,
+      "learning_rate": 0.22853544166744078,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 16839456,
+      "step": 12985
+    },
+    {
+      "epoch": 0.6346957222778687,
+      "grad_norm": 0.0020357731264084578,
+      "learning_rate": 0.22848524967777206,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 16846752,
+      "step": 12990
+    },
+    {
+      "epoch": 0.634940023941563,
+      "grad_norm": 0.0009000770514830947,
+      "learning_rate": 0.22843504558469152,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 16853600,
+      "step": 12995
+    },
+    {
+      "epoch": 0.6351843256052574,
+      "grad_norm": 0.001040993258357048,
+      "learning_rate": 0.2283848293959413,
+      "loss": 0.1,
+      "num_input_tokens_seen": 16860320,
+      "step": 13000
+    },
+    {
+      "epoch": 0.6351843256052574,
+      "eval_loss": 0.10784220695495605,
+      "eval_runtime": 401.9778,
+      "eval_samples_per_second": 90.515,
+      "eval_steps_per_second": 22.631,
+      "num_input_tokens_seen": 16860320,
+      "step": 13000
+    },
+    {
+      "epoch": 0.6354286272689517,
+      "grad_norm": 0.0010324025060981512,
+      "learning_rate": 0.22833460111926532,
+      "loss": 0.079,
+      "num_input_tokens_seen": 16867168,
+      "step": 13005
+    },
+    {
+      "epoch": 0.635672928932646,
+      "grad_norm": 0.001005431986413896,
+      "learning_rate": 0.22828436076240946,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 16874080,
+      "step": 13010
+    },
+    {
+      "epoch": 0.6359172305963403,
+      "grad_norm": 0.0017886186251416802,
+      "learning_rate": 0.22823410833312135,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 16880544,
+      "step": 13015
+    },
+    {
+      "epoch": 0.6361615322600347,
+      "grad_norm": 0.0013408809900283813,
+      "learning_rate": 0.2281838438391506,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 16886944,
+      "step": 13020
+    },
+    {
+      "epoch": 0.6364058339237291,
+      "grad_norm": 0.001020760159008205,
+      "learning_rate": 0.22813356728824863,
+      "loss": 0.1411,
+      "num_input_tokens_seen": 16893280,
+      "step": 13025
+    },
+    {
+      "epoch": 0.6366501355874233,
+      "grad_norm": 0.001271530520170927,
+      "learning_rate": 0.2280832786881687,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 16899456,
+      "step": 13030
+    },
+    {
+      "epoch": 0.6368944372511177,
+      "grad_norm": 0.001046549528837204,
+      "learning_rate": 0.22803297804666592,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 16905856,
+      "step": 13035
+    },
+    {
+      "epoch": 0.637138738914812,
+      "grad_norm": 0.0007066029938869178,
+      "learning_rate": 0.22798266537149728,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 16912064,
+      "step": 13040
+    },
+    {
+      "epoch": 0.6373830405785064,
+      "grad_norm": 0.001080637681297958,
+      "learning_rate": 0.22793234067042167,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 16919008,
+      "step": 13045
+    },
+    {
+      "epoch": 0.6376273422422006,
+      "grad_norm": 0.0013834454584866762,
+      "learning_rate": 0.22788200395119979,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 16925152,
+      "step": 13050
+    },
+    {
+      "epoch": 0.637871643905895,
+      "grad_norm": 0.0007426341762766242,
+      "learning_rate": 0.2278316552215942,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 16931520,
+      "step": 13055
+    },
+    {
+      "epoch": 0.6381159455695893,
+      "grad_norm": 0.0010268660262227058,
+      "learning_rate": 0.22778129448936918,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 16938208,
+      "step": 13060
+    },
+    {
+      "epoch": 0.6383602472332837,
+      "grad_norm": 0.0012327752774581313,
+      "learning_rate": 0.22773092176229118,
+      "loss": 0.113,
+      "num_input_tokens_seen": 16944704,
+      "step": 13065
+    },
+    {
+      "epoch": 0.638604548896978,
+      "grad_norm": 0.0006974324933253229,
+      "learning_rate": 0.22768053704812816,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 16951360,
+      "step": 13070
+    },
+    {
+      "epoch": 0.6388488505606723,
+      "grad_norm": 0.0009440124267712235,
+      "learning_rate": 0.22763014035465018,
+      "loss": 0.092,
+      "num_input_tokens_seen": 16957856,
+      "step": 13075
+    },
+    {
+      "epoch": 0.6390931522243667,
+      "grad_norm": 0.0013328235363587737,
+      "learning_rate": 0.22757973168962892,
+      "loss": 0.1454,
+      "num_input_tokens_seen": 16963968,
+      "step": 13080
+    },
+    {
+      "epoch": 0.639337453888061,
+      "grad_norm": 0.0014734467258676887,
+      "learning_rate": 0.22752931106083818,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 16970304,
+      "step": 13085
+    },
+    {
+      "epoch": 0.6395817555517553,
+      "grad_norm": 0.0013475227169692516,
+      "learning_rate": 0.22747887847605341,
+      "loss": 0.098,
+      "num_input_tokens_seen": 16976448,
+      "step": 13090
+    },
+    {
+      "epoch": 0.6398260572154496,
+      "grad_norm": 0.0009101863251999021,
+      "learning_rate": 0.22742843394305184,
+      "loss": 0.074,
+      "num_input_tokens_seen": 16983104,
+      "step": 13095
+    },
+    {
+      "epoch": 0.640070358879144,
+      "grad_norm": 0.0011720387265086174,
+      "learning_rate": 0.22737797746961272,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 16989888,
+      "step": 13100
+    },
+    {
+      "epoch": 0.6403146605428383,
+      "grad_norm": 0.001385115785524249,
+      "learning_rate": 0.22732750906351712,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 16996192,
+      "step": 13105
+    },
+    {
+      "epoch": 0.6405589622065326,
+      "grad_norm": 0.0011504818685352802,
+      "learning_rate": 0.22727702873254785,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 17002400,
+      "step": 13110
+    },
+    {
+      "epoch": 0.6408032638702269,
+      "grad_norm": 0.0010812939144670963,
+      "learning_rate": 0.22722653648448968,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 17008544,
+      "step": 13115
+    },
+    {
+      "epoch": 0.6410475655339213,
+      "grad_norm": 0.0011743069626390934,
+      "learning_rate": 0.22717603232712902,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 17014880,
+      "step": 13120
+    },
+    {
+      "epoch": 0.6412918671976157,
+      "grad_norm": 0.0018980818567797542,
+      "learning_rate": 0.22712551626825436,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 17021728,
+      "step": 13125
+    },
+    {
+      "epoch": 0.6415361688613099,
+      "grad_norm": 0.0009978050366044044,
+      "learning_rate": 0.2270749883156559,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 17028000,
+      "step": 13130
+    },
+    {
+      "epoch": 0.6417804705250043,
+      "grad_norm": 0.001593540539033711,
+      "learning_rate": 0.22702444847712563,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 17033952,
+      "step": 13135
+    },
+    {
+      "epoch": 0.6420247721886986,
+      "grad_norm": 0.001245293766260147,
+      "learning_rate": 0.22697389676045743,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 17040448,
+      "step": 13140
+    },
+    {
+      "epoch": 0.642269073852393,
+      "grad_norm": 0.0017607141053304076,
+      "learning_rate": 0.22692333317344704,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 17046464,
+      "step": 13145
+    },
+    {
+      "epoch": 0.6425133755160872,
+      "grad_norm": 0.001845150371082127,
+      "learning_rate": 0.22687275772389198,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 17053248,
+      "step": 13150
+    },
+    {
+      "epoch": 0.6427576771797816,
+      "grad_norm": 0.0012117347214370966,
+      "learning_rate": 0.22682217041959168,
+      "loss": 0.113,
+      "num_input_tokens_seen": 17060352,
+      "step": 13155
+    },
+    {
+      "epoch": 0.6430019788434759,
+      "grad_norm": 0.0015206674579530954,
+      "learning_rate": 0.2267715712683473,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 17066592,
+      "step": 13160
+    },
+    {
+      "epoch": 0.6432462805071703,
+      "grad_norm": 0.001275760238058865,
+      "learning_rate": 0.22672096027796182,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 17073408,
+      "step": 13165
+    },
+    {
+      "epoch": 0.6434905821708646,
+      "grad_norm": 0.0010885512456297874,
+      "learning_rate": 0.22667033745624016,
+      "loss": 0.1208,
+      "num_input_tokens_seen": 17080064,
+      "step": 13170
+    },
+    {
+      "epoch": 0.6437348838345589,
+      "grad_norm": 0.0008459063828922808,
+      "learning_rate": 0.22661970281098895,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 17086144,
+      "step": 13175
+    },
+    {
+      "epoch": 0.6439791854982533,
+      "grad_norm": 0.001400327542796731,
+      "learning_rate": 0.22656905635001667,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 17092672,
+      "step": 13180
+    },
+    {
+      "epoch": 0.6442234871619476,
+      "grad_norm": 0.0013447654200717807,
+      "learning_rate": 0.2265183980811337,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 17099008,
+      "step": 13185
+    },
+    {
+      "epoch": 0.6444677888256419,
+      "grad_norm": 0.0018909912323579192,
+      "learning_rate": 0.22646772801215218,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 17105632,
+      "step": 13190
+    },
+    {
+      "epoch": 0.6447120904893362,
+      "grad_norm": 0.0009891639929264784,
+      "learning_rate": 0.22641704615088598,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 17112192,
+      "step": 13195
+    },
+    {
+      "epoch": 0.6449563921530306,
+      "grad_norm": 0.0011885821586474776,
+      "learning_rate": 0.22636635250515103,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 17118528,
+      "step": 13200
+    },
+    {
+      "epoch": 0.6449563921530306,
+      "eval_loss": 0.10704771429300308,
+      "eval_runtime": 402.1232,
+      "eval_samples_per_second": 90.482,
+      "eval_steps_per_second": 22.622,
+      "num_input_tokens_seen": 17118528,
+      "step": 13200
+    },
+    {
+      "epoch": 0.6452006938167248,
+      "grad_norm": 0.001454219571314752,
+      "learning_rate": 0.2263156470827648,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 17124896,
+      "step": 13205
+    },
+    {
+      "epoch": 0.6454449954804192,
+      "grad_norm": 0.0017512041376903653,
+      "learning_rate": 0.22626492989154678,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 17131520,
+      "step": 13210
+    },
+    {
+      "epoch": 0.6456892971441136,
+      "grad_norm": 0.0009341626428067684,
+      "learning_rate": 0.22621420093931813,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 17137920,
+      "step": 13215
+    },
+    {
+      "epoch": 0.6459335988078079,
+      "grad_norm": 0.00201458390802145,
+      "learning_rate": 0.22616346023390194,
+      "loss": 0.12,
+      "num_input_tokens_seen": 17144288,
+      "step": 13220
+    },
+    {
+      "epoch": 0.6461779004715023,
+      "grad_norm": 0.0020580969285219908,
+      "learning_rate": 0.22611270778312306,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 17150624,
+      "step": 13225
+    },
+    {
+      "epoch": 0.6464222021351965,
+      "grad_norm": 0.0010750090004876256,
+      "learning_rate": 0.2260619435948081,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 17157344,
+      "step": 13230
+    },
+    {
+      "epoch": 0.6466665037988909,
+      "grad_norm": 0.0014998042024672031,
+      "learning_rate": 0.22601116767678567,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 17164000,
+      "step": 13235
+    },
+    {
+      "epoch": 0.6469108054625852,
+      "grad_norm": 0.001619100570678711,
+      "learning_rate": 0.2259603800368859,
+      "loss": 0.1192,
+      "num_input_tokens_seen": 17170304,
+      "step": 13240
+    },
+    {
+      "epoch": 0.6471551071262795,
+      "grad_norm": 0.0015310043236240745,
+      "learning_rate": 0.22590958068294098,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 17177056,
+      "step": 13245
+    },
+    {
+      "epoch": 0.6473994087899738,
+      "grad_norm": 0.0011903585400432348,
+      "learning_rate": 0.22585876962278478,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 17183680,
+      "step": 13250
+    },
+    {
+      "epoch": 0.6476437104536682,
+      "grad_norm": 0.0011429025325924158,
+      "learning_rate": 0.22580794686425298,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 17190112,
+      "step": 13255
+    },
+    {
+      "epoch": 0.6478880121173625,
+      "grad_norm": 0.0009385294979438186,
+      "learning_rate": 0.22575711241518312,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 17196576,
+      "step": 13260
+    },
+    {
+      "epoch": 0.6481323137810568,
+      "grad_norm": 0.0016239730175584555,
+      "learning_rate": 0.22570626628341453,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 17202528,
+      "step": 13265
+    },
+    {
+      "epoch": 0.6483766154447512,
+      "grad_norm": 0.0011000509839504957,
+      "learning_rate": 0.22565540847678828,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 17209024,
+      "step": 13270
+    },
+    {
+      "epoch": 0.6486209171084455,
+      "grad_norm": 0.0012880222639068961,
+      "learning_rate": 0.2256045390031473,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 17215424,
+      "step": 13275
+    },
+    {
+      "epoch": 0.6488652187721399,
+      "grad_norm": 0.00240444578230381,
+      "learning_rate": 0.22555365787033627,
+      "loss": 0.1494,
+      "num_input_tokens_seen": 17222176,
+      "step": 13280
+    },
+    {
+      "epoch": 0.6491095204358341,
+      "grad_norm": 0.0008635861449874938,
+      "learning_rate": 0.22550276508620173,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 17229408,
+      "step": 13285
+    },
+    {
+      "epoch": 0.6493538220995285,
+      "grad_norm": 0.0012134192511439323,
+      "learning_rate": 0.22545186065859202,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 17235936,
+      "step": 13290
+    },
+    {
+      "epoch": 0.6495981237632228,
+      "grad_norm": 0.0012667076662182808,
+      "learning_rate": 0.2254009445953572,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 17242848,
+      "step": 13295
+    },
+    {
+      "epoch": 0.6498424254269172,
+      "grad_norm": 0.0009659474017098546,
+      "learning_rate": 0.22535001690434917,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 17249408,
+      "step": 13300
+    },
+    {
+      "epoch": 0.6500867270906114,
+      "grad_norm": 0.0013993821339681745,
+      "learning_rate": 0.22529907759342163,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 17255936,
+      "step": 13305
+    },
+    {
+      "epoch": 0.6503310287543058,
+      "grad_norm": 0.0021850892808288336,
+      "learning_rate": 0.22524812667043007,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 17262624,
+      "step": 13310
+    },
+    {
+      "epoch": 0.6505753304180002,
+      "grad_norm": 0.0007365363417193294,
+      "learning_rate": 0.22519716414323177,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 17269152,
+      "step": 13315
+    },
+    {
+      "epoch": 0.6508196320816945,
+      "grad_norm": 0.0021708612330257893,
+      "learning_rate": 0.22514619001968567,
+      "loss": 0.101,
+      "num_input_tokens_seen": 17275808,
+      "step": 13320
+    },
+    {
+      "epoch": 0.6510639337453888,
+      "grad_norm": 0.001336328568868339,
+      "learning_rate": 0.2250952043076528,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 17282368,
+      "step": 13325
+    },
+    {
+      "epoch": 0.6513082354090831,
+      "grad_norm": 0.0018604568904265761,
+      "learning_rate": 0.2250442070149957,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 17288864,
+      "step": 13330
+    },
+    {
+      "epoch": 0.6515525370727775,
+      "grad_norm": 0.0014160072896629572,
+      "learning_rate": 0.22499319814957885,
+      "loss": 0.1,
+      "num_input_tokens_seen": 17294976,
+      "step": 13335
+    },
+    {
+      "epoch": 0.6517968387364718,
+      "grad_norm": 0.0023832025472074747,
+      "learning_rate": 0.2249421777192684,
+      "loss": 0.1318,
+      "num_input_tokens_seen": 17301632,
+      "step": 13340
+    },
+    {
+      "epoch": 0.6520411404001661,
+      "grad_norm": 0.0009793041972443461,
+      "learning_rate": 0.22489114573193236,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 17308000,
+      "step": 13345
+    },
+    {
+      "epoch": 0.6522854420638604,
+      "grad_norm": 0.002829594537615776,
+      "learning_rate": 0.2248401021954405,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 17314208,
+      "step": 13350
+    },
+    {
+      "epoch": 0.6525297437275548,
+      "grad_norm": 0.001533425529487431,
+      "learning_rate": 0.22478904711766443,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 17321216,
+      "step": 13355
+    },
+    {
+      "epoch": 0.6527740453912492,
+      "grad_norm": 0.002734034787863493,
+      "learning_rate": 0.22473798050647734,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 17327840,
+      "step": 13360
+    },
+    {
+      "epoch": 0.6530183470549434,
+      "grad_norm": 0.0018205768428742886,
+      "learning_rate": 0.22468690236975453,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 17334144,
+      "step": 13365
+    },
+    {
+      "epoch": 0.6532626487186378,
+      "grad_norm": 0.0018086680211126804,
+      "learning_rate": 0.22463581271537272,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 17340448,
+      "step": 13370
+    },
+    {
+      "epoch": 0.6535069503823321,
+      "grad_norm": 0.0010361612075939775,
+      "learning_rate": 0.22458471155121076,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 17346848,
+      "step": 13375
+    },
+    {
+      "epoch": 0.6537512520460265,
+      "grad_norm": 0.0016260507982224226,
+      "learning_rate": 0.2245335988851489,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 17353216,
+      "step": 13380
+    },
+    {
+      "epoch": 0.6539955537097207,
+      "grad_norm": 0.0015133155975490808,
+      "learning_rate": 0.2244824747250695,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 17359840,
+      "step": 13385
+    },
+    {
+      "epoch": 0.6542398553734151,
+      "grad_norm": 0.0012557184090837836,
+      "learning_rate": 0.22443133907885646,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 17365376,
+      "step": 13390
+    },
+    {
+      "epoch": 0.6544841570371094,
+      "grad_norm": 0.0015820766566321254,
+      "learning_rate": 0.22438019195439557,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 17372096,
+      "step": 13395
+    },
+    {
+      "epoch": 0.6547284587008038,
+      "grad_norm": 0.0010412579867988825,
+      "learning_rate": 0.22432903335957435,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 17378528,
+      "step": 13400
+    },
+    {
+      "epoch": 0.6547284587008038,
+      "eval_loss": 0.10964423418045044,
+      "eval_runtime": 402.2496,
+      "eval_samples_per_second": 90.454,
+      "eval_steps_per_second": 22.615,
+      "num_input_tokens_seen": 17378528,
+      "step": 13400
+    },
+    {
+      "epoch": 0.654972760364498,
+      "grad_norm": 0.001981972483918071,
+      "learning_rate": 0.22427786330228214,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 17384832,
+      "step": 13405
+    },
+    {
+      "epoch": 0.6552170620281924,
+      "grad_norm": 0.0011683354387059808,
+      "learning_rate": 0.22422668179040997,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 17391360,
+      "step": 13410
+    },
+    {
+      "epoch": 0.6554613636918868,
+      "grad_norm": 0.0012274541659280658,
+      "learning_rate": 0.2241754888318507,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 17397632,
+      "step": 13415
+    },
+    {
+      "epoch": 0.6557056653555811,
+      "grad_norm": 0.002088496694341302,
+      "learning_rate": 0.22412428443449886,
+      "loss": 0.1498,
+      "num_input_tokens_seen": 17404160,
+      "step": 13420
+    },
+    {
+      "epoch": 0.6559499670192754,
+      "grad_norm": 0.0019513457082211971,
+      "learning_rate": 0.22407306860625087,
+      "loss": 0.12,
+      "num_input_tokens_seen": 17410656,
+      "step": 13425
+    },
+    {
+      "epoch": 0.6561942686829697,
+      "grad_norm": 0.000779199181124568,
+      "learning_rate": 0.22402184135500483,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 17416832,
+      "step": 13430
+    },
+    {
+      "epoch": 0.6564385703466641,
+      "grad_norm": 0.0010628425516188145,
+      "learning_rate": 0.22397060268866067,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 17423104,
+      "step": 13435
+    },
+    {
+      "epoch": 0.6566828720103584,
+      "grad_norm": 0.0011732388520613313,
+      "learning_rate": 0.22391935261511994,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 17429664,
+      "step": 13440
+    },
+    {
+      "epoch": 0.6569271736740527,
+      "grad_norm": 0.0013365171616896987,
+      "learning_rate": 0.22386809114228615,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 17436096,
+      "step": 13445
+    },
+    {
+      "epoch": 0.657171475337747,
+      "grad_norm": 0.0011834672186523676,
+      "learning_rate": 0.22381681827806446,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 17442688,
+      "step": 13450
+    },
+    {
+      "epoch": 0.6574157770014414,
+      "grad_norm": 0.0015049444045871496,
+      "learning_rate": 0.22376553403036173,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 17449024,
+      "step": 13455
+    },
+    {
+      "epoch": 0.6576600786651358,
+      "grad_norm": 0.001222295337356627,
+      "learning_rate": 0.22371423840708662,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 17455360,
+      "step": 13460
+    },
+    {
+      "epoch": 0.65790438032883,
+      "grad_norm": 0.0013284505112096667,
+      "learning_rate": 0.22366293141614962,
+      "loss": 0.125,
+      "num_input_tokens_seen": 17461632,
+      "step": 13465
+    },
+    {
+      "epoch": 0.6581486819925244,
+      "grad_norm": 0.0015695394249632955,
+      "learning_rate": 0.22361161306546287,
+      "loss": 0.096,
+      "num_input_tokens_seen": 17468416,
+      "step": 13470
+    },
+    {
+      "epoch": 0.6583929836562187,
+      "grad_norm": 0.0009431105572730303,
+      "learning_rate": 0.22356028336294037,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 17474720,
+      "step": 13475
+    },
+    {
+      "epoch": 0.6586372853199131,
+      "grad_norm": 0.00106521334964782,
+      "learning_rate": 0.2235089423164977,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 17481280,
+      "step": 13480
+    },
+    {
+      "epoch": 0.6588815869836073,
+      "grad_norm": 0.0008214006666094065,
+      "learning_rate": 0.22345758993405243,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 17488032,
+      "step": 13485
+    },
+    {
+      "epoch": 0.6591258886473017,
+      "grad_norm": 0.001219106954522431,
+      "learning_rate": 0.2234062262235236,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 17494272,
+      "step": 13490
+    },
+    {
+      "epoch": 0.659370190310996,
+      "grad_norm": 0.0012115027057006955,
+      "learning_rate": 0.22335485119283222,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 17500544,
+      "step": 13495
+    },
+    {
+      "epoch": 0.6596144919746904,
+      "grad_norm": 0.0010024080984294415,
+      "learning_rate": 0.22330346484990093,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 17506816,
+      "step": 13500
+    },
+    {
+      "epoch": 0.6598587936383846,
+      "grad_norm": 0.0011497748782858253,
+      "learning_rate": 0.22325206720265425,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 17513536,
+      "step": 13505
+    },
+    {
+      "epoch": 0.660103095302079,
+      "grad_norm": 0.001236611045897007,
+      "learning_rate": 0.2232006582590182,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 17520512,
+      "step": 13510
+    },
+    {
+      "epoch": 0.6603473969657734,
+      "grad_norm": 0.0010196688817813993,
+      "learning_rate": 0.22314923802692077,
+      "loss": 0.1088,
+      "num_input_tokens_seen": 17526944,
+      "step": 13515
+    },
+    {
+      "epoch": 0.6605916986294676,
+      "grad_norm": 0.0020244307816028595,
+      "learning_rate": 0.22309780651429156,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 17533920,
+      "step": 13520
+    },
+    {
+      "epoch": 0.660836000293162,
+      "grad_norm": 0.0021185949444770813,
+      "learning_rate": 0.22304636372906203,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 17540544,
+      "step": 13525
+    },
+    {
+      "epoch": 0.6610803019568563,
+      "grad_norm": 0.0022446548100560904,
+      "learning_rate": 0.22299490967916522,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 17546880,
+      "step": 13530
+    },
+    {
+      "epoch": 0.6613246036205507,
+      "grad_norm": 0.0014564808225259185,
+      "learning_rate": 0.22294344437253602,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 17554080,
+      "step": 13535
+    },
+    {
+      "epoch": 0.661568905284245,
+      "grad_norm": 0.0010907883988693357,
+      "learning_rate": 0.22289196781711101,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 17560000,
+      "step": 13540
+    },
+    {
+      "epoch": 0.6618132069479393,
+      "grad_norm": 0.00094712054124102,
+      "learning_rate": 0.2228404800208286,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 17566976,
+      "step": 13545
+    },
+    {
+      "epoch": 0.6620575086116336,
+      "grad_norm": 0.002135154092684388,
+      "learning_rate": 0.22278898099162875,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 17573024,
+      "step": 13550
+    },
+    {
+      "epoch": 0.662301810275328,
+      "grad_norm": 0.0012776299845427275,
+      "learning_rate": 0.22273747073745337,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 17579840,
+      "step": 13555
+    },
+    {
+      "epoch": 0.6625461119390224,
+      "grad_norm": 0.0008091671043075621,
+      "learning_rate": 0.22268594926624588,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 17586432,
+      "step": 13560
+    },
+    {
+      "epoch": 0.6627904136027166,
+      "grad_norm": 0.0012158126337453723,
+      "learning_rate": 0.22263441658595162,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 17592640,
+      "step": 13565
+    },
+    {
+      "epoch": 0.663034715266411,
+      "grad_norm": 0.0010563336545601487,
+      "learning_rate": 0.2225828727045175,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 17598976,
+      "step": 13570
+    },
+    {
+      "epoch": 0.6632790169301053,
+      "grad_norm": 0.0008653172408230603,
+      "learning_rate": 0.22253131762989228,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 17605920,
+      "step": 13575
+    },
+    {
+      "epoch": 0.6635233185937996,
+      "grad_norm": 0.0027100425213575363,
+      "learning_rate": 0.2224797513700264,
+      "loss": 0.146,
+      "num_input_tokens_seen": 17612544,
+      "step": 13580
+    },
+    {
+      "epoch": 0.6637676202574939,
+      "grad_norm": 0.0007373004918918014,
+      "learning_rate": 0.22242817393287204,
+      "loss": 0.129,
+      "num_input_tokens_seen": 17618944,
+      "step": 13585
+    },
+    {
+      "epoch": 0.6640119219211883,
+      "grad_norm": 0.0008181840530596673,
+      "learning_rate": 0.22237658532638305,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 17625696,
+      "step": 13590
+    },
+    {
+      "epoch": 0.6642562235848826,
+      "grad_norm": 0.0012951624812558293,
+      "learning_rate": 0.22232498555851513,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 17632160,
+      "step": 13595
+    },
+    {
+      "epoch": 0.664500525248577,
+      "grad_norm": 0.0008909399621188641,
+      "learning_rate": 0.22227337463722546,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 17638400,
+      "step": 13600
+    },
+    {
+      "epoch": 0.664500525248577,
+      "eval_loss": 0.1083836480975151,
+      "eval_runtime": 402.4333,
+      "eval_samples_per_second": 90.412,
+      "eval_steps_per_second": 22.605,
+      "num_input_tokens_seen": 17638400,
+      "step": 13600
+    },
+    {
+      "epoch": 0.6647448269122713,
+      "grad_norm": 0.0011121879797428846,
+      "learning_rate": 0.2222217525704732,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 17644832,
+      "step": 13605
+    },
+    {
+      "epoch": 0.6649891285759656,
+      "grad_norm": 0.0013825857313349843,
+      "learning_rate": 0.22217011936621908,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 17651424,
+      "step": 13610
+    },
+    {
+      "epoch": 0.66523343023966,
+      "grad_norm": 0.0013366761850193143,
+      "learning_rate": 0.22211847503242566,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 17657728,
+      "step": 13615
+    },
+    {
+      "epoch": 0.6654777319033542,
+      "grad_norm": 0.0024751608725637197,
+      "learning_rate": 0.22206681957705704,
+      "loss": 0.108,
+      "num_input_tokens_seen": 17664064,
+      "step": 13620
+    },
+    {
+      "epoch": 0.6657220335670486,
+      "grad_norm": 0.0007183079142123461,
+      "learning_rate": 0.2220151530080792,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 17671104,
+      "step": 13625
+    },
+    {
+      "epoch": 0.6659663352307429,
+      "grad_norm": 0.0007610308821313083,
+      "learning_rate": 0.2219634753334598,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 17677696,
+      "step": 13630
+    },
+    {
+      "epoch": 0.6662106368944373,
+      "grad_norm": 0.001505788299255073,
+      "learning_rate": 0.22191178656116817,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 17684000,
+      "step": 13635
+    },
+    {
+      "epoch": 0.6664549385581315,
+      "grad_norm": 0.0015417286194860935,
+      "learning_rate": 0.2218600866991753,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 17690624,
+      "step": 13640
+    },
+    {
+      "epoch": 0.6666992402218259,
+      "grad_norm": 0.0010594673221930861,
+      "learning_rate": 0.221808375755454,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 17696992,
+      "step": 13645
+    },
+    {
+      "epoch": 0.6669435418855202,
+      "grad_norm": 0.0022226907312870026,
+      "learning_rate": 0.22175665373797881,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 17703296,
+      "step": 13650
+    },
+    {
+      "epoch": 0.6671878435492146,
+      "grad_norm": 0.00075796979945153,
+      "learning_rate": 0.22170492065472583,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 17709888,
+      "step": 13655
+    },
+    {
+      "epoch": 0.667432145212909,
+      "grad_norm": 0.0016083925729617476,
+      "learning_rate": 0.221653176513673,
+      "loss": 0.1252,
+      "num_input_tokens_seen": 17716416,
+      "step": 13660
+    },
+    {
+      "epoch": 0.6676764468766032,
+      "grad_norm": 0.0012794187059625983,
+      "learning_rate": 0.2216014213227999,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 17722752,
+      "step": 13665
+    },
+    {
+      "epoch": 0.6679207485402976,
+      "grad_norm": 0.002664062660187483,
+      "learning_rate": 0.22154965509008784,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 17728992,
+      "step": 13670
+    },
+    {
+      "epoch": 0.6681650502039919,
+      "grad_norm": 0.0012936415150761604,
+      "learning_rate": 0.2214978778235198,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 17735456,
+      "step": 13675
+    },
+    {
+      "epoch": 0.6684093518676862,
+      "grad_norm": 0.0011098046088591218,
+      "learning_rate": 0.2214460895310805,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 17742176,
+      "step": 13680
+    },
+    {
+      "epoch": 0.6686536535313805,
+      "grad_norm": 0.0010337420972064137,
+      "learning_rate": 0.22139429022075635,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 17748672,
+      "step": 13685
+    },
+    {
+      "epoch": 0.6688979551950749,
+      "grad_norm": 0.002051117131486535,
+      "learning_rate": 0.22134247990053546,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 17754880,
+      "step": 13690
+    },
+    {
+      "epoch": 0.6691422568587692,
+      "grad_norm": 0.0010683774016797543,
+      "learning_rate": 0.2212906585784076,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 17761344,
+      "step": 13695
+    },
+    {
+      "epoch": 0.6693865585224635,
+      "grad_norm": 0.001448330469429493,
+      "learning_rate": 0.22123882626236432,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 17767616,
+      "step": 13700
+    },
+    {
+      "epoch": 0.6696308601861579,
+      "grad_norm": 0.0007619251264259219,
+      "learning_rate": 0.2211869829603988,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 17774048,
+      "step": 13705
+    },
+    {
+      "epoch": 0.6698751618498522,
+      "grad_norm": 0.001402788795530796,
+      "learning_rate": 0.22113512868050592,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 17780576,
+      "step": 13710
+    },
+    {
+      "epoch": 0.6701194635135466,
+      "grad_norm": 0.002695039613172412,
+      "learning_rate": 0.2210832634306822,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 17787456,
+      "step": 13715
+    },
+    {
+      "epoch": 0.6703637651772408,
+      "grad_norm": 0.0012250670697540045,
+      "learning_rate": 0.22103138721892598,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 17794272,
+      "step": 13720
+    },
+    {
+      "epoch": 0.6706080668409352,
+      "grad_norm": 0.0014838054776191711,
+      "learning_rate": 0.22097950005323724,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 17801120,
+      "step": 13725
+    },
+    {
+      "epoch": 0.6708523685046295,
+      "grad_norm": 0.0023204919416457415,
+      "learning_rate": 0.22092760194161762,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 17807680,
+      "step": 13730
+    },
+    {
+      "epoch": 0.6710966701683239,
+      "grad_norm": 0.0015605330700054765,
+      "learning_rate": 0.2208756928920704,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 17814400,
+      "step": 13735
+    },
+    {
+      "epoch": 0.6713409718320181,
+      "grad_norm": 0.0012490213848650455,
+      "learning_rate": 0.22082377291260072,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 17820960,
+      "step": 13740
+    },
+    {
+      "epoch": 0.6715852734957125,
+      "grad_norm": 0.0009998263558372855,
+      "learning_rate": 0.2207718420112152,
+      "loss": 0.102,
+      "num_input_tokens_seen": 17827200,
+      "step": 13745
+    },
+    {
+      "epoch": 0.6718295751594069,
+      "grad_norm": 0.0019195060012862086,
+      "learning_rate": 0.22071990019592228,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 17833824,
+      "step": 13750
+    },
+    {
+      "epoch": 0.6720738768231012,
+      "grad_norm": 0.0009505474590696394,
+      "learning_rate": 0.22066794747473198,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 17840640,
+      "step": 13755
+    },
+    {
+      "epoch": 0.6723181784867955,
+      "grad_norm": 0.0016481016064062715,
+      "learning_rate": 0.2206159838556562,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 17847264,
+      "step": 13760
+    },
+    {
+      "epoch": 0.6725624801504898,
+      "grad_norm": 0.0011278500314801931,
+      "learning_rate": 0.2205640093467082,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 17853888,
+      "step": 13765
+    },
+    {
+      "epoch": 0.6728067818141842,
+      "grad_norm": 0.0014681399334222078,
+      "learning_rate": 0.22051202395590322,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 17860544,
+      "step": 13770
+    },
+    {
+      "epoch": 0.6730510834778785,
+      "grad_norm": 0.001853914582170546,
+      "learning_rate": 0.22046002769125808,
+      "loss": 0.082,
+      "num_input_tokens_seen": 17866720,
+      "step": 13775
+    },
+    {
+      "epoch": 0.6732953851415728,
+      "grad_norm": 0.0012671623844653368,
+      "learning_rate": 0.2204080205607912,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 17873248,
+      "step": 13780
+    },
+    {
+      "epoch": 0.6735396868052671,
+      "grad_norm": 0.001893278444185853,
+      "learning_rate": 0.22035600257252272,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 17879616,
+      "step": 13785
+    },
+    {
+      "epoch": 0.6737839884689615,
+      "grad_norm": 0.001233745482750237,
+      "learning_rate": 0.2203039737344745,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 17885856,
+      "step": 13790
+    },
+    {
+      "epoch": 0.6740282901326557,
+      "grad_norm": 0.0011282083578407764,
+      "learning_rate": 0.22025193405467003,
+      "loss": 0.141,
+      "num_input_tokens_seen": 17892352,
+      "step": 13795
+    },
+    {
+      "epoch": 0.6742725917963501,
+      "grad_norm": 0.0010935304453596473,
+      "learning_rate": 0.2201998835411345,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 17898336,
+      "step": 13800
+    },
+    {
+      "epoch": 0.6742725917963501,
+      "eval_loss": 0.10950179398059845,
+      "eval_runtime": 402.577,
+      "eval_samples_per_second": 90.38,
+      "eval_steps_per_second": 22.597,
+      "num_input_tokens_seen": 17898336,
+      "step": 13800
+    },
+    {
+      "epoch": 0.6745168934600445,
+      "grad_norm": 0.001246976898983121,
+      "learning_rate": 0.22014782220189474,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 17905184,
+      "step": 13805
+    },
+    {
+      "epoch": 0.6747611951237388,
+      "grad_norm": 0.0011533783981576562,
+      "learning_rate": 0.2200957500449793,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 17911488,
+      "step": 13810
+    },
+    {
+      "epoch": 0.6750054967874332,
+      "grad_norm": 0.0012805608566850424,
+      "learning_rate": 0.22004366707841827,
+      "loss": 0.1088,
+      "num_input_tokens_seen": 17918048,
+      "step": 13815
+    },
+    {
+      "epoch": 0.6752497984511274,
+      "grad_norm": 0.0017085091676563025,
+      "learning_rate": 0.21999157331024358,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 17924736,
+      "step": 13820
+    },
+    {
+      "epoch": 0.6754941001148218,
+      "grad_norm": 0.0014364084927365184,
+      "learning_rate": 0.21993946874848871,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 17931072,
+      "step": 13825
+    },
+    {
+      "epoch": 0.6757384017785161,
+      "grad_norm": 0.0009540438186377287,
+      "learning_rate": 0.2198873534011888,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 17937280,
+      "step": 13830
+    },
+    {
+      "epoch": 0.6759827034422105,
+      "grad_norm": 0.001071352162398398,
+      "learning_rate": 0.2198352272763808,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 17943776,
+      "step": 13835
+    },
+    {
+      "epoch": 0.6762270051059047,
+      "grad_norm": 0.0019146567210555077,
+      "learning_rate": 0.2197830903821031,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 17950496,
+      "step": 13840
+    },
+    {
+      "epoch": 0.6764713067695991,
+      "grad_norm": 0.0010987073183059692,
+      "learning_rate": 0.21973094272639598,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 17956704,
+      "step": 13845
+    },
+    {
+      "epoch": 0.6767156084332935,
+      "grad_norm": 0.0019455419387668371,
+      "learning_rate": 0.21967878431730117,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 17963200,
+      "step": 13850
+    },
+    {
+      "epoch": 0.6769599100969877,
+      "grad_norm": 0.0015561673790216446,
+      "learning_rate": 0.21962661516286217,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 17970272,
+      "step": 13855
+    },
+    {
+      "epoch": 0.6772042117606821,
+      "grad_norm": 0.0012245442485436797,
+      "learning_rate": 0.21957443527112414,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 17977088,
+      "step": 13860
+    },
+    {
+      "epoch": 0.6774485134243764,
+      "grad_norm": 0.001161319320090115,
+      "learning_rate": 0.21952224465013384,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 17983552,
+      "step": 13865
+    },
+    {
+      "epoch": 0.6776928150880708,
+      "grad_norm": 0.0019134279573336244,
+      "learning_rate": 0.21947004330793976,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 17990272,
+      "step": 13870
+    },
+    {
+      "epoch": 0.677937116751765,
+      "grad_norm": 0.0030622149351984262,
+      "learning_rate": 0.21941783125259198,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 17996832,
+      "step": 13875
+    },
+    {
+      "epoch": 0.6781814184154594,
+      "grad_norm": 0.001772688003256917,
+      "learning_rate": 0.21936560849214226,
+      "loss": 0.1553,
+      "num_input_tokens_seen": 18003360,
+      "step": 13880
+    },
+    {
+      "epoch": 0.6784257200791537,
+      "grad_norm": 0.0008142695296555758,
+      "learning_rate": 0.21931337503464404,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 18009984,
+      "step": 13885
+    },
+    {
+      "epoch": 0.6786700217428481,
+      "grad_norm": 0.001217205310240388,
+      "learning_rate": 0.21926113088815233,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 18016448,
+      "step": 13890
+    },
+    {
+      "epoch": 0.6789143234065425,
+      "grad_norm": 0.001349880825728178,
+      "learning_rate": 0.2192088760607238,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 18023232,
+      "step": 13895
+    },
+    {
+      "epoch": 0.6791586250702367,
+      "grad_norm": 0.0010120023507624865,
+      "learning_rate": 0.2191566105604169,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 18029408,
+      "step": 13900
+    },
+    {
+      "epoch": 0.6794029267339311,
+      "grad_norm": 0.001077753957360983,
+      "learning_rate": 0.21910433439529153,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 18035808,
+      "step": 13905
+    },
+    {
+      "epoch": 0.6796472283976254,
+      "grad_norm": 0.001729518175125122,
+      "learning_rate": 0.2190520475734094,
+      "loss": 0.087,
+      "num_input_tokens_seen": 18042784,
+      "step": 13910
+    },
+    {
+      "epoch": 0.6798915300613197,
+      "grad_norm": 0.0016491685528308153,
+      "learning_rate": 0.2189997501028338,
+      "loss": 0.1127,
+      "num_input_tokens_seen": 18049184,
+      "step": 13915
+    },
+    {
+      "epoch": 0.680135831725014,
+      "grad_norm": 0.0016279882984235883,
+      "learning_rate": 0.2189474419916296,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 18055360,
+      "step": 13920
+    },
+    {
+      "epoch": 0.6803801333887084,
+      "grad_norm": 0.001870027044788003,
+      "learning_rate": 0.21889512324786342,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 18061856,
+      "step": 13925
+    },
+    {
+      "epoch": 0.6806244350524027,
+      "grad_norm": 0.0013982156524434686,
+      "learning_rate": 0.21884279387960345,
+      "loss": 0.122,
+      "num_input_tokens_seen": 18068544,
+      "step": 13930
+    },
+    {
+      "epoch": 0.680868736716097,
+      "grad_norm": 0.0014774786541238427,
+      "learning_rate": 0.2187904538949195,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 18074944,
+      "step": 13935
+    },
+    {
+      "epoch": 0.6811130383797913,
+      "grad_norm": 0.0012672393349930644,
+      "learning_rate": 0.2187381033018831,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 18081248,
+      "step": 13940
+    },
+    {
+      "epoch": 0.6813573400434857,
+      "grad_norm": 0.002069746144115925,
+      "learning_rate": 0.2186857421085673,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 18087552,
+      "step": 13945
+    },
+    {
+      "epoch": 0.6816016417071801,
+      "grad_norm": 0.0019475676817819476,
+      "learning_rate": 0.21863337032304697,
+      "loss": 0.1402,
+      "num_input_tokens_seen": 18093632,
+      "step": 13950
+    },
+    {
+      "epoch": 0.6818459433708743,
+      "grad_norm": 0.0014879830414429307,
+      "learning_rate": 0.21858098795339845,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 18099904,
+      "step": 13955
+    },
+    {
+      "epoch": 0.6820902450345687,
+      "grad_norm": 0.0012946341885253787,
+      "learning_rate": 0.21852859500769975,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 18106400,
+      "step": 13960
+    },
+    {
+      "epoch": 0.682334546698263,
+      "grad_norm": 0.0010259003611281514,
+      "learning_rate": 0.21847619149403044,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 18113440,
+      "step": 13965
+    },
+    {
+      "epoch": 0.6825788483619574,
+      "grad_norm": 0.0010437039891257882,
+      "learning_rate": 0.21842377742047195,
+      "loss": 0.105,
+      "num_input_tokens_seen": 18120064,
+      "step": 13970
+    },
+    {
+      "epoch": 0.6828231500256516,
+      "grad_norm": 0.001040846575051546,
+      "learning_rate": 0.21837135279510705,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 18126464,
+      "step": 13975
+    },
+    {
+      "epoch": 0.683067451689346,
+      "grad_norm": 0.0010404333006590605,
+      "learning_rate": 0.21831891762602038,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 18133184,
+      "step": 13980
+    },
+    {
+      "epoch": 0.6833117533530403,
+      "grad_norm": 0.001912300125695765,
+      "learning_rate": 0.21826647192129806,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 18139264,
+      "step": 13985
+    },
+    {
+      "epoch": 0.6835560550167347,
+      "grad_norm": 0.001052029780112207,
+      "learning_rate": 0.21821401568902787,
+      "loss": 0.103,
+      "num_input_tokens_seen": 18145728,
+      "step": 13990
+    },
+    {
+      "epoch": 0.683800356680429,
+      "grad_norm": 0.0016341995215043426,
+      "learning_rate": 0.21816154893729925,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 18152032,
+      "step": 13995
+    },
+    {
+      "epoch": 0.6840446583441233,
+      "grad_norm": 0.0009057443821802735,
+      "learning_rate": 0.2181090716742032,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 18158528,
+      "step": 14000
+    },
+    {
+      "epoch": 0.6840446583441233,
+      "eval_loss": 0.11265753209590912,
+      "eval_runtime": 402.2397,
+      "eval_samples_per_second": 90.456,
+      "eval_steps_per_second": 22.616,
+      "num_input_tokens_seen": 18158528,
+      "step": 14000
+    },
+    {
+      "epoch": 0.6842889600078177,
+      "grad_norm": 0.0015836501261219382,
+      "learning_rate": 0.21805658390783236,
+      "loss": 0.125,
+      "num_input_tokens_seen": 18164768,
+      "step": 14005
+    },
+    {
+      "epoch": 0.684533261671512,
+      "grad_norm": 0.0013598310761153698,
+      "learning_rate": 0.21800408564628107,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 18171648,
+      "step": 14010
+    },
+    {
+      "epoch": 0.6847775633352063,
+      "grad_norm": 0.0007829886744730175,
+      "learning_rate": 0.21795157689764516,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 18178016,
+      "step": 14015
+    },
+    {
+      "epoch": 0.6850218649989006,
+      "grad_norm": 0.0011518746614456177,
+      "learning_rate": 0.21789905767002216,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 18184768,
+      "step": 14020
+    },
+    {
+      "epoch": 0.685266166662595,
+      "grad_norm": 0.001317039830610156,
+      "learning_rate": 0.2178465279715112,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 18191328,
+      "step": 14025
+    },
+    {
+      "epoch": 0.6855104683262893,
+      "grad_norm": 0.0018145197536796331,
+      "learning_rate": 0.21779398781021303,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 18197760,
+      "step": 14030
+    },
+    {
+      "epoch": 0.6857547699899836,
+      "grad_norm": 0.0009556583245284855,
+      "learning_rate": 0.21774143719422998,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 18204128,
+      "step": 14035
+    },
+    {
+      "epoch": 0.685999071653678,
+      "grad_norm": 0.0011485617142170668,
+      "learning_rate": 0.21768887613166601,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 18210336,
+      "step": 14040
+    },
+    {
+      "epoch": 0.6862433733173723,
+      "grad_norm": 0.001054224674589932,
+      "learning_rate": 0.2176363046306267,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 18217376,
+      "step": 14045
+    },
+    {
+      "epoch": 0.6864876749810667,
+      "grad_norm": 0.002937370678409934,
+      "learning_rate": 0.21758372269921925,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 18223616,
+      "step": 14050
+    },
+    {
+      "epoch": 0.6867319766447609,
+      "grad_norm": 0.002940363949164748,
+      "learning_rate": 0.21753113034555244,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 18230368,
+      "step": 14055
+    },
+    {
+      "epoch": 0.6869762783084553,
+      "grad_norm": 0.002577039413154125,
+      "learning_rate": 0.2174785275777367,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 18236544,
+      "step": 14060
+    },
+    {
+      "epoch": 0.6872205799721496,
+      "grad_norm": 0.0015164174837991595,
+      "learning_rate": 0.21742591440388404,
+      "loss": 0.098,
+      "num_input_tokens_seen": 18243264,
+      "step": 14065
+    },
+    {
+      "epoch": 0.687464881635844,
+      "grad_norm": 0.0007711936486884952,
+      "learning_rate": 0.21737329083210802,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 18249632,
+      "step": 14070
+    },
+    {
+      "epoch": 0.6877091832995382,
+      "grad_norm": 0.0008166284533217549,
+      "learning_rate": 0.2173206568705239,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 18256800,
+      "step": 14075
+    },
+    {
+      "epoch": 0.6879534849632326,
+      "grad_norm": 0.0014080044347792864,
+      "learning_rate": 0.2172680125272485,
+      "loss": 0.1425,
+      "num_input_tokens_seen": 18262656,
+      "step": 14080
+    },
+    {
+      "epoch": 0.6881977866269269,
+      "grad_norm": 0.0017105932347476482,
+      "learning_rate": 0.2172153578104002,
+      "loss": 0.079,
+      "num_input_tokens_seen": 18269216,
+      "step": 14085
+    },
+    {
+      "epoch": 0.6884420882906213,
+      "grad_norm": 0.0011262798216193914,
+      "learning_rate": 0.21716269272809902,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 18275808,
+      "step": 14090
+    },
+    {
+      "epoch": 0.6886863899543156,
+      "grad_norm": 0.0021661343052983284,
+      "learning_rate": 0.21711001728846666,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 18282432,
+      "step": 14095
+    },
+    {
+      "epoch": 0.6889306916180099,
+      "grad_norm": 0.0011584728490561247,
+      "learning_rate": 0.21705733149962628,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 18288672,
+      "step": 14100
+    },
+    {
+      "epoch": 0.6891749932817043,
+      "grad_norm": 0.0013083278900012374,
+      "learning_rate": 0.21700463536970263,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 18295360,
+      "step": 14105
+    },
+    {
+      "epoch": 0.6894192949453986,
+      "grad_norm": 0.0011242504697293043,
+      "learning_rate": 0.21695192890682222,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 18301728,
+      "step": 14110
+    },
+    {
+      "epoch": 0.6896635966090929,
+      "grad_norm": 0.00263860821723938,
+      "learning_rate": 0.21689921211911298,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 18308544,
+      "step": 14115
+    },
+    {
+      "epoch": 0.6899078982727872,
+      "grad_norm": 0.0012811344349756837,
+      "learning_rate": 0.21684648501470452,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 18314688,
+      "step": 14120
+    },
+    {
+      "epoch": 0.6901521999364816,
+      "grad_norm": 0.0016054412117227912,
+      "learning_rate": 0.216793747601728,
+      "loss": 0.115,
+      "num_input_tokens_seen": 18321312,
+      "step": 14125
+    },
+    {
+      "epoch": 0.6903965016001758,
+      "grad_norm": 0.0012331443140283227,
+      "learning_rate": 0.21674099988831627,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 18327872,
+      "step": 14130
+    },
+    {
+      "epoch": 0.6906408032638702,
+      "grad_norm": 0.0014157916884869337,
+      "learning_rate": 0.21668824188260363,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 18334848,
+      "step": 14135
+    },
+    {
+      "epoch": 0.6908851049275646,
+      "grad_norm": 0.001494238036684692,
+      "learning_rate": 0.21663547359272606,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 18341184,
+      "step": 14140
+    },
+    {
+      "epoch": 0.6911294065912589,
+      "grad_norm": 0.0008628632058389485,
+      "learning_rate": 0.216582695026821,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 18348224,
+      "step": 14145
+    },
+    {
+      "epoch": 0.6913737082549533,
+      "grad_norm": 0.0011070476612076163,
+      "learning_rate": 0.21652990619302767,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 18354944,
+      "step": 14150
+    },
+    {
+      "epoch": 0.6916180099186475,
+      "grad_norm": 0.0013004568172618747,
+      "learning_rate": 0.21647710709948673,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 18361248,
+      "step": 14155
+    },
+    {
+      "epoch": 0.6918623115823419,
+      "grad_norm": 0.001267589395865798,
+      "learning_rate": 0.2164242977543405,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 18367488,
+      "step": 14160
+    },
+    {
+      "epoch": 0.6921066132460362,
+      "grad_norm": 0.001974388724192977,
+      "learning_rate": 0.21637147816573277,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 18373600,
+      "step": 14165
+    },
+    {
+      "epoch": 0.6923509149097306,
+      "grad_norm": 0.0014412750024348497,
+      "learning_rate": 0.21631864834180908,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 18380128,
+      "step": 14170
+    },
+    {
+      "epoch": 0.6925952165734248,
+      "grad_norm": 0.0012480131117627025,
+      "learning_rate": 0.21626580829071637,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 18386816,
+      "step": 14175
+    },
+    {
+      "epoch": 0.6928395182371192,
+      "grad_norm": 0.0013769628712907434,
+      "learning_rate": 0.21621295802060328,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 18393120,
+      "step": 14180
+    },
+    {
+      "epoch": 0.6930838199008135,
+      "grad_norm": 0.001106621464714408,
+      "learning_rate": 0.21616009753961996,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 18399648,
+      "step": 14185
+    },
+    {
+      "epoch": 0.6933281215645078,
+      "grad_norm": 0.001167361275292933,
+      "learning_rate": 0.2161072268559182,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 18405856,
+      "step": 14190
+    },
+    {
+      "epoch": 0.6935724232282022,
+      "grad_norm": 0.001347559504210949,
+      "learning_rate": 0.21605434597765133,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 18411936,
+      "step": 14195
+    },
+    {
+      "epoch": 0.6938167248918965,
+      "grad_norm": 0.0008006177376955748,
+      "learning_rate": 0.21600145491297418,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 18418528,
+      "step": 14200
+    },
+    {
+      "epoch": 0.6938167248918965,
+      "eval_loss": 0.10513930022716522,
+      "eval_runtime": 402.7018,
+      "eval_samples_per_second": 90.352,
+      "eval_steps_per_second": 22.59,
+      "num_input_tokens_seen": 18418528,
+      "step": 14200
+    },
+    {
+      "epoch": 0.6940610265555909,
+      "grad_norm": 0.0013715012464672327,
+      "learning_rate": 0.21594855367004326,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 18424896,
+      "step": 14205
+    },
+    {
+      "epoch": 0.6943053282192851,
+      "grad_norm": 0.0006306126015260816,
+      "learning_rate": 0.21589564225701663,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 18431104,
+      "step": 14210
+    },
+    {
+      "epoch": 0.6945496298829795,
+      "grad_norm": 0.0012065808987244964,
+      "learning_rate": 0.21584272068205385,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 18437248,
+      "step": 14215
+    },
+    {
+      "epoch": 0.6947939315466738,
+      "grad_norm": 0.0014711193507537246,
+      "learning_rate": 0.2157897889533161,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 18443680,
+      "step": 14220
+    },
+    {
+      "epoch": 0.6950382332103682,
+      "grad_norm": 0.001476883189752698,
+      "learning_rate": 0.21573684707896612,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 18449728,
+      "step": 14225
+    },
+    {
+      "epoch": 0.6952825348740624,
+      "grad_norm": 0.001298818620853126,
+      "learning_rate": 0.21568389506716826,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 18456000,
+      "step": 14230
+    },
+    {
+      "epoch": 0.6955268365377568,
+      "grad_norm": 0.0009593939175829291,
+      "learning_rate": 0.21563093292608831,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 18462784,
+      "step": 14235
+    },
+    {
+      "epoch": 0.6957711382014512,
+      "grad_norm": 0.0018524278420954943,
+      "learning_rate": 0.21557796066389376,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 18469376,
+      "step": 14240
+    },
+    {
+      "epoch": 0.6960154398651455,
+      "grad_norm": 0.0015013031661510468,
+      "learning_rate": 0.21552497828875353,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 18475872,
+      "step": 14245
+    },
+    {
+      "epoch": 0.6962597415288398,
+      "grad_norm": 0.001084623159840703,
+      "learning_rate": 0.21547198580883828,
+      "loss": 0.1348,
+      "num_input_tokens_seen": 18482944,
+      "step": 14250
+    },
+    {
+      "epoch": 0.6965040431925341,
+      "grad_norm": 0.0010323261376470327,
+      "learning_rate": 0.21541898323232,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 18489568,
+      "step": 14255
+    },
+    {
+      "epoch": 0.6967483448562285,
+      "grad_norm": 0.0007526400149799883,
+      "learning_rate": 0.2153659705673724,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 18495904,
+      "step": 14260
+    },
+    {
+      "epoch": 0.6969926465199228,
+      "grad_norm": 0.001664018607698381,
+      "learning_rate": 0.2153129478221707,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 18502784,
+      "step": 14265
+    },
+    {
+      "epoch": 0.6972369481836171,
+      "grad_norm": 0.000916960765607655,
+      "learning_rate": 0.21525991500489164,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 18509376,
+      "step": 14270
+    },
+    {
+      "epoch": 0.6974812498473114,
+      "grad_norm": 0.001735823811031878,
+      "learning_rate": 0.21520687212371362,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 18515648,
+      "step": 14275
+    },
+    {
+      "epoch": 0.6977255515110058,
+      "grad_norm": 0.0014422232052311301,
+      "learning_rate": 0.21515381918681648,
+      "loss": 0.099,
+      "num_input_tokens_seen": 18522272,
+      "step": 14280
+    },
+    {
+      "epoch": 0.6979698531747002,
+      "grad_norm": 0.0011515446240082383,
+      "learning_rate": 0.21510075620238167,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 18528544,
+      "step": 14285
+    },
+    {
+      "epoch": 0.6982141548383944,
+      "grad_norm": 0.0018398716347292066,
+      "learning_rate": 0.21504768317859208,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 18535104,
+      "step": 14290
+    },
+    {
+      "epoch": 0.6984584565020888,
+      "grad_norm": 0.0017990607302635908,
+      "learning_rate": 0.2149946001236323,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 18541632,
+      "step": 14295
+    },
+    {
+      "epoch": 0.6987027581657831,
+      "grad_norm": 0.0012015000684186816,
+      "learning_rate": 0.21494150704568848,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 18548320,
+      "step": 14300
+    },
+    {
+      "epoch": 0.6989470598294775,
+      "grad_norm": 0.0006091490504331887,
+      "learning_rate": 0.21488840395294811,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 18554912,
+      "step": 14305
+    },
+    {
+      "epoch": 0.6991913614931717,
+      "grad_norm": 0.00191246357280761,
+      "learning_rate": 0.21483529085360042,
+      "loss": 0.096,
+      "num_input_tokens_seen": 18562688,
+      "step": 14310
+    },
+    {
+      "epoch": 0.6994356631568661,
+      "grad_norm": 0.0008834130130708218,
+      "learning_rate": 0.2147821677558361,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 18569568,
+      "step": 14315
+    },
+    {
+      "epoch": 0.6996799648205604,
+      "grad_norm": 0.000996214454062283,
+      "learning_rate": 0.2147290346678475,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 18575616,
+      "step": 14320
+    },
+    {
+      "epoch": 0.6999242664842548,
+      "grad_norm": 0.0010322585003450513,
+      "learning_rate": 0.21467589159782827,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 18581696,
+      "step": 14325
+    },
+    {
+      "epoch": 0.700168568147949,
+      "grad_norm": 0.001561429351568222,
+      "learning_rate": 0.21462273855397374,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 18588160,
+      "step": 14330
+    },
+    {
+      "epoch": 0.7004128698116434,
+      "grad_norm": 0.002537148306146264,
+      "learning_rate": 0.21456957554448083,
+      "loss": 0.105,
+      "num_input_tokens_seen": 18594624,
+      "step": 14335
+    },
+    {
+      "epoch": 0.7006571714753378,
+      "grad_norm": 0.0011914814822375774,
+      "learning_rate": 0.21451640257754795,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 18600928,
+      "step": 14340
+    },
+    {
+      "epoch": 0.7009014731390321,
+      "grad_norm": 0.0010908221593126655,
+      "learning_rate": 0.21446321966137508,
+      "loss": 0.115,
+      "num_input_tokens_seen": 18607488,
+      "step": 14345
+    },
+    {
+      "epoch": 0.7011457748027264,
+      "grad_norm": 0.0010747071355581284,
+      "learning_rate": 0.21441002680416354,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 18614432,
+      "step": 14350
+    },
+    {
+      "epoch": 0.7013900764664207,
+      "grad_norm": 0.0008818146889097989,
+      "learning_rate": 0.21435682401411654,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 18620160,
+      "step": 14355
+    },
+    {
+      "epoch": 0.7016343781301151,
+      "grad_norm": 0.0010225147707387805,
+      "learning_rate": 0.2143036112994385,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 18626656,
+      "step": 14360
+    },
+    {
+      "epoch": 0.7018786797938094,
+      "grad_norm": 0.0006813909858465195,
+      "learning_rate": 0.21425038866833548,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 18633152,
+      "step": 14365
+    },
+    {
+      "epoch": 0.7021229814575037,
+      "grad_norm": 0.0011509148171171546,
+      "learning_rate": 0.21419715612901508,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 18639936,
+      "step": 14370
+    },
+    {
+      "epoch": 0.702367283121198,
+      "grad_norm": 0.0011827992275357246,
+      "learning_rate": 0.21414391368968652,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 18646528,
+      "step": 14375
+    },
+    {
+      "epoch": 0.7026115847848924,
+      "grad_norm": 0.0016826624050736427,
+      "learning_rate": 0.21409066135856034,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 18653184,
+      "step": 14380
+    },
+    {
+      "epoch": 0.7028558864485868,
+      "grad_norm": 0.0011423801770433784,
+      "learning_rate": 0.21403739914384878,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 18659584,
+      "step": 14385
+    },
+    {
+      "epoch": 0.703100188112281,
+      "grad_norm": 0.0007517216727137566,
+      "learning_rate": 0.21398412705376554,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 18666368,
+      "step": 14390
+    },
+    {
+      "epoch": 0.7033444897759754,
+      "grad_norm": 0.002010585740208626,
+      "learning_rate": 0.2139308450965258,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 18672928,
+      "step": 14395
+    },
+    {
+      "epoch": 0.7035887914396697,
+      "grad_norm": 0.002444559708237648,
+      "learning_rate": 0.21387755328034638,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 18679264,
+      "step": 14400
+    },
+    {
+      "epoch": 0.7035887914396697,
+      "eval_loss": 0.12211251258850098,
+      "eval_runtime": 402.3959,
+      "eval_samples_per_second": 90.421,
+      "eval_steps_per_second": 22.607,
+      "num_input_tokens_seen": 18679264,
+      "step": 14400
+    },
+    {
+      "epoch": 0.7038330931033641,
+      "grad_norm": 0.0009307067957706749,
+      "learning_rate": 0.2138242516134455,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 18685664,
+      "step": 14405
+    },
+    {
+      "epoch": 0.7040773947670583,
+      "grad_norm": 0.0013404275523498654,
+      "learning_rate": 0.2137709401040429,
+      "loss": 0.088,
+      "num_input_tokens_seen": 18691968,
+      "step": 14410
+    },
+    {
+      "epoch": 0.7043216964307527,
+      "grad_norm": 0.001957119442522526,
+      "learning_rate": 0.21371761876036,
+      "loss": 0.134,
+      "num_input_tokens_seen": 18698432,
+      "step": 14415
+    },
+    {
+      "epoch": 0.704565998094447,
+      "grad_norm": 0.0008412471506744623,
+      "learning_rate": 0.21366428759061956,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 18704832,
+      "step": 14420
+    },
+    {
+      "epoch": 0.7048102997581414,
+      "grad_norm": 0.000977023970335722,
+      "learning_rate": 0.2136109466030459,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 18711392,
+      "step": 14425
+    },
+    {
+      "epoch": 0.7050546014218357,
+      "grad_norm": 0.0011199304135516286,
+      "learning_rate": 0.2135575958058649,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 18717824,
+      "step": 14430
+    },
+    {
+      "epoch": 0.70529890308553,
+      "grad_norm": 0.0007922986405901611,
+      "learning_rate": 0.2135042352073039,
+      "loss": 0.091,
+      "num_input_tokens_seen": 18724576,
+      "step": 14435
+    },
+    {
+      "epoch": 0.7055432047492244,
+      "grad_norm": 0.0013993013417348266,
+      "learning_rate": 0.2134508648155918,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 18731168,
+      "step": 14440
+    },
+    {
+      "epoch": 0.7057875064129187,
+      "grad_norm": 0.0007323367171920836,
+      "learning_rate": 0.213397484638959,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 18737664,
+      "step": 14445
+    },
+    {
+      "epoch": 0.706031808076613,
+      "grad_norm": 0.0011453056940808892,
+      "learning_rate": 0.21334409468563728,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 18744000,
+      "step": 14450
+    },
+    {
+      "epoch": 0.7062761097403073,
+      "grad_norm": 0.0008280187612399459,
+      "learning_rate": 0.2132906949638602,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 18750336,
+      "step": 14455
+    },
+    {
+      "epoch": 0.7065204114040017,
+      "grad_norm": 0.0014663306064903736,
+      "learning_rate": 0.21323728548186255,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 18757248,
+      "step": 14460
+    },
+    {
+      "epoch": 0.706764713067696,
+      "grad_norm": 0.001759974518790841,
+      "learning_rate": 0.21318386624788088,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 18763648,
+      "step": 14465
+    },
+    {
+      "epoch": 0.7070090147313903,
+      "grad_norm": 0.0009783951099961996,
+      "learning_rate": 0.21313043727015288,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 18770560,
+      "step": 14470
+    },
+    {
+      "epoch": 0.7072533163950846,
+      "grad_norm": 0.0006393740768544376,
+      "learning_rate": 0.2130769985569182,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 18776864,
+      "step": 14475
+    },
+    {
+      "epoch": 0.707497618058779,
+      "grad_norm": 0.0016947342082858086,
+      "learning_rate": 0.21302355011641766,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 18783968,
+      "step": 14480
+    },
+    {
+      "epoch": 0.7077419197224734,
+      "grad_norm": 0.0020624424796551466,
+      "learning_rate": 0.21297009195689365,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 18790368,
+      "step": 14485
+    },
+    {
+      "epoch": 0.7079862213861676,
+      "grad_norm": 0.0011354940943419933,
+      "learning_rate": 0.21291662408659015,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 18796896,
+      "step": 14490
+    },
+    {
+      "epoch": 0.708230523049862,
+      "grad_norm": 0.0008787659462541342,
+      "learning_rate": 0.21286314651375254,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 18802976,
+      "step": 14495
+    },
+    {
+      "epoch": 0.7084748247135563,
+      "grad_norm": 0.001676251064054668,
+      "learning_rate": 0.2128096592466278,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 18809536,
+      "step": 14500
+    },
+    {
+      "epoch": 0.7087191263772507,
+      "grad_norm": 0.0018803216516971588,
+      "learning_rate": 0.21275616229346428,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 18816000,
+      "step": 14505
+    },
+    {
+      "epoch": 0.7089634280409449,
+      "grad_norm": 0.0011570851784199476,
+      "learning_rate": 0.21270265566251184,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 18822432,
+      "step": 14510
+    },
+    {
+      "epoch": 0.7092077297046393,
+      "grad_norm": 0.0012697946513071656,
+      "learning_rate": 0.21264913936202193,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 18828864,
+      "step": 14515
+    },
+    {
+      "epoch": 0.7094520313683336,
+      "grad_norm": 0.0010867499513551593,
+      "learning_rate": 0.2125956134002475,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 18835744,
+      "step": 14520
+    },
+    {
+      "epoch": 0.709696333032028,
+      "grad_norm": 0.0013414350105449557,
+      "learning_rate": 0.2125420777854428,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 18842336,
+      "step": 14525
+    },
+    {
+      "epoch": 0.7099406346957223,
+      "grad_norm": 0.0010557138593867421,
+      "learning_rate": 0.21248853252586372,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 18848736,
+      "step": 14530
+    },
+    {
+      "epoch": 0.7101849363594166,
+      "grad_norm": 0.0018128586234524846,
+      "learning_rate": 0.21243497762976774,
+      "loss": 0.142,
+      "num_input_tokens_seen": 18855136,
+      "step": 14535
+    },
+    {
+      "epoch": 0.710429238023111,
+      "grad_norm": 0.0015124678611755371,
+      "learning_rate": 0.21238141310541356,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 18861664,
+      "step": 14540
+    },
+    {
+      "epoch": 0.7106735396868052,
+      "grad_norm": 0.0011416621273383498,
+      "learning_rate": 0.21232783896106153,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 18868000,
+      "step": 14545
+    },
+    {
+      "epoch": 0.7109178413504996,
+      "grad_norm": 0.0014183786697685719,
+      "learning_rate": 0.21227425520497345,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 18874496,
+      "step": 14550
+    },
+    {
+      "epoch": 0.7111621430141939,
+      "grad_norm": 0.001431922661140561,
+      "learning_rate": 0.2122206618454127,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 18880864,
+      "step": 14555
+    },
+    {
+      "epoch": 0.7114064446778883,
+      "grad_norm": 0.0013566809939220548,
+      "learning_rate": 0.2121670588906439,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 18887584,
+      "step": 14560
+    },
+    {
+      "epoch": 0.7116507463415825,
+      "grad_norm": 0.0017637658165767789,
+      "learning_rate": 0.21211344634893345,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 18894272,
+      "step": 14565
+    },
+    {
+      "epoch": 0.7118950480052769,
+      "grad_norm": 0.002110852627083659,
+      "learning_rate": 0.21205982422854897,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 18900768,
+      "step": 14570
+    },
+    {
+      "epoch": 0.7121393496689713,
+      "grad_norm": 0.0016716130776330829,
+      "learning_rate": 0.21200619253775974,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 18907520,
+      "step": 14575
+    },
+    {
+      "epoch": 0.7123836513326656,
+      "grad_norm": 0.0010580731322988868,
+      "learning_rate": 0.21195255128483637,
+      "loss": 0.103,
+      "num_input_tokens_seen": 18914240,
+      "step": 14580
+    },
+    {
+      "epoch": 0.71262795299636,
+      "grad_norm": 0.0016082939691841602,
+      "learning_rate": 0.21189890047805102,
+      "loss": 0.092,
+      "num_input_tokens_seen": 18920576,
+      "step": 14585
+    },
+    {
+      "epoch": 0.7128722546600542,
+      "grad_norm": 0.0013080766657367349,
+      "learning_rate": 0.21184524012567735,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 18926816,
+      "step": 14590
+    },
+    {
+      "epoch": 0.7131165563237486,
+      "grad_norm": 0.0019165573175996542,
+      "learning_rate": 0.2117915702359905,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 18933376,
+      "step": 14595
+    },
+    {
+      "epoch": 0.7133608579874429,
+      "grad_norm": 0.0011029442539438605,
+      "learning_rate": 0.211737890817267,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 18940320,
+      "step": 14600
+    },
+    {
+      "epoch": 0.7133608579874429,
+      "eval_loss": 0.10460801422595978,
+      "eval_runtime": 401.9541,
+      "eval_samples_per_second": 90.52,
+      "eval_steps_per_second": 22.632,
+      "num_input_tokens_seen": 18940320,
+      "step": 14600
+    },
+    {
+      "epoch": 0.7136051596511372,
+      "grad_norm": 0.001093795639462769,
+      "learning_rate": 0.21168420187778483,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 18946816,
+      "step": 14605
+    },
+    {
+      "epoch": 0.7138494613148315,
+      "grad_norm": 0.000767840479966253,
+      "learning_rate": 0.21163050342582362,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 18953408,
+      "step": 14610
+    },
+    {
+      "epoch": 0.7140937629785259,
+      "grad_norm": 0.0014315928565338254,
+      "learning_rate": 0.21157679546966426,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 18959872,
+      "step": 14615
+    },
+    {
+      "epoch": 0.7143380646422202,
+      "grad_norm": 0.0010601291432976723,
+      "learning_rate": 0.2115230780175892,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 18966624,
+      "step": 14620
+    },
+    {
+      "epoch": 0.7145823663059145,
+      "grad_norm": 0.0015698332572355866,
+      "learning_rate": 0.21146935107788237,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 18972768,
+      "step": 14625
+    },
+    {
+      "epoch": 0.7148266679696089,
+      "grad_norm": 0.0008204998448491096,
+      "learning_rate": 0.21141561465882916,
+      "loss": 0.082,
+      "num_input_tokens_seen": 18979040,
+      "step": 14630
+    },
+    {
+      "epoch": 0.7150709696333032,
+      "grad_norm": 0.0015324545092880726,
+      "learning_rate": 0.21136186876871635,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 18985408,
+      "step": 14635
+    },
+    {
+      "epoch": 0.7153152712969976,
+      "grad_norm": 0.0010471346322447062,
+      "learning_rate": 0.21130811341583225,
+      "loss": 0.1185,
+      "num_input_tokens_seen": 18991872,
+      "step": 14640
+    },
+    {
+      "epoch": 0.7155595729606918,
+      "grad_norm": 0.0007494007586501539,
+      "learning_rate": 0.21125434860846667,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 18998208,
+      "step": 14645
+    },
+    {
+      "epoch": 0.7158038746243862,
+      "grad_norm": 0.0005579462740570307,
+      "learning_rate": 0.2112005743549107,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 19005024,
+      "step": 14650
+    },
+    {
+      "epoch": 0.7160481762880805,
+      "grad_norm": 0.00124653079546988,
+      "learning_rate": 0.21114679066345707,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 19011296,
+      "step": 14655
+    },
+    {
+      "epoch": 0.7162924779517749,
+      "grad_norm": 0.0007289143977686763,
+      "learning_rate": 0.21109299754239993,
+      "loss": 0.115,
+      "num_input_tokens_seen": 19017888,
+      "step": 14660
+    },
+    {
+      "epoch": 0.7165367796154691,
+      "grad_norm": 0.0010107411071658134,
+      "learning_rate": 0.21103919500003482,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 19024096,
+      "step": 14665
+    },
+    {
+      "epoch": 0.7167810812791635,
+      "grad_norm": 0.0012530498206615448,
+      "learning_rate": 0.21098538304465872,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 19030848,
+      "step": 14670
+    },
+    {
+      "epoch": 0.7170253829428579,
+      "grad_norm": 0.0007731114747002721,
+      "learning_rate": 0.2109315616845702,
+      "loss": 0.097,
+      "num_input_tokens_seen": 19037312,
+      "step": 14675
+    },
+    {
+      "epoch": 0.7172696846065522,
+      "grad_norm": 0.0009509710362181067,
+      "learning_rate": 0.21087773092806925,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 19043360,
+      "step": 14680
+    },
+    {
+      "epoch": 0.7175139862702465,
+      "grad_norm": 0.0013710715575143695,
+      "learning_rate": 0.21082389078345704,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 19050240,
+      "step": 14685
+    },
+    {
+      "epoch": 0.7177582879339408,
+      "grad_norm": 0.0008431289461441338,
+      "learning_rate": 0.2107700412590365,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 19056544,
+      "step": 14690
+    },
+    {
+      "epoch": 0.7180025895976352,
+      "grad_norm": 0.0009769595926627517,
+      "learning_rate": 0.210716182363112,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 19062528,
+      "step": 14695
+    },
+    {
+      "epoch": 0.7182468912613295,
+      "grad_norm": 0.0013571222079917789,
+      "learning_rate": 0.2106623141039891,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 19068800,
+      "step": 14700
+    },
+    {
+      "epoch": 0.7184911929250238,
+      "grad_norm": 0.0007787301437929273,
+      "learning_rate": 0.21060843648997507,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 19075296,
+      "step": 14705
+    },
+    {
+      "epoch": 0.7187354945887181,
+      "grad_norm": 0.0007904932135716081,
+      "learning_rate": 0.21055454952937844,
+      "loss": 0.115,
+      "num_input_tokens_seen": 19081536,
+      "step": 14710
+    },
+    {
+      "epoch": 0.7189797962524125,
+      "grad_norm": 0.0009283885010518134,
+      "learning_rate": 0.21050065323050937,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 19087904,
+      "step": 14715
+    },
+    {
+      "epoch": 0.7192240979161069,
+      "grad_norm": 0.0010478958720341325,
+      "learning_rate": 0.21044674760167928,
+      "loss": 0.108,
+      "num_input_tokens_seen": 19094592,
+      "step": 14720
+    },
+    {
+      "epoch": 0.7194683995798011,
+      "grad_norm": 0.0008511136402375996,
+      "learning_rate": 0.210392832651201,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 19100672,
+      "step": 14725
+    },
+    {
+      "epoch": 0.7197127012434955,
+      "grad_norm": 0.0014529302716255188,
+      "learning_rate": 0.210338908387389,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 19107296,
+      "step": 14730
+    },
+    {
+      "epoch": 0.7199570029071898,
+      "grad_norm": 0.001544549479149282,
+      "learning_rate": 0.21028497481855912,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 19113088,
+      "step": 14735
+    },
+    {
+      "epoch": 0.7202013045708842,
+      "grad_norm": 0.001724213594570756,
+      "learning_rate": 0.21023103195302847,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 19119552,
+      "step": 14740
+    },
+    {
+      "epoch": 0.7204456062345784,
+      "grad_norm": 0.0015140494797378778,
+      "learning_rate": 0.21017707979911582,
+      "loss": 0.1393,
+      "num_input_tokens_seen": 19125856,
+      "step": 14745
+    },
+    {
+      "epoch": 0.7206899078982728,
+      "grad_norm": 0.0014052148908376694,
+      "learning_rate": 0.21012311836514122,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 19131904,
+      "step": 14750
+    },
+    {
+      "epoch": 0.7209342095619671,
+      "grad_norm": 0.0016675853403285146,
+      "learning_rate": 0.21006914765942622,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 19138560,
+      "step": 14755
+    },
+    {
+      "epoch": 0.7211785112256615,
+      "grad_norm": 0.001015078742057085,
+      "learning_rate": 0.2100151676902938,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 19144736,
+      "step": 14760
+    },
+    {
+      "epoch": 0.7214228128893557,
+      "grad_norm": 0.0011984796728938818,
+      "learning_rate": 0.2099611784660683,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 19151616,
+      "step": 14765
+    },
+    {
+      "epoch": 0.7216671145530501,
+      "grad_norm": 0.0011075760703533888,
+      "learning_rate": 0.20990717999507552,
+      "loss": 0.1343,
+      "num_input_tokens_seen": 19157696,
+      "step": 14770
+    },
+    {
+      "epoch": 0.7219114162167445,
+      "grad_norm": 0.0014573953812941909,
+      "learning_rate": 0.20985317228564276,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 19163968,
+      "step": 14775
+    },
+    {
+      "epoch": 0.7221557178804388,
+      "grad_norm": 0.001229821122251451,
+      "learning_rate": 0.20979915534609872,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 19170080,
+      "step": 14780
+    },
+    {
+      "epoch": 0.7224000195441331,
+      "grad_norm": 0.0009785708971321583,
+      "learning_rate": 0.20974512918477342,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 19176608,
+      "step": 14785
+    },
+    {
+      "epoch": 0.7226443212078274,
+      "grad_norm": 0.0006114417337812483,
+      "learning_rate": 0.2096910938099984,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 19183360,
+      "step": 14790
+    },
+    {
+      "epoch": 0.7228886228715218,
+      "grad_norm": 0.0010869421530514956,
+      "learning_rate": 0.2096370492301066,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 19189728,
+      "step": 14795
+    },
+    {
+      "epoch": 0.723132924535216,
+      "grad_norm": 0.0016352611128240824,
+      "learning_rate": 0.2095829954534323,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 19196416,
+      "step": 14800
+    },
+    {
+      "epoch": 0.723132924535216,
+      "eval_loss": 0.10458497703075409,
+      "eval_runtime": 402.4511,
+      "eval_samples_per_second": 90.408,
+      "eval_steps_per_second": 22.604,
+      "num_input_tokens_seen": 19196416,
+      "step": 14800
+    },
+    {
+      "epoch": 0.7233772261989104,
+      "grad_norm": 0.0017678036820143461,
+      "learning_rate": 0.2095289324883114,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 19202560,
+      "step": 14805
+    },
+    {
+      "epoch": 0.7236215278626047,
+      "grad_norm": 0.0008817220805212855,
+      "learning_rate": 0.20947486034308097,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 19209408,
+      "step": 14810
+    },
+    {
+      "epoch": 0.7238658295262991,
+      "grad_norm": 0.0008922705892473459,
+      "learning_rate": 0.2094207790260797,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 19215840,
+      "step": 14815
+    },
+    {
+      "epoch": 0.7241101311899935,
+      "grad_norm": 0.000757337489631027,
+      "learning_rate": 0.20936668854564758,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 19222304,
+      "step": 14820
+    },
+    {
+      "epoch": 0.7243544328536877,
+      "grad_norm": 0.0012943504843860865,
+      "learning_rate": 0.20931258891012602,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 19229088,
+      "step": 14825
+    },
+    {
+      "epoch": 0.7245987345173821,
+      "grad_norm": 0.0015318474033847451,
+      "learning_rate": 0.20925848012785792,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 19236160,
+      "step": 14830
+    },
+    {
+      "epoch": 0.7248430361810764,
+      "grad_norm": 0.0012264747638255358,
+      "learning_rate": 0.20920436220718747,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 19242240,
+      "step": 14835
+    },
+    {
+      "epoch": 0.7250873378447708,
+      "grad_norm": 0.0017099726246669888,
+      "learning_rate": 0.20915023515646033,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 19249184,
+      "step": 14840
+    },
+    {
+      "epoch": 0.725331639508465,
+      "grad_norm": 0.0013695572270080447,
+      "learning_rate": 0.20909609898402368,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 19255520,
+      "step": 14845
+    },
+    {
+      "epoch": 0.7255759411721594,
+      "grad_norm": 0.0022889375686645508,
+      "learning_rate": 0.2090419536982258,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 19261536,
+      "step": 14850
+    },
+    {
+      "epoch": 0.7258202428358537,
+      "grad_norm": 0.000935673713684082,
+      "learning_rate": 0.2089877993074168,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 19267808,
+      "step": 14855
+    },
+    {
+      "epoch": 0.726064544499548,
+      "grad_norm": 0.001761270104907453,
+      "learning_rate": 0.20893363581994784,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 19273920,
+      "step": 14860
+    },
+    {
+      "epoch": 0.7263088461632423,
+      "grad_norm": 0.0010468749096617103,
+      "learning_rate": 0.2088794632441716,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 19280416,
+      "step": 14865
+    },
+    {
+      "epoch": 0.7265531478269367,
+      "grad_norm": 0.001070650527253747,
+      "learning_rate": 0.20882528158844219,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 19286784,
+      "step": 14870
+    },
+    {
+      "epoch": 0.7267974494906311,
+      "grad_norm": 0.0017042479012161493,
+      "learning_rate": 0.20877109086111514,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 19293536,
+      "step": 14875
+    },
+    {
+      "epoch": 0.7270417511543253,
+      "grad_norm": 0.0009979017777368426,
+      "learning_rate": 0.2087168910705473,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 19299968,
+      "step": 14880
+    },
+    {
+      "epoch": 0.7272860528180197,
+      "grad_norm": 0.001860165037214756,
+      "learning_rate": 0.208662682225097,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 19306496,
+      "step": 14885
+    },
+    {
+      "epoch": 0.727530354481714,
+      "grad_norm": 0.0012635965831577778,
+      "learning_rate": 0.2086084643331239,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 19312928,
+      "step": 14890
+    },
+    {
+      "epoch": 0.7277746561454084,
+      "grad_norm": 0.001653542509302497,
+      "learning_rate": 0.20855423740298906,
+      "loss": 0.1229,
+      "num_input_tokens_seen": 19319232,
+      "step": 14895
+    },
+    {
+      "epoch": 0.7280189578091026,
+      "grad_norm": 0.0009201854118146002,
+      "learning_rate": 0.208500001443055,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 19325984,
+      "step": 14900
+    },
+    {
+      "epoch": 0.728263259472797,
+      "grad_norm": 0.0011425140546634793,
+      "learning_rate": 0.20844575646168553,
+      "loss": 0.106,
+      "num_input_tokens_seen": 19332000,
+      "step": 14905
+    },
+    {
+      "epoch": 0.7285075611364913,
+      "grad_norm": 0.001690673641860485,
+      "learning_rate": 0.20839150246724594,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 19338240,
+      "step": 14910
+    },
+    {
+      "epoch": 0.7287518628001857,
+      "grad_norm": 0.0011493810452520847,
+      "learning_rate": 0.20833723946810287,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 19345056,
+      "step": 14915
+    },
+    {
+      "epoch": 0.72899616446388,
+      "grad_norm": 0.0018789498135447502,
+      "learning_rate": 0.20828296747262437,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 19351744,
+      "step": 14920
+    },
+    {
+      "epoch": 0.7292404661275743,
+      "grad_norm": 0.0014973839279264212,
+      "learning_rate": 0.20822868648917986,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 19358144,
+      "step": 14925
+    },
+    {
+      "epoch": 0.7294847677912687,
+      "grad_norm": 0.0011445212876424193,
+      "learning_rate": 0.20817439652614017,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 19364192,
+      "step": 14930
+    },
+    {
+      "epoch": 0.729729069454963,
+      "grad_norm": 0.0025958882179111242,
+      "learning_rate": 0.20812009759187744,
+      "loss": 0.1199,
+      "num_input_tokens_seen": 19370080,
+      "step": 14935
+    },
+    {
+      "epoch": 0.7299733711186573,
+      "grad_norm": 0.0013429742539301515,
+      "learning_rate": 0.2080657896947653,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 19376800,
+      "step": 14940
+    },
+    {
+      "epoch": 0.7302176727823516,
+      "grad_norm": 0.0007973371539264917,
+      "learning_rate": 0.2080114728431787,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 19383136,
+      "step": 14945
+    },
+    {
+      "epoch": 0.730461974446046,
+      "grad_norm": 0.0012458801502361894,
+      "learning_rate": 0.20795714704549392,
+      "loss": 0.084,
+      "num_input_tokens_seen": 19389440,
+      "step": 14950
+    },
+    {
+      "epoch": 0.7307062761097403,
+      "grad_norm": 0.0023581411223858595,
+      "learning_rate": 0.20790281231008875,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 19395904,
+      "step": 14955
+    },
+    {
+      "epoch": 0.7309505777734346,
+      "grad_norm": 0.0015303794061765075,
+      "learning_rate": 0.20784846864534226,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 19402528,
+      "step": 14960
+    },
+    {
+      "epoch": 0.731194879437129,
+      "grad_norm": 0.0008654179400764406,
+      "learning_rate": 0.20779411605963496,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 19409056,
+      "step": 14965
+    },
+    {
+      "epoch": 0.7314391811008233,
+      "grad_norm": 0.0008293463615700603,
+      "learning_rate": 0.2077397545613487,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 19415680,
+      "step": 14970
+    },
+    {
+      "epoch": 0.7316834827645177,
+      "grad_norm": 0.0015141660114750266,
+      "learning_rate": 0.20768538415886661,
+      "loss": 0.1292,
+      "num_input_tokens_seen": 19421984,
+      "step": 14975
+    },
+    {
+      "epoch": 0.7319277844282119,
+      "grad_norm": 0.0011097764363512397,
+      "learning_rate": 0.20763100486057343,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 19428480,
+      "step": 14980
+    },
+    {
+      "epoch": 0.7321720860919063,
+      "grad_norm": 0.0011861312668770552,
+      "learning_rate": 0.20757661667485502,
+      "loss": 0.1403,
+      "num_input_tokens_seen": 19435392,
+      "step": 14985
+    },
+    {
+      "epoch": 0.7324163877556006,
+      "grad_norm": 0.0013581457315012813,
+      "learning_rate": 0.2075222196100988,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 19441696,
+      "step": 14990
+    },
+    {
+      "epoch": 0.732660689419295,
+      "grad_norm": 0.0009569172980263829,
+      "learning_rate": 0.20746781367469344,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 19448896,
+      "step": 14995
+    },
+    {
+      "epoch": 0.7329049910829892,
+      "grad_norm": 0.0012400004779919982,
+      "learning_rate": 0.207413398877029,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 19454912,
+      "step": 15000
+    },
+    {
+      "epoch": 0.7329049910829892,
+      "eval_loss": 0.10610581934452057,
+      "eval_runtime": 402.7478,
+      "eval_samples_per_second": 90.342,
+      "eval_steps_per_second": 22.587,
+      "num_input_tokens_seen": 19454912,
+      "step": 15000
+    },
+    {
+      "epoch": 0.7331492927466836,
+      "grad_norm": 0.0010952516458928585,
+      "learning_rate": 0.20735897522549698,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 19461568,
+      "step": 15005
+    },
+    {
+      "epoch": 0.7333935944103779,
+      "grad_norm": 0.0011293496936559677,
+      "learning_rate": 0.2073045427284902,
+      "loss": 0.112,
+      "num_input_tokens_seen": 19468736,
+      "step": 15010
+    },
+    {
+      "epoch": 0.7336378960740723,
+      "grad_norm": 0.002216302091255784,
+      "learning_rate": 0.2072501013944027,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 19475168,
+      "step": 15015
+    },
+    {
+      "epoch": 0.7338821977377666,
+      "grad_norm": 0.0010592241305857897,
+      "learning_rate": 0.20719565123163017,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 19481728,
+      "step": 15020
+    },
+    {
+      "epoch": 0.7341264994014609,
+      "grad_norm": 0.0013655207585543394,
+      "learning_rate": 0.20714119224856944,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 19488256,
+      "step": 15025
+    },
+    {
+      "epoch": 0.7343708010651553,
+      "grad_norm": 0.0011336682364344597,
+      "learning_rate": 0.2070867244536188,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 19494528,
+      "step": 15030
+    },
+    {
+      "epoch": 0.7346151027288496,
+      "grad_norm": 0.001070053898729384,
+      "learning_rate": 0.20703224785517785,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 19501088,
+      "step": 15035
+    },
+    {
+      "epoch": 0.7348594043925439,
+      "grad_norm": 0.0011083895806223154,
+      "learning_rate": 0.20697776246164754,
+      "loss": 0.1252,
+      "num_input_tokens_seen": 19507424,
+      "step": 15040
+    },
+    {
+      "epoch": 0.7351037060562382,
+      "grad_norm": 0.0012467886554077268,
+      "learning_rate": 0.2069232682814303,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 19514080,
+      "step": 15045
+    },
+    {
+      "epoch": 0.7353480077199326,
+      "grad_norm": 0.001165427966043353,
+      "learning_rate": 0.20686876532292972,
+      "loss": 0.111,
+      "num_input_tokens_seen": 19521056,
+      "step": 15050
+    },
+    {
+      "epoch": 0.7355923093836269,
+      "grad_norm": 0.001540884841233492,
+      "learning_rate": 0.20681425359455083,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 19527584,
+      "step": 15055
+    },
+    {
+      "epoch": 0.7358366110473212,
+      "grad_norm": 0.0008897901279851794,
+      "learning_rate": 0.20675973310470008,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 19534368,
+      "step": 15060
+    },
+    {
+      "epoch": 0.7360809127110156,
+      "grad_norm": 0.0015501469606533647,
+      "learning_rate": 0.2067052038617852,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 19540416,
+      "step": 15065
+    },
+    {
+      "epoch": 0.7363252143747099,
+      "grad_norm": 0.0010176997166126966,
+      "learning_rate": 0.2066506658742153,
+      "loss": 0.094,
+      "num_input_tokens_seen": 19547296,
+      "step": 15070
+    },
+    {
+      "epoch": 0.7365695160384043,
+      "grad_norm": 0.0011290665715932846,
+      "learning_rate": 0.20659611915040077,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 19553536,
+      "step": 15075
+    },
+    {
+      "epoch": 0.7368138177020985,
+      "grad_norm": 0.0015697324415668845,
+      "learning_rate": 0.20654156369875348,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 19559648,
+      "step": 15080
+    },
+    {
+      "epoch": 0.7370581193657929,
+      "grad_norm": 0.001439630170352757,
+      "learning_rate": 0.20648699952768648,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 19565984,
+      "step": 15085
+    },
+    {
+      "epoch": 0.7373024210294872,
+      "grad_norm": 0.0012976074358448386,
+      "learning_rate": 0.20643242664561437,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 19573024,
+      "step": 15090
+    },
+    {
+      "epoch": 0.7375467226931816,
+      "grad_norm": 0.0015858369879424572,
+      "learning_rate": 0.20637784506095277,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 19579360,
+      "step": 15095
+    },
+    {
+      "epoch": 0.7377910243568758,
+      "grad_norm": 0.0011537396349012852,
+      "learning_rate": 0.20632325478211908,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 19585920,
+      "step": 15100
+    },
+    {
+      "epoch": 0.7380353260205702,
+      "grad_norm": 0.001701922039501369,
+      "learning_rate": 0.20626865581753165,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 19592544,
+      "step": 15105
+    },
+    {
+      "epoch": 0.7382796276842646,
+      "grad_norm": 0.0018840249394997954,
+      "learning_rate": 0.2062140481756104,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 19598720,
+      "step": 15110
+    },
+    {
+      "epoch": 0.7385239293479589,
+      "grad_norm": 0.0010503428056836128,
+      "learning_rate": 0.20615943186477648,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 19605184,
+      "step": 15115
+    },
+    {
+      "epoch": 0.7387682310116532,
+      "grad_norm": 0.001313105458393693,
+      "learning_rate": 0.20610480689345242,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 19611584,
+      "step": 15120
+    },
+    {
+      "epoch": 0.7390125326753475,
+      "grad_norm": 0.0015382606070488691,
+      "learning_rate": 0.2060501732700621,
+      "loss": 0.1411,
+      "num_input_tokens_seen": 19618048,
+      "step": 15125
+    },
+    {
+      "epoch": 0.7392568343390419,
+      "grad_norm": 0.0011066454462707043,
+      "learning_rate": 0.20599553100303067,
+      "loss": 0.074,
+      "num_input_tokens_seen": 19624832,
+      "step": 15130
+    },
+    {
+      "epoch": 0.7395011360027361,
+      "grad_norm": 0.0021549996454268694,
+      "learning_rate": 0.20594088010078465,
+      "loss": 0.085,
+      "num_input_tokens_seen": 19631200,
+      "step": 15135
+    },
+    {
+      "epoch": 0.7397454376664305,
+      "grad_norm": 0.00093191082123667,
+      "learning_rate": 0.20588622057175196,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 19638464,
+      "step": 15140
+    },
+    {
+      "epoch": 0.7399897393301248,
+      "grad_norm": 0.0011326312087476254,
+      "learning_rate": 0.20583155242436177,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 19644576,
+      "step": 15145
+    },
+    {
+      "epoch": 0.7402340409938192,
+      "grad_norm": 0.0015261840308085084,
+      "learning_rate": 0.20577687566704453,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 19651136,
+      "step": 15150
+    },
+    {
+      "epoch": 0.7404783426575134,
+      "grad_norm": 0.0016539632342755795,
+      "learning_rate": 0.20572219030823213,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 19658112,
+      "step": 15155
+    },
+    {
+      "epoch": 0.7407226443212078,
+      "grad_norm": 0.0012088430812582374,
+      "learning_rate": 0.20566749635635775,
+      "loss": 0.097,
+      "num_input_tokens_seen": 19664288,
+      "step": 15160
+    },
+    {
+      "epoch": 0.7409669459849022,
+      "grad_norm": 0.001750956755131483,
+      "learning_rate": 0.20561279381985587,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 19670688,
+      "step": 15165
+    },
+    {
+      "epoch": 0.7412112476485965,
+      "grad_norm": 0.0011872055474668741,
+      "learning_rate": 0.2055580827071623,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 19676800,
+      "step": 15170
+    },
+    {
+      "epoch": 0.7414555493122909,
+      "grad_norm": 0.001099477638490498,
+      "learning_rate": 0.20550336302671418,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 19683008,
+      "step": 15175
+    },
+    {
+      "epoch": 0.7416998509759851,
+      "grad_norm": 0.0015761443646624684,
+      "learning_rate": 0.20544863478695,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 19689696,
+      "step": 15180
+    },
+    {
+      "epoch": 0.7419441526396795,
+      "grad_norm": 0.0008079453255049884,
+      "learning_rate": 0.20539389799630953,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 19696384,
+      "step": 15185
+    },
+    {
+      "epoch": 0.7421884543033738,
+      "grad_norm": 0.0007582379621453583,
+      "learning_rate": 0.20533915266323388,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 19702944,
+      "step": 15190
+    },
+    {
+      "epoch": 0.7424327559670681,
+      "grad_norm": 0.001015720423310995,
+      "learning_rate": 0.20528439879616542,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 19709344,
+      "step": 15195
+    },
+    {
+      "epoch": 0.7426770576307624,
+      "grad_norm": 0.0015280848601832986,
+      "learning_rate": 0.20522963640354794,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 19715616,
+      "step": 15200
+    },
+    {
+      "epoch": 0.7426770576307624,
+      "eval_loss": 0.10302026569843292,
+      "eval_runtime": 402.3381,
+      "eval_samples_per_second": 90.434,
+      "eval_steps_per_second": 22.61,
+      "num_input_tokens_seen": 19715616,
+      "step": 15200
+    },
+    {
+      "epoch": 0.7429213592944568,
+      "grad_norm": 0.0013731884537264705,
+      "learning_rate": 0.20517486549382644,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 19722208,
+      "step": 15205
+    },
+    {
+      "epoch": 0.7431656609581512,
+      "grad_norm": 0.0009719849331304431,
+      "learning_rate": 0.20512008607544735,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 19728256,
+      "step": 15210
+    },
+    {
+      "epoch": 0.7434099626218454,
+      "grad_norm": 0.0017470731399953365,
+      "learning_rate": 0.20506529815685826,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 19734912,
+      "step": 15215
+    },
+    {
+      "epoch": 0.7436542642855398,
+      "grad_norm": 0.0011398057686164975,
+      "learning_rate": 0.2050105017465082,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 19741568,
+      "step": 15220
+    },
+    {
+      "epoch": 0.7438985659492341,
+      "grad_norm": 0.0017200250877067447,
+      "learning_rate": 0.20495569685284754,
+      "loss": 0.104,
+      "num_input_tokens_seen": 19748192,
+      "step": 15225
+    },
+    {
+      "epoch": 0.7441428676129285,
+      "grad_norm": 0.0008758865878917277,
+      "learning_rate": 0.20490088348432778,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 19754848,
+      "step": 15230
+    },
+    {
+      "epoch": 0.7443871692766227,
+      "grad_norm": 0.001504877582192421,
+      "learning_rate": 0.2048460616494018,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 19761056,
+      "step": 15235
+    },
+    {
+      "epoch": 0.7446314709403171,
+      "grad_norm": 0.00097639363957569,
+      "learning_rate": 0.2047912313565239,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 19767200,
+      "step": 15240
+    },
+    {
+      "epoch": 0.7448757726040114,
+      "grad_norm": 0.0007243599975481629,
+      "learning_rate": 0.20473639261414958,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 19774336,
+      "step": 15245
+    },
+    {
+      "epoch": 0.7451200742677058,
+      "grad_norm": 0.0010984557447955012,
+      "learning_rate": 0.2046815454307357,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 19781056,
+      "step": 15250
+    },
+    {
+      "epoch": 0.7453643759314001,
+      "grad_norm": 0.001321729039773345,
+      "learning_rate": 0.20462668981474028,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 19787232,
+      "step": 15255
+    },
+    {
+      "epoch": 0.7456086775950944,
+      "grad_norm": 0.0010416710283607244,
+      "learning_rate": 0.20457182577462288,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 19794112,
+      "step": 15260
+    },
+    {
+      "epoch": 0.7458529792587888,
+      "grad_norm": 0.001101493602618575,
+      "learning_rate": 0.2045169533188441,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 19800608,
+      "step": 15265
+    },
+    {
+      "epoch": 0.7460972809224831,
+      "grad_norm": 0.0015297940699383616,
+      "learning_rate": 0.20446207245586603,
+      "loss": 0.095,
+      "num_input_tokens_seen": 19806720,
+      "step": 15270
+    },
+    {
+      "epoch": 0.7463415825861774,
+      "grad_norm": 0.0017135459929704666,
+      "learning_rate": 0.20440718319415196,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 19812896,
+      "step": 15275
+    },
+    {
+      "epoch": 0.7465858842498717,
+      "grad_norm": 0.0009217565529979765,
+      "learning_rate": 0.20435228554216653,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 19819680,
+      "step": 15280
+    },
+    {
+      "epoch": 0.7468301859135661,
+      "grad_norm": 0.0008536595851182938,
+      "learning_rate": 0.20429737950837565,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 19826624,
+      "step": 15285
+    },
+    {
+      "epoch": 0.7470744875772604,
+      "grad_norm": 0.001851323526352644,
+      "learning_rate": 0.20424246510124647,
+      "loss": 0.116,
+      "num_input_tokens_seen": 19833504,
+      "step": 15290
+    },
+    {
+      "epoch": 0.7473187892409547,
+      "grad_norm": 0.0013770924415439367,
+      "learning_rate": 0.20418754232924755,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 19840320,
+      "step": 15295
+    },
+    {
+      "epoch": 0.747563090904649,
+      "grad_norm": 0.0019773971289396286,
+      "learning_rate": 0.20413261120084863,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 19847072,
+      "step": 15300
+    },
+    {
+      "epoch": 0.7478073925683434,
+      "grad_norm": 0.0017196357948705554,
+      "learning_rate": 0.2040776717245208,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 19853056,
+      "step": 15305
+    },
+    {
+      "epoch": 0.7480516942320378,
+      "grad_norm": 0.0013905840460211039,
+      "learning_rate": 0.2040227239087364,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 19859680,
+      "step": 15310
+    },
+    {
+      "epoch": 0.748295995895732,
+      "grad_norm": 0.0009006684413179755,
+      "learning_rate": 0.20396776776196904,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 19865824,
+      "step": 15315
+    },
+    {
+      "epoch": 0.7485402975594264,
+      "grad_norm": 0.001460922765545547,
+      "learning_rate": 0.20391280329269373,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 19872256,
+      "step": 15320
+    },
+    {
+      "epoch": 0.7487845992231207,
+      "grad_norm": 0.0010355369886383414,
+      "learning_rate": 0.20385783050938663,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 19878944,
+      "step": 15325
+    },
+    {
+      "epoch": 0.7490289008868151,
+      "grad_norm": 0.0012462957529351115,
+      "learning_rate": 0.20380284942052526,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 19884992,
+      "step": 15330
+    },
+    {
+      "epoch": 0.7492732025505093,
+      "grad_norm": 0.001153809018433094,
+      "learning_rate": 0.2037478600345884,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 19891232,
+      "step": 15335
+    },
+    {
+      "epoch": 0.7495175042142037,
+      "grad_norm": 0.0016265539452433586,
+      "learning_rate": 0.20369286236005604,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 19897568,
+      "step": 15340
+    },
+    {
+      "epoch": 0.749761805877898,
+      "grad_norm": 0.0010807692306116223,
+      "learning_rate": 0.20363785640540957,
+      "loss": 0.1259,
+      "num_input_tokens_seen": 19903328,
+      "step": 15345
+    },
+    {
+      "epoch": 0.7500061075415924,
+      "grad_norm": 0.001183045213110745,
+      "learning_rate": 0.2035828421791316,
+      "loss": 0.1294,
+      "num_input_tokens_seen": 19910080,
+      "step": 15350
+    },
+    {
+      "epoch": 0.7502504092052867,
+      "grad_norm": 0.000765422941185534,
+      "learning_rate": 0.20352781968970599,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 19917088,
+      "step": 15355
+    },
+    {
+      "epoch": 0.750494710868981,
+      "grad_norm": 0.0010200864635407925,
+      "learning_rate": 0.2034727889456179,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 19923552,
+      "step": 15360
+    },
+    {
+      "epoch": 0.7507390125326754,
+      "grad_norm": 0.0007784191984683275,
+      "learning_rate": 0.2034177499553538,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 19929824,
+      "step": 15365
+    },
+    {
+      "epoch": 0.7509833141963697,
+      "grad_norm": 0.0007641958072781563,
+      "learning_rate": 0.2033627027274014,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 19936512,
+      "step": 15370
+    },
+    {
+      "epoch": 0.751227615860064,
+      "grad_norm": 0.0010714089730754495,
+      "learning_rate": 0.20330764727024955,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 19942816,
+      "step": 15375
+    },
+    {
+      "epoch": 0.7514719175237583,
+      "grad_norm": 0.0016234178328886628,
+      "learning_rate": 0.20325258359238868,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 19949216,
+      "step": 15380
+    },
+    {
+      "epoch": 0.7517162191874527,
+      "grad_norm": 0.0012598736211657524,
+      "learning_rate": 0.20319751170231018,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 19956992,
+      "step": 15385
+    },
+    {
+      "epoch": 0.751960520851147,
+      "grad_norm": 0.0014911673497408628,
+      "learning_rate": 0.2031424316085068,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 19963712,
+      "step": 15390
+    },
+    {
+      "epoch": 0.7522048225148413,
+      "grad_norm": 0.0011428177822381258,
+      "learning_rate": 0.20308734331947265,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 19970336,
+      "step": 15395
+    },
+    {
+      "epoch": 0.7524491241785357,
+      "grad_norm": 0.000924473803024739,
+      "learning_rate": 0.20303224684370305,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 19976768,
+      "step": 15400
+    },
+    {
+      "epoch": 0.7524491241785357,
+      "eval_loss": 0.10564374178647995,
+      "eval_runtime": 402.8098,
+      "eval_samples_per_second": 90.328,
+      "eval_steps_per_second": 22.584,
+      "num_input_tokens_seen": 19976768,
+      "step": 15400
+    },
+    {
+      "epoch": 0.75269342584223,
+      "grad_norm": 0.0013527178671211004,
+      "learning_rate": 0.20297714218969456,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 19983008,
+      "step": 15405
+    },
+    {
+      "epoch": 0.7529377275059244,
+      "grad_norm": 0.0007929868879728019,
+      "learning_rate": 0.20292202936594497,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 19989280,
+      "step": 15410
+    },
+    {
+      "epoch": 0.7531820291696186,
+      "grad_norm": 0.0008452790789306164,
+      "learning_rate": 0.2028669083809534,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 19996064,
+      "step": 15415
+    },
+    {
+      "epoch": 0.753426330833313,
+      "grad_norm": 0.001392271602526307,
+      "learning_rate": 0.20281177924322016,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 20002752,
+      "step": 15420
+    },
+    {
+      "epoch": 0.7536706324970073,
+      "grad_norm": 0.0010645152069628239,
+      "learning_rate": 0.2027566419612469,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 20009664,
+      "step": 15425
+    },
+    {
+      "epoch": 0.7539149341607017,
+      "grad_norm": 0.003256015945225954,
+      "learning_rate": 0.20270149654353647,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 20015776,
+      "step": 15430
+    },
+    {
+      "epoch": 0.7541592358243959,
+      "grad_norm": 0.0013972870074212551,
+      "learning_rate": 0.202646342998593,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 20022272,
+      "step": 15435
+    },
+    {
+      "epoch": 0.7544035374880903,
+      "grad_norm": 0.0014883102849125862,
+      "learning_rate": 0.20259118133492185,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 20028608,
+      "step": 15440
+    },
+    {
+      "epoch": 0.7546478391517846,
+      "grad_norm": 0.001374737243168056,
+      "learning_rate": 0.20253601156102966,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 20035424,
+      "step": 15445
+    },
+    {
+      "epoch": 0.754892140815479,
+      "grad_norm": 0.0019484232179820538,
+      "learning_rate": 0.20248083368542422,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 20041632,
+      "step": 15450
+    },
+    {
+      "epoch": 0.7551364424791733,
+      "grad_norm": 0.0019904046785086393,
+      "learning_rate": 0.2024256477166147,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 20048000,
+      "step": 15455
+    },
+    {
+      "epoch": 0.7553807441428676,
+      "grad_norm": 0.0009608721593394876,
+      "learning_rate": 0.2023704536631115,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 20054368,
+      "step": 15460
+    },
+    {
+      "epoch": 0.755625045806562,
+      "grad_norm": 0.0017239426961168647,
+      "learning_rate": 0.20231525153342625,
+      "loss": 0.1294,
+      "num_input_tokens_seen": 20060512,
+      "step": 15465
+    },
+    {
+      "epoch": 0.7558693474702562,
+      "grad_norm": 0.000581893022172153,
+      "learning_rate": 0.20226004133607173,
+      "loss": 0.105,
+      "num_input_tokens_seen": 20066880,
+      "step": 15470
+    },
+    {
+      "epoch": 0.7561136491339506,
+      "grad_norm": 0.0010387457441538572,
+      "learning_rate": 0.20220482307956214,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 20073280,
+      "step": 15475
+    },
+    {
+      "epoch": 0.7563579507976449,
+      "grad_norm": 0.0007473833975382149,
+      "learning_rate": 0.20214959677241276,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 20079616,
+      "step": 15480
+    },
+    {
+      "epoch": 0.7566022524613393,
+      "grad_norm": 0.0006733008776791394,
+      "learning_rate": 0.20209436242314022,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 20086496,
+      "step": 15485
+    },
+    {
+      "epoch": 0.7568465541250335,
+      "grad_norm": 0.0007724790484644473,
+      "learning_rate": 0.2020391200402623,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 20092448,
+      "step": 15490
+    },
+    {
+      "epoch": 0.7570908557887279,
+      "grad_norm": 0.0021390842739492655,
+      "learning_rate": 0.2019838696322981,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 20098816,
+      "step": 15495
+    },
+    {
+      "epoch": 0.7573351574524223,
+      "grad_norm": 0.001566532882861793,
+      "learning_rate": 0.20192861120776798,
+      "loss": 0.09,
+      "num_input_tokens_seen": 20104800,
+      "step": 15500
+    },
+    {
+      "epoch": 0.7575794591161166,
+      "grad_norm": 0.0024168051313608885,
+      "learning_rate": 0.20187334477519345,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 20111264,
+      "step": 15505
+    },
+    {
+      "epoch": 0.757823760779811,
+      "grad_norm": 0.0010339852888137102,
+      "learning_rate": 0.20181807034309726,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 20117824,
+      "step": 15510
+    },
+    {
+      "epoch": 0.7580680624435052,
+      "grad_norm": 0.0030586246866732836,
+      "learning_rate": 0.2017627879200034,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 20124576,
+      "step": 15515
+    },
+    {
+      "epoch": 0.7583123641071996,
+      "grad_norm": 0.0013530225260183215,
+      "learning_rate": 0.2017074975144372,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 20130752,
+      "step": 15520
+    },
+    {
+      "epoch": 0.7585566657708939,
+      "grad_norm": 0.0010334599064663053,
+      "learning_rate": 0.20165219913492508,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 20137088,
+      "step": 15525
+    },
+    {
+      "epoch": 0.7588009674345882,
+      "grad_norm": 0.000938054290600121,
+      "learning_rate": 0.20159689278999468,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 20143328,
+      "step": 15530
+    },
+    {
+      "epoch": 0.7590452690982825,
+      "grad_norm": 0.0008568150224164128,
+      "learning_rate": 0.20154157848817508,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 20149440,
+      "step": 15535
+    },
+    {
+      "epoch": 0.7592895707619769,
+      "grad_norm": 0.0010331214871257544,
+      "learning_rate": 0.20148625623799632,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 20155520,
+      "step": 15540
+    },
+    {
+      "epoch": 0.7595338724256712,
+      "grad_norm": 0.0012304430129006505,
+      "learning_rate": 0.20143092604798984,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 20162304,
+      "step": 15545
+    },
+    {
+      "epoch": 0.7597781740893655,
+      "grad_norm": 0.0010189698077738285,
+      "learning_rate": 0.2013755879266883,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 20169408,
+      "step": 15550
+    },
+    {
+      "epoch": 0.7600224757530599,
+      "grad_norm": 0.0012668604031205177,
+      "learning_rate": 0.20132024188262543,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 20175872,
+      "step": 15555
+    },
+    {
+      "epoch": 0.7602667774167542,
+      "grad_norm": 0.0005517890676856041,
+      "learning_rate": 0.2012648879243363,
+      "loss": 0.097,
+      "num_input_tokens_seen": 20182080,
+      "step": 15560
+    },
+    {
+      "epoch": 0.7605110790804486,
+      "grad_norm": 0.0014296566369011998,
+      "learning_rate": 0.20120952606035725,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 20189056,
+      "step": 15565
+    },
+    {
+      "epoch": 0.7607553807441428,
+      "grad_norm": 0.001002248958684504,
+      "learning_rate": 0.20115415629922576,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 20195392,
+      "step": 15570
+    },
+    {
+      "epoch": 0.7609996824078372,
+      "grad_norm": 0.0011251391842961311,
+      "learning_rate": 0.20109877864948048,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 20202112,
+      "step": 15575
+    },
+    {
+      "epoch": 0.7612439840715315,
+      "grad_norm": 0.0013503546360880136,
+      "learning_rate": 0.20104339311966138,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 20208480,
+      "step": 15580
+    },
+    {
+      "epoch": 0.7614882857352259,
+      "grad_norm": 0.0010572607861831784,
+      "learning_rate": 0.2009879997183097,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 20215616,
+      "step": 15585
+    },
+    {
+      "epoch": 0.7617325873989201,
+      "grad_norm": 0.001176823629066348,
+      "learning_rate": 0.20093259845396763,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 20222144,
+      "step": 15590
+    },
+    {
+      "epoch": 0.7619768890626145,
+      "grad_norm": 0.0015798152890056372,
+      "learning_rate": 0.20087718933517884,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 20228192,
+      "step": 15595
+    },
+    {
+      "epoch": 0.7622211907263089,
+      "grad_norm": 0.0014130634954199195,
+      "learning_rate": 0.20082177237048807,
+      "loss": 0.1484,
+      "num_input_tokens_seen": 20234592,
+      "step": 15600
+    },
+    {
+      "epoch": 0.7622211907263089,
+      "eval_loss": 0.10523134469985962,
+      "eval_runtime": 402.3464,
+      "eval_samples_per_second": 90.432,
+      "eval_steps_per_second": 22.61,
+      "num_input_tokens_seen": 20234592,
+      "step": 15600
+    },
+    {
+      "epoch": 0.7624654923900032,
+      "grad_norm": 0.0012381132692098618,
+      "learning_rate": 0.20076634756844133,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 20241312,
+      "step": 15605
+    },
+    {
+      "epoch": 0.7627097940536975,
+      "grad_norm": 0.0034974117297679186,
+      "learning_rate": 0.20071091493758586,
+      "loss": 0.1588,
+      "num_input_tokens_seen": 20247648,
+      "step": 15610
+    },
+    {
+      "epoch": 0.7629540957173918,
+      "grad_norm": 0.0015378015814349055,
+      "learning_rate": 0.20065547448647003,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 20254112,
+      "step": 15615
+    },
+    {
+      "epoch": 0.7631983973810862,
+      "grad_norm": 0.001190093462355435,
+      "learning_rate": 0.20060002622364348,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 20260864,
+      "step": 15620
+    },
+    {
+      "epoch": 0.7634426990447805,
+      "grad_norm": 0.0009203033987432718,
+      "learning_rate": 0.20054457015765695,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 20267136,
+      "step": 15625
+    },
+    {
+      "epoch": 0.7636870007084748,
+      "grad_norm": 0.0008915265207178891,
+      "learning_rate": 0.20048910629706254,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 20273536,
+      "step": 15630
+    },
+    {
+      "epoch": 0.7639313023721691,
+      "grad_norm": 0.002558245789259672,
+      "learning_rate": 0.20043363465041347,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 20279968,
+      "step": 15635
+    },
+    {
+      "epoch": 0.7641756040358635,
+      "grad_norm": 0.0008988674380816519,
+      "learning_rate": 0.2003781552262641,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 20286336,
+      "step": 15640
+    },
+    {
+      "epoch": 0.7644199056995579,
+      "grad_norm": 0.0018469654023647308,
+      "learning_rate": 0.20032266803317014,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 20292448,
+      "step": 15645
+    },
+    {
+      "epoch": 0.7646642073632521,
+      "grad_norm": 0.0014237507712095976,
+      "learning_rate": 0.2002671730796884,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 20298592,
+      "step": 15650
+    },
+    {
+      "epoch": 0.7649085090269465,
+      "grad_norm": 0.0007248049951158464,
+      "learning_rate": 0.20021167037437684,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 20305120,
+      "step": 15655
+    },
+    {
+      "epoch": 0.7651528106906408,
+      "grad_norm": 0.0007246076129376888,
+      "learning_rate": 0.20015615992579472,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 20311424,
+      "step": 15660
+    },
+    {
+      "epoch": 0.7653971123543352,
+      "grad_norm": 0.0008474981295876205,
+      "learning_rate": 0.20010064174250244,
+      "loss": 0.094,
+      "num_input_tokens_seen": 20317952,
+      "step": 15665
+    },
+    {
+      "epoch": 0.7656414140180294,
+      "grad_norm": 0.00119930284563452,
+      "learning_rate": 0.2000451158330616,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 20324288,
+      "step": 15670
+    },
+    {
+      "epoch": 0.7658857156817238,
+      "grad_norm": 0.0010315728140994906,
+      "learning_rate": 0.199989582206035,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 20330496,
+      "step": 15675
+    },
+    {
+      "epoch": 0.7661300173454181,
+      "grad_norm": 0.001236599637195468,
+      "learning_rate": 0.1999340408699866,
+      "loss": 0.097,
+      "num_input_tokens_seen": 20336608,
+      "step": 15680
+    },
+    {
+      "epoch": 0.7663743190091125,
+      "grad_norm": 0.002774374093860388,
+      "learning_rate": 0.19987849183348155,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 20344064,
+      "step": 15685
+    },
+    {
+      "epoch": 0.7666186206728067,
+      "grad_norm": 0.0006983436178416014,
+      "learning_rate": 0.19982293510508628,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 20350432,
+      "step": 15690
+    },
+    {
+      "epoch": 0.7668629223365011,
+      "grad_norm": 0.0008973755175247788,
+      "learning_rate": 0.19976737069336833,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 20357056,
+      "step": 15695
+    },
+    {
+      "epoch": 0.7671072240001955,
+      "grad_norm": 0.0011838196078315377,
+      "learning_rate": 0.1997117986068964,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 20363520,
+      "step": 15700
+    },
+    {
+      "epoch": 0.7673515256638898,
+      "grad_norm": 0.0011125754099339247,
+      "learning_rate": 0.19965621885424037,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 20369856,
+      "step": 15705
+    },
+    {
+      "epoch": 0.7675958273275841,
+      "grad_norm": 0.000919784652069211,
+      "learning_rate": 0.19960063144397142,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 20376192,
+      "step": 15710
+    },
+    {
+      "epoch": 0.7678401289912784,
+      "grad_norm": 0.0008339039632119238,
+      "learning_rate": 0.19954503638466176,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 20383360,
+      "step": 15715
+    },
+    {
+      "epoch": 0.7680844306549728,
+      "grad_norm": 0.000987753737717867,
+      "learning_rate": 0.1994894336848848,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 20390016,
+      "step": 15720
+    },
+    {
+      "epoch": 0.768328732318667,
+      "grad_norm": 0.0015016074758023024,
+      "learning_rate": 0.1994338233532153,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 20396224,
+      "step": 15725
+    },
+    {
+      "epoch": 0.7685730339823614,
+      "grad_norm": 0.0008511049672961235,
+      "learning_rate": 0.19937820539822904,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 20402592,
+      "step": 15730
+    },
+    {
+      "epoch": 0.7688173356460557,
+      "grad_norm": 0.0012548016384243965,
+      "learning_rate": 0.199322579828503,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 20408896,
+      "step": 15735
+    },
+    {
+      "epoch": 0.7690616373097501,
+      "grad_norm": 0.0009810593910515308,
+      "learning_rate": 0.19926694665261527,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 20415808,
+      "step": 15740
+    },
+    {
+      "epoch": 0.7693059389734445,
+      "grad_norm": 0.0012905594194307923,
+      "learning_rate": 0.19921130587914526,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 20422336,
+      "step": 15745
+    },
+    {
+      "epoch": 0.7695502406371387,
+      "grad_norm": 0.0011328160762786865,
+      "learning_rate": 0.19915565751667344,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 20428960,
+      "step": 15750
+    },
+    {
+      "epoch": 0.7697945423008331,
+      "grad_norm": 0.0011426383862271905,
+      "learning_rate": 0.19910000157378152,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 20435712,
+      "step": 15755
+    },
+    {
+      "epoch": 0.7700388439645274,
+      "grad_norm": 0.0009603172657079995,
+      "learning_rate": 0.1990443380590523,
+      "loss": 0.1598,
+      "num_input_tokens_seen": 20441856,
+      "step": 15760
+    },
+    {
+      "epoch": 0.7702831456282218,
+      "grad_norm": 0.0013870041584596038,
+      "learning_rate": 0.19898866698106984,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 20447936,
+      "step": 15765
+    },
+    {
+      "epoch": 0.770527447291916,
+      "grad_norm": 0.0014180606231093407,
+      "learning_rate": 0.19893298834841933,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 20454432,
+      "step": 15770
+    },
+    {
+      "epoch": 0.7707717489556104,
+      "grad_norm": 0.000803993723820895,
+      "learning_rate": 0.19887730216968705,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 20460960,
+      "step": 15775
+    },
+    {
+      "epoch": 0.7710160506193047,
+      "grad_norm": 0.000991548877209425,
+      "learning_rate": 0.19882160845346053,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 20467392,
+      "step": 15780
+    },
+    {
+      "epoch": 0.771260352282999,
+      "grad_norm": 0.0011664307676255703,
+      "learning_rate": 0.1987659072083285,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 20473856,
+      "step": 15785
+    },
+    {
+      "epoch": 0.7715046539466934,
+      "grad_norm": 0.0013618008233606815,
+      "learning_rate": 0.1987101984428807,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 20480192,
+      "step": 15790
+    },
+    {
+      "epoch": 0.7717489556103877,
+      "grad_norm": 0.0010552066378295422,
+      "learning_rate": 0.19865448216570822,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 20486720,
+      "step": 15795
+    },
+    {
+      "epoch": 0.7719932572740821,
+      "grad_norm": 0.0012246262049302459,
+      "learning_rate": 0.19859875838540317,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 20493056,
+      "step": 15800
+    },
+    {
+      "epoch": 0.7719932572740821,
+      "eval_loss": 0.10217253118753433,
+      "eval_runtime": 402.1308,
+      "eval_samples_per_second": 90.481,
+      "eval_steps_per_second": 22.622,
+      "num_input_tokens_seen": 20493056,
+      "step": 15800
+    },
+    {
+      "epoch": 0.7722375589377763,
+      "grad_norm": 0.001399007742293179,
+      "learning_rate": 0.1985430271105588,
+      "loss": 0.105,
+      "num_input_tokens_seen": 20498880,
+      "step": 15805
+    },
+    {
+      "epoch": 0.7724818606014707,
+      "grad_norm": 0.0017724192002788186,
+      "learning_rate": 0.19848728834976961,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 20505152,
+      "step": 15810
+    },
+    {
+      "epoch": 0.772726162265165,
+      "grad_norm": 0.0013883283827453852,
+      "learning_rate": 0.19843154211163128,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 20511232,
+      "step": 15815
+    },
+    {
+      "epoch": 0.7729704639288594,
+      "grad_norm": 0.0011523272842168808,
+      "learning_rate": 0.1983757884047405,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 20517824,
+      "step": 15820
+    },
+    {
+      "epoch": 0.7732147655925536,
+      "grad_norm": 0.0011178639251738787,
+      "learning_rate": 0.1983200272376952,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 20524448,
+      "step": 15825
+    },
+    {
+      "epoch": 0.773459067256248,
+      "grad_norm": 0.0014000667724758387,
+      "learning_rate": 0.1982642586190945,
+      "loss": 0.1238,
+      "num_input_tokens_seen": 20530624,
+      "step": 15830
+    },
+    {
+      "epoch": 0.7737033689199423,
+      "grad_norm": 0.0017013916512951255,
+      "learning_rate": 0.1982084825575386,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 20537568,
+      "step": 15835
+    },
+    {
+      "epoch": 0.7739476705836367,
+      "grad_norm": 0.0011306875385344028,
+      "learning_rate": 0.19815269906162883,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 20544032,
+      "step": 15840
+    },
+    {
+      "epoch": 0.774191972247331,
+      "grad_norm": 0.0015413506189361215,
+      "learning_rate": 0.19809690813996775,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 20550336,
+      "step": 15845
+    },
+    {
+      "epoch": 0.7744362739110253,
+      "grad_norm": 0.0006359731778502464,
+      "learning_rate": 0.19804110980115905,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 20556832,
+      "step": 15850
+    },
+    {
+      "epoch": 0.7746805755747197,
+      "grad_norm": 0.0008455241331830621,
+      "learning_rate": 0.19798530405380746,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 20562944,
+      "step": 15855
+    },
+    {
+      "epoch": 0.774924877238414,
+      "grad_norm": 0.0011427499121055007,
+      "learning_rate": 0.19792949090651893,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 20569888,
+      "step": 15860
+    },
+    {
+      "epoch": 0.7751691789021083,
+      "grad_norm": 0.0012977448059245944,
+      "learning_rate": 0.19787367036790066,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 20576736,
+      "step": 15865
+    },
+    {
+      "epoch": 0.7754134805658026,
+      "grad_norm": 0.000978304073214531,
+      "learning_rate": 0.19781784244656075,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 20582752,
+      "step": 15870
+    },
+    {
+      "epoch": 0.775657782229497,
+      "grad_norm": 0.0011025734711438417,
+      "learning_rate": 0.19776200715110864,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 20589024,
+      "step": 15875
+    },
+    {
+      "epoch": 0.7759020838931913,
+      "grad_norm": 0.0007806618814356625,
+      "learning_rate": 0.1977061644901548,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 20595520,
+      "step": 15880
+    },
+    {
+      "epoch": 0.7761463855568856,
+      "grad_norm": 0.001044300850480795,
+      "learning_rate": 0.1976503144723109,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 20601504,
+      "step": 15885
+    },
+    {
+      "epoch": 0.77639068722058,
+      "grad_norm": 0.0012077587889507413,
+      "learning_rate": 0.19759445710618967,
+      "loss": 0.1403,
+      "num_input_tokens_seen": 20607744,
+      "step": 15890
+    },
+    {
+      "epoch": 0.7766349888842743,
+      "grad_norm": 0.001149542978964746,
+      "learning_rate": 0.19753859240040508,
+      "loss": 0.097,
+      "num_input_tokens_seen": 20613952,
+      "step": 15895
+    },
+    {
+      "epoch": 0.7768792905479687,
+      "grad_norm": 0.0016750188078731298,
+      "learning_rate": 0.1974827203635721,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 20620800,
+      "step": 15900
+    },
+    {
+      "epoch": 0.7771235922116629,
+      "grad_norm": 0.000550419616047293,
+      "learning_rate": 0.19742684100430694,
+      "loss": 0.087,
+      "num_input_tokens_seen": 20627328,
+      "step": 15905
+    },
+    {
+      "epoch": 0.7773678938753573,
+      "grad_norm": 0.001175620243884623,
+      "learning_rate": 0.19737095433122692,
+      "loss": 0.0614,
+      "num_input_tokens_seen": 20633824,
+      "step": 15910
+    },
+    {
+      "epoch": 0.7776121955390516,
+      "grad_norm": 0.0017324495129287243,
+      "learning_rate": 0.19731506035295046,
+      "loss": 0.12,
+      "num_input_tokens_seen": 20640512,
+      "step": 15915
+    },
+    {
+      "epoch": 0.777856497202746,
+      "grad_norm": 0.0008170511573553085,
+      "learning_rate": 0.19725915907809702,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 20647040,
+      "step": 15920
+    },
+    {
+      "epoch": 0.7781007988664402,
+      "grad_norm": 0.0009171414421871305,
+      "learning_rate": 0.1972032505152874,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 20653888,
+      "step": 15925
+    },
+    {
+      "epoch": 0.7783451005301346,
+      "grad_norm": 0.0013771748635917902,
+      "learning_rate": 0.19714733467314338,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 20660448,
+      "step": 15930
+    },
+    {
+      "epoch": 0.778589402193829,
+      "grad_norm": 0.0011880755191668868,
+      "learning_rate": 0.19709141156028784,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 20666208,
+      "step": 15935
+    },
+    {
+      "epoch": 0.7788337038575233,
+      "grad_norm": 0.0009610185516066849,
+      "learning_rate": 0.1970354811853448,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 20672352,
+      "step": 15940
+    },
+    {
+      "epoch": 0.7790780055212176,
+      "grad_norm": 0.001892867498099804,
+      "learning_rate": 0.19697954355693953,
+      "loss": 0.092,
+      "num_input_tokens_seen": 20678592,
+      "step": 15945
+    },
+    {
+      "epoch": 0.7793223071849119,
+      "grad_norm": 0.0018828778993338346,
+      "learning_rate": 0.19692359868369827,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 20685952,
+      "step": 15950
+    },
+    {
+      "epoch": 0.7795666088486063,
+      "grad_norm": 0.0012766438303515315,
+      "learning_rate": 0.1968676465742484,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 20692224,
+      "step": 15955
+    },
+    {
+      "epoch": 0.7798109105123006,
+      "grad_norm": 0.001244527637027204,
+      "learning_rate": 0.19681168723721845,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 20698592,
+      "step": 15960
+    },
+    {
+      "epoch": 0.7800552121759949,
+      "grad_norm": 0.0009122220217250288,
+      "learning_rate": 0.19675572068123803,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 20705344,
+      "step": 15965
+    },
+    {
+      "epoch": 0.7802995138396892,
+      "grad_norm": 0.001260383054614067,
+      "learning_rate": 0.19669974691493794,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 20711936,
+      "step": 15970
+    },
+    {
+      "epoch": 0.7805438155033836,
+      "grad_norm": 0.0010031993733718991,
+      "learning_rate": 0.19664376594695002,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 20718112,
+      "step": 15975
+    },
+    {
+      "epoch": 0.7807881171670779,
+      "grad_norm": 0.001664525712840259,
+      "learning_rate": 0.19658777778590722,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 20724288,
+      "step": 15980
+    },
+    {
+      "epoch": 0.7810324188307722,
+      "grad_norm": 0.0009739671368151903,
+      "learning_rate": 0.19653178244044364,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 20730592,
+      "step": 15985
+    },
+    {
+      "epoch": 0.7812767204944666,
+      "grad_norm": 0.0017115657683461905,
+      "learning_rate": 0.19647577991919443,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 20737280,
+      "step": 15990
+    },
+    {
+      "epoch": 0.7815210221581609,
+      "grad_norm": 0.0012450385838747025,
+      "learning_rate": 0.1964197702307959,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 20743584,
+      "step": 15995
+    },
+    {
+      "epoch": 0.7817653238218553,
+      "grad_norm": 0.000984130660071969,
+      "learning_rate": 0.19636375338388545,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 20750368,
+      "step": 16000
+    },
+    {
+      "epoch": 0.7817653238218553,
+      "eval_loss": 0.1014992967247963,
+      "eval_runtime": 402.1299,
+      "eval_samples_per_second": 90.481,
+      "eval_steps_per_second": 22.622,
+      "num_input_tokens_seen": 20750368,
+      "step": 16000
+    },
+    {
+      "epoch": 0.7820096254855495,
+      "grad_norm": 0.0008685843786224723,
+      "learning_rate": 0.1963077293871016,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 20756736,
+      "step": 16005
+    },
+    {
+      "epoch": 0.7822539271492439,
+      "grad_norm": 0.001573816523887217,
+      "learning_rate": 0.19625169824908395,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 20763136,
+      "step": 16010
+    },
+    {
+      "epoch": 0.7824982288129382,
+      "grad_norm": 0.0012744978303089738,
+      "learning_rate": 0.19619565997847319,
+      "loss": 0.112,
+      "num_input_tokens_seen": 20769344,
+      "step": 16015
+    },
+    {
+      "epoch": 0.7827425304766326,
+      "grad_norm": 0.001386958989314735,
+      "learning_rate": 0.19613961458391113,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 20776256,
+      "step": 16020
+    },
+    {
+      "epoch": 0.7829868321403268,
+      "grad_norm": 0.0025690619368106127,
+      "learning_rate": 0.19608356207404065,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 20782592,
+      "step": 16025
+    },
+    {
+      "epoch": 0.7832311338040212,
+      "grad_norm": 0.0010675664525479078,
+      "learning_rate": 0.1960275024575058,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 20789376,
+      "step": 16030
+    },
+    {
+      "epoch": 0.7834754354677156,
+      "grad_norm": 0.0008892891346476972,
+      "learning_rate": 0.19597143574295164,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 20795840,
+      "step": 16035
+    },
+    {
+      "epoch": 0.7837197371314099,
+      "grad_norm": 0.0013409120729193091,
+      "learning_rate": 0.1959153619390244,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 20802624,
+      "step": 16040
+    },
+    {
+      "epoch": 0.7839640387951042,
+      "grad_norm": 0.0012580405455082655,
+      "learning_rate": 0.1958592810543713,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 20808992,
+      "step": 16045
+    },
+    {
+      "epoch": 0.7842083404587985,
+      "grad_norm": 0.002273187506943941,
+      "learning_rate": 0.19580319309764077,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 20815456,
+      "step": 16050
+    },
+    {
+      "epoch": 0.7844526421224929,
+      "grad_norm": 0.0015690414002165198,
+      "learning_rate": 0.1957470980774823,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 20822432,
+      "step": 16055
+    },
+    {
+      "epoch": 0.7846969437861872,
+      "grad_norm": 0.0010692378273233771,
+      "learning_rate": 0.19569099600254639,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 20828608,
+      "step": 16060
+    },
+    {
+      "epoch": 0.7849412454498815,
+      "grad_norm": 0.0015949906082823873,
+      "learning_rate": 0.1956348868814847,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 20835360,
+      "step": 16065
+    },
+    {
+      "epoch": 0.7851855471135758,
+      "grad_norm": 0.0008672370458953083,
+      "learning_rate": 0.19557877072295,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 20842144,
+      "step": 16070
+    },
+    {
+      "epoch": 0.7854298487772702,
+      "grad_norm": 0.0012733940966427326,
+      "learning_rate": 0.19552264753559603,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 20848032,
+      "step": 16075
+    },
+    {
+      "epoch": 0.7856741504409646,
+      "grad_norm": 0.000870087300427258,
+      "learning_rate": 0.19546651732807774,
+      "loss": 0.091,
+      "num_input_tokens_seen": 20854400,
+      "step": 16080
+    },
+    {
+      "epoch": 0.7859184521046588,
+      "grad_norm": 0.0008117982069961727,
+      "learning_rate": 0.19541038010905112,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 20861088,
+      "step": 16085
+    },
+    {
+      "epoch": 0.7861627537683532,
+      "grad_norm": 0.0009439666173420846,
+      "learning_rate": 0.19535423588717324,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 20867168,
+      "step": 16090
+    },
+    {
+      "epoch": 0.7864070554320475,
+      "grad_norm": 0.0015956107527017593,
+      "learning_rate": 0.19529808467110224,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 20874208,
+      "step": 16095
+    },
+    {
+      "epoch": 0.7866513570957419,
+      "grad_norm": 0.0010947075206786394,
+      "learning_rate": 0.19524192646949734,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 20881088,
+      "step": 16100
+    },
+    {
+      "epoch": 0.7868956587594361,
+      "grad_norm": 0.0017259666929021478,
+      "learning_rate": 0.19518576129101878,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 20887424,
+      "step": 16105
+    },
+    {
+      "epoch": 0.7871399604231305,
+      "grad_norm": 0.0013259021798148751,
+      "learning_rate": 0.19512958914432804,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 20893792,
+      "step": 16110
+    },
+    {
+      "epoch": 0.7873842620868248,
+      "grad_norm": 0.0010426136432215571,
+      "learning_rate": 0.1950734100380875,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 20899872,
+      "step": 16115
+    },
+    {
+      "epoch": 0.7876285637505192,
+      "grad_norm": 0.0016536528710275888,
+      "learning_rate": 0.19501722398096066,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 20906208,
+      "step": 16120
+    },
+    {
+      "epoch": 0.7878728654142134,
+      "grad_norm": 0.0011509553296491504,
+      "learning_rate": 0.1949610309816122,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 20912416,
+      "step": 16125
+    },
+    {
+      "epoch": 0.7881171670779078,
+      "grad_norm": 0.001299541792832315,
+      "learning_rate": 0.1949048310487078,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 20919136,
+      "step": 16130
+    },
+    {
+      "epoch": 0.7883614687416022,
+      "grad_norm": 0.001573065179400146,
+      "learning_rate": 0.19484862419091406,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 20925568,
+      "step": 16135
+    },
+    {
+      "epoch": 0.7886057704052964,
+      "grad_norm": 0.001341172493994236,
+      "learning_rate": 0.19479241041689893,
+      "loss": 0.068,
+      "num_input_tokens_seen": 20932064,
+      "step": 16140
+    },
+    {
+      "epoch": 0.7888500720689908,
+      "grad_norm": 0.0011315756710246205,
+      "learning_rate": 0.19473618973533116,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 20938592,
+      "step": 16145
+    },
+    {
+      "epoch": 0.7890943737326851,
+      "grad_norm": 0.0015304816188290715,
+      "learning_rate": 0.19467996215488076,
+      "loss": 0.1307,
+      "num_input_tokens_seen": 20944832,
+      "step": 16150
+    },
+    {
+      "epoch": 0.7893386753963795,
+      "grad_norm": 0.0017190856160596013,
+      "learning_rate": 0.1946237276842187,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 20951584,
+      "step": 16155
+    },
+    {
+      "epoch": 0.7895829770600737,
+      "grad_norm": 0.0006895111291669309,
+      "learning_rate": 0.19456748633201712,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 20958336,
+      "step": 16160
+    },
+    {
+      "epoch": 0.7898272787237681,
+      "grad_norm": 0.0006020612781867385,
+      "learning_rate": 0.194511238106949,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 20964512,
+      "step": 16165
+    },
+    {
+      "epoch": 0.7900715803874624,
+      "grad_norm": 0.0008329474949277937,
+      "learning_rate": 0.19445498301768863,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 20970912,
+      "step": 16170
+    },
+    {
+      "epoch": 0.7903158820511568,
+      "grad_norm": 0.0008598589920438826,
+      "learning_rate": 0.19439872107291126,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 20977408,
+      "step": 16175
+    },
+    {
+      "epoch": 0.7905601837148512,
+      "grad_norm": 0.0011450131423771381,
+      "learning_rate": 0.1943424522812931,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 20983648,
+      "step": 16180
+    },
+    {
+      "epoch": 0.7908044853785454,
+      "grad_norm": 0.0009514742996543646,
+      "learning_rate": 0.19428617665151157,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 20990432,
+      "step": 16185
+    },
+    {
+      "epoch": 0.7910487870422398,
+      "grad_norm": 0.0012400596169754863,
+      "learning_rate": 0.19422989419224507,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 20997152,
+      "step": 16190
+    },
+    {
+      "epoch": 0.7912930887059341,
+      "grad_norm": 0.0010557003552094102,
+      "learning_rate": 0.19417360491217303,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 21003776,
+      "step": 16195
+    },
+    {
+      "epoch": 0.7915373903696284,
+      "grad_norm": 0.0009881883161142468,
+      "learning_rate": 0.19411730881997605,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 21010432,
+      "step": 16200
+    },
+    {
+      "epoch": 0.7915373903696284,
+      "eval_loss": 0.10021702200174332,
+      "eval_runtime": 401.8638,
+      "eval_samples_per_second": 90.541,
+      "eval_steps_per_second": 22.637,
+      "num_input_tokens_seen": 21010432,
+      "step": 16200
+    },
+    {
+      "epoch": 0.7917816920333227,
+      "grad_norm": 0.0013421521289274096,
+      "learning_rate": 0.1940610059243356,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 21016736,
+      "step": 16205
+    },
+    {
+      "epoch": 0.7920259936970171,
+      "grad_norm": 0.001448864466510713,
+      "learning_rate": 0.19400469623393435,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 21023776,
+      "step": 16210
+    },
+    {
+      "epoch": 0.7922702953607114,
+      "grad_norm": 0.001400207867845893,
+      "learning_rate": 0.1939483797574559,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 21030016,
+      "step": 16215
+    },
+    {
+      "epoch": 0.7925145970244057,
+      "grad_norm": 0.0008748463587835431,
+      "learning_rate": 0.19389205650358504,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 21036832,
+      "step": 16220
+    },
+    {
+      "epoch": 0.7927588986881,
+      "grad_norm": 0.0022219656966626644,
+      "learning_rate": 0.19383572648100747,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 21043264,
+      "step": 16225
+    },
+    {
+      "epoch": 0.7930032003517944,
+      "grad_norm": 0.001831138739362359,
+      "learning_rate": 0.19377938969841,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 21049824,
+      "step": 16230
+    },
+    {
+      "epoch": 0.7932475020154888,
+      "grad_norm": 0.0015721910167485476,
+      "learning_rate": 0.1937230461644805,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 21056640,
+      "step": 16235
+    },
+    {
+      "epoch": 0.793491803679183,
+      "grad_norm": 0.0007913807057775557,
+      "learning_rate": 0.19366669588790777,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 21063360,
+      "step": 16240
+    },
+    {
+      "epoch": 0.7937361053428774,
+      "grad_norm": 0.0011833420721814036,
+      "learning_rate": 0.19361033887738185,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 21069824,
+      "step": 16245
+    },
+    {
+      "epoch": 0.7939804070065717,
+      "grad_norm": 0.0008583606104366481,
+      "learning_rate": 0.19355397514159361,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 21076416,
+      "step": 16250
+    },
+    {
+      "epoch": 0.7942247086702661,
+      "grad_norm": 0.0011405842378735542,
+      "learning_rate": 0.19349760468923508,
+      "loss": 0.074,
+      "num_input_tokens_seen": 21082496,
+      "step": 16255
+    },
+    {
+      "epoch": 0.7944690103339603,
+      "grad_norm": 0.0016460232436656952,
+      "learning_rate": 0.19344122752899925,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 21088992,
+      "step": 16260
+    },
+    {
+      "epoch": 0.7947133119976547,
+      "grad_norm": 0.0009800223633646965,
+      "learning_rate": 0.1933848436695802,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 21095328,
+      "step": 16265
+    },
+    {
+      "epoch": 0.794957613661349,
+      "grad_norm": 0.0015283257234841585,
+      "learning_rate": 0.1933284531196731,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 21101440,
+      "step": 16270
+    },
+    {
+      "epoch": 0.7952019153250434,
+      "grad_norm": 0.0024028352927416563,
+      "learning_rate": 0.19327205588797403,
+      "loss": 0.108,
+      "num_input_tokens_seen": 21108064,
+      "step": 16275
+    },
+    {
+      "epoch": 0.7954462169887377,
+      "grad_norm": 0.0016526625258848071,
+      "learning_rate": 0.19321565198318014,
+      "loss": 0.1343,
+      "num_input_tokens_seen": 21114464,
+      "step": 16280
+    },
+    {
+      "epoch": 0.795690518652432,
+      "grad_norm": 0.001132941571995616,
+      "learning_rate": 0.1931592414139896,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 21121568,
+      "step": 16285
+    },
+    {
+      "epoch": 0.7959348203161264,
+      "grad_norm": 0.0017407401464879513,
+      "learning_rate": 0.19310282418910169,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 21127968,
+      "step": 16290
+    },
+    {
+      "epoch": 0.7961791219798207,
+      "grad_norm": 0.001348821329884231,
+      "learning_rate": 0.1930464003172166,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 21133920,
+      "step": 16295
+    },
+    {
+      "epoch": 0.796423423643515,
+      "grad_norm": 0.002263967413455248,
+      "learning_rate": 0.19298996980703567,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 21140672,
+      "step": 16300
+    },
+    {
+      "epoch": 0.7966677253072093,
+      "grad_norm": 0.0011036793002858758,
+      "learning_rate": 0.19293353266726113,
+      "loss": 0.099,
+      "num_input_tokens_seen": 21147168,
+      "step": 16305
+    },
+    {
+      "epoch": 0.7969120269709037,
+      "grad_norm": 0.0007948071579448879,
+      "learning_rate": 0.19287708890659633,
+      "loss": 0.102,
+      "num_input_tokens_seen": 21153664,
+      "step": 16310
+    },
+    {
+      "epoch": 0.797156328634598,
+      "grad_norm": 0.001300059724599123,
+      "learning_rate": 0.19282063853374556,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 21160320,
+      "step": 16315
+    },
+    {
+      "epoch": 0.7974006302982923,
+      "grad_norm": 0.0007893629954196513,
+      "learning_rate": 0.19276418155741423,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 21166816,
+      "step": 16320
+    },
+    {
+      "epoch": 0.7976449319619867,
+      "grad_norm": 0.0008373786695301533,
+      "learning_rate": 0.19270771798630867,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 21173504,
+      "step": 16325
+    },
+    {
+      "epoch": 0.797889233625681,
+      "grad_norm": 0.001108943484723568,
+      "learning_rate": 0.1926512478291363,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 21179936,
+      "step": 16330
+    },
+    {
+      "epoch": 0.7981335352893754,
+      "grad_norm": 0.001695183222182095,
+      "learning_rate": 0.19259477109460557,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 21186368,
+      "step": 16335
+    },
+    {
+      "epoch": 0.7983778369530696,
+      "grad_norm": 0.0014088003663346171,
+      "learning_rate": 0.19253828779142584,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 21192704,
+      "step": 16340
+    },
+    {
+      "epoch": 0.798622138616764,
+      "grad_norm": 0.0013085320824757218,
+      "learning_rate": 0.19248179792830755,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 21199200,
+      "step": 16345
+    },
+    {
+      "epoch": 0.7988664402804583,
+      "grad_norm": 0.0021353510674089193,
+      "learning_rate": 0.19242530151396217,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 21205088,
+      "step": 16350
+    },
+    {
+      "epoch": 0.7991107419441527,
+      "grad_norm": 0.0018231645226478577,
+      "learning_rate": 0.19236879855710215,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 21211040,
+      "step": 16355
+    },
+    {
+      "epoch": 0.7993550436078469,
+      "grad_norm": 0.001580537180416286,
+      "learning_rate": 0.19231228906644096,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 21217216,
+      "step": 16360
+    },
+    {
+      "epoch": 0.7995993452715413,
+      "grad_norm": 0.0010945259127765894,
+      "learning_rate": 0.19225577305069302,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 21223936,
+      "step": 16365
+    },
+    {
+      "epoch": 0.7998436469352356,
+      "grad_norm": 0.0020145620219409466,
+      "learning_rate": 0.1921992505185739,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 21230496,
+      "step": 16370
+    },
+    {
+      "epoch": 0.80008794859893,
+      "grad_norm": 0.0009404998854734004,
+      "learning_rate": 0.19214272147880004,
+      "loss": 0.107,
+      "num_input_tokens_seen": 21236672,
+      "step": 16375
+    },
+    {
+      "epoch": 0.8003322502626243,
+      "grad_norm": 0.0013725970638915896,
+      "learning_rate": 0.19208618594008892,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 21243744,
+      "step": 16380
+    },
+    {
+      "epoch": 0.8005765519263186,
+      "grad_norm": 0.0010799859883263707,
+      "learning_rate": 0.19202964391115904,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 21250304,
+      "step": 16385
+    },
+    {
+      "epoch": 0.800820853590013,
+      "grad_norm": 0.0015132800908759236,
+      "learning_rate": 0.1919730954007299,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 21256864,
+      "step": 16390
+    },
+    {
+      "epoch": 0.8010651552537073,
+      "grad_norm": 0.0013646666193380952,
+      "learning_rate": 0.19191654041752199,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 21263456,
+      "step": 16395
+    },
+    {
+      "epoch": 0.8013094569174016,
+      "grad_norm": 0.0010950065916404128,
+      "learning_rate": 0.19185997897025678,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 21270112,
+      "step": 16400
+    },
+    {
+      "epoch": 0.8013094569174016,
+      "eval_loss": 0.10168339312076569,
+      "eval_runtime": 402.2793,
+      "eval_samples_per_second": 90.447,
+      "eval_steps_per_second": 22.614,
+      "num_input_tokens_seen": 21270112,
+      "step": 16400
+    },
+    {
+      "epoch": 0.8015537585810959,
+      "grad_norm": 0.0008846784476190805,
+      "learning_rate": 0.19180341106765672,
+      "loss": 0.09,
+      "num_input_tokens_seen": 21276864,
+      "step": 16405
+    },
+    {
+      "epoch": 0.8017980602447903,
+      "grad_norm": 0.0008386471890844405,
+      "learning_rate": 0.19174683671844536,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 21283392,
+      "step": 16410
+    },
+    {
+      "epoch": 0.8020423619084845,
+      "grad_norm": 0.0017781833885237575,
+      "learning_rate": 0.19169025593134717,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 21290048,
+      "step": 16415
+    },
+    {
+      "epoch": 0.8022866635721789,
+      "grad_norm": 0.0023815545719116926,
+      "learning_rate": 0.19163366871508764,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 21296704,
+      "step": 16420
+    },
+    {
+      "epoch": 0.8025309652358733,
+      "grad_norm": 0.0008876225911080837,
+      "learning_rate": 0.19157707507839317,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 21303456,
+      "step": 16425
+    },
+    {
+      "epoch": 0.8027752668995676,
+      "grad_norm": 0.0014530763728544116,
+      "learning_rate": 0.19152047502999123,
+      "loss": 0.102,
+      "num_input_tokens_seen": 21309792,
+      "step": 16430
+    },
+    {
+      "epoch": 0.803019568563262,
+      "grad_norm": 0.0014155457029119134,
+      "learning_rate": 0.19146386857861025,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 21316544,
+      "step": 16435
+    },
+    {
+      "epoch": 0.8032638702269562,
+      "grad_norm": 0.0017629819922149181,
+      "learning_rate": 0.19140725573297968,
+      "loss": 0.1276,
+      "num_input_tokens_seen": 21322816,
+      "step": 16440
+    },
+    {
+      "epoch": 0.8035081718906506,
+      "grad_norm": 0.0013832347467541695,
+      "learning_rate": 0.19135063650182987,
+      "loss": 0.106,
+      "num_input_tokens_seen": 21329120,
+      "step": 16445
+    },
+    {
+      "epoch": 0.8037524735543449,
+      "grad_norm": 0.0009964711498469114,
+      "learning_rate": 0.19129401089389234,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 21335904,
+      "step": 16450
+    },
+    {
+      "epoch": 0.8039967752180393,
+      "grad_norm": 0.0012162381317466497,
+      "learning_rate": 0.19123737891789938,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 21342368,
+      "step": 16455
+    },
+    {
+      "epoch": 0.8042410768817335,
+      "grad_norm": 0.0008037079824134707,
+      "learning_rate": 0.19118074058258439,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 21348896,
+      "step": 16460
+    },
+    {
+      "epoch": 0.8044853785454279,
+      "grad_norm": 0.0017932202899828553,
+      "learning_rate": 0.1911240958966816,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 21355168,
+      "step": 16465
+    },
+    {
+      "epoch": 0.8047296802091223,
+      "grad_norm": 0.0010266980389133096,
+      "learning_rate": 0.19106744486892652,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 21361952,
+      "step": 16470
+    },
+    {
+      "epoch": 0.8049739818728165,
+      "grad_norm": 0.0015837869141250849,
+      "learning_rate": 0.1910107875080553,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 21368000,
+      "step": 16475
+    },
+    {
+      "epoch": 0.8052182835365109,
+      "grad_norm": 0.00130571355111897,
+      "learning_rate": 0.19095412382280533,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 21374784,
+      "step": 16480
+    },
+    {
+      "epoch": 0.8054625852002052,
+      "grad_norm": 0.0008377988706342876,
+      "learning_rate": 0.19089745382191473,
+      "loss": 0.1259,
+      "num_input_tokens_seen": 21381568,
+      "step": 16485
+    },
+    {
+      "epoch": 0.8057068868638996,
+      "grad_norm": 0.0009452843223698437,
+      "learning_rate": 0.19084077751412284,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 21387904,
+      "step": 16490
+    },
+    {
+      "epoch": 0.8059511885275938,
+      "grad_norm": 0.0006980644538998604,
+      "learning_rate": 0.19078409490816986,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 21394208,
+      "step": 16495
+    },
+    {
+      "epoch": 0.8061954901912882,
+      "grad_norm": 0.002207131590694189,
+      "learning_rate": 0.19072740601279686,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 21400576,
+      "step": 16500
+    },
+    {
+      "epoch": 0.8064397918549825,
+      "grad_norm": 0.0008252050611190498,
+      "learning_rate": 0.19067071083674605,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 21406944,
+      "step": 16505
+    },
+    {
+      "epoch": 0.8066840935186769,
+      "grad_norm": 0.001216157921589911,
+      "learning_rate": 0.19061400938876052,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 21413408,
+      "step": 16510
+    },
+    {
+      "epoch": 0.8069283951823711,
+      "grad_norm": 0.0010278256377205253,
+      "learning_rate": 0.1905573016775844,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 21419488,
+      "step": 16515
+    },
+    {
+      "epoch": 0.8071726968460655,
+      "grad_norm": 0.0024372818879783154,
+      "learning_rate": 0.19050058771196263,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 21425984,
+      "step": 16520
+    },
+    {
+      "epoch": 0.8074169985097599,
+      "grad_norm": 0.0012670040596276522,
+      "learning_rate": 0.19044386750064132,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 21432544,
+      "step": 16525
+    },
+    {
+      "epoch": 0.8076613001734542,
+      "grad_norm": 0.0015893530799075961,
+      "learning_rate": 0.19038714105236737,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 21439200,
+      "step": 16530
+    },
+    {
+      "epoch": 0.8079056018371485,
+      "grad_norm": 0.0015380795812234282,
+      "learning_rate": 0.19033040837588874,
+      "loss": 0.107,
+      "num_input_tokens_seen": 21446272,
+      "step": 16535
+    },
+    {
+      "epoch": 0.8081499035008428,
+      "grad_norm": 0.0011865677079185843,
+      "learning_rate": 0.1902736694799543,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 21452800,
+      "step": 16540
+    },
+    {
+      "epoch": 0.8083942051645372,
+      "grad_norm": 0.0014394884929060936,
+      "learning_rate": 0.19021692437331392,
+      "loss": 0.104,
+      "num_input_tokens_seen": 21459328,
+      "step": 16545
+    },
+    {
+      "epoch": 0.8086385068282315,
+      "grad_norm": 0.0010696286335587502,
+      "learning_rate": 0.1901601730647184,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 21465408,
+      "step": 16550
+    },
+    {
+      "epoch": 0.8088828084919258,
+      "grad_norm": 0.0013010856928303838,
+      "learning_rate": 0.19010341556291954,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 21472224,
+      "step": 16555
+    },
+    {
+      "epoch": 0.8091271101556201,
+      "grad_norm": 0.0011434074258431792,
+      "learning_rate": 0.19004665187667,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 21479456,
+      "step": 16560
+    },
+    {
+      "epoch": 0.8093714118193145,
+      "grad_norm": 0.0010049162665382028,
+      "learning_rate": 0.1899898820147235,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 21485728,
+      "step": 16565
+    },
+    {
+      "epoch": 0.8096157134830089,
+      "grad_norm": 0.0010016578016802669,
+      "learning_rate": 0.18993310598583465,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 21492320,
+      "step": 16570
+    },
+    {
+      "epoch": 0.8098600151467031,
+      "grad_norm": 0.0016396790742874146,
+      "learning_rate": 0.18987632379875904,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 21498720,
+      "step": 16575
+    },
+    {
+      "epoch": 0.8101043168103975,
+      "grad_norm": 0.0008923118002712727,
+      "learning_rate": 0.18981953546225314,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 21505568,
+      "step": 16580
+    },
+    {
+      "epoch": 0.8103486184740918,
+      "grad_norm": 0.0005828440771438181,
+      "learning_rate": 0.18976274098507445,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 21512096,
+      "step": 16585
+    },
+    {
+      "epoch": 0.8105929201377862,
+      "grad_norm": 0.0007879590848460793,
+      "learning_rate": 0.18970594037598146,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 21518784,
+      "step": 16590
+    },
+    {
+      "epoch": 0.8108372218014804,
+      "grad_norm": 0.002055126940831542,
+      "learning_rate": 0.1896491336437335,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 21525024,
+      "step": 16595
+    },
+    {
+      "epoch": 0.8110815234651748,
+      "grad_norm": 0.0016066604293882847,
+      "learning_rate": 0.18959232079709085,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 21531456,
+      "step": 16600
+    },
+    {
+      "epoch": 0.8110815234651748,
+      "eval_loss": 0.10309136658906937,
+      "eval_runtime": 402.1895,
+      "eval_samples_per_second": 90.467,
+      "eval_steps_per_second": 22.619,
+      "num_input_tokens_seen": 21531456,
+      "step": 16600
+    },
+    {
+      "epoch": 0.8113258251288691,
+      "grad_norm": 0.0011388794519007206,
+      "learning_rate": 0.18953550184481477,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 21537888,
+      "step": 16605
+    },
+    {
+      "epoch": 0.8115701267925635,
+      "grad_norm": 0.0013549481518566608,
+      "learning_rate": 0.18947867679566752,
+      "loss": 0.1088,
+      "num_input_tokens_seen": 21544288,
+      "step": 16610
+    },
+    {
+      "epoch": 0.8118144284562578,
+      "grad_norm": 0.001494531985372305,
+      "learning_rate": 0.18942184565841216,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 21550784,
+      "step": 16615
+    },
+    {
+      "epoch": 0.8120587301199521,
+      "grad_norm": 0.0010344479233026505,
+      "learning_rate": 0.18936500844181278,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 21557280,
+      "step": 16620
+    },
+    {
+      "epoch": 0.8123030317836465,
+      "grad_norm": 0.0011006041895598173,
+      "learning_rate": 0.18930816515463436,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 21563808,
+      "step": 16625
+    },
+    {
+      "epoch": 0.8125473334473408,
+      "grad_norm": 0.001731606898829341,
+      "learning_rate": 0.18925131580564297,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 21570656,
+      "step": 16630
+    },
+    {
+      "epoch": 0.8127916351110351,
+      "grad_norm": 0.0012589580146595836,
+      "learning_rate": 0.1891944604036054,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 21576736,
+      "step": 16635
+    },
+    {
+      "epoch": 0.8130359367747294,
+      "grad_norm": 0.000921903585549444,
+      "learning_rate": 0.1891375989572895,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 21583424,
+      "step": 16640
+    },
+    {
+      "epoch": 0.8132802384384238,
+      "grad_norm": 0.0009147649398073554,
+      "learning_rate": 0.18908073147546398,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 21590048,
+      "step": 16645
+    },
+    {
+      "epoch": 0.813524540102118,
+      "grad_norm": 0.000999247538857162,
+      "learning_rate": 0.18902385796689858,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 21596288,
+      "step": 16650
+    },
+    {
+      "epoch": 0.8137688417658124,
+      "grad_norm": 0.0013791468227282166,
+      "learning_rate": 0.18896697844036384,
+      "loss": 0.107,
+      "num_input_tokens_seen": 21603008,
+      "step": 16655
+    },
+    {
+      "epoch": 0.8140131434295067,
+      "grad_norm": 0.0015919465804472566,
+      "learning_rate": 0.18891009290463137,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 21609248,
+      "step": 16660
+    },
+    {
+      "epoch": 0.8142574450932011,
+      "grad_norm": 0.0011910966131836176,
+      "learning_rate": 0.18885320136847353,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 21615424,
+      "step": 16665
+    },
+    {
+      "epoch": 0.8145017467568955,
+      "grad_norm": 0.0009967322694137692,
+      "learning_rate": 0.1887963038406639,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 21621760,
+      "step": 16670
+    },
+    {
+      "epoch": 0.8147460484205897,
+      "grad_norm": 0.0016979691572487354,
+      "learning_rate": 0.18873940032997658,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 21627872,
+      "step": 16675
+    },
+    {
+      "epoch": 0.8149903500842841,
+      "grad_norm": 0.0007171880570240319,
+      "learning_rate": 0.18868249084518693,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 21634560,
+      "step": 16680
+    },
+    {
+      "epoch": 0.8152346517479784,
+      "grad_norm": 0.001158380415290594,
+      "learning_rate": 0.18862557539507102,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 21640960,
+      "step": 16685
+    },
+    {
+      "epoch": 0.8154789534116728,
+      "grad_norm": 0.0012445999309420586,
+      "learning_rate": 0.18856865398840605,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 21646976,
+      "step": 16690
+    },
+    {
+      "epoch": 0.815723255075367,
+      "grad_norm": 0.001033117761835456,
+      "learning_rate": 0.18851172663396995,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 21653440,
+      "step": 16695
+    },
+    {
+      "epoch": 0.8159675567390614,
+      "grad_norm": 0.0021194766741245985,
+      "learning_rate": 0.1884547933405416,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 21659776,
+      "step": 16700
+    },
+    {
+      "epoch": 0.8162118584027557,
+      "grad_norm": 0.0007428288226947188,
+      "learning_rate": 0.1883978541169009,
+      "loss": 0.087,
+      "num_input_tokens_seen": 21666272,
+      "step": 16705
+    },
+    {
+      "epoch": 0.81645616006645,
+      "grad_norm": 0.001122209825553,
+      "learning_rate": 0.18834090897182854,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 21672640,
+      "step": 16710
+    },
+    {
+      "epoch": 0.8167004617301444,
+      "grad_norm": 0.0008840240770950913,
+      "learning_rate": 0.1882839579141062,
+      "loss": 0.108,
+      "num_input_tokens_seen": 21678848,
+      "step": 16715
+    },
+    {
+      "epoch": 0.8169447633938387,
+      "grad_norm": 0.001513768802396953,
+      "learning_rate": 0.18822700095251646,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 21685152,
+      "step": 16720
+    },
+    {
+      "epoch": 0.8171890650575331,
+      "grad_norm": 0.0015589771792292595,
+      "learning_rate": 0.18817003809584273,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 21692064,
+      "step": 16725
+    },
+    {
+      "epoch": 0.8174333667212274,
+      "grad_norm": 0.0010501215001568198,
+      "learning_rate": 0.1881130693528695,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 21698432,
+      "step": 16730
+    },
+    {
+      "epoch": 0.8176776683849217,
+      "grad_norm": 0.0009075297857634723,
+      "learning_rate": 0.18805609473238197,
+      "loss": 0.106,
+      "num_input_tokens_seen": 21705088,
+      "step": 16735
+    },
+    {
+      "epoch": 0.817921970048616,
+      "grad_norm": 0.0009181052446365356,
+      "learning_rate": 0.18799911424316643,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 21711712,
+      "step": 16740
+    },
+    {
+      "epoch": 0.8181662717123104,
+      "grad_norm": 0.0009607138927094638,
+      "learning_rate": 0.18794212789400994,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 21718432,
+      "step": 16745
+    },
+    {
+      "epoch": 0.8184105733760046,
+      "grad_norm": 0.0017339674523100257,
+      "learning_rate": 0.18788513569370052,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 21724800,
+      "step": 16750
+    },
+    {
+      "epoch": 0.818654875039699,
+      "grad_norm": 0.000926917651668191,
+      "learning_rate": 0.1878281376510271,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 21731264,
+      "step": 16755
+    },
+    {
+      "epoch": 0.8188991767033934,
+      "grad_norm": 0.001195400720462203,
+      "learning_rate": 0.18777113377477941,
+      "loss": 0.095,
+      "num_input_tokens_seen": 21737568,
+      "step": 16760
+    },
+    {
+      "epoch": 0.8191434783670877,
+      "grad_norm": 0.0010377186117693782,
+      "learning_rate": 0.1877141240737483,
+      "loss": 0.093,
+      "num_input_tokens_seen": 21743936,
+      "step": 16765
+    },
+    {
+      "epoch": 0.819387780030782,
+      "grad_norm": 0.0012795700458809733,
+      "learning_rate": 0.18765710855672527,
+      "loss": 0.095,
+      "num_input_tokens_seen": 21751040,
+      "step": 16770
+    },
+    {
+      "epoch": 0.8196320816944763,
+      "grad_norm": 0.0014428958529606462,
+      "learning_rate": 0.18760008723250288,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 21757312,
+      "step": 16775
+    },
+    {
+      "epoch": 0.8198763833581707,
+      "grad_norm": 0.0007904673111625016,
+      "learning_rate": 0.18754306010987457,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 21763424,
+      "step": 16780
+    },
+    {
+      "epoch": 0.820120685021865,
+      "grad_norm": 0.0020543814171105623,
+      "learning_rate": 0.18748602719763457,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 21769504,
+      "step": 16785
+    },
+    {
+      "epoch": 0.8203649866855593,
+      "grad_norm": 0.0012502263998612761,
+      "learning_rate": 0.18742898850457804,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 21775936,
+      "step": 16790
+    },
+    {
+      "epoch": 0.8206092883492536,
+      "grad_norm": 0.0007043506484478712,
+      "learning_rate": 0.1873719440395012,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 21782560,
+      "step": 16795
+    },
+    {
+      "epoch": 0.820853590012948,
+      "grad_norm": 0.000517923675943166,
+      "learning_rate": 0.1873148938112009,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 21788384,
+      "step": 16800
+    },
+    {
+      "epoch": 0.820853590012948,
+      "eval_loss": 0.10469167679548264,
+      "eval_runtime": 402.632,
+      "eval_samples_per_second": 90.368,
+      "eval_steps_per_second": 22.594,
+      "num_input_tokens_seen": 21788384,
+      "step": 16800
+    },
+    {
+      "epoch": 0.8210978916766423,
+      "grad_norm": 0.0009373110951855779,
+      "learning_rate": 0.18725783782847508,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 21794944,
+      "step": 16805
+    },
+    {
+      "epoch": 0.8213421933403366,
+      "grad_norm": 0.0007497326005250216,
+      "learning_rate": 0.1872007761001224,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 21801664,
+      "step": 16810
+    },
+    {
+      "epoch": 0.821586495004031,
+      "grad_norm": 0.001502069178968668,
+      "learning_rate": 0.1871437086349426,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 21807872,
+      "step": 16815
+    },
+    {
+      "epoch": 0.8218307966677253,
+      "grad_norm": 0.0012109157396480441,
+      "learning_rate": 0.18708663544173615,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 21814432,
+      "step": 16820
+    },
+    {
+      "epoch": 0.8220750983314197,
+      "grad_norm": 0.000964490172918886,
+      "learning_rate": 0.18702955652930442,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 21820896,
+      "step": 16825
+    },
+    {
+      "epoch": 0.8223193999951139,
+      "grad_norm": 0.0011809486895799637,
+      "learning_rate": 0.18697247190644972,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 21827168,
+      "step": 16830
+    },
+    {
+      "epoch": 0.8225637016588083,
+      "grad_norm": 0.0013292429503053427,
+      "learning_rate": 0.18691538158197527,
+      "loss": 0.1,
+      "num_input_tokens_seen": 21833728,
+      "step": 16835
+    },
+    {
+      "epoch": 0.8228080033225026,
+      "grad_norm": 0.001564305741339922,
+      "learning_rate": 0.1868582855646851,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 21839968,
+      "step": 16840
+    },
+    {
+      "epoch": 0.823052304986197,
+      "grad_norm": 0.0009694506879895926,
+      "learning_rate": 0.18680118386338404,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 21846432,
+      "step": 16845
+    },
+    {
+      "epoch": 0.8232966066498912,
+      "grad_norm": 0.0010340071748942137,
+      "learning_rate": 0.18674407648687794,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 21852608,
+      "step": 16850
+    },
+    {
+      "epoch": 0.8235409083135856,
+      "grad_norm": 0.00123350671492517,
+      "learning_rate": 0.1866869634439736,
+      "loss": 0.1322,
+      "num_input_tokens_seen": 21858912,
+      "step": 16855
+    },
+    {
+      "epoch": 0.82378520997728,
+      "grad_norm": 0.0013617750955745578,
+      "learning_rate": 0.18662984474347838,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 21865440,
+      "step": 16860
+    },
+    {
+      "epoch": 0.8240295116409743,
+      "grad_norm": 0.0014885287964716554,
+      "learning_rate": 0.1865727203942008,
+      "loss": 0.0915,
+      "num_input_tokens_seen": 21871776,
+      "step": 16865
+    },
+    {
+      "epoch": 0.8242738133046686,
+      "grad_norm": 0.0012869597412645817,
+      "learning_rate": 0.1865155904049501,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 21877856,
+      "step": 16870
+    },
+    {
+      "epoch": 0.8245181149683629,
+      "grad_norm": 0.0007502001826651394,
+      "learning_rate": 0.1864584547845365,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 21884192,
+      "step": 16875
+    },
+    {
+      "epoch": 0.8247624166320573,
+      "grad_norm": 0.0010703742736950517,
+      "learning_rate": 0.186401313541771,
+      "loss": 0.111,
+      "num_input_tokens_seen": 21890944,
+      "step": 16880
+    },
+    {
+      "epoch": 0.8250067182957516,
+      "grad_norm": 0.0016990953590720892,
+      "learning_rate": 0.18634416668546552,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 21897536,
+      "step": 16885
+    },
+    {
+      "epoch": 0.8252510199594459,
+      "grad_norm": 0.0010923153022304177,
+      "learning_rate": 0.1862870142244328,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 21904192,
+      "step": 16890
+    },
+    {
+      "epoch": 0.8254953216231402,
+      "grad_norm": 0.0014199558645486832,
+      "learning_rate": 0.1862298561674865,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 21910560,
+      "step": 16895
+    },
+    {
+      "epoch": 0.8257396232868346,
+      "grad_norm": 0.001702694920822978,
+      "learning_rate": 0.18617269252344104,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 21916928,
+      "step": 16900
+    },
+    {
+      "epoch": 0.8259839249505289,
+      "grad_norm": 0.0007763081812299788,
+      "learning_rate": 0.18611552330111186,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 21923264,
+      "step": 16905
+    },
+    {
+      "epoch": 0.8262282266142232,
+      "grad_norm": 0.0015705700498074293,
+      "learning_rate": 0.18605834850931507,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 21929888,
+      "step": 16910
+    },
+    {
+      "epoch": 0.8264725282779176,
+      "grad_norm": 0.001093815895728767,
+      "learning_rate": 0.18600116815686787,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 21936576,
+      "step": 16915
+    },
+    {
+      "epoch": 0.8267168299416119,
+      "grad_norm": 0.0007145747076719999,
+      "learning_rate": 0.1859439822525881,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 21942848,
+      "step": 16920
+    },
+    {
+      "epoch": 0.8269611316053063,
+      "grad_norm": 0.0012240047799423337,
+      "learning_rate": 0.18588679080529455,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 21949184,
+      "step": 16925
+    },
+    {
+      "epoch": 0.8272054332690005,
+      "grad_norm": 0.00109349365811795,
+      "learning_rate": 0.1858295938238069,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 21956096,
+      "step": 16930
+    },
+    {
+      "epoch": 0.8274497349326949,
+      "grad_norm": 0.0011158449342474341,
+      "learning_rate": 0.18577239131694562,
+      "loss": 0.1322,
+      "num_input_tokens_seen": 21962752,
+      "step": 16935
+    },
+    {
+      "epoch": 0.8276940365963892,
+      "grad_norm": 0.0013526866678148508,
+      "learning_rate": 0.18571518329353204,
+      "loss": 0.108,
+      "num_input_tokens_seen": 21968832,
+      "step": 16940
+    },
+    {
+      "epoch": 0.8279383382600836,
+      "grad_norm": 0.0012275681365281343,
+      "learning_rate": 0.18565796976238838,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 21974944,
+      "step": 16945
+    },
+    {
+      "epoch": 0.8281826399237778,
+      "grad_norm": 0.0008314584847539663,
+      "learning_rate": 0.18560075073233764,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 21981568,
+      "step": 16950
+    },
+    {
+      "epoch": 0.8284269415874722,
+      "grad_norm": 0.0008963873842731118,
+      "learning_rate": 0.18554352621220377,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 21988640,
+      "step": 16955
+    },
+    {
+      "epoch": 0.8286712432511666,
+      "grad_norm": 0.0010320756118744612,
+      "learning_rate": 0.18548629621081153,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 21995264,
+      "step": 16960
+    },
+    {
+      "epoch": 0.8289155449148609,
+      "grad_norm": 0.0016006234800443053,
+      "learning_rate": 0.18542906073698645,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 22001248,
+      "step": 16965
+    },
+    {
+      "epoch": 0.8291598465785552,
+      "grad_norm": 0.0009842050494626164,
+      "learning_rate": 0.18537181979955494,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 22007328,
+      "step": 16970
+    },
+    {
+      "epoch": 0.8294041482422495,
+      "grad_norm": 0.001006507663987577,
+      "learning_rate": 0.18531457340734434,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 22013760,
+      "step": 16975
+    },
+    {
+      "epoch": 0.8296484499059439,
+      "grad_norm": 0.0014101857086643577,
+      "learning_rate": 0.1852573215691827,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 22020256,
+      "step": 16980
+    },
+    {
+      "epoch": 0.8298927515696382,
+      "grad_norm": 0.0014858419308438897,
+      "learning_rate": 0.18520006429389904,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 22026624,
+      "step": 16985
+    },
+    {
+      "epoch": 0.8301370532333325,
+      "grad_norm": 0.0013130364241078496,
+      "learning_rate": 0.1851428015903231,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 22032800,
+      "step": 16990
+    },
+    {
+      "epoch": 0.8303813548970268,
+      "grad_norm": 0.0010369418887421489,
+      "learning_rate": 0.1850855334672855,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 22039264,
+      "step": 16995
+    },
+    {
+      "epoch": 0.8306256565607212,
+      "grad_norm": 0.0011605763575062156,
+      "learning_rate": 0.1850282599336178,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 22045600,
+      "step": 17000
+    },
+    {
+      "epoch": 0.8306256565607212,
+      "eval_loss": 0.10154983401298523,
+      "eval_runtime": 402.731,
+      "eval_samples_per_second": 90.346,
+      "eval_steps_per_second": 22.588,
+      "num_input_tokens_seen": 22045600,
+      "step": 17000
+    },
+    {
+      "epoch": 0.8308699582244156,
+      "grad_norm": 0.001355719636194408,
+      "learning_rate": 0.18497098099815215,
+      "loss": 0.1252,
+      "num_input_tokens_seen": 22051904,
+      "step": 17005
+    },
+    {
+      "epoch": 0.8311142598881098,
+      "grad_norm": 0.0016480369959026575,
+      "learning_rate": 0.18491369666972174,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 22058528,
+      "step": 17010
+    },
+    {
+      "epoch": 0.8313585615518042,
+      "grad_norm": 0.001086199888959527,
+      "learning_rate": 0.1848564069571606,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 22065408,
+      "step": 17015
+    },
+    {
+      "epoch": 0.8316028632154985,
+      "grad_norm": 0.0009097747388295829,
+      "learning_rate": 0.18479911186930348,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 22071680,
+      "step": 17020
+    },
+    {
+      "epoch": 0.8318471648791929,
+      "grad_norm": 0.0018615551525726914,
+      "learning_rate": 0.18474181141498597,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 22078144,
+      "step": 17025
+    },
+    {
+      "epoch": 0.8320914665428871,
+      "grad_norm": 0.0012526497012004256,
+      "learning_rate": 0.18468450560304453,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 22084512,
+      "step": 17030
+    },
+    {
+      "epoch": 0.8323357682065815,
+      "grad_norm": 0.0009159085457213223,
+      "learning_rate": 0.1846271944423165,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 22090816,
+      "step": 17035
+    },
+    {
+      "epoch": 0.8325800698702758,
+      "grad_norm": 0.0008768619736656547,
+      "learning_rate": 0.18456987794163993,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 22097248,
+      "step": 17040
+    },
+    {
+      "epoch": 0.8328243715339702,
+      "grad_norm": 0.0009028617641888559,
+      "learning_rate": 0.18451255610985373,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 22103360,
+      "step": 17045
+    },
+    {
+      "epoch": 0.8330686731976644,
+      "grad_norm": 0.0012691965093836188,
+      "learning_rate": 0.18445522895579766,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 22109568,
+      "step": 17050
+    },
+    {
+      "epoch": 0.8333129748613588,
+      "grad_norm": 0.000674959272146225,
+      "learning_rate": 0.1843978964883123,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 22115968,
+      "step": 17055
+    },
+    {
+      "epoch": 0.8335572765250532,
+      "grad_norm": 0.0011496428633108735,
+      "learning_rate": 0.18434055871623906,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 22122240,
+      "step": 17060
+    },
+    {
+      "epoch": 0.8338015781887474,
+      "grad_norm": 0.0019191191531717777,
+      "learning_rate": 0.18428321564842007,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 22129280,
+      "step": 17065
+    },
+    {
+      "epoch": 0.8340458798524418,
+      "grad_norm": 0.0011215067934244871,
+      "learning_rate": 0.18422586729369841,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 22135264,
+      "step": 17070
+    },
+    {
+      "epoch": 0.8342901815161361,
+      "grad_norm": 0.0015695752808824182,
+      "learning_rate": 0.1841685136609179,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 22141824,
+      "step": 17075
+    },
+    {
+      "epoch": 0.8345344831798305,
+      "grad_norm": 0.000875564175657928,
+      "learning_rate": 0.18411115475892326,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 22147840,
+      "step": 17080
+    },
+    {
+      "epoch": 0.8347787848435247,
+      "grad_norm": 0.0011298086028546095,
+      "learning_rate": 0.18405379059655982,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 22154496,
+      "step": 17085
+    },
+    {
+      "epoch": 0.8350230865072191,
+      "grad_norm": 0.0007289340137504041,
+      "learning_rate": 0.1839964211826739,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 22161184,
+      "step": 17090
+    },
+    {
+      "epoch": 0.8352673881709134,
+      "grad_norm": 0.000942873302847147,
+      "learning_rate": 0.18393904652611265,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 22167840,
+      "step": 17095
+    },
+    {
+      "epoch": 0.8355116898346078,
+      "grad_norm": 0.0008676146971993148,
+      "learning_rate": 0.18388166663572392,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 22173824,
+      "step": 17100
+    },
+    {
+      "epoch": 0.8357559914983022,
+      "grad_norm": 0.0012650835560634732,
+      "learning_rate": 0.18382428152035643,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 22180576,
+      "step": 17105
+    },
+    {
+      "epoch": 0.8360002931619964,
+      "grad_norm": 0.0013618589146062732,
+      "learning_rate": 0.1837668911888596,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 22187424,
+      "step": 17110
+    },
+    {
+      "epoch": 0.8362445948256908,
+      "grad_norm": 0.0018439808627590537,
+      "learning_rate": 0.18370949565008388,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 22193568,
+      "step": 17115
+    },
+    {
+      "epoch": 0.8364888964893851,
+      "grad_norm": 0.0010952359298244119,
+      "learning_rate": 0.1836520949128803,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 22199968,
+      "step": 17120
+    },
+    {
+      "epoch": 0.8367331981530794,
+      "grad_norm": 0.0014886059798300266,
+      "learning_rate": 0.18359468898610076,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 22206496,
+      "step": 17125
+    },
+    {
+      "epoch": 0.8369774998167737,
+      "grad_norm": 0.0018095406703650951,
+      "learning_rate": 0.18353727787859797,
+      "loss": 0.126,
+      "num_input_tokens_seen": 22212928,
+      "step": 17130
+    },
+    {
+      "epoch": 0.8372218014804681,
+      "grad_norm": 0.0013352453242987394,
+      "learning_rate": 0.18347986159922552,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 22220032,
+      "step": 17135
+    },
+    {
+      "epoch": 0.8374661031441624,
+      "grad_norm": 0.0011292354902252555,
+      "learning_rate": 0.1834224401568377,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 22226016,
+      "step": 17140
+    },
+    {
+      "epoch": 0.8377104048078567,
+      "grad_norm": 0.0009545779903419316,
+      "learning_rate": 0.1833650135602896,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 22232224,
+      "step": 17145
+    },
+    {
+      "epoch": 0.8379547064715511,
+      "grad_norm": 0.0020334243308752775,
+      "learning_rate": 0.18330758181843707,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 22238464,
+      "step": 17150
+    },
+    {
+      "epoch": 0.8381990081352454,
+      "grad_norm": 0.0011899527162313461,
+      "learning_rate": 0.18325014494013686,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 22244512,
+      "step": 17155
+    },
+    {
+      "epoch": 0.8384433097989398,
+      "grad_norm": 0.0012869302881881595,
+      "learning_rate": 0.18319270293424647,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 22251328,
+      "step": 17160
+    },
+    {
+      "epoch": 0.838687611462634,
+      "grad_norm": 0.0012457637349143624,
+      "learning_rate": 0.18313525580962417,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 22257888,
+      "step": 17165
+    },
+    {
+      "epoch": 0.8389319131263284,
+      "grad_norm": 0.0013576822821050882,
+      "learning_rate": 0.18307780357512896,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 22264544,
+      "step": 17170
+    },
+    {
+      "epoch": 0.8391762147900227,
+      "grad_norm": 0.0015651665162295103,
+      "learning_rate": 0.1830203462396208,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 22271328,
+      "step": 17175
+    },
+    {
+      "epoch": 0.8394205164537171,
+      "grad_norm": 0.000798265275079757,
+      "learning_rate": 0.18296288381196033,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 22278016,
+      "step": 17180
+    },
+    {
+      "epoch": 0.8396648181174113,
+      "grad_norm": 0.0016458200989291072,
+      "learning_rate": 0.1829054163010089,
+      "loss": 0.1,
+      "num_input_tokens_seen": 22284544,
+      "step": 17185
+    },
+    {
+      "epoch": 0.8399091197811057,
+      "grad_norm": 0.0011667523067444563,
+      "learning_rate": 0.18284794371562874,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 22291072,
+      "step": 17190
+    },
+    {
+      "epoch": 0.8401534214448,
+      "grad_norm": 0.0011990853818133473,
+      "learning_rate": 0.18279046606468288,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 22297216,
+      "step": 17195
+    },
+    {
+      "epoch": 0.8403977231084944,
+      "grad_norm": 0.0010203799465671182,
+      "learning_rate": 0.1827329833570351,
+      "loss": 0.089,
+      "num_input_tokens_seen": 22303808,
+      "step": 17200
+    },
+    {
+      "epoch": 0.8403977231084944,
+      "eval_loss": 0.10059717297554016,
+      "eval_runtime": 402.1412,
+      "eval_samples_per_second": 90.478,
+      "eval_steps_per_second": 22.621,
+      "num_input_tokens_seen": 22303808,
+      "step": 17200
+    },
+    {
+      "epoch": 0.8406420247721887,
+      "grad_norm": 0.0010918519692495465,
+      "learning_rate": 0.18267549560154991,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 22310272,
+      "step": 17205
+    },
+    {
+      "epoch": 0.840886326435883,
+      "grad_norm": 0.0009949643863365054,
+      "learning_rate": 0.18261800280709267,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 22316640,
+      "step": 17210
+    },
+    {
+      "epoch": 0.8411306280995774,
+      "grad_norm": 0.0009817165555432439,
+      "learning_rate": 0.18256050498252957,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 22323872,
+      "step": 17215
+    },
+    {
+      "epoch": 0.8413749297632717,
+      "grad_norm": 0.0009013881208375096,
+      "learning_rate": 0.18250300213672735,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 22330080,
+      "step": 17220
+    },
+    {
+      "epoch": 0.841619231426966,
+      "grad_norm": 0.0008223050972446799,
+      "learning_rate": 0.18244549427855378,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 22336320,
+      "step": 17225
+    },
+    {
+      "epoch": 0.8418635330906603,
+      "grad_norm": 0.001343710464425385,
+      "learning_rate": 0.1823879814168772,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 22342688,
+      "step": 17230
+    },
+    {
+      "epoch": 0.8421078347543547,
+      "grad_norm": 0.0008468664600513875,
+      "learning_rate": 0.18233046356056692,
+      "loss": 0.096,
+      "num_input_tokens_seen": 22348992,
+      "step": 17235
+    },
+    {
+      "epoch": 0.842352136418049,
+      "grad_norm": 0.0008437005453743041,
+      "learning_rate": 0.18227294071849284,
+      "loss": 0.102,
+      "num_input_tokens_seen": 22355552,
+      "step": 17240
+    },
+    {
+      "epoch": 0.8425964380817433,
+      "grad_norm": 0.0012129091192036867,
+      "learning_rate": 0.18221541289952578,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 22362528,
+      "step": 17245
+    },
+    {
+      "epoch": 0.8428407397454377,
+      "grad_norm": 0.0022569752763956785,
+      "learning_rate": 0.18215788011253717,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 22369280,
+      "step": 17250
+    },
+    {
+      "epoch": 0.843085041409132,
+      "grad_norm": 0.0011304912623018026,
+      "learning_rate": 0.18210034236639935,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 22376096,
+      "step": 17255
+    },
+    {
+      "epoch": 0.8433293430728264,
+      "grad_norm": 0.001540794619359076,
+      "learning_rate": 0.1820427996699853,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 22382528,
+      "step": 17260
+    },
+    {
+      "epoch": 0.8435736447365206,
+      "grad_norm": 0.0018824859289452434,
+      "learning_rate": 0.1819852520321689,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 22388768,
+      "step": 17265
+    },
+    {
+      "epoch": 0.843817946400215,
+      "grad_norm": 0.0027522281743586063,
+      "learning_rate": 0.18192769946182466,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 22395328,
+      "step": 17270
+    },
+    {
+      "epoch": 0.8440622480639093,
+      "grad_norm": 0.0012321349931880832,
+      "learning_rate": 0.18187014196782794,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 22401792,
+      "step": 17275
+    },
+    {
+      "epoch": 0.8443065497276037,
+      "grad_norm": 0.0012179380282759666,
+      "learning_rate": 0.18181257955905486,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 22408832,
+      "step": 17280
+    },
+    {
+      "epoch": 0.8445508513912979,
+      "grad_norm": 0.0008465931168757379,
+      "learning_rate": 0.18175501224438217,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 22415264,
+      "step": 17285
+    },
+    {
+      "epoch": 0.8447951530549923,
+      "grad_norm": 0.0010317414999008179,
+      "learning_rate": 0.18169744003268756,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 22421600,
+      "step": 17290
+    },
+    {
+      "epoch": 0.8450394547186867,
+      "grad_norm": 0.0012693445896729827,
+      "learning_rate": 0.18163986293284937,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 22428096,
+      "step": 17295
+    },
+    {
+      "epoch": 0.845283756382381,
+      "grad_norm": 0.0023849254939705133,
+      "learning_rate": 0.18158228095374673,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 22434560,
+      "step": 17300
+    },
+    {
+      "epoch": 0.8455280580460753,
+      "grad_norm": 0.000962122343480587,
+      "learning_rate": 0.18152469410425945,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 22440576,
+      "step": 17305
+    },
+    {
+      "epoch": 0.8457723597097696,
+      "grad_norm": 0.0014891799073666334,
+      "learning_rate": 0.18146710239326813,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 22447104,
+      "step": 17310
+    },
+    {
+      "epoch": 0.846016661373464,
+      "grad_norm": 0.0012012326624244452,
+      "learning_rate": 0.18140950582965423,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 22453440,
+      "step": 17315
+    },
+    {
+      "epoch": 0.8462609630371583,
+      "grad_norm": 0.0008964978042058647,
+      "learning_rate": 0.1813519044222998,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 22459584,
+      "step": 17320
+    },
+    {
+      "epoch": 0.8465052647008526,
+      "grad_norm": 0.0017495477804914117,
+      "learning_rate": 0.18129429818008772,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 22466112,
+      "step": 17325
+    },
+    {
+      "epoch": 0.8467495663645469,
+      "grad_norm": 0.000792598002590239,
+      "learning_rate": 0.18123668711190163,
+      "loss": 0.108,
+      "num_input_tokens_seen": 22472768,
+      "step": 17330
+    },
+    {
+      "epoch": 0.8469938680282413,
+      "grad_norm": 0.0017144136363640428,
+      "learning_rate": 0.18117907122662583,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 22479232,
+      "step": 17335
+    },
+    {
+      "epoch": 0.8472381696919355,
+      "grad_norm": 0.0018728113500401378,
+      "learning_rate": 0.1811214505331454,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 22485888,
+      "step": 17340
+    },
+    {
+      "epoch": 0.8474824713556299,
+      "grad_norm": 0.0016248130705207586,
+      "learning_rate": 0.1810638250403462,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 22491904,
+      "step": 17345
+    },
+    {
+      "epoch": 0.8477267730193243,
+      "grad_norm": 0.0010431921109557152,
+      "learning_rate": 0.1810061947571148,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 22498016,
+      "step": 17350
+    },
+    {
+      "epoch": 0.8479710746830186,
+      "grad_norm": 0.000896542682312429,
+      "learning_rate": 0.1809485596923385,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 22504192,
+      "step": 17355
+    },
+    {
+      "epoch": 0.848215376346713,
+      "grad_norm": 0.000598429178353399,
+      "learning_rate": 0.18089091985490546,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 22510496,
+      "step": 17360
+    },
+    {
+      "epoch": 0.8484596780104072,
+      "grad_norm": 0.0014486615546047688,
+      "learning_rate": 0.18083327525370432,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 22516800,
+      "step": 17365
+    },
+    {
+      "epoch": 0.8487039796741016,
+      "grad_norm": 0.0007049728883430362,
+      "learning_rate": 0.18077562589762464,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 22523168,
+      "step": 17370
+    },
+    {
+      "epoch": 0.8489482813377959,
+      "grad_norm": 0.0011834875913336873,
+      "learning_rate": 0.1807179717955567,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 22529856,
+      "step": 17375
+    },
+    {
+      "epoch": 0.8491925830014903,
+      "grad_norm": 0.0010023314971476793,
+      "learning_rate": 0.1806603129563915,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 22536192,
+      "step": 17380
+    },
+    {
+      "epoch": 0.8494368846651845,
+      "grad_norm": 0.001318457187153399,
+      "learning_rate": 0.1806026493890208,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 22542848,
+      "step": 17385
+    },
+    {
+      "epoch": 0.8496811863288789,
+      "grad_norm": 0.00129300681874156,
+      "learning_rate": 0.18054498110233688,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 22549312,
+      "step": 17390
+    },
+    {
+      "epoch": 0.8499254879925733,
+      "grad_norm": 0.0011321650817990303,
+      "learning_rate": 0.1804873081052331,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 22556032,
+      "step": 17395
+    },
+    {
+      "epoch": 0.8501697896562675,
+      "grad_norm": 0.0009337373194284737,
+      "learning_rate": 0.18042963040660326,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 22562496,
+      "step": 17400
+    },
+    {
+      "epoch": 0.8501697896562675,
+      "eval_loss": 0.10001740604639053,
+      "eval_runtime": 402.649,
+      "eval_samples_per_second": 90.364,
+      "eval_steps_per_second": 22.593,
+      "num_input_tokens_seen": 22562496,
+      "step": 17400
+    },
+    {
+      "epoch": 0.8504140913199619,
+      "grad_norm": 0.001261001219972968,
+      "learning_rate": 0.180371948015342,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 22568864,
+      "step": 17405
+    },
+    {
+      "epoch": 0.8506583929836562,
+      "grad_norm": 0.0009654082241468132,
+      "learning_rate": 0.18031426094034472,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 22575328,
+      "step": 17410
+    },
+    {
+      "epoch": 0.8509026946473506,
+      "grad_norm": 0.0010676439851522446,
+      "learning_rate": 0.18025656919050737,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 22582048,
+      "step": 17415
+    },
+    {
+      "epoch": 0.8511469963110448,
+      "grad_norm": 0.0011191746452823281,
+      "learning_rate": 0.18019887277472688,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 22588256,
+      "step": 17420
+    },
+    {
+      "epoch": 0.8513912979747392,
+      "grad_norm": 0.002137997653335333,
+      "learning_rate": 0.18014117170190067,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 22594880,
+      "step": 17425
+    },
+    {
+      "epoch": 0.8516355996384335,
+      "grad_norm": 0.0012763352133333683,
+      "learning_rate": 0.18008346598092703,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 22601376,
+      "step": 17430
+    },
+    {
+      "epoch": 0.8518799013021279,
+      "grad_norm": 0.0010515436297282577,
+      "learning_rate": 0.18002575562070489,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 22608032,
+      "step": 17435
+    },
+    {
+      "epoch": 0.8521242029658221,
+      "grad_norm": 0.0011224944610148668,
+      "learning_rate": 0.1799680406301339,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 22614752,
+      "step": 17440
+    },
+    {
+      "epoch": 0.8523685046295165,
+      "grad_norm": 0.0015787755837664008,
+      "learning_rate": 0.17991032101811447,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 22621056,
+      "step": 17445
+    },
+    {
+      "epoch": 0.8526128062932109,
+      "grad_norm": 0.0018486428307369351,
+      "learning_rate": 0.1798525967935476,
+      "loss": 0.1328,
+      "num_input_tokens_seen": 22627584,
+      "step": 17450
+    },
+    {
+      "epoch": 0.8528571079569052,
+      "grad_norm": 0.001061272923834622,
+      "learning_rate": 0.17979486796533517,
+      "loss": 0.092,
+      "num_input_tokens_seen": 22633888,
+      "step": 17455
+    },
+    {
+      "epoch": 0.8531014096205995,
+      "grad_norm": 0.0011801565997302532,
+      "learning_rate": 0.1797371345423797,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 22640480,
+      "step": 17460
+    },
+    {
+      "epoch": 0.8533457112842938,
+      "grad_norm": 0.0007609779131598771,
+      "learning_rate": 0.17967939653358436,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 22647200,
+      "step": 17465
+    },
+    {
+      "epoch": 0.8535900129479882,
+      "grad_norm": 0.0008197049610316753,
+      "learning_rate": 0.17962165394785315,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 22653280,
+      "step": 17470
+    },
+    {
+      "epoch": 0.8538343146116825,
+      "grad_norm": 0.0010261666029691696,
+      "learning_rate": 0.17956390679409057,
+      "loss": 0.112,
+      "num_input_tokens_seen": 22659552,
+      "step": 17475
+    },
+    {
+      "epoch": 0.8540786162753768,
+      "grad_norm": 0.0013354889815673232,
+      "learning_rate": 0.1795061550812021,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 22666688,
+      "step": 17480
+    },
+    {
+      "epoch": 0.8543229179390711,
+      "grad_norm": 0.0011447608703747392,
+      "learning_rate": 0.1794483988180937,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 22672960,
+      "step": 17485
+    },
+    {
+      "epoch": 0.8545672196027655,
+      "grad_norm": 0.0015280620427802205,
+      "learning_rate": 0.17939063801367214,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 22679264,
+      "step": 17490
+    },
+    {
+      "epoch": 0.8548115212664599,
+      "grad_norm": 0.0009322873665951192,
+      "learning_rate": 0.17933287267684483,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 22686528,
+      "step": 17495
+    },
+    {
+      "epoch": 0.8550558229301541,
+      "grad_norm": 0.0008819569484330714,
+      "learning_rate": 0.17927510281651995,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 22692640,
+      "step": 17500
+    },
+    {
+      "epoch": 0.8553001245938485,
+      "grad_norm": 0.0006247460842132568,
+      "learning_rate": 0.17921732844160634,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 22699392,
+      "step": 17505
+    },
+    {
+      "epoch": 0.8555444262575428,
+      "grad_norm": 0.0009700792143121362,
+      "learning_rate": 0.17915954956101351,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 22705824,
+      "step": 17510
+    },
+    {
+      "epoch": 0.8557887279212372,
+      "grad_norm": 0.0011568529298529029,
+      "learning_rate": 0.17910176618365165,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 22712320,
+      "step": 17515
+    },
+    {
+      "epoch": 0.8560330295849314,
+      "grad_norm": 0.001209837500937283,
+      "learning_rate": 0.17904397831843177,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 22718720,
+      "step": 17520
+    },
+    {
+      "epoch": 0.8562773312486258,
+      "grad_norm": 0.0017048829467967153,
+      "learning_rate": 0.17898618597426547,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 22725024,
+      "step": 17525
+    },
+    {
+      "epoch": 0.8565216329123201,
+      "grad_norm": 0.0016811022069305182,
+      "learning_rate": 0.17892838916006495,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 22731488,
+      "step": 17530
+    },
+    {
+      "epoch": 0.8567659345760145,
+      "grad_norm": 0.0011322357458993793,
+      "learning_rate": 0.17887058788474333,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 22737952,
+      "step": 17535
+    },
+    {
+      "epoch": 0.8570102362397088,
+      "grad_norm": 0.0013453017454594374,
+      "learning_rate": 0.17881278215721427,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 22744256,
+      "step": 17540
+    },
+    {
+      "epoch": 0.8572545379034031,
+      "grad_norm": 0.0019411672838032246,
+      "learning_rate": 0.1787549719863921,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 22750688,
+      "step": 17545
+    },
+    {
+      "epoch": 0.8574988395670975,
+      "grad_norm": 0.0010220528347417712,
+      "learning_rate": 0.17869715738119188,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 22756704,
+      "step": 17550
+    },
+    {
+      "epoch": 0.8577431412307918,
+      "grad_norm": 0.0007568321889266372,
+      "learning_rate": 0.17863933835052936,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 22762848,
+      "step": 17555
+    },
+    {
+      "epoch": 0.8579874428944861,
+      "grad_norm": 0.0005837763310410082,
+      "learning_rate": 0.17858151490332097,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 22769216,
+      "step": 17560
+    },
+    {
+      "epoch": 0.8582317445581804,
+      "grad_norm": 0.0015011039795354009,
+      "learning_rate": 0.17852368704848381,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 22775648,
+      "step": 17565
+    },
+    {
+      "epoch": 0.8584760462218748,
+      "grad_norm": 0.0008893508347682655,
+      "learning_rate": 0.17846585479493565,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 22782016,
+      "step": 17570
+    },
+    {
+      "epoch": 0.8587203478855691,
+      "grad_norm": 0.0012076256098225713,
+      "learning_rate": 0.178408018151595,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 22788448,
+      "step": 17575
+    },
+    {
+      "epoch": 0.8589646495492634,
+      "grad_norm": 0.0019219410605728626,
+      "learning_rate": 0.17835017712738085,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 22794816,
+      "step": 17580
+    },
+    {
+      "epoch": 0.8592089512129577,
+      "grad_norm": 0.0009238149505108595,
+      "learning_rate": 0.17829233173121323,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 22801536,
+      "step": 17585
+    },
+    {
+      "epoch": 0.8594532528766521,
+      "grad_norm": 0.0008604919421486557,
+      "learning_rate": 0.17823448197201244,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 22808224,
+      "step": 17590
+    },
+    {
+      "epoch": 0.8596975545403465,
+      "grad_norm": 0.0008287224918603897,
+      "learning_rate": 0.1781766278586997,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 22814400,
+      "step": 17595
+    },
+    {
+      "epoch": 0.8599418562040407,
+      "grad_norm": 0.0020857478957623243,
+      "learning_rate": 0.1781187694001969,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 22821376,
+      "step": 17600
+    },
+    {
+      "epoch": 0.8599418562040407,
+      "eval_loss": 0.1037045568227768,
+      "eval_runtime": 402.7753,
+      "eval_samples_per_second": 90.336,
+      "eval_steps_per_second": 22.586,
+      "num_input_tokens_seen": 22821376,
+      "step": 17600
+    },
+    {
+      "epoch": 0.8601861578677351,
+      "grad_norm": 0.0009975965367630124,
+      "learning_rate": 0.1780609066054265,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 22827840,
+      "step": 17605
+    },
+    {
+      "epoch": 0.8604304595314294,
+      "grad_norm": 0.0015268933493644,
+      "learning_rate": 0.17800303948331164,
+      "loss": 0.1125,
+      "num_input_tokens_seen": 22834144,
+      "step": 17610
+    },
+    {
+      "epoch": 0.8606747611951238,
+      "grad_norm": 0.0015686426777392626,
+      "learning_rate": 0.1779451680427762,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 22840864,
+      "step": 17615
+    },
+    {
+      "epoch": 0.860919062858818,
+      "grad_norm": 0.0011061789700761437,
+      "learning_rate": 0.17788729229274464,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 22847360,
+      "step": 17620
+    },
+    {
+      "epoch": 0.8611633645225124,
+      "grad_norm": 0.0007040568743832409,
+      "learning_rate": 0.17782941224214222,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 22854048,
+      "step": 17625
+    },
+    {
+      "epoch": 0.8614076661862067,
+      "grad_norm": 0.0011908886954188347,
+      "learning_rate": 0.17777152789989464,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 22860576,
+      "step": 17630
+    },
+    {
+      "epoch": 0.8616519678499011,
+      "grad_norm": 0.0029957403894513845,
+      "learning_rate": 0.17771363927492845,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 22867168,
+      "step": 17635
+    },
+    {
+      "epoch": 0.8618962695135954,
+      "grad_norm": 0.0013865355867892504,
+      "learning_rate": 0.17765574637617085,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 22873312,
+      "step": 17640
+    },
+    {
+      "epoch": 0.8621405711772897,
+      "grad_norm": 0.001481848070397973,
+      "learning_rate": 0.17759784921254962,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 22879840,
+      "step": 17645
+    },
+    {
+      "epoch": 0.8623848728409841,
+      "grad_norm": 0.0009298375225625932,
+      "learning_rate": 0.1775399477929932,
+      "loss": 0.084,
+      "num_input_tokens_seen": 22886528,
+      "step": 17650
+    },
+    {
+      "epoch": 0.8626291745046784,
+      "grad_norm": 0.0007625161670148373,
+      "learning_rate": 0.17748204212643076,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 22892704,
+      "step": 17655
+    },
+    {
+      "epoch": 0.8628734761683727,
+      "grad_norm": 0.0005585961043834686,
+      "learning_rate": 0.17742413222179204,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 22899104,
+      "step": 17660
+    },
+    {
+      "epoch": 0.863117777832067,
+      "grad_norm": 0.00197678548283875,
+      "learning_rate": 0.17736621808800754,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 22905728,
+      "step": 17665
+    },
+    {
+      "epoch": 0.8633620794957614,
+      "grad_norm": 0.0007598400115966797,
+      "learning_rate": 0.17730829973400827,
+      "loss": 0.09,
+      "num_input_tokens_seen": 22912096,
+      "step": 17670
+    },
+    {
+      "epoch": 0.8636063811594556,
+      "grad_norm": 0.0020493073388934135,
+      "learning_rate": 0.17725037716872602,
+      "loss": 0.1318,
+      "num_input_tokens_seen": 22918336,
+      "step": 17675
+    },
+    {
+      "epoch": 0.86385068282315,
+      "grad_norm": 0.001643909141421318,
+      "learning_rate": 0.17719245040109313,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 22925024,
+      "step": 17680
+    },
+    {
+      "epoch": 0.8640949844868444,
+      "grad_norm": 0.0008611989323981106,
+      "learning_rate": 0.17713451944004271,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 22931584,
+      "step": 17685
+    },
+    {
+      "epoch": 0.8643392861505387,
+      "grad_norm": 0.0010439656907692552,
+      "learning_rate": 0.17707658429450843,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 22938368,
+      "step": 17690
+    },
+    {
+      "epoch": 0.8645835878142331,
+      "grad_norm": 0.0015968783991411328,
+      "learning_rate": 0.1770186449734245,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 22945088,
+      "step": 17695
+    },
+    {
+      "epoch": 0.8648278894779273,
+      "grad_norm": 0.0010624118149280548,
+      "learning_rate": 0.17696070148572599,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 22951488,
+      "step": 17700
+    },
+    {
+      "epoch": 0.8650721911416217,
+      "grad_norm": 0.002043432556092739,
+      "learning_rate": 0.17690275384034856,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 22957888,
+      "step": 17705
+    },
+    {
+      "epoch": 0.865316492805316,
+      "grad_norm": 0.0014874530024826527,
+      "learning_rate": 0.17684480204622835,
+      "loss": 0.107,
+      "num_input_tokens_seen": 22964544,
+      "step": 17710
+    },
+    {
+      "epoch": 0.8655607944690104,
+      "grad_norm": 0.001311705564148724,
+      "learning_rate": 0.1767868461123023,
+      "loss": 0.097,
+      "num_input_tokens_seen": 22971328,
+      "step": 17715
+    },
+    {
+      "epoch": 0.8658050961327046,
+      "grad_norm": 0.0011263159103691578,
+      "learning_rate": 0.176728886047508,
+      "loss": 0.099,
+      "num_input_tokens_seen": 22977792,
+      "step": 17720
+    },
+    {
+      "epoch": 0.866049397796399,
+      "grad_norm": 0.0012308862060308456,
+      "learning_rate": 0.17667092186078362,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 22984128,
+      "step": 17725
+    },
+    {
+      "epoch": 0.8662936994600933,
+      "grad_norm": 0.001366287819109857,
+      "learning_rate": 0.17661295356106785,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 22990304,
+      "step": 17730
+    },
+    {
+      "epoch": 0.8665380011237876,
+      "grad_norm": 0.0010604987619444728,
+      "learning_rate": 0.1765549811573002,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 22996800,
+      "step": 17735
+    },
+    {
+      "epoch": 0.866782302787482,
+      "grad_norm": 0.00105076446197927,
+      "learning_rate": 0.17649700465842078,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 23003040,
+      "step": 17740
+    },
+    {
+      "epoch": 0.8670266044511763,
+      "grad_norm": 0.0009616142488084733,
+      "learning_rate": 0.17643902407337023,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 23009440,
+      "step": 17745
+    },
+    {
+      "epoch": 0.8672709061148707,
+      "grad_norm": 0.0012631191639229655,
+      "learning_rate": 0.17638103941108993,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 23015616,
+      "step": 17750
+    },
+    {
+      "epoch": 0.867515207778565,
+      "grad_norm": 0.0020245504565536976,
+      "learning_rate": 0.1763230506805218,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 23021824,
+      "step": 17755
+    },
+    {
+      "epoch": 0.8677595094422593,
+      "grad_norm": 0.0009547359077259898,
+      "learning_rate": 0.1762650578906085,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 23028448,
+      "step": 17760
+    },
+    {
+      "epoch": 0.8680038111059536,
+      "grad_norm": 0.0013802761677652597,
+      "learning_rate": 0.1762070610502932,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 23035168,
+      "step": 17765
+    },
+    {
+      "epoch": 0.868248112769648,
+      "grad_norm": 0.0015353499911725521,
+      "learning_rate": 0.17614906016851975,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 23041184,
+      "step": 17770
+    },
+    {
+      "epoch": 0.8684924144333422,
+      "grad_norm": 0.000657609780319035,
+      "learning_rate": 0.17609105525423258,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 23047968,
+      "step": 17775
+    },
+    {
+      "epoch": 0.8687367160970366,
+      "grad_norm": 0.0009132391423918307,
+      "learning_rate": 0.1760330463163768,
+      "loss": 0.096,
+      "num_input_tokens_seen": 23054688,
+      "step": 17780
+    },
+    {
+      "epoch": 0.868981017760731,
+      "grad_norm": 0.0016734614036977291,
+      "learning_rate": 0.17597503336389816,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 23060960,
+      "step": 17785
+    },
+    {
+      "epoch": 0.8692253194244253,
+      "grad_norm": 0.0015871862415224314,
+      "learning_rate": 0.17591701640574298,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 23067648,
+      "step": 17790
+    },
+    {
+      "epoch": 0.8694696210881196,
+      "grad_norm": 0.0009661008953116834,
+      "learning_rate": 0.17585899545085815,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 23074144,
+      "step": 17795
+    },
+    {
+      "epoch": 0.8697139227518139,
+      "grad_norm": 0.0009103638003580272,
+      "learning_rate": 0.17580097050819124,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 23080448,
+      "step": 17800
+    },
+    {
+      "epoch": 0.8697139227518139,
+      "eval_loss": 0.10696081072092056,
+      "eval_runtime": 402.3622,
+      "eval_samples_per_second": 90.428,
+      "eval_steps_per_second": 22.609,
+      "num_input_tokens_seen": 23080448,
+      "step": 17800
+    },
+    {
+      "epoch": 0.8699582244155083,
+      "grad_norm": 0.0015655549941584468,
+      "learning_rate": 0.17574294158669046,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 23086944,
+      "step": 17805
+    },
+    {
+      "epoch": 0.8702025260792026,
+      "grad_norm": 0.0007159115048125386,
+      "learning_rate": 0.17568490869530456,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 23093280,
+      "step": 17810
+    },
+    {
+      "epoch": 0.870446827742897,
+      "grad_norm": 0.0007109255529940128,
+      "learning_rate": 0.17562687184298295,
+      "loss": 0.094,
+      "num_input_tokens_seen": 23099680,
+      "step": 17815
+    },
+    {
+      "epoch": 0.8706911294065912,
+      "grad_norm": 0.0005553108057938516,
+      "learning_rate": 0.1755688310386757,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 23106080,
+      "step": 17820
+    },
+    {
+      "epoch": 0.8709354310702856,
+      "grad_norm": 0.0009056913550011814,
+      "learning_rate": 0.17551078629133335,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 23112576,
+      "step": 17825
+    },
+    {
+      "epoch": 0.87117973273398,
+      "grad_norm": 0.0015032347291707993,
+      "learning_rate": 0.17545273760990718,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 23118784,
+      "step": 17830
+    },
+    {
+      "epoch": 0.8714240343976742,
+      "grad_norm": 0.0015617478638887405,
+      "learning_rate": 0.17539468500334904,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 23125504,
+      "step": 17835
+    },
+    {
+      "epoch": 0.8716683360613686,
+      "grad_norm": 0.0009047887288033962,
+      "learning_rate": 0.17533662848061132,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 23132288,
+      "step": 17840
+    },
+    {
+      "epoch": 0.8719126377250629,
+      "grad_norm": 0.0009504143381491303,
+      "learning_rate": 0.1752785680506471,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 23138592,
+      "step": 17845
+    },
+    {
+      "epoch": 0.8721569393887573,
+      "grad_norm": 0.0012771815527230501,
+      "learning_rate": 0.17522050372241,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 23144960,
+      "step": 17850
+    },
+    {
+      "epoch": 0.8724012410524515,
+      "grad_norm": 0.0010689768241718411,
+      "learning_rate": 0.17516243550485425,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 23151136,
+      "step": 17855
+    },
+    {
+      "epoch": 0.8726455427161459,
+      "grad_norm": 0.001067794975824654,
+      "learning_rate": 0.17510436340693478,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 23157536,
+      "step": 17860
+    },
+    {
+      "epoch": 0.8728898443798402,
+      "grad_norm": 0.0013317321427166462,
+      "learning_rate": 0.175046287437607,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 23163968,
+      "step": 17865
+    },
+    {
+      "epoch": 0.8731341460435346,
+      "grad_norm": 0.0014645860064774752,
+      "learning_rate": 0.17498820760582695,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 23170688,
+      "step": 17870
+    },
+    {
+      "epoch": 0.8733784477072288,
+      "grad_norm": 0.0011482859263196588,
+      "learning_rate": 0.1749301239205512,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 23177088,
+      "step": 17875
+    },
+    {
+      "epoch": 0.8736227493709232,
+      "grad_norm": 0.0009815521771088243,
+      "learning_rate": 0.1748720363907371,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 23183360,
+      "step": 17880
+    },
+    {
+      "epoch": 0.8738670510346176,
+      "grad_norm": 0.0009367563179694116,
+      "learning_rate": 0.17481394502534242,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 23189216,
+      "step": 17885
+    },
+    {
+      "epoch": 0.8741113526983119,
+      "grad_norm": 0.001539326156489551,
+      "learning_rate": 0.17475584983332562,
+      "loss": 0.067,
+      "num_input_tokens_seen": 23196704,
+      "step": 17890
+    },
+    {
+      "epoch": 0.8743556543620062,
+      "grad_norm": 0.0016654120991006494,
+      "learning_rate": 0.17469775082364558,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 23202944,
+      "step": 17895
+    },
+    {
+      "epoch": 0.8745999560257005,
+      "grad_norm": 0.0006096675642766058,
+      "learning_rate": 0.17463964800526205,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 23209184,
+      "step": 17900
+    },
+    {
+      "epoch": 0.8748442576893949,
+      "grad_norm": 0.0006020386936143041,
+      "learning_rate": 0.17458154138713522,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 23215360,
+      "step": 17905
+    },
+    {
+      "epoch": 0.8750885593530892,
+      "grad_norm": 0.0013764443574473262,
+      "learning_rate": 0.17452343097822576,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 23222048,
+      "step": 17910
+    },
+    {
+      "epoch": 0.8753328610167835,
+      "grad_norm": 0.002244947711005807,
+      "learning_rate": 0.17446531678749497,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 23228608,
+      "step": 17915
+    },
+    {
+      "epoch": 0.8755771626804778,
+      "grad_norm": 0.0015071367379277945,
+      "learning_rate": 0.17440719882390496,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 23235072,
+      "step": 17920
+    },
+    {
+      "epoch": 0.8758214643441722,
+      "grad_norm": 0.0015847309259697795,
+      "learning_rate": 0.17434907709641814,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 23241472,
+      "step": 17925
+    },
+    {
+      "epoch": 0.8760657660078666,
+      "grad_norm": 0.00132970348931849,
+      "learning_rate": 0.17429095161399769,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 23248160,
+      "step": 17930
+    },
+    {
+      "epoch": 0.8763100676715608,
+      "grad_norm": 0.0008747517131268978,
+      "learning_rate": 0.1742328223856072,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 23254336,
+      "step": 17935
+    },
+    {
+      "epoch": 0.8765543693352552,
+      "grad_norm": 0.0011709468672052026,
+      "learning_rate": 0.174174689420211,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 23260960,
+      "step": 17940
+    },
+    {
+      "epoch": 0.8767986709989495,
+      "grad_norm": 0.0014120095875114202,
+      "learning_rate": 0.1741165527267739,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 23267488,
+      "step": 17945
+    },
+    {
+      "epoch": 0.8770429726626439,
+      "grad_norm": 0.0022734766826033592,
+      "learning_rate": 0.17405841231426125,
+      "loss": 0.094,
+      "num_input_tokens_seen": 23273824,
+      "step": 17950
+    },
+    {
+      "epoch": 0.8772872743263381,
+      "grad_norm": 0.001687565352767706,
+      "learning_rate": 0.1740002681916391,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 23280384,
+      "step": 17955
+    },
+    {
+      "epoch": 0.8775315759900325,
+      "grad_norm": 0.0024535309057682753,
+      "learning_rate": 0.17394212036787401,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 23286624,
+      "step": 17960
+    },
+    {
+      "epoch": 0.8777758776537268,
+      "grad_norm": 0.0014444037806242704,
+      "learning_rate": 0.1738839688519331,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 23292736,
+      "step": 17965
+    },
+    {
+      "epoch": 0.8780201793174212,
+      "grad_norm": 0.0008229196537286043,
+      "learning_rate": 0.17382581365278402,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 23299392,
+      "step": 17970
+    },
+    {
+      "epoch": 0.8782644809811155,
+      "grad_norm": 0.0013789385557174683,
+      "learning_rate": 0.17376765477939507,
+      "loss": 0.096,
+      "num_input_tokens_seen": 23305920,
+      "step": 17975
+    },
+    {
+      "epoch": 0.8785087826448098,
+      "grad_norm": 0.0013087056577205658,
+      "learning_rate": 0.1737094922407351,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 23312416,
+      "step": 17980
+    },
+    {
+      "epoch": 0.8787530843085042,
+      "grad_norm": 0.0009320878889411688,
+      "learning_rate": 0.1736513260457734,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 23318752,
+      "step": 17985
+    },
+    {
+      "epoch": 0.8789973859721985,
+      "grad_norm": 0.0010998154757544398,
+      "learning_rate": 0.17359315620348006,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 23324960,
+      "step": 17990
+    },
+    {
+      "epoch": 0.8792416876358928,
+      "grad_norm": 0.0010202220873907208,
+      "learning_rate": 0.17353498272282547,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 23331520,
+      "step": 17995
+    },
+    {
+      "epoch": 0.8794859892995871,
+      "grad_norm": 0.0012929122895002365,
+      "learning_rate": 0.17347680561278087,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 23338016,
+      "step": 18000
+    },
+    {
+      "epoch": 0.8794859892995871,
+      "eval_loss": 0.09959163516759872,
+      "eval_runtime": 402.4541,
+      "eval_samples_per_second": 90.408,
+      "eval_steps_per_second": 22.604,
+      "num_input_tokens_seen": 23338016,
+      "step": 18000
+    },
+    {
+      "epoch": 0.8797302909632815,
+      "grad_norm": 0.0011279263999313116,
+      "learning_rate": 0.1734186248823178,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 23344544,
+      "step": 18005
+    },
+    {
+      "epoch": 0.8799745926269757,
+      "grad_norm": 0.0010946077527478337,
+      "learning_rate": 0.17336044054040844,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 23350848,
+      "step": 18010
+    },
+    {
+      "epoch": 0.8802188942906701,
+      "grad_norm": 0.0010508546838536859,
+      "learning_rate": 0.1733022525960256,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 23357248,
+      "step": 18015
+    },
+    {
+      "epoch": 0.8804631959543644,
+      "grad_norm": 0.0013899615732952952,
+      "learning_rate": 0.1732440610581426,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 23363584,
+      "step": 18020
+    },
+    {
+      "epoch": 0.8807074976180588,
+      "grad_norm": 0.0018810057081282139,
+      "learning_rate": 0.17318586593573326,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 23369632,
+      "step": 18025
+    },
+    {
+      "epoch": 0.8809517992817532,
+      "grad_norm": 0.0011916294461116195,
+      "learning_rate": 0.17312766723777204,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 23376640,
+      "step": 18030
+    },
+    {
+      "epoch": 0.8811961009454474,
+      "grad_norm": 0.0011011670576408505,
+      "learning_rate": 0.1730694649732339,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 23383424,
+      "step": 18035
+    },
+    {
+      "epoch": 0.8814404026091418,
+      "grad_norm": 0.0013099833158776164,
+      "learning_rate": 0.17301125915109428,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 23389824,
+      "step": 18040
+    },
+    {
+      "epoch": 0.8816847042728361,
+      "grad_norm": 0.0013852074043825269,
+      "learning_rate": 0.17295304978032938,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 23396928,
+      "step": 18045
+    },
+    {
+      "epoch": 0.8819290059365305,
+      "grad_norm": 0.0015652908477932215,
+      "learning_rate": 0.17289483686991577,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 23403264,
+      "step": 18050
+    },
+    {
+      "epoch": 0.8821733076002247,
+      "grad_norm": 0.0005831372691318393,
+      "learning_rate": 0.1728366204288306,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 23410784,
+      "step": 18055
+    },
+    {
+      "epoch": 0.8824176092639191,
+      "grad_norm": 0.0010911409044638276,
+      "learning_rate": 0.17277840046605153,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 23416864,
+      "step": 18060
+    },
+    {
+      "epoch": 0.8826619109276134,
+      "grad_norm": 0.0015303426189348102,
+      "learning_rate": 0.17272017699055686,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 23423392,
+      "step": 18065
+    },
+    {
+      "epoch": 0.8829062125913077,
+      "grad_norm": 0.001624386408366263,
+      "learning_rate": 0.17266195001132542,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 23429632,
+      "step": 18070
+    },
+    {
+      "epoch": 0.8831505142550021,
+      "grad_norm": 0.0009730748133733869,
+      "learning_rate": 0.17260371953733647,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 23436416,
+      "step": 18075
+    },
+    {
+      "epoch": 0.8833948159186964,
+      "grad_norm": 0.0023997060488909483,
+      "learning_rate": 0.1725454855775699,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 23442240,
+      "step": 18080
+    },
+    {
+      "epoch": 0.8836391175823908,
+      "grad_norm": 0.0010486753890290856,
+      "learning_rate": 0.17248724814100616,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 23448352,
+      "step": 18085
+    },
+    {
+      "epoch": 0.883883419246085,
+      "grad_norm": 0.0011081094853579998,
+      "learning_rate": 0.17242900723662619,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 23454528,
+      "step": 18090
+    },
+    {
+      "epoch": 0.8841277209097794,
+      "grad_norm": 0.0012391236377879977,
+      "learning_rate": 0.1723707628734114,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 23460672,
+      "step": 18095
+    },
+    {
+      "epoch": 0.8843720225734737,
+      "grad_norm": 0.0018566002836450934,
+      "learning_rate": 0.1723125150603438,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 23467200,
+      "step": 18100
+    },
+    {
+      "epoch": 0.8846163242371681,
+      "grad_norm": 0.0008991436916403472,
+      "learning_rate": 0.1722542638064061,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 23473760,
+      "step": 18105
+    },
+    {
+      "epoch": 0.8848606259008623,
+      "grad_norm": 0.000953846494667232,
+      "learning_rate": 0.17219600912058117,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 23479968,
+      "step": 18110
+    },
+    {
+      "epoch": 0.8851049275645567,
+      "grad_norm": 0.0017055791104212403,
+      "learning_rate": 0.17213775101185272,
+      "loss": 0.156,
+      "num_input_tokens_seen": 23486272,
+      "step": 18115
+    },
+    {
+      "epoch": 0.885349229228251,
+      "grad_norm": 0.0012551384279504418,
+      "learning_rate": 0.17207948948920485,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 23493312,
+      "step": 18120
+    },
+    {
+      "epoch": 0.8855935308919454,
+      "grad_norm": 0.000977993244305253,
+      "learning_rate": 0.17202122456162228,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 23500128,
+      "step": 18125
+    },
+    {
+      "epoch": 0.8858378325556397,
+      "grad_norm": 0.0006320507964119315,
+      "learning_rate": 0.17196295623809013,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 23506624,
+      "step": 18130
+    },
+    {
+      "epoch": 0.886082134219334,
+      "grad_norm": 0.0007378446171060205,
+      "learning_rate": 0.1719046845275941,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 23512864,
+      "step": 18135
+    },
+    {
+      "epoch": 0.8863264358830284,
+      "grad_norm": 0.0008878114749677479,
+      "learning_rate": 0.17184640943912044,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 23519232,
+      "step": 18140
+    },
+    {
+      "epoch": 0.8865707375467227,
+      "grad_norm": 0.0014783969381824136,
+      "learning_rate": 0.1717881309816559,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 23526336,
+      "step": 18145
+    },
+    {
+      "epoch": 0.886815039210417,
+      "grad_norm": 0.0012976133730262518,
+      "learning_rate": 0.1717298491641878,
+      "loss": 0.108,
+      "num_input_tokens_seen": 23532992,
+      "step": 18150
+    },
+    {
+      "epoch": 0.8870593408741113,
+      "grad_norm": 0.001684239599853754,
+      "learning_rate": 0.17167156399570385,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 23539360,
+      "step": 18155
+    },
+    {
+      "epoch": 0.8873036425378057,
+      "grad_norm": 0.0014226491330191493,
+      "learning_rate": 0.17161327548519242,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 23545856,
+      "step": 18160
+    },
+    {
+      "epoch": 0.8875479442015,
+      "grad_norm": 0.0013080649077892303,
+      "learning_rate": 0.1715549836416423,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 23552384,
+      "step": 18165
+    },
+    {
+      "epoch": 0.8877922458651943,
+      "grad_norm": 0.001537008793093264,
+      "learning_rate": 0.17149668847404279,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 23558560,
+      "step": 18170
+    },
+    {
+      "epoch": 0.8880365475288887,
+      "grad_norm": 0.0013924895320087671,
+      "learning_rate": 0.1714383899913838,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 23564928,
+      "step": 18175
+    },
+    {
+      "epoch": 0.888280849192583,
+      "grad_norm": 0.0009441432193852961,
+      "learning_rate": 0.17138008820265563,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 23571296,
+      "step": 18180
+    },
+    {
+      "epoch": 0.8885251508562774,
+      "grad_norm": 0.0006519706803373992,
+      "learning_rate": 0.17132178311684917,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 23578080,
+      "step": 18185
+    },
+    {
+      "epoch": 0.8887694525199716,
+      "grad_norm": 0.0010697091929614544,
+      "learning_rate": 0.1712634747429559,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 23584672,
+      "step": 18190
+    },
+    {
+      "epoch": 0.889013754183666,
+      "grad_norm": 0.0015900355065241456,
+      "learning_rate": 0.17120516308996753,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 23591712,
+      "step": 18195
+    },
+    {
+      "epoch": 0.8892580558473603,
+      "grad_norm": 0.002369736786931753,
+      "learning_rate": 0.17114684816687653,
+      "loss": 0.1452,
+      "num_input_tokens_seen": 23598208,
+      "step": 18200
+    },
+    {
+      "epoch": 0.8892580558473603,
+      "eval_loss": 0.10160231590270996,
+      "eval_runtime": 402.5177,
+      "eval_samples_per_second": 90.394,
+      "eval_steps_per_second": 22.6,
+      "num_input_tokens_seen": 23598208,
+      "step": 18200
+    },
+    {
+      "epoch": 0.8895023575110547,
+      "grad_norm": 0.0008762368815951049,
+      "learning_rate": 0.17108852998267585,
+      "loss": 0.1127,
+      "num_input_tokens_seen": 23604864,
+      "step": 18205
+    },
+    {
+      "epoch": 0.8897466591747489,
+      "grad_norm": 0.001197539852000773,
+      "learning_rate": 0.17103020854635878,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 23610880,
+      "step": 18210
+    },
+    {
+      "epoch": 0.8899909608384433,
+      "grad_norm": 0.00113668292760849,
+      "learning_rate": 0.1709718838669193,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 23617408,
+      "step": 18215
+    },
+    {
+      "epoch": 0.8902352625021377,
+      "grad_norm": 0.0006209296989254653,
+      "learning_rate": 0.17091355595335173,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 23623488,
+      "step": 18220
+    },
+    {
+      "epoch": 0.890479564165832,
+      "grad_norm": 0.0010418748715892434,
+      "learning_rate": 0.17085522481465107,
+      "loss": 0.11,
+      "num_input_tokens_seen": 23630368,
+      "step": 18225
+    },
+    {
+      "epoch": 0.8907238658295263,
+      "grad_norm": 0.0013626663712784648,
+      "learning_rate": 0.17079689045981264,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 23636800,
+      "step": 18230
+    },
+    {
+      "epoch": 0.8909681674932206,
+      "grad_norm": 0.0009178203181363642,
+      "learning_rate": 0.17073855289783238,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 23643072,
+      "step": 18235
+    },
+    {
+      "epoch": 0.891212469156915,
+      "grad_norm": 0.0007534818141721189,
+      "learning_rate": 0.1706802121377066,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 23649568,
+      "step": 18240
+    },
+    {
+      "epoch": 0.8914567708206093,
+      "grad_norm": 0.0007735618855804205,
+      "learning_rate": 0.17062186818843225,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 23655712,
+      "step": 18245
+    },
+    {
+      "epoch": 0.8917010724843036,
+      "grad_norm": 0.001235499745234847,
+      "learning_rate": 0.17056352105900668,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 23661920,
+      "step": 18250
+    },
+    {
+      "epoch": 0.8919453741479979,
+      "grad_norm": 0.0010103486711159348,
+      "learning_rate": 0.17050517075842772,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 23668608,
+      "step": 18255
+    },
+    {
+      "epoch": 0.8921896758116923,
+      "grad_norm": 0.001974795013666153,
+      "learning_rate": 0.17044681729569375,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 23675168,
+      "step": 18260
+    },
+    {
+      "epoch": 0.8924339774753866,
+      "grad_norm": 0.0008690205286256969,
+      "learning_rate": 0.17038846067980365,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 23681344,
+      "step": 18265
+    },
+    {
+      "epoch": 0.8926782791390809,
+      "grad_norm": 0.0012253456516191363,
+      "learning_rate": 0.17033010091975664,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 23688128,
+      "step": 18270
+    },
+    {
+      "epoch": 0.8929225808027753,
+      "grad_norm": 0.0011033577611669898,
+      "learning_rate": 0.17027173802455262,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 23694560,
+      "step": 18275
+    },
+    {
+      "epoch": 0.8931668824664696,
+      "grad_norm": 0.0011190008372068405,
+      "learning_rate": 0.1702133720031918,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 23700960,
+      "step": 18280
+    },
+    {
+      "epoch": 0.893411184130164,
+      "grad_norm": 0.0012904421892017126,
+      "learning_rate": 0.17015500286467503,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 23707680,
+      "step": 18285
+    },
+    {
+      "epoch": 0.8936554857938582,
+      "grad_norm": 0.000955405062995851,
+      "learning_rate": 0.17009663061800354,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 23714720,
+      "step": 18290
+    },
+    {
+      "epoch": 0.8938997874575526,
+      "grad_norm": 0.001053531188517809,
+      "learning_rate": 0.17003825527217903,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 23721088,
+      "step": 18295
+    },
+    {
+      "epoch": 0.8941440891212469,
+      "grad_norm": 0.0011657730210572481,
+      "learning_rate": 0.16997987683620377,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 23727840,
+      "step": 18300
+    },
+    {
+      "epoch": 0.8943883907849413,
+      "grad_norm": 0.0007715621613897383,
+      "learning_rate": 0.16992149531908043,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 23734304,
+      "step": 18305
+    },
+    {
+      "epoch": 0.8946326924486355,
+      "grad_norm": 0.0017138451803475618,
+      "learning_rate": 0.16986311072981214,
+      "loss": 0.1419,
+      "num_input_tokens_seen": 23740864,
+      "step": 18310
+    },
+    {
+      "epoch": 0.8948769941123299,
+      "grad_norm": 0.0021081191953271627,
+      "learning_rate": 0.16980472307740255,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 23747328,
+      "step": 18315
+    },
+    {
+      "epoch": 0.8951212957760243,
+      "grad_norm": 0.0013997995993122458,
+      "learning_rate": 0.1697463323708558,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 23754176,
+      "step": 18320
+    },
+    {
+      "epoch": 0.8953655974397186,
+      "grad_norm": 0.0014837788185104728,
+      "learning_rate": 0.16968793861917641,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 23760160,
+      "step": 18325
+    },
+    {
+      "epoch": 0.8956098991034129,
+      "grad_norm": 0.0009548875386826694,
+      "learning_rate": 0.16962954183136952,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 23766848,
+      "step": 18330
+    },
+    {
+      "epoch": 0.8958542007671072,
+      "grad_norm": 0.000676716910675168,
+      "learning_rate": 0.16957114201644058,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 23773056,
+      "step": 18335
+    },
+    {
+      "epoch": 0.8960985024308016,
+      "grad_norm": 0.0015272983582690358,
+      "learning_rate": 0.16951273918339563,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 23779584,
+      "step": 18340
+    },
+    {
+      "epoch": 0.8963428040944958,
+      "grad_norm": 0.001067801029421389,
+      "learning_rate": 0.16945433334124105,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 23785728,
+      "step": 18345
+    },
+    {
+      "epoch": 0.8965871057581902,
+      "grad_norm": 0.0013169593876227736,
+      "learning_rate": 0.1693959244989838,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 23792096,
+      "step": 18350
+    },
+    {
+      "epoch": 0.8968314074218845,
+      "grad_norm": 0.000960432575084269,
+      "learning_rate": 0.16933751266563127,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 23798944,
+      "step": 18355
+    },
+    {
+      "epoch": 0.8970757090855789,
+      "grad_norm": 0.0010785760823637247,
+      "learning_rate": 0.16927909785019118,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 23805120,
+      "step": 18360
+    },
+    {
+      "epoch": 0.8973200107492733,
+      "grad_norm": 0.0011734048603102565,
+      "learning_rate": 0.169220680061672,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 23811424,
+      "step": 18365
+    },
+    {
+      "epoch": 0.8975643124129675,
+      "grad_norm": 0.0009492417448200285,
+      "learning_rate": 0.16916225930908244,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 23818016,
+      "step": 18370
+    },
+    {
+      "epoch": 0.8978086140766619,
+      "grad_norm": 0.0008501993725076318,
+      "learning_rate": 0.16910383560143163,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 23824512,
+      "step": 18375
+    },
+    {
+      "epoch": 0.8980529157403562,
+      "grad_norm": 0.0012351979967206717,
+      "learning_rate": 0.16904540894772935,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 23830784,
+      "step": 18380
+    },
+    {
+      "epoch": 0.8982972174040506,
+      "grad_norm": 0.0006770442123524845,
+      "learning_rate": 0.16898697935698562,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 23837888,
+      "step": 18385
+    },
+    {
+      "epoch": 0.8985415190677448,
+      "grad_norm": 0.0013293097727000713,
+      "learning_rate": 0.1689285468382111,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 23844416,
+      "step": 18390
+    },
+    {
+      "epoch": 0.8987858207314392,
+      "grad_norm": 0.0013100142823532224,
+      "learning_rate": 0.16887011140041677,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 23851296,
+      "step": 18395
+    },
+    {
+      "epoch": 0.8990301223951335,
+      "grad_norm": 0.0011508857132866979,
+      "learning_rate": 0.1688116730526141,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 23857824,
+      "step": 18400
+    },
+    {
+      "epoch": 0.8990301223951335,
+      "eval_loss": 0.09983262419700623,
+      "eval_runtime": 402.1121,
+      "eval_samples_per_second": 90.485,
+      "eval_steps_per_second": 22.623,
+      "num_input_tokens_seen": 23857824,
+      "step": 18400
+    },
+    {
+      "epoch": 0.8992744240588278,
+      "grad_norm": 0.0007590417517349124,
+      "learning_rate": 0.1687532318038151,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 23864480,
+      "step": 18405
+    },
+    {
+      "epoch": 0.8995187257225221,
+      "grad_norm": 0.0012915791012346745,
+      "learning_rate": 0.16869478766303206,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 23871104,
+      "step": 18410
+    },
+    {
+      "epoch": 0.8997630273862165,
+      "grad_norm": 0.001271946239285171,
+      "learning_rate": 0.16863634063927788,
+      "loss": 0.085,
+      "num_input_tokens_seen": 23877440,
+      "step": 18415
+    },
+    {
+      "epoch": 0.9000073290499109,
+      "grad_norm": 0.0017389596905559301,
+      "learning_rate": 0.16857789074156568,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 23883776,
+      "step": 18420
+    },
+    {
+      "epoch": 0.9002516307136051,
+      "grad_norm": 0.0015048555796965957,
+      "learning_rate": 0.16851943797890928,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 23890400,
+      "step": 18425
+    },
+    {
+      "epoch": 0.9004959323772995,
+      "grad_norm": 0.0018800939433276653,
+      "learning_rate": 0.16846098236032284,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 23896832,
+      "step": 18430
+    },
+    {
+      "epoch": 0.9007402340409938,
+      "grad_norm": 0.000807227217592299,
+      "learning_rate": 0.16840252389482097,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 23903360,
+      "step": 18435
+    },
+    {
+      "epoch": 0.9009845357046882,
+      "grad_norm": 0.000938773388043046,
+      "learning_rate": 0.16834406259141857,
+      "loss": 0.085,
+      "num_input_tokens_seen": 23909984,
+      "step": 18440
+    },
+    {
+      "epoch": 0.9012288373683824,
+      "grad_norm": 0.0007601852412335575,
+      "learning_rate": 0.16828559845913124,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 23916800,
+      "step": 18445
+    },
+    {
+      "epoch": 0.9014731390320768,
+      "grad_norm": 0.0009642993682064116,
+      "learning_rate": 0.16822713150697488,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 23923552,
+      "step": 18450
+    },
+    {
+      "epoch": 0.9017174406957711,
+      "grad_norm": 0.0010969404829666018,
+      "learning_rate": 0.16816866174396575,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 23930176,
+      "step": 18455
+    },
+    {
+      "epoch": 0.9019617423594655,
+      "grad_norm": 0.002045145956799388,
+      "learning_rate": 0.16811018917912057,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 23936768,
+      "step": 18460
+    },
+    {
+      "epoch": 0.9022060440231598,
+      "grad_norm": 0.0012334029888734221,
+      "learning_rate": 0.16805171382145673,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 23943424,
+      "step": 18465
+    },
+    {
+      "epoch": 0.9024503456868541,
+      "grad_norm": 0.0009139530011452734,
+      "learning_rate": 0.16799323567999175,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 23949376,
+      "step": 18470
+    },
+    {
+      "epoch": 0.9026946473505485,
+      "grad_norm": 0.0005146160256117582,
+      "learning_rate": 0.16793475476374367,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 23956192,
+      "step": 18475
+    },
+    {
+      "epoch": 0.9029389490142428,
+      "grad_norm": 0.0012714475160464644,
+      "learning_rate": 0.1678762710817311,
+      "loss": 0.107,
+      "num_input_tokens_seen": 23962528,
+      "step": 18480
+    },
+    {
+      "epoch": 0.9031832506779371,
+      "grad_norm": 0.00115728541277349,
+      "learning_rate": 0.1678177846429728,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 23969280,
+      "step": 18485
+    },
+    {
+      "epoch": 0.9034275523416314,
+      "grad_norm": 0.0008521664422005415,
+      "learning_rate": 0.16775929545648827,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 23975712,
+      "step": 18490
+    },
+    {
+      "epoch": 0.9036718540053258,
+      "grad_norm": 0.001088260905817151,
+      "learning_rate": 0.16770080353129715,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 23982048,
+      "step": 18495
+    },
+    {
+      "epoch": 0.9039161556690201,
+      "grad_norm": 0.0013333780225366354,
+      "learning_rate": 0.16764230887641968,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 23988416,
+      "step": 18500
+    },
+    {
+      "epoch": 0.9041604573327144,
+      "grad_norm": 0.0005508504691533744,
+      "learning_rate": 0.1675838115008765,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 23994624,
+      "step": 18505
+    },
+    {
+      "epoch": 0.9044047589964088,
+      "grad_norm": 0.0011111338390037417,
+      "learning_rate": 0.1675253114136886,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 24001056,
+      "step": 18510
+    },
+    {
+      "epoch": 0.9046490606601031,
+      "grad_norm": 0.002378551522269845,
+      "learning_rate": 0.16746680862387747,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 24007264,
+      "step": 18515
+    },
+    {
+      "epoch": 0.9048933623237975,
+      "grad_norm": 0.0012058666907250881,
+      "learning_rate": 0.16740830314046493,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 24013728,
+      "step": 18520
+    },
+    {
+      "epoch": 0.9051376639874917,
+      "grad_norm": 0.0010852636769413948,
+      "learning_rate": 0.1673497949724733,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 24020640,
+      "step": 18525
+    },
+    {
+      "epoch": 0.9053819656511861,
+      "grad_norm": 0.0006837748805992305,
+      "learning_rate": 0.16729128412892522,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 24027488,
+      "step": 18530
+    },
+    {
+      "epoch": 0.9056262673148804,
+      "grad_norm": 0.0011184620670974255,
+      "learning_rate": 0.16723277061884384,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 24034240,
+      "step": 18535
+    },
+    {
+      "epoch": 0.9058705689785748,
+      "grad_norm": 0.0008628554060123861,
+      "learning_rate": 0.16717425445125267,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 24040832,
+      "step": 18540
+    },
+    {
+      "epoch": 0.906114870642269,
+      "grad_norm": 0.0012041711015626788,
+      "learning_rate": 0.16711573563517565,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 24047072,
+      "step": 18545
+    },
+    {
+      "epoch": 0.9063591723059634,
+      "grad_norm": 0.0009369706967845559,
+      "learning_rate": 0.1670572141796371,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 24053600,
+      "step": 18550
+    },
+    {
+      "epoch": 0.9066034739696577,
+      "grad_norm": 0.0009175123414024711,
+      "learning_rate": 0.16699869009366175,
+      "loss": 0.093,
+      "num_input_tokens_seen": 24059904,
+      "step": 18555
+    },
+    {
+      "epoch": 0.9068477756333521,
+      "grad_norm": 0.0014569754712283611,
+      "learning_rate": 0.1669401633862748,
+      "loss": 0.103,
+      "num_input_tokens_seen": 24066112,
+      "step": 18560
+    },
+    {
+      "epoch": 0.9070920772970464,
+      "grad_norm": 0.001200773403979838,
+      "learning_rate": 0.16688163406650178,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 24072416,
+      "step": 18565
+    },
+    {
+      "epoch": 0.9073363789607407,
+      "grad_norm": 0.000730053405277431,
+      "learning_rate": 0.1668231021433686,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 24079168,
+      "step": 18570
+    },
+    {
+      "epoch": 0.9075806806244351,
+      "grad_norm": 0.000557315070182085,
+      "learning_rate": 0.1667645676259017,
+      "loss": 0.096,
+      "num_input_tokens_seen": 24085632,
+      "step": 18575
+    },
+    {
+      "epoch": 0.9078249822881294,
+      "grad_norm": 0.001066509634256363,
+      "learning_rate": 0.1667060305231277,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 24091808,
+      "step": 18580
+    },
+    {
+      "epoch": 0.9080692839518237,
+      "grad_norm": 0.001567376428283751,
+      "learning_rate": 0.16664749084407396,
+      "loss": 0.094,
+      "num_input_tokens_seen": 24098208,
+      "step": 18585
+    },
+    {
+      "epoch": 0.908313585615518,
+      "grad_norm": 0.0012475622352212667,
+      "learning_rate": 0.16658894859776788,
+      "loss": 0.101,
+      "num_input_tokens_seen": 24104352,
+      "step": 18590
+    },
+    {
+      "epoch": 0.9085578872792124,
+      "grad_norm": 0.0018954958068206906,
+      "learning_rate": 0.16653040379323752,
+      "loss": 0.102,
+      "num_input_tokens_seen": 24110496,
+      "step": 18595
+    },
+    {
+      "epoch": 0.9088021889429067,
+      "grad_norm": 0.0011744211660698056,
+      "learning_rate": 0.16647185643951107,
+      "loss": 0.069,
+      "num_input_tokens_seen": 24117056,
+      "step": 18600
+    },
+    {
+      "epoch": 0.9088021889429067,
+      "eval_loss": 0.10439510643482208,
+      "eval_runtime": 402.3846,
+      "eval_samples_per_second": 90.423,
+      "eval_steps_per_second": 22.608,
+      "num_input_tokens_seen": 24117056,
+      "step": 18600
+    },
+    {
+      "epoch": 0.909046490606601,
+      "grad_norm": 0.001733164768666029,
+      "learning_rate": 0.1664133065456174,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 24123392,
+      "step": 18605
+    },
+    {
+      "epoch": 0.9092907922702954,
+      "grad_norm": 0.0011774232843890786,
+      "learning_rate": 0.1663547541205856,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 24129472,
+      "step": 18610
+    },
+    {
+      "epoch": 0.9095350939339897,
+      "grad_norm": 0.0005498698446899652,
+      "learning_rate": 0.16629619917344518,
+      "loss": 0.078,
+      "num_input_tokens_seen": 24136128,
+      "step": 18615
+    },
+    {
+      "epoch": 0.9097793955976841,
+      "grad_norm": 0.0006721717654727399,
+      "learning_rate": 0.16623764171322605,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 24142848,
+      "step": 18620
+    },
+    {
+      "epoch": 0.9100236972613783,
+      "grad_norm": 0.0014413867611438036,
+      "learning_rate": 0.1661790817489585,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 24149312,
+      "step": 18625
+    },
+    {
+      "epoch": 0.9102679989250727,
+      "grad_norm": 0.0014537929091602564,
+      "learning_rate": 0.16612051928967328,
+      "loss": 0.108,
+      "num_input_tokens_seen": 24155520,
+      "step": 18630
+    },
+    {
+      "epoch": 0.910512300588767,
+      "grad_norm": 0.0010093575110659003,
+      "learning_rate": 0.16606195434440138,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 24162592,
+      "step": 18635
+    },
+    {
+      "epoch": 0.9107566022524614,
+      "grad_norm": 0.0012564202770590782,
+      "learning_rate": 0.16600338692217426,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 24169120,
+      "step": 18640
+    },
+    {
+      "epoch": 0.9110009039161556,
+      "grad_norm": 0.0008949192124418914,
+      "learning_rate": 0.16594481703202374,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 24175904,
+      "step": 18645
+    },
+    {
+      "epoch": 0.91124520557985,
+      "grad_norm": 0.0017049970338121057,
+      "learning_rate": 0.1658862446829821,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 24182400,
+      "step": 18650
+    },
+    {
+      "epoch": 0.9114895072435444,
+      "grad_norm": 0.00099288416095078,
+      "learning_rate": 0.16582766988408187,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 24188768,
+      "step": 18655
+    },
+    {
+      "epoch": 0.9117338089072387,
+      "grad_norm": 0.0012080238666385412,
+      "learning_rate": 0.16576909264435608,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 24195200,
+      "step": 18660
+    },
+    {
+      "epoch": 0.911978110570933,
+      "grad_norm": 0.0007966308039613068,
+      "learning_rate": 0.16571051297283798,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 24201792,
+      "step": 18665
+    },
+    {
+      "epoch": 0.9122224122346273,
+      "grad_norm": 0.0012484211474657059,
+      "learning_rate": 0.16565193087856137,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 24208384,
+      "step": 18670
+    },
+    {
+      "epoch": 0.9124667138983217,
+      "grad_norm": 0.001752287382259965,
+      "learning_rate": 0.16559334637056033,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 24214656,
+      "step": 18675
+    },
+    {
+      "epoch": 0.912711015562016,
+      "grad_norm": 0.0013693239307031035,
+      "learning_rate": 0.16553475945786933,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 24221056,
+      "step": 18680
+    },
+    {
+      "epoch": 0.9129553172257103,
+      "grad_norm": 0.0011584892636165023,
+      "learning_rate": 0.16547617014952318,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 24227200,
+      "step": 18685
+    },
+    {
+      "epoch": 0.9131996188894046,
+      "grad_norm": 0.0019367756322026253,
+      "learning_rate": 0.1654175784545571,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 24233184,
+      "step": 18690
+    },
+    {
+      "epoch": 0.913443920553099,
+      "grad_norm": 0.0012163162464275956,
+      "learning_rate": 0.1653589843820067,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 24239488,
+      "step": 18695
+    },
+    {
+      "epoch": 0.9136882222167932,
+      "grad_norm": 0.0010216563241556287,
+      "learning_rate": 0.1653003879409079,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 24246048,
+      "step": 18700
+    },
+    {
+      "epoch": 0.9139325238804876,
+      "grad_norm": 0.0010831205872818828,
+      "learning_rate": 0.165241789140297,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 24252256,
+      "step": 18705
+    },
+    {
+      "epoch": 0.914176825544182,
+      "grad_norm": 0.0008626091876067221,
+      "learning_rate": 0.16518318798921064,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 24258528,
+      "step": 18710
+    },
+    {
+      "epoch": 0.9144211272078763,
+      "grad_norm": 0.0011942876735702157,
+      "learning_rate": 0.16512458449668593,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 24264736,
+      "step": 18715
+    },
+    {
+      "epoch": 0.9146654288715707,
+      "grad_norm": 0.0009027039050124586,
+      "learning_rate": 0.1650659786717602,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 24271584,
+      "step": 18720
+    },
+    {
+      "epoch": 0.9149097305352649,
+      "grad_norm": 0.0008794061723165214,
+      "learning_rate": 0.1650073705234712,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 24278432,
+      "step": 18725
+    },
+    {
+      "epoch": 0.9151540321989593,
+      "grad_norm": 0.0011057850206270814,
+      "learning_rate": 0.16494876006085712,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 24284704,
+      "step": 18730
+    },
+    {
+      "epoch": 0.9153983338626536,
+      "grad_norm": 0.001029975013807416,
+      "learning_rate": 0.16489014729295634,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 24291392,
+      "step": 18735
+    },
+    {
+      "epoch": 0.915642635526348,
+      "grad_norm": 0.0007779513252899051,
+      "learning_rate": 0.16483153222880775,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 24298176,
+      "step": 18740
+    },
+    {
+      "epoch": 0.9158869371900422,
+      "grad_norm": 0.0013535312609747052,
+      "learning_rate": 0.16477291487745052,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 24304640,
+      "step": 18745
+    },
+    {
+      "epoch": 0.9161312388537366,
+      "grad_norm": 0.0008508235332556069,
+      "learning_rate": 0.16471429524792416,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 24310816,
+      "step": 18750
+    },
+    {
+      "epoch": 0.916375540517431,
+      "grad_norm": 0.001121644745580852,
+      "learning_rate": 0.16465567334926856,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 24317120,
+      "step": 18755
+    },
+    {
+      "epoch": 0.9166198421811252,
+      "grad_norm": 0.0009416216635145247,
+      "learning_rate": 0.16459704919052395,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 24323648,
+      "step": 18760
+    },
+    {
+      "epoch": 0.9168641438448196,
+      "grad_norm": 0.0011642342433333397,
+      "learning_rate": 0.16453842278073086,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 24330848,
+      "step": 18765
+    },
+    {
+      "epoch": 0.9171084455085139,
+      "grad_norm": 0.0010963613167405128,
+      "learning_rate": 0.16447979412893038,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 24337312,
+      "step": 18770
+    },
+    {
+      "epoch": 0.9173527471722083,
+      "grad_norm": 0.0011319672921672463,
+      "learning_rate": 0.16442116324416367,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 24343904,
+      "step": 18775
+    },
+    {
+      "epoch": 0.9175970488359025,
+      "grad_norm": 0.0014870504382997751,
+      "learning_rate": 0.1643625301354723,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 24350496,
+      "step": 18780
+    },
+    {
+      "epoch": 0.9178413504995969,
+      "grad_norm": 0.0011122416472062469,
+      "learning_rate": 0.16430389481189828,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 24356512,
+      "step": 18785
+    },
+    {
+      "epoch": 0.9180856521632912,
+      "grad_norm": 0.0010085884714499116,
+      "learning_rate": 0.164245257282484,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 24362688,
+      "step": 18790
+    },
+    {
+      "epoch": 0.9183299538269856,
+      "grad_norm": 0.0011461536632850766,
+      "learning_rate": 0.16418661755627195,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 24368992,
+      "step": 18795
+    },
+    {
+      "epoch": 0.9185742554906798,
+      "grad_norm": 0.0012559866299852729,
+      "learning_rate": 0.16412797564230527,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 24375456,
+      "step": 18800
+    },
+    {
+      "epoch": 0.9185742554906798,
+      "eval_loss": 0.09842001646757126,
+      "eval_runtime": 402.0557,
+      "eval_samples_per_second": 90.497,
+      "eval_steps_per_second": 22.626,
+      "num_input_tokens_seen": 24375456,
+      "step": 18800
+    },
+    {
+      "epoch": 0.9188185571543742,
+      "grad_norm": 0.0013574231415987015,
+      "learning_rate": 0.16406933154962713,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 24381888,
+      "step": 18805
+    },
+    {
+      "epoch": 0.9190628588180686,
+      "grad_norm": 0.0015960369491949677,
+      "learning_rate": 0.16401068528728133,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 24388384,
+      "step": 18810
+    },
+    {
+      "epoch": 0.9193071604817629,
+      "grad_norm": 0.0014185927575454116,
+      "learning_rate": 0.16395203686431173,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 24394880,
+      "step": 18815
+    },
+    {
+      "epoch": 0.9195514621454572,
+      "grad_norm": 0.0016832206165418029,
+      "learning_rate": 0.16389338628976277,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 24401184,
+      "step": 18820
+    },
+    {
+      "epoch": 0.9197957638091515,
+      "grad_norm": 0.0017738890601322055,
+      "learning_rate": 0.163834733572679,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 24407520,
+      "step": 18825
+    },
+    {
+      "epoch": 0.9200400654728459,
+      "grad_norm": 0.0010168743319809437,
+      "learning_rate": 0.16377607872210545,
+      "loss": 0.129,
+      "num_input_tokens_seen": 24414080,
+      "step": 18830
+    },
+    {
+      "epoch": 0.9202843671365402,
+      "grad_norm": 0.0013779945438727736,
+      "learning_rate": 0.16371742174708748,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 24420224,
+      "step": 18835
+    },
+    {
+      "epoch": 0.9205286688002345,
+      "grad_norm": 0.0014031052123755217,
+      "learning_rate": 0.16365876265667065,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 24426304,
+      "step": 18840
+    },
+    {
+      "epoch": 0.9207729704639288,
+      "grad_norm": 0.0007120507070794702,
+      "learning_rate": 0.163600101459901,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 24433216,
+      "step": 18845
+    },
+    {
+      "epoch": 0.9210172721276232,
+      "grad_norm": 0.0012914633844047785,
+      "learning_rate": 0.16354143816582484,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 24440000,
+      "step": 18850
+    },
+    {
+      "epoch": 0.9212615737913176,
+      "grad_norm": 0.0016128761926665902,
+      "learning_rate": 0.1634827727834887,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 24446496,
+      "step": 18855
+    },
+    {
+      "epoch": 0.9215058754550118,
+      "grad_norm": 0.0017223170725628734,
+      "learning_rate": 0.16342410532193954,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 24453088,
+      "step": 18860
+    },
+    {
+      "epoch": 0.9217501771187062,
+      "grad_norm": 0.0013406621292233467,
+      "learning_rate": 0.16336543579022464,
+      "loss": 0.114,
+      "num_input_tokens_seen": 24460128,
+      "step": 18865
+    },
+    {
+      "epoch": 0.9219944787824005,
+      "grad_norm": 0.0013527476694434881,
+      "learning_rate": 0.16330676419739157,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 24466336,
+      "step": 18870
+    },
+    {
+      "epoch": 0.9222387804460949,
+      "grad_norm": 0.0015047970227897167,
+      "learning_rate": 0.1632480905524883,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 24472672,
+      "step": 18875
+    },
+    {
+      "epoch": 0.9224830821097891,
+      "grad_norm": 0.0011389334686100483,
+      "learning_rate": 0.16318941486456293,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 24479488,
+      "step": 18880
+    },
+    {
+      "epoch": 0.9227273837734835,
+      "grad_norm": 0.0011636913986876607,
+      "learning_rate": 0.16313073714266405,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 24485632,
+      "step": 18885
+    },
+    {
+      "epoch": 0.9229716854371778,
+      "grad_norm": 0.0012018232373520732,
+      "learning_rate": 0.16307205739584052,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 24492224,
+      "step": 18890
+    },
+    {
+      "epoch": 0.9232159871008722,
+      "grad_norm": 0.0014246703358367085,
+      "learning_rate": 0.16301337563314144,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 24499008,
+      "step": 18895
+    },
+    {
+      "epoch": 0.9234602887645665,
+      "grad_norm": 0.0013513892190530896,
+      "learning_rate": 0.1629546918636163,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 24505568,
+      "step": 18900
+    },
+    {
+      "epoch": 0.9237045904282608,
+      "grad_norm": 0.0013390325475484133,
+      "learning_rate": 0.16289600609631485,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 24512224,
+      "step": 18905
+    },
+    {
+      "epoch": 0.9239488920919552,
+      "grad_norm": 0.0018386553274467587,
+      "learning_rate": 0.16283731834028722,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 24518944,
+      "step": 18910
+    },
+    {
+      "epoch": 0.9241931937556495,
+      "grad_norm": 0.001403379370458424,
+      "learning_rate": 0.16277862860458378,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 24525408,
+      "step": 18915
+    },
+    {
+      "epoch": 0.9244374954193438,
+      "grad_norm": 0.0010635392973199487,
+      "learning_rate": 0.16271993689825526,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 24531712,
+      "step": 18920
+    },
+    {
+      "epoch": 0.9246817970830381,
+      "grad_norm": 0.0020055552013218403,
+      "learning_rate": 0.1626612432303526,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 24538304,
+      "step": 18925
+    },
+    {
+      "epoch": 0.9249260987467325,
+      "grad_norm": 0.0013316269032657146,
+      "learning_rate": 0.1626025476099271,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 24544352,
+      "step": 18930
+    },
+    {
+      "epoch": 0.9251704004104268,
+      "grad_norm": 0.003679343033581972,
+      "learning_rate": 0.1625438500460304,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 24551168,
+      "step": 18935
+    },
+    {
+      "epoch": 0.9254147020741211,
+      "grad_norm": 0.0010551285231485963,
+      "learning_rate": 0.16248515054771442,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 24557536,
+      "step": 18940
+    },
+    {
+      "epoch": 0.9256590037378154,
+      "grad_norm": 0.0011512935161590576,
+      "learning_rate": 0.16242644912403123,
+      "loss": 0.1326,
+      "num_input_tokens_seen": 24563680,
+      "step": 18945
+    },
+    {
+      "epoch": 0.9259033054015098,
+      "grad_norm": 0.0014117697719484568,
+      "learning_rate": 0.1623677457840335,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 24570336,
+      "step": 18950
+    },
+    {
+      "epoch": 0.9261476070652042,
+      "grad_norm": 0.0017275229329243302,
+      "learning_rate": 0.16230904053677397,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 24576704,
+      "step": 18955
+    },
+    {
+      "epoch": 0.9263919087288984,
+      "grad_norm": 0.0009987277444452047,
+      "learning_rate": 0.16225033339130568,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 24583072,
+      "step": 18960
+    },
+    {
+      "epoch": 0.9266362103925928,
+      "grad_norm": 0.0007755791302770376,
+      "learning_rate": 0.16219162435668197,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 24589504,
+      "step": 18965
+    },
+    {
+      "epoch": 0.9268805120562871,
+      "grad_norm": 0.0013865954242646694,
+      "learning_rate": 0.16213291344195666,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 24595936,
+      "step": 18970
+    },
+    {
+      "epoch": 0.9271248137199815,
+      "grad_norm": 0.0014186679618433118,
+      "learning_rate": 0.16207420065618358,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 24602560,
+      "step": 18975
+    },
+    {
+      "epoch": 0.9273691153836757,
+      "grad_norm": 0.000515941355843097,
+      "learning_rate": 0.16201548600841706,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 24609440,
+      "step": 18980
+    },
+    {
+      "epoch": 0.9276134170473701,
+      "grad_norm": 0.0008853126782923937,
+      "learning_rate": 0.16195676950771154,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 24616384,
+      "step": 18985
+    },
+    {
+      "epoch": 0.9278577187110644,
+      "grad_norm": 0.001172257587313652,
+      "learning_rate": 0.16189805116312198,
+      "loss": 0.115,
+      "num_input_tokens_seen": 24622784,
+      "step": 18990
+    },
+    {
+      "epoch": 0.9281020203747588,
+      "grad_norm": 0.0009775747312232852,
+      "learning_rate": 0.16183933098370337,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 24629344,
+      "step": 18995
+    },
+    {
+      "epoch": 0.9283463220384531,
+      "grad_norm": 0.0013818592997267842,
+      "learning_rate": 0.16178060897851115,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 24635712,
+      "step": 19000
+    },
+    {
+      "epoch": 0.9283463220384531,
+      "eval_loss": 0.101136215031147,
+      "eval_runtime": 402.4716,
+      "eval_samples_per_second": 90.404,
+      "eval_steps_per_second": 22.603,
+      "num_input_tokens_seen": 24635712,
+      "step": 19000
+    },
+    {
+      "epoch": 0.9285906237021474,
+      "grad_norm": 0.0008406028500758111,
+      "learning_rate": 0.16172188515660096,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 24642432,
+      "step": 19005
+    },
+    {
+      "epoch": 0.9288349253658418,
+      "grad_norm": 0.0010870688129216433,
+      "learning_rate": 0.16166315952702878,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 24648896,
+      "step": 19010
+    },
+    {
+      "epoch": 0.929079227029536,
+      "grad_norm": 0.0009436120744794607,
+      "learning_rate": 0.16160443209885084,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 24655360,
+      "step": 19015
+    },
+    {
+      "epoch": 0.9293235286932304,
+      "grad_norm": 0.0013168652076274157,
+      "learning_rate": 0.16154570288112363,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 24662336,
+      "step": 19020
+    },
+    {
+      "epoch": 0.9295678303569247,
+      "grad_norm": 0.000862950284499675,
+      "learning_rate": 0.16148697188290395,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 24668640,
+      "step": 19025
+    },
+    {
+      "epoch": 0.9298121320206191,
+      "grad_norm": 0.001860008342191577,
+      "learning_rate": 0.16142823911324888,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 24675520,
+      "step": 19030
+    },
+    {
+      "epoch": 0.9300564336843133,
+      "grad_norm": 0.0018334456253796816,
+      "learning_rate": 0.16136950458121568,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 24681632,
+      "step": 19035
+    },
+    {
+      "epoch": 0.9303007353480077,
+      "grad_norm": 0.0012097519356757402,
+      "learning_rate": 0.16131076829586205,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 24688032,
+      "step": 19040
+    },
+    {
+      "epoch": 0.9305450370117021,
+      "grad_norm": 0.0013599824160337448,
+      "learning_rate": 0.1612520302662457,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 24694208,
+      "step": 19045
+    },
+    {
+      "epoch": 0.9307893386753964,
+      "grad_norm": 0.0010122046805918217,
+      "learning_rate": 0.16119329050142497,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 24701184,
+      "step": 19050
+    },
+    {
+      "epoch": 0.9310336403390908,
+      "grad_norm": 0.0021723138634115458,
+      "learning_rate": 0.16113454901045818,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 24707616,
+      "step": 19055
+    },
+    {
+      "epoch": 0.931277942002785,
+      "grad_norm": 0.0007712012738920748,
+      "learning_rate": 0.16107580580240397,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 24713984,
+      "step": 19060
+    },
+    {
+      "epoch": 0.9315222436664794,
+      "grad_norm": 0.0012977428268641233,
+      "learning_rate": 0.16101706088632134,
+      "loss": 0.082,
+      "num_input_tokens_seen": 24721024,
+      "step": 19065
+    },
+    {
+      "epoch": 0.9317665453301737,
+      "grad_norm": 0.0013577204663306475,
+      "learning_rate": 0.16095831427126947,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 24727712,
+      "step": 19070
+    },
+    {
+      "epoch": 0.932010846993868,
+      "grad_norm": 0.0012060819426551461,
+      "learning_rate": 0.16089956596630783,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 24733952,
+      "step": 19075
+    },
+    {
+      "epoch": 0.9322551486575623,
+      "grad_norm": 0.0011010312009602785,
+      "learning_rate": 0.16084081598049618,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 24740576,
+      "step": 19080
+    },
+    {
+      "epoch": 0.9324994503212567,
+      "grad_norm": 0.0025496706366539,
+      "learning_rate": 0.1607820643228944,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 24747264,
+      "step": 19085
+    },
+    {
+      "epoch": 0.932743751984951,
+      "grad_norm": 0.001058381050825119,
+      "learning_rate": 0.16072331100256285,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 24753568,
+      "step": 19090
+    },
+    {
+      "epoch": 0.9329880536486453,
+      "grad_norm": 0.001296088332310319,
+      "learning_rate": 0.16066455602856197,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 24760096,
+      "step": 19095
+    },
+    {
+      "epoch": 0.9332323553123397,
+      "grad_norm": 0.0011527694296091795,
+      "learning_rate": 0.16060579940995257,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 24766240,
+      "step": 19100
+    },
+    {
+      "epoch": 0.933476656976034,
+      "grad_norm": 0.001625058357603848,
+      "learning_rate": 0.16054704115579557,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 24772608,
+      "step": 19105
+    },
+    {
+      "epoch": 0.9337209586397284,
+      "grad_norm": 0.001108926604501903,
+      "learning_rate": 0.1604882812751523,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 24779072,
+      "step": 19110
+    },
+    {
+      "epoch": 0.9339652603034226,
+      "grad_norm": 0.0009971476392820477,
+      "learning_rate": 0.16042951977708425,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 24785792,
+      "step": 19115
+    },
+    {
+      "epoch": 0.934209561967117,
+      "grad_norm": 0.000931841554120183,
+      "learning_rate": 0.16037075667065318,
+      "loss": 0.083,
+      "num_input_tokens_seen": 24792320,
+      "step": 19120
+    },
+    {
+      "epoch": 0.9344538636308113,
+      "grad_norm": 0.0009178174077533185,
+      "learning_rate": 0.1603119919649211,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 24798784,
+      "step": 19125
+    },
+    {
+      "epoch": 0.9346981652945057,
+      "grad_norm": 0.0027470497880131006,
+      "learning_rate": 0.16025322566895028,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 24805408,
+      "step": 19130
+    },
+    {
+      "epoch": 0.9349424669581999,
+      "grad_norm": 0.0012623803922906518,
+      "learning_rate": 0.16019445779180322,
+      "loss": 0.1279,
+      "num_input_tokens_seen": 24811264,
+      "step": 19135
+    },
+    {
+      "epoch": 0.9351867686218943,
+      "grad_norm": 0.0012766923755407333,
+      "learning_rate": 0.16013568834254271,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 24817536,
+      "step": 19140
+    },
+    {
+      "epoch": 0.9354310702855887,
+      "grad_norm": 0.0008311670389957726,
+      "learning_rate": 0.1600769173302316,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 24823936,
+      "step": 19145
+    },
+    {
+      "epoch": 0.935675371949283,
+      "grad_norm": 0.0008147009648382664,
+      "learning_rate": 0.16001814476393322,
+      "loss": 0.105,
+      "num_input_tokens_seen": 24829792,
+      "step": 19150
+    },
+    {
+      "epoch": 0.9359196736129773,
+      "grad_norm": 0.0007778106955811381,
+      "learning_rate": 0.15995937065271104,
+      "loss": 0.093,
+      "num_input_tokens_seen": 24836448,
+      "step": 19155
+    },
+    {
+      "epoch": 0.9361639752766716,
+      "grad_norm": 0.0012062181485816836,
+      "learning_rate": 0.15990059500562873,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 24843488,
+      "step": 19160
+    },
+    {
+      "epoch": 0.936408276940366,
+      "grad_norm": 0.00150828727055341,
+      "learning_rate": 0.15984181783175025,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 24849568,
+      "step": 19165
+    },
+    {
+      "epoch": 0.9366525786040603,
+      "grad_norm": 0.0013758647255599499,
+      "learning_rate": 0.1597830391401398,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 24856608,
+      "step": 19170
+    },
+    {
+      "epoch": 0.9368968802677546,
+      "grad_norm": 0.0005973263178020716,
+      "learning_rate": 0.15972425893986178,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 24863136,
+      "step": 19175
+    },
+    {
+      "epoch": 0.9371411819314489,
+      "grad_norm": 0.0011935210786759853,
+      "learning_rate": 0.15966547723998084,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 24869472,
+      "step": 19180
+    },
+    {
+      "epoch": 0.9373854835951433,
+      "grad_norm": 0.0007520189974457026,
+      "learning_rate": 0.15960669404956176,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 24875584,
+      "step": 19185
+    },
+    {
+      "epoch": 0.9376297852588377,
+      "grad_norm": 0.0016606722492724657,
+      "learning_rate": 0.1595479093776698,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 24881952,
+      "step": 19190
+    },
+    {
+      "epoch": 0.9378740869225319,
+      "grad_norm": 0.0011991179781034589,
+      "learning_rate": 0.15948912323337022,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 24888928,
+      "step": 19195
+    },
+    {
+      "epoch": 0.9381183885862263,
+      "grad_norm": 0.002177310176193714,
+      "learning_rate": 0.1594303356257286,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 24895360,
+      "step": 19200
+    },
+    {
+      "epoch": 0.9381183885862263,
+      "eval_loss": 0.10376187413930893,
+      "eval_runtime": 402.6184,
+      "eval_samples_per_second": 90.371,
+      "eval_steps_per_second": 22.595,
+      "num_input_tokens_seen": 24895360,
+      "step": 19200
+    },
+    {
+      "epoch": 0.9383626902499206,
+      "grad_norm": 0.00044654670637100935,
+      "learning_rate": 0.15937154656381072,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 24902208,
+      "step": 19205
+    },
+    {
+      "epoch": 0.938606991913615,
+      "grad_norm": 0.0010098859202116728,
+      "learning_rate": 0.15931275605668258,
+      "loss": 0.07,
+      "num_input_tokens_seen": 24908576,
+      "step": 19210
+    },
+    {
+      "epoch": 0.9388512935773092,
+      "grad_norm": 0.0011857416247949004,
+      "learning_rate": 0.1592539641134104,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 24914912,
+      "step": 19215
+    },
+    {
+      "epoch": 0.9390955952410036,
+      "grad_norm": 0.0006205565296113491,
+      "learning_rate": 0.1591951707430607,
+      "loss": 0.079,
+      "num_input_tokens_seen": 24921664,
+      "step": 19220
+    },
+    {
+      "epoch": 0.9393398969046979,
+      "grad_norm": 0.0012430199421942234,
+      "learning_rate": 0.15913637595470007,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 24928576,
+      "step": 19225
+    },
+    {
+      "epoch": 0.9395841985683923,
+      "grad_norm": 0.0008997889817692339,
+      "learning_rate": 0.15907757975739548,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 24934912,
+      "step": 19230
+    },
+    {
+      "epoch": 0.9398285002320865,
+      "grad_norm": 0.0007351747481152415,
+      "learning_rate": 0.159018782160214,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 24940992,
+      "step": 19235
+    },
+    {
+      "epoch": 0.9400728018957809,
+      "grad_norm": 0.001309903571382165,
+      "learning_rate": 0.158959983172223,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 24947968,
+      "step": 19240
+    },
+    {
+      "epoch": 0.9403171035594753,
+      "grad_norm": 0.004359635524451733,
+      "learning_rate": 0.15890118280249,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 24954784,
+      "step": 19245
+    },
+    {
+      "epoch": 0.9405614052231696,
+      "grad_norm": 0.0006782159325666726,
+      "learning_rate": 0.15884238106008275,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 24961440,
+      "step": 19250
+    },
+    {
+      "epoch": 0.9408057068868639,
+      "grad_norm": 0.0015973779372870922,
+      "learning_rate": 0.15878357795406922,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 24967680,
+      "step": 19255
+    },
+    {
+      "epoch": 0.9410500085505582,
+      "grad_norm": 0.0006894150865264237,
+      "learning_rate": 0.15872477349351757,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 24974368,
+      "step": 19260
+    },
+    {
+      "epoch": 0.9412943102142526,
+      "grad_norm": 0.001273287576623261,
+      "learning_rate": 0.15866596768749622,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 24981056,
+      "step": 19265
+    },
+    {
+      "epoch": 0.9415386118779469,
+      "grad_norm": 0.001358149223960936,
+      "learning_rate": 0.15860716054507373,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 24987424,
+      "step": 19270
+    },
+    {
+      "epoch": 0.9417829135416412,
+      "grad_norm": 0.0015591745031997561,
+      "learning_rate": 0.1585483520753189,
+      "loss": 0.1285,
+      "num_input_tokens_seen": 24994048,
+      "step": 19275
+    },
+    {
+      "epoch": 0.9420272152053355,
+      "grad_norm": 0.0011547757312655449,
+      "learning_rate": 0.1584895422873008,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 25000736,
+      "step": 19280
+    },
+    {
+      "epoch": 0.9422715168690299,
+      "grad_norm": 0.0016491300193592906,
+      "learning_rate": 0.1584307311900886,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 25007104,
+      "step": 19285
+    },
+    {
+      "epoch": 0.9425158185327243,
+      "grad_norm": 0.0009343376732431352,
+      "learning_rate": 0.1583719187927517,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 25013760,
+      "step": 19290
+    },
+    {
+      "epoch": 0.9427601201964185,
+      "grad_norm": 0.0007753124227747321,
+      "learning_rate": 0.15831310510435967,
+      "loss": 0.11,
+      "num_input_tokens_seen": 25020672,
+      "step": 19295
+    },
+    {
+      "epoch": 0.9430044218601129,
+      "grad_norm": 0.0009972767438739538,
+      "learning_rate": 0.15825429013398243,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 25027136,
+      "step": 19300
+    },
+    {
+      "epoch": 0.9432487235238072,
+      "grad_norm": 0.0008013320621103048,
+      "learning_rate": 0.15819547389068986,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 25033696,
+      "step": 19305
+    },
+    {
+      "epoch": 0.9434930251875016,
+      "grad_norm": 0.0016149379080161452,
+      "learning_rate": 0.1581366563835522,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 25040448,
+      "step": 19310
+    },
+    {
+      "epoch": 0.9437373268511958,
+      "grad_norm": 0.0011344965314492583,
+      "learning_rate": 0.15807783762163993,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 25046976,
+      "step": 19315
+    },
+    {
+      "epoch": 0.9439816285148902,
+      "grad_norm": 0.0017693066038191319,
+      "learning_rate": 0.15801901761402365,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 25053728,
+      "step": 19320
+    },
+    {
+      "epoch": 0.9442259301785845,
+      "grad_norm": 0.0006893172394484282,
+      "learning_rate": 0.157960196369774,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 25060416,
+      "step": 19325
+    },
+    {
+      "epoch": 0.9444702318422789,
+      "grad_norm": 0.0012675028992816806,
+      "learning_rate": 0.157901373897962,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 25066656,
+      "step": 19330
+    },
+    {
+      "epoch": 0.9447145335059732,
+      "grad_norm": 0.0013458088506013155,
+      "learning_rate": 0.15784255020765892,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 25072768,
+      "step": 19335
+    },
+    {
+      "epoch": 0.9449588351696675,
+      "grad_norm": 0.001341189374215901,
+      "learning_rate": 0.157783725307936,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 25079104,
+      "step": 19340
+    },
+    {
+      "epoch": 0.9452031368333619,
+      "grad_norm": 0.0011210946831852198,
+      "learning_rate": 0.15772489920786484,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 25085984,
+      "step": 19345
+    },
+    {
+      "epoch": 0.9454474384970561,
+      "grad_norm": 0.0006888416828587651,
+      "learning_rate": 0.15766607191651713,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 25092640,
+      "step": 19350
+    },
+    {
+      "epoch": 0.9456917401607505,
+      "grad_norm": 0.0008195184054784477,
+      "learning_rate": 0.1576072434429648,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 25099136,
+      "step": 19355
+    },
+    {
+      "epoch": 0.9459360418244448,
+      "grad_norm": 0.0017577123362571,
+      "learning_rate": 0.15754841379627998,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 25105600,
+      "step": 19360
+    },
+    {
+      "epoch": 0.9461803434881392,
+      "grad_norm": 0.001143959118053317,
+      "learning_rate": 0.15748958298553484,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 25111872,
+      "step": 19365
+    },
+    {
+      "epoch": 0.9464246451518334,
+      "grad_norm": 0.0010538706555962563,
+      "learning_rate": 0.1574307510198019,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 25118464,
+      "step": 19370
+    },
+    {
+      "epoch": 0.9466689468155278,
+      "grad_norm": 0.0010763087775558233,
+      "learning_rate": 0.15737191790815375,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 25124512,
+      "step": 19375
+    },
+    {
+      "epoch": 0.9469132484792221,
+      "grad_norm": 0.001351845101453364,
+      "learning_rate": 0.15731308365966323,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 25130752,
+      "step": 19380
+    },
+    {
+      "epoch": 0.9471575501429165,
+      "grad_norm": 0.0010571896564215422,
+      "learning_rate": 0.15725424828340331,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 25137216,
+      "step": 19385
+    },
+    {
+      "epoch": 0.9474018518066109,
+      "grad_norm": 0.0010327696800231934,
+      "learning_rate": 0.15719541178844715,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 25143808,
+      "step": 19390
+    },
+    {
+      "epoch": 0.9476461534703051,
+      "grad_norm": 0.0013707259204238653,
+      "learning_rate": 0.15713657418386806,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 25150112,
+      "step": 19395
+    },
+    {
+      "epoch": 0.9478904551339995,
+      "grad_norm": 0.001999193336814642,
+      "learning_rate": 0.15707773547873957,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 25156480,
+      "step": 19400
+    },
+    {
+      "epoch": 0.9478904551339995,
+      "eval_loss": 0.09777997434139252,
+      "eval_runtime": 401.9063,
+      "eval_samples_per_second": 90.531,
+      "eval_steps_per_second": 22.635,
+      "num_input_tokens_seen": 25156480,
+      "step": 19400
+    },
+    {
+      "epoch": 0.9481347567976938,
+      "grad_norm": 0.001270540407858789,
+      "learning_rate": 0.1570188956821353,
+      "loss": 0.093,
+      "num_input_tokens_seen": 25162400,
+      "step": 19405
+    },
+    {
+      "epoch": 0.9483790584613881,
+      "grad_norm": 0.0008657630532979965,
+      "learning_rate": 0.1569600548031291,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 25168608,
+      "step": 19410
+    },
+    {
+      "epoch": 0.9486233601250824,
+      "grad_norm": 0.0008915922953747213,
+      "learning_rate": 0.156901212850795,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 25175104,
+      "step": 19415
+    },
+    {
+      "epoch": 0.9488676617887768,
+      "grad_norm": 0.0016577885253354907,
+      "learning_rate": 0.15684236983420716,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 25181536,
+      "step": 19420
+    },
+    {
+      "epoch": 0.9491119634524711,
+      "grad_norm": 0.0013089071726426482,
+      "learning_rate": 0.1567835257624399,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 25187808,
+      "step": 19425
+    },
+    {
+      "epoch": 0.9493562651161654,
+      "grad_norm": 0.0009275113116018474,
+      "learning_rate": 0.1567246806445677,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 25193888,
+      "step": 19430
+    },
+    {
+      "epoch": 0.9496005667798598,
+      "grad_norm": 0.0023378075566142797,
+      "learning_rate": 0.15666583448966526,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 25200288,
+      "step": 19435
+    },
+    {
+      "epoch": 0.9498448684435541,
+      "grad_norm": 0.0009703518007881939,
+      "learning_rate": 0.1566069873068074,
+      "loss": 0.069,
+      "num_input_tokens_seen": 25206848,
+      "step": 19440
+    },
+    {
+      "epoch": 0.9500891701072485,
+      "grad_norm": 0.002438964322209358,
+      "learning_rate": 0.156548139105069,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 25212864,
+      "step": 19445
+    },
+    {
+      "epoch": 0.9503334717709427,
+      "grad_norm": 0.0008987521287053823,
+      "learning_rate": 0.15648928989352529,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 25219200,
+      "step": 19450
+    },
+    {
+      "epoch": 0.9505777734346371,
+      "grad_norm": 0.0010104147950187325,
+      "learning_rate": 0.15643043968125156,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 25226240,
+      "step": 19455
+    },
+    {
+      "epoch": 0.9508220750983314,
+      "grad_norm": 0.000831836718134582,
+      "learning_rate": 0.15637158847732316,
+      "loss": 0.095,
+      "num_input_tokens_seen": 25232576,
+      "step": 19460
+    },
+    {
+      "epoch": 0.9510663767620258,
+      "grad_norm": 0.001205036765895784,
+      "learning_rate": 0.15631273629081582,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 25239136,
+      "step": 19465
+    },
+    {
+      "epoch": 0.95131067842572,
+      "grad_norm": 0.0016789153451099992,
+      "learning_rate": 0.15625388313080518,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 25245632,
+      "step": 19470
+    },
+    {
+      "epoch": 0.9515549800894144,
+      "grad_norm": 0.0008196373819373548,
+      "learning_rate": 0.15619502900636714,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 25252000,
+      "step": 19475
+    },
+    {
+      "epoch": 0.9517992817531087,
+      "grad_norm": 0.0009039200958795846,
+      "learning_rate": 0.15613617392657783,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 25258080,
+      "step": 19480
+    },
+    {
+      "epoch": 0.9520435834168031,
+      "grad_norm": 0.0027167373336851597,
+      "learning_rate": 0.15607731790051335,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 25264256,
+      "step": 19485
+    },
+    {
+      "epoch": 0.9522878850804974,
+      "grad_norm": 0.0012281883973628283,
+      "learning_rate": 0.15601846093725008,
+      "loss": 0.099,
+      "num_input_tokens_seen": 25270496,
+      "step": 19490
+    },
+    {
+      "epoch": 0.9525321867441917,
+      "grad_norm": 0.0009775864891707897,
+      "learning_rate": 0.1559596030458645,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 25276864,
+      "step": 19495
+    },
+    {
+      "epoch": 0.9527764884078861,
+      "grad_norm": 0.000571657728869468,
+      "learning_rate": 0.1559007442354333,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 25283520,
+      "step": 19500
+    },
+    {
+      "epoch": 0.9530207900715804,
+      "grad_norm": 0.0010720273712649941,
+      "learning_rate": 0.15584188451503314,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 25289600,
+      "step": 19505
+    },
+    {
+      "epoch": 0.9532650917352747,
+      "grad_norm": 0.0029395383317023516,
+      "learning_rate": 0.15578302389374094,
+      "loss": 0.116,
+      "num_input_tokens_seen": 25296416,
+      "step": 19510
+    },
+    {
+      "epoch": 0.953509393398969,
+      "grad_norm": 0.0010829437524080276,
+      "learning_rate": 0.1557241623806338,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 25303136,
+      "step": 19515
+    },
+    {
+      "epoch": 0.9537536950626634,
+      "grad_norm": 0.0010911535937339067,
+      "learning_rate": 0.15566529998478887,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 25309920,
+      "step": 19520
+    },
+    {
+      "epoch": 0.9539979967263577,
+      "grad_norm": 0.0010262068826705217,
+      "learning_rate": 0.15560643671528354,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 25316768,
+      "step": 19525
+    },
+    {
+      "epoch": 0.954242298390052,
+      "grad_norm": 0.000418227311456576,
+      "learning_rate": 0.15554757258119514,
+      "loss": 0.081,
+      "num_input_tokens_seen": 25323552,
+      "step": 19530
+    },
+    {
+      "epoch": 0.9544866000537464,
+      "grad_norm": 0.0010059904307126999,
+      "learning_rate": 0.1554887075916014,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 25330112,
+      "step": 19535
+    },
+    {
+      "epoch": 0.9547309017174407,
+      "grad_norm": 0.000989248394034803,
+      "learning_rate": 0.15542984175558,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 25336416,
+      "step": 19540
+    },
+    {
+      "epoch": 0.9549752033811351,
+      "grad_norm": 0.0009396843961440027,
+      "learning_rate": 0.1553709750822087,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 25342880,
+      "step": 19545
+    },
+    {
+      "epoch": 0.9552195050448293,
+      "grad_norm": 0.0009968355298042297,
+      "learning_rate": 0.15531210758056554,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 25349408,
+      "step": 19550
+    },
+    {
+      "epoch": 0.9554638067085237,
+      "grad_norm": 0.0010713570518419147,
+      "learning_rate": 0.15525323925972867,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 25355744,
+      "step": 19555
+    },
+    {
+      "epoch": 0.955708108372218,
+      "grad_norm": 0.0016800948651507497,
+      "learning_rate": 0.15519437012877627,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 25362496,
+      "step": 19560
+    },
+    {
+      "epoch": 0.9559524100359124,
+      "grad_norm": 0.0009568536188453436,
+      "learning_rate": 0.15513550019678676,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 25369088,
+      "step": 19565
+    },
+    {
+      "epoch": 0.9561967116996066,
+      "grad_norm": 0.0015514919068664312,
+      "learning_rate": 0.15507662947283854,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 25376160,
+      "step": 19570
+    },
+    {
+      "epoch": 0.956441013363301,
+      "grad_norm": 0.0009099450544454157,
+      "learning_rate": 0.15501775796601028,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 25382528,
+      "step": 19575
+    },
+    {
+      "epoch": 0.9566853150269954,
+      "grad_norm": 0.00046951722470112145,
+      "learning_rate": 0.15495888568538066,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 25389632,
+      "step": 19580
+    },
+    {
+      "epoch": 0.9569296166906897,
+      "grad_norm": 0.0013182936236262321,
+      "learning_rate": 0.1549000126400286,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 25396608,
+      "step": 19585
+    },
+    {
+      "epoch": 0.957173918354384,
+      "grad_norm": 0.0017430984880775213,
+      "learning_rate": 0.15484113883903294,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 25403264,
+      "step": 19590
+    },
+    {
+      "epoch": 0.9574182200180783,
+      "grad_norm": 0.0011052499758079648,
+      "learning_rate": 0.15478226429147288,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 25409824,
+      "step": 19595
+    },
+    {
+      "epoch": 0.9576625216817727,
+      "grad_norm": 0.0013589917216449976,
+      "learning_rate": 0.15472338900642757,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 25415936,
+      "step": 19600
+    },
+    {
+      "epoch": 0.9576625216817727,
+      "eval_loss": 0.09705813974142075,
+      "eval_runtime": 402.0489,
+      "eval_samples_per_second": 90.499,
+      "eval_steps_per_second": 22.627,
+      "num_input_tokens_seen": 25415936,
+      "step": 19600
+    },
+    {
+      "epoch": 0.957906823345467,
+      "grad_norm": 0.0010052158031612635,
+      "learning_rate": 0.15466451299297632,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 25422240,
+      "step": 19605
+    },
+    {
+      "epoch": 0.9581511250091613,
+      "grad_norm": 0.0012780413962900639,
+      "learning_rate": 0.15460563626019852,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 25428992,
+      "step": 19610
+    },
+    {
+      "epoch": 0.9583954266728556,
+      "grad_norm": 0.0011128669138997793,
+      "learning_rate": 0.15454675881717375,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 25435488,
+      "step": 19615
+    },
+    {
+      "epoch": 0.95863972833655,
+      "grad_norm": 0.0010166842257604003,
+      "learning_rate": 0.1544878806729816,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 25441664,
+      "step": 19620
+    },
+    {
+      "epoch": 0.9588840300002442,
+      "grad_norm": 0.0009239534265361726,
+      "learning_rate": 0.1544290018367019,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 25448608,
+      "step": 19625
+    },
+    {
+      "epoch": 0.9591283316639386,
+      "grad_norm": 0.0005114906816743314,
+      "learning_rate": 0.15437012231741445,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 25455232,
+      "step": 19630
+    },
+    {
+      "epoch": 0.959372633327633,
+      "grad_norm": 0.0009685500990599394,
+      "learning_rate": 0.1543112421241992,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 25461440,
+      "step": 19635
+    },
+    {
+      "epoch": 0.9596169349913273,
+      "grad_norm": 0.0006362772546708584,
+      "learning_rate": 0.15425236126613626,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 25467776,
+      "step": 19640
+    },
+    {
+      "epoch": 0.9598612366550217,
+      "grad_norm": 0.0006737885996699333,
+      "learning_rate": 0.15419347975230577,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 25474080,
+      "step": 19645
+    },
+    {
+      "epoch": 0.9601055383187159,
+      "grad_norm": 0.0016124688554555178,
+      "learning_rate": 0.154134597591788,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 25480768,
+      "step": 19650
+    },
+    {
+      "epoch": 0.9603498399824103,
+      "grad_norm": 0.0015156905865296721,
+      "learning_rate": 0.1540757147936633,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 25487520,
+      "step": 19655
+    },
+    {
+      "epoch": 0.9605941416461046,
+      "grad_norm": 0.0012522597098723054,
+      "learning_rate": 0.1540168313670122,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 25494016,
+      "step": 19660
+    },
+    {
+      "epoch": 0.960838443309799,
+      "grad_norm": 0.0011643068864941597,
+      "learning_rate": 0.1539579473209152,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 25500800,
+      "step": 19665
+    },
+    {
+      "epoch": 0.9610827449734932,
+      "grad_norm": 0.0010584724368527532,
+      "learning_rate": 0.15389906266445294,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 25506848,
+      "step": 19670
+    },
+    {
+      "epoch": 0.9613270466371876,
+      "grad_norm": 0.0007148032891564071,
+      "learning_rate": 0.15384017740670627,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 25513184,
+      "step": 19675
+    },
+    {
+      "epoch": 0.961571348300882,
+      "grad_norm": 0.002132401568815112,
+      "learning_rate": 0.15378129155675602,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 25519552,
+      "step": 19680
+    },
+    {
+      "epoch": 0.9618156499645762,
+      "grad_norm": 0.0011281768092885613,
+      "learning_rate": 0.15372240512368307,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 25525632,
+      "step": 19685
+    },
+    {
+      "epoch": 0.9620599516282706,
+      "grad_norm": 0.0016916365129873157,
+      "learning_rate": 0.1536635181165684,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 25532032,
+      "step": 19690
+    },
+    {
+      "epoch": 0.9623042532919649,
+      "grad_norm": 0.0021551765967160463,
+      "learning_rate": 0.15360463054449328,
+      "loss": 0.101,
+      "num_input_tokens_seen": 25538272,
+      "step": 19695
+    },
+    {
+      "epoch": 0.9625485549556593,
+      "grad_norm": 0.001363311312161386,
+      "learning_rate": 0.1535457424165388,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 25544640,
+      "step": 19700
+    },
+    {
+      "epoch": 0.9627928566193535,
+      "grad_norm": 0.001247812993824482,
+      "learning_rate": 0.15348685374178628,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 25551456,
+      "step": 19705
+    },
+    {
+      "epoch": 0.9630371582830479,
+      "grad_norm": 0.0011072542984038591,
+      "learning_rate": 0.1534279645293171,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 25558016,
+      "step": 19710
+    },
+    {
+      "epoch": 0.9632814599467422,
+      "grad_norm": 0.0009158953325822949,
+      "learning_rate": 0.1533690747882127,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 25564544,
+      "step": 19715
+    },
+    {
+      "epoch": 0.9635257616104366,
+      "grad_norm": 0.0008117787074297667,
+      "learning_rate": 0.15331018452755465,
+      "loss": 0.0915,
+      "num_input_tokens_seen": 25570912,
+      "step": 19720
+    },
+    {
+      "epoch": 0.963770063274131,
+      "grad_norm": 0.0017150136409327388,
+      "learning_rate": 0.15325129375642457,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 25577632,
+      "step": 19725
+    },
+    {
+      "epoch": 0.9640143649378252,
+      "grad_norm": 0.0024172391276806593,
+      "learning_rate": 0.15319240248390406,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 25583936,
+      "step": 19730
+    },
+    {
+      "epoch": 0.9642586666015196,
+      "grad_norm": 0.001384394010528922,
+      "learning_rate": 0.153133510719075,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 25590656,
+      "step": 19735
+    },
+    {
+      "epoch": 0.9645029682652139,
+      "grad_norm": 0.0011881644604727626,
+      "learning_rate": 0.15307461847101922,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 25596864,
+      "step": 19740
+    },
+    {
+      "epoch": 0.9647472699289082,
+      "grad_norm": 0.0008007743745110929,
+      "learning_rate": 0.15301572574881864,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 25603328,
+      "step": 19745
+    },
+    {
+      "epoch": 0.9649915715926025,
+      "grad_norm": 0.0009673970052972436,
+      "learning_rate": 0.15295683256155523,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 25610272,
+      "step": 19750
+    },
+    {
+      "epoch": 0.9652358732562969,
+      "grad_norm": 0.0009568413370288908,
+      "learning_rate": 0.15289793891831113,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 25616896,
+      "step": 19755
+    },
+    {
+      "epoch": 0.9654801749199912,
+      "grad_norm": 0.0013360594166442752,
+      "learning_rate": 0.15283904482816837,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 25623456,
+      "step": 19760
+    },
+    {
+      "epoch": 0.9657244765836855,
+      "grad_norm": 0.0007826304063200951,
+      "learning_rate": 0.15278015030020928,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 25629504,
+      "step": 19765
+    },
+    {
+      "epoch": 0.9659687782473798,
+      "grad_norm": 0.0009999366011470556,
+      "learning_rate": 0.152721255343516,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 25635776,
+      "step": 19770
+    },
+    {
+      "epoch": 0.9662130799110742,
+      "grad_norm": 0.0010328178759664297,
+      "learning_rate": 0.15266235996717098,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 25642272,
+      "step": 19775
+    },
+    {
+      "epoch": 0.9664573815747686,
+      "grad_norm": 0.000902714382391423,
+      "learning_rate": 0.15260346418025664,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 25648864,
+      "step": 19780
+    },
+    {
+      "epoch": 0.9667016832384628,
+      "grad_norm": 0.00084716483252123,
+      "learning_rate": 0.15254456799185537,
+      "loss": 0.082,
+      "num_input_tokens_seen": 25655968,
+      "step": 19785
+    },
+    {
+      "epoch": 0.9669459849021572,
+      "grad_norm": 0.0011574591044336557,
+      "learning_rate": 0.15248567141104974,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 25663456,
+      "step": 19790
+    },
+    {
+      "epoch": 0.9671902865658515,
+      "grad_norm": 0.0012633054284378886,
+      "learning_rate": 0.15242677444692232,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 25670464,
+      "step": 19795
+    },
+    {
+      "epoch": 0.9674345882295459,
+      "grad_norm": 0.0009620675700716674,
+      "learning_rate": 0.15236787710855584,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 25677472,
+      "step": 19800
+    },
+    {
+      "epoch": 0.9674345882295459,
+      "eval_loss": 0.0984303206205368,
+      "eval_runtime": 402.346,
+      "eval_samples_per_second": 90.432,
+      "eval_steps_per_second": 22.61,
+      "num_input_tokens_seen": 25677472,
+      "step": 19800
+    },
+    {
+      "epoch": 0.9676788898932401,
+      "grad_norm": 0.0008570508216507733,
+      "learning_rate": 0.1523089794050329,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 25683584,
+      "step": 19805
+    },
+    {
+      "epoch": 0.9679231915569345,
+      "grad_norm": 0.0011416887864470482,
+      "learning_rate": 0.15225008134543633,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 25689984,
+      "step": 19810
+    },
+    {
+      "epoch": 0.9681674932206288,
+      "grad_norm": 0.0012827160535380244,
+      "learning_rate": 0.15219118293884895,
+      "loss": 0.09,
+      "num_input_tokens_seen": 25696608,
+      "step": 19815
+    },
+    {
+      "epoch": 0.9684117948843232,
+      "grad_norm": 0.0009720964590087533,
+      "learning_rate": 0.15213228419435362,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 25703488,
+      "step": 19820
+    },
+    {
+      "epoch": 0.9686560965480175,
+      "grad_norm": 0.0009992228588089347,
+      "learning_rate": 0.15207338512103327,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 25709728,
+      "step": 19825
+    },
+    {
+      "epoch": 0.9689003982117118,
+      "grad_norm": 0.0014242333127185702,
+      "learning_rate": 0.1520144857279709,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 25716320,
+      "step": 19830
+    },
+    {
+      "epoch": 0.9691446998754062,
+      "grad_norm": 0.001232158625498414,
+      "learning_rate": 0.1519555860242495,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 25722528,
+      "step": 19835
+    },
+    {
+      "epoch": 0.9693890015391005,
+      "grad_norm": 0.00073143100598827,
+      "learning_rate": 0.15189668601895218,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 25728864,
+      "step": 19840
+    },
+    {
+      "epoch": 0.9696333032027948,
+      "grad_norm": 0.0018125054193660617,
+      "learning_rate": 0.151837785721162,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 25735264,
+      "step": 19845
+    },
+    {
+      "epoch": 0.9698776048664891,
+      "grad_norm": 0.0012785980943590403,
+      "learning_rate": 0.15177888513996218,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 25741536,
+      "step": 19850
+    },
+    {
+      "epoch": 0.9701219065301835,
+      "grad_norm": 0.0010037146275863051,
+      "learning_rate": 0.15171998428443592,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 25748000,
+      "step": 19855
+    },
+    {
+      "epoch": 0.9703662081938778,
+      "grad_norm": 0.0016373117687180638,
+      "learning_rate": 0.1516610831636665,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 25754304,
+      "step": 19860
+    },
+    {
+      "epoch": 0.9706105098575721,
+      "grad_norm": 0.0013300738064572215,
+      "learning_rate": 0.15160218178673715,
+      "loss": 0.126,
+      "num_input_tokens_seen": 25760640,
+      "step": 19865
+    },
+    {
+      "epoch": 0.9708548115212665,
+      "grad_norm": 0.0016958208288997412,
+      "learning_rate": 0.15154328016273122,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 25767136,
+      "step": 19870
+    },
+    {
+      "epoch": 0.9710991131849608,
+      "grad_norm": 0.0009533455013297498,
+      "learning_rate": 0.1514843783007321,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 25773984,
+      "step": 19875
+    },
+    {
+      "epoch": 0.9713434148486552,
+      "grad_norm": 0.0010339895961806178,
+      "learning_rate": 0.15142547620982322,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 25780128,
+      "step": 19880
+    },
+    {
+      "epoch": 0.9715877165123494,
+      "grad_norm": 0.0012152347480878234,
+      "learning_rate": 0.15136657389908797,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 25786336,
+      "step": 19885
+    },
+    {
+      "epoch": 0.9718320181760438,
+      "grad_norm": 0.0011286747176200151,
+      "learning_rate": 0.15130767137760986,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 25792704,
+      "step": 19890
+    },
+    {
+      "epoch": 0.9720763198397381,
+      "grad_norm": 0.0009636828908696771,
+      "learning_rate": 0.15124876865447243,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 25799136,
+      "step": 19895
+    },
+    {
+      "epoch": 0.9723206215034325,
+      "grad_norm": 0.0011533248471096158,
+      "learning_rate": 0.15118986573875912,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 25805888,
+      "step": 19900
+    },
+    {
+      "epoch": 0.9725649231671267,
+      "grad_norm": 0.0008717195596545935,
+      "learning_rate": 0.15113096263955358,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 25812000,
+      "step": 19905
+    },
+    {
+      "epoch": 0.9728092248308211,
+      "grad_norm": 0.0006454290705733001,
+      "learning_rate": 0.1510720593659394,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 25818880,
+      "step": 19910
+    },
+    {
+      "epoch": 0.9730535264945154,
+      "grad_norm": 0.0007064878009259701,
+      "learning_rate": 0.15101315592700015,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 25825600,
+      "step": 19915
+    },
+    {
+      "epoch": 0.9732978281582098,
+      "grad_norm": 0.0009175879531539977,
+      "learning_rate": 0.15095425233181956,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 25831840,
+      "step": 19920
+    },
+    {
+      "epoch": 0.9735421298219041,
+      "grad_norm": 0.0010531549341976643,
+      "learning_rate": 0.15089534858948128,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 25838528,
+      "step": 19925
+    },
+    {
+      "epoch": 0.9737864314855984,
+      "grad_norm": 0.0007368625374510884,
+      "learning_rate": 0.15083644470906898,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 25845120,
+      "step": 19930
+    },
+    {
+      "epoch": 0.9740307331492928,
+      "grad_norm": 0.0009173737489618361,
+      "learning_rate": 0.1507775406996664,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 25851424,
+      "step": 19935
+    },
+    {
+      "epoch": 0.974275034812987,
+      "grad_norm": 0.0007408498204313219,
+      "learning_rate": 0.15071863657035725,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 25858176,
+      "step": 19940
+    },
+    {
+      "epoch": 0.9745193364766814,
+      "grad_norm": 0.0010209650499746203,
+      "learning_rate": 0.15065973233022534,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 25864672,
+      "step": 19945
+    },
+    {
+      "epoch": 0.9747636381403757,
+      "grad_norm": 0.0015023340238258243,
+      "learning_rate": 0.15060082798835442,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 25871136,
+      "step": 19950
+    },
+    {
+      "epoch": 0.9750079398040701,
+      "grad_norm": 0.0008068465976975858,
+      "learning_rate": 0.15054192355382823,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 25877664,
+      "step": 19955
+    },
+    {
+      "epoch": 0.9752522414677643,
+      "grad_norm": 0.0010661095147952437,
+      "learning_rate": 0.15048301903573066,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 25884256,
+      "step": 19960
+    },
+    {
+      "epoch": 0.9754965431314587,
+      "grad_norm": 0.001136621693149209,
+      "learning_rate": 0.15042411444314546,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 25890464,
+      "step": 19965
+    },
+    {
+      "epoch": 0.9757408447951531,
+      "grad_norm": 0.000739955110475421,
+      "learning_rate": 0.1503652097851565,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 25896800,
+      "step": 19970
+    },
+    {
+      "epoch": 0.9759851464588474,
+      "grad_norm": 0.0009603677317500114,
+      "learning_rate": 0.15030630507084758,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 25902752,
+      "step": 19975
+    },
+    {
+      "epoch": 0.9762294481225418,
+      "grad_norm": 0.0011389831779524684,
+      "learning_rate": 0.1502474003093026,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 25908992,
+      "step": 19980
+    },
+    {
+      "epoch": 0.976473749786236,
+      "grad_norm": 0.0009523942717351019,
+      "learning_rate": 0.15018849550960536,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 25915392,
+      "step": 19985
+    },
+    {
+      "epoch": 0.9767180514499304,
+      "grad_norm": 0.0012472537346184254,
+      "learning_rate": 0.15012959068083975,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 25921632,
+      "step": 19990
+    },
+    {
+      "epoch": 0.9769623531136247,
+      "grad_norm": 0.0013965652324259281,
+      "learning_rate": 0.1500706858320896,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 25928032,
+      "step": 19995
+    },
+    {
+      "epoch": 0.977206654777319,
+      "grad_norm": 0.0008893098565749824,
+      "learning_rate": 0.15001178097243886,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 25934656,
+      "step": 20000
+    },
+    {
+      "epoch": 0.977206654777319,
+      "eval_loss": 0.09820657968521118,
+      "eval_runtime": 402.4796,
+      "eval_samples_per_second": 90.402,
+      "eval_steps_per_second": 22.602,
+      "num_input_tokens_seen": 25934656,
+      "step": 20000
+    },
+    {
+      "epoch": 0.9774509564410133,
+      "grad_norm": 0.0016499778721481562,
+      "learning_rate": 0.1499528761109713,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 25941312,
+      "step": 20005
+    },
+    {
+      "epoch": 0.9776952581047077,
+      "grad_norm": 0.0015580557519569993,
+      "learning_rate": 0.14989397125677087,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 25947520,
+      "step": 20010
+    },
+    {
+      "epoch": 0.9779395597684021,
+      "grad_norm": 0.0015733519103378057,
+      "learning_rate": 0.14983506641892141,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 25953856,
+      "step": 20015
+    },
+    {
+      "epoch": 0.9781838614320963,
+      "grad_norm": 0.001107610878534615,
+      "learning_rate": 0.14977616160650672,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 25961120,
+      "step": 20020
+    },
+    {
+      "epoch": 0.9784281630957907,
+      "grad_norm": 0.0007070951396599412,
+      "learning_rate": 0.14971725682861076,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 25967584,
+      "step": 20025
+    },
+    {
+      "epoch": 0.978672464759485,
+      "grad_norm": 0.0017815284663811326,
+      "learning_rate": 0.14965835209431738,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 25973824,
+      "step": 20030
+    },
+    {
+      "epoch": 0.9789167664231794,
+      "grad_norm": 0.001036068657413125,
+      "learning_rate": 0.14959944741271036,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 25980288,
+      "step": 20035
+    },
+    {
+      "epoch": 0.9791610680868736,
+      "grad_norm": 0.001214879914186895,
+      "learning_rate": 0.14954054279287363,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 25986720,
+      "step": 20040
+    },
+    {
+      "epoch": 0.979405369750568,
+      "grad_norm": 0.0014828440034762025,
+      "learning_rate": 0.14948163824389094,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 25993216,
+      "step": 20045
+    },
+    {
+      "epoch": 0.9796496714142623,
+      "grad_norm": 0.0009042855235747993,
+      "learning_rate": 0.14942273377484613,
+      "loss": 0.089,
+      "num_input_tokens_seen": 25999552,
+      "step": 20050
+    },
+    {
+      "epoch": 0.9798939730779567,
+      "grad_norm": 0.0012420243583619595,
+      "learning_rate": 0.1493638293948231,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 26005664,
+      "step": 20055
+    },
+    {
+      "epoch": 0.9801382747416509,
+      "grad_norm": 0.0011997104156762362,
+      "learning_rate": 0.14930492511290547,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 26012704,
+      "step": 20060
+    },
+    {
+      "epoch": 0.9803825764053453,
+      "grad_norm": 0.0007684106822125614,
+      "learning_rate": 0.14924602093817715,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 26019488,
+      "step": 20065
+    },
+    {
+      "epoch": 0.9806268780690397,
+      "grad_norm": 0.0010029751574620605,
+      "learning_rate": 0.14918711687972194,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 26025792,
+      "step": 20070
+    },
+    {
+      "epoch": 0.980871179732734,
+      "grad_norm": 0.0011154826497659087,
+      "learning_rate": 0.14912821294662346,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 26031648,
+      "step": 20075
+    },
+    {
+      "epoch": 0.9811154813964283,
+      "grad_norm": 0.0007222027634270489,
+      "learning_rate": 0.14906930914796554,
+      "loss": 0.073,
+      "num_input_tokens_seen": 26038048,
+      "step": 20080
+    },
+    {
+      "epoch": 0.9813597830601226,
+      "grad_norm": 0.0013214248465374112,
+      "learning_rate": 0.14901040549283182,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 26044608,
+      "step": 20085
+    },
+    {
+      "epoch": 0.981604084723817,
+      "grad_norm": 0.0015496048144996166,
+      "learning_rate": 0.148951501990306,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 26051264,
+      "step": 20090
+    },
+    {
+      "epoch": 0.9818483863875113,
+      "grad_norm": 0.0008074213401414454,
+      "learning_rate": 0.14889259864947177,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 26058112,
+      "step": 20095
+    },
+    {
+      "epoch": 0.9820926880512056,
+      "grad_norm": 0.0009300995152443647,
+      "learning_rate": 0.14883369547941272,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 26064160,
+      "step": 20100
+    },
+    {
+      "epoch": 0.9823369897148999,
+      "grad_norm": 0.0013062324142083526,
+      "learning_rate": 0.14877479248921247,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 26070272,
+      "step": 20105
+    },
+    {
+      "epoch": 0.9825812913785943,
+      "grad_norm": 0.001362847862765193,
+      "learning_rate": 0.14871588968795468,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 26077120,
+      "step": 20110
+    },
+    {
+      "epoch": 0.9828255930422887,
+      "grad_norm": 0.0009625280508771539,
+      "learning_rate": 0.1486569870847228,
+      "loss": 0.085,
+      "num_input_tokens_seen": 26083776,
+      "step": 20115
+    },
+    {
+      "epoch": 0.9830698947059829,
+      "grad_norm": 0.0008829927537590265,
+      "learning_rate": 0.1485980846886004,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 26090016,
+      "step": 20120
+    },
+    {
+      "epoch": 0.9833141963696773,
+      "grad_norm": 0.0012838944094255567,
+      "learning_rate": 0.14853918250867096,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 26096608,
+      "step": 20125
+    },
+    {
+      "epoch": 0.9835584980333716,
+      "grad_norm": 0.0008783689700067043,
+      "learning_rate": 0.1484802805540179,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 26102688,
+      "step": 20130
+    },
+    {
+      "epoch": 0.983802799697066,
+      "grad_norm": 0.000715558126103133,
+      "learning_rate": 0.14842137883372472,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 26108704,
+      "step": 20135
+    },
+    {
+      "epoch": 0.9840471013607602,
+      "grad_norm": 0.0013695212546736002,
+      "learning_rate": 0.14836247735687474,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 26115360,
+      "step": 20140
+    },
+    {
+      "epoch": 0.9842914030244546,
+      "grad_norm": 0.0013420708710327744,
+      "learning_rate": 0.14830357613255132,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 26121728,
+      "step": 20145
+    },
+    {
+      "epoch": 0.9845357046881489,
+      "grad_norm": 0.0007720611174590886,
+      "learning_rate": 0.1482446751698378,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 26128256,
+      "step": 20150
+    },
+    {
+      "epoch": 0.9847800063518433,
+      "grad_norm": 0.001142480643466115,
+      "learning_rate": 0.14818577447781744,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 26135200,
+      "step": 20155
+    },
+    {
+      "epoch": 0.9850243080155375,
+      "grad_norm": 0.0010735546238720417,
+      "learning_rate": 0.14812687406557346,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 26141472,
+      "step": 20160
+    },
+    {
+      "epoch": 0.9852686096792319,
+      "grad_norm": 0.0007197023369371891,
+      "learning_rate": 0.14806797394218899,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 26148064,
+      "step": 20165
+    },
+    {
+      "epoch": 0.9855129113429263,
+      "grad_norm": 0.0016247391467913985,
+      "learning_rate": 0.1480090741167472,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 26154400,
+      "step": 20170
+    },
+    {
+      "epoch": 0.9857572130066206,
+      "grad_norm": 0.0009538683807477355,
+      "learning_rate": 0.1479501745983313,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 26160640,
+      "step": 20175
+    },
+    {
+      "epoch": 0.9860015146703149,
+      "grad_norm": 0.0005861669778823853,
+      "learning_rate": 0.14789127539602415,
+      "loss": 0.048,
+      "num_input_tokens_seen": 26167456,
+      "step": 20180
+    },
+    {
+      "epoch": 0.9862458163340092,
+      "grad_norm": 0.0019942333456128836,
+      "learning_rate": 0.14783237651890885,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 26174112,
+      "step": 20185
+    },
+    {
+      "epoch": 0.9864901179977036,
+      "grad_norm": 0.001267713843844831,
+      "learning_rate": 0.14777347797606838,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 26180320,
+      "step": 20190
+    },
+    {
+      "epoch": 0.9867344196613979,
+      "grad_norm": 0.0016123257810249925,
+      "learning_rate": 0.14771457977658553,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 26186464,
+      "step": 20195
+    },
+    {
+      "epoch": 0.9869787213250922,
+      "grad_norm": 0.001350108184851706,
+      "learning_rate": 0.14765568192954326,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 26193248,
+      "step": 20200
+    },
+    {
+      "epoch": 0.9869787213250922,
+      "eval_loss": 0.09710865467786789,
+      "eval_runtime": 402.299,
+      "eval_samples_per_second": 90.443,
+      "eval_steps_per_second": 22.613,
+      "num_input_tokens_seen": 26193248,
+      "step": 20200
+    },
+    {
+      "epoch": 0.9872230229887865,
+      "grad_norm": 0.001902968855574727,
+      "learning_rate": 0.14759678444402421,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 26199136,
+      "step": 20205
+    },
+    {
+      "epoch": 0.9874673246524809,
+      "grad_norm": 0.0007208503084257245,
+      "learning_rate": 0.14753788732911122,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 26205376,
+      "step": 20210
+    },
+    {
+      "epoch": 0.9877116263161753,
+      "grad_norm": 0.0011088695609942079,
+      "learning_rate": 0.147478990593887,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 26212064,
+      "step": 20215
+    },
+    {
+      "epoch": 0.9879559279798695,
+      "grad_norm": 0.0020893665496259928,
+      "learning_rate": 0.14742009424743405,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 26218144,
+      "step": 20220
+    },
+    {
+      "epoch": 0.9882002296435639,
+      "grad_norm": 0.0011056206421926618,
+      "learning_rate": 0.14736119829883504,
+      "loss": 0.091,
+      "num_input_tokens_seen": 26224672,
+      "step": 20225
+    },
+    {
+      "epoch": 0.9884445313072582,
+      "grad_norm": 0.0008710320107638836,
+      "learning_rate": 0.14730230275717243,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 26230688,
+      "step": 20230
+    },
+    {
+      "epoch": 0.9886888329709526,
+      "grad_norm": 0.001469020382501185,
+      "learning_rate": 0.14724340763152854,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 26236736,
+      "step": 20235
+    },
+    {
+      "epoch": 0.9889331346346468,
+      "grad_norm": 0.0006936913705430925,
+      "learning_rate": 0.14718451293098594,
+      "loss": 0.097,
+      "num_input_tokens_seen": 26242688,
+      "step": 20240
+    },
+    {
+      "epoch": 0.9891774362983412,
+      "grad_norm": 0.001370286918245256,
+      "learning_rate": 0.14712561866462676,
+      "loss": 0.1125,
+      "num_input_tokens_seen": 26249600,
+      "step": 20245
+    },
+    {
+      "epoch": 0.9894217379620355,
+      "grad_norm": 0.0009414865635335445,
+      "learning_rate": 0.1470667248415333,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 26256032,
+      "step": 20250
+    },
+    {
+      "epoch": 0.9896660396257299,
+      "grad_norm": 0.0009352503111585975,
+      "learning_rate": 0.1470078314707878,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 26262272,
+      "step": 20255
+    },
+    {
+      "epoch": 0.9899103412894242,
+      "grad_norm": 0.0012254606699571013,
+      "learning_rate": 0.14694893856147223,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 26269120,
+      "step": 20260
+    },
+    {
+      "epoch": 0.9901546429531185,
+      "grad_norm": 0.000787491851951927,
+      "learning_rate": 0.14689004612266868,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 26275776,
+      "step": 20265
+    },
+    {
+      "epoch": 0.9903989446168129,
+      "grad_norm": 0.0007484601810574532,
+      "learning_rate": 0.14683115416345913,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 26282272,
+      "step": 20270
+    },
+    {
+      "epoch": 0.9906432462805072,
+      "grad_norm": 0.0010564613621681929,
+      "learning_rate": 0.1467722626929254,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 26288416,
+      "step": 20275
+    },
+    {
+      "epoch": 0.9908875479442015,
+      "grad_norm": 0.0010194072965532541,
+      "learning_rate": 0.14671337172014937,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 26294240,
+      "step": 20280
+    },
+    {
+      "epoch": 0.9911318496078958,
+      "grad_norm": 0.0008801919175311923,
+      "learning_rate": 0.14665448125421265,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 26300288,
+      "step": 20285
+    },
+    {
+      "epoch": 0.9913761512715902,
+      "grad_norm": 0.0010182007681578398,
+      "learning_rate": 0.146595591304197,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 26306624,
+      "step": 20290
+    },
+    {
+      "epoch": 0.9916204529352844,
+      "grad_norm": 0.0007369139930233359,
+      "learning_rate": 0.14653670187918397,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 26312832,
+      "step": 20295
+    },
+    {
+      "epoch": 0.9918647545989788,
+      "grad_norm": 0.001112372032366693,
+      "learning_rate": 0.14647781298825502,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 26318752,
+      "step": 20300
+    },
+    {
+      "epoch": 0.9921090562626731,
+      "grad_norm": 0.001292865606956184,
+      "learning_rate": 0.14641892464049153,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 26325120,
+      "step": 20305
+    },
+    {
+      "epoch": 0.9923533579263675,
+      "grad_norm": 0.0009079300216399133,
+      "learning_rate": 0.14636003684497495,
+      "loss": 0.087,
+      "num_input_tokens_seen": 26331744,
+      "step": 20310
+    },
+    {
+      "epoch": 0.9925976595900619,
+      "grad_norm": 0.0009284615516662598,
+      "learning_rate": 0.14630114961078636,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 26338112,
+      "step": 20315
+    },
+    {
+      "epoch": 0.9928419612537561,
+      "grad_norm": 0.0018358345841988921,
+      "learning_rate": 0.14624226294700704,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 26344800,
+      "step": 20320
+    },
+    {
+      "epoch": 0.9930862629174505,
+      "grad_norm": 0.0011026861611753702,
+      "learning_rate": 0.14618337686271793,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 26351200,
+      "step": 20325
+    },
+    {
+      "epoch": 0.9933305645811448,
+      "grad_norm": 0.0010634901700541377,
+      "learning_rate": 0.1461244913670001,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 26357760,
+      "step": 20330
+    },
+    {
+      "epoch": 0.9935748662448391,
+      "grad_norm": 0.0012316630454733968,
+      "learning_rate": 0.1460656064689344,
+      "loss": 0.079,
+      "num_input_tokens_seen": 26364160,
+      "step": 20335
+    },
+    {
+      "epoch": 0.9938191679085334,
+      "grad_norm": 0.0007846902590245008,
+      "learning_rate": 0.14600672217760163,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 26370432,
+      "step": 20340
+    },
+    {
+      "epoch": 0.9940634695722278,
+      "grad_norm": 0.003073090221732855,
+      "learning_rate": 0.14594783850208248,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 26378272,
+      "step": 20345
+    },
+    {
+      "epoch": 0.9943077712359221,
+      "grad_norm": 0.001501662889495492,
+      "learning_rate": 0.14588895545145758,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 26384800,
+      "step": 20350
+    },
+    {
+      "epoch": 0.9945520728996164,
+      "grad_norm": 0.0015304130502045155,
+      "learning_rate": 0.14583007303480738,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 26391296,
+      "step": 20355
+    },
+    {
+      "epoch": 0.9947963745633108,
+      "grad_norm": 0.0009366472368128598,
+      "learning_rate": 0.14577119126121235,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 26397824,
+      "step": 20360
+    },
+    {
+      "epoch": 0.9950406762270051,
+      "grad_norm": 0.0023777142632752657,
+      "learning_rate": 0.14571231013975272,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 26404832,
+      "step": 20365
+    },
+    {
+      "epoch": 0.9952849778906995,
+      "grad_norm": 0.0007186130387708545,
+      "learning_rate": 0.1456534296795088,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 26411712,
+      "step": 20370
+    },
+    {
+      "epoch": 0.9955292795543937,
+      "grad_norm": 0.0008455915376543999,
+      "learning_rate": 0.14559454988956066,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 26417600,
+      "step": 20375
+    },
+    {
+      "epoch": 0.9957735812180881,
+      "grad_norm": 0.0007379049202427268,
+      "learning_rate": 0.1455356707789882,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 26423648,
+      "step": 20380
+    },
+    {
+      "epoch": 0.9960178828817824,
+      "grad_norm": 0.001375784631818533,
+      "learning_rate": 0.14547679235687147,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 26429632,
+      "step": 20385
+    },
+    {
+      "epoch": 0.9962621845454768,
+      "grad_norm": 0.0011764400405809283,
+      "learning_rate": 0.14541791463229023,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 26436064,
+      "step": 20390
+    },
+    {
+      "epoch": 0.996506486209171,
+      "grad_norm": 0.0010301161091774702,
+      "learning_rate": 0.14535903761432406,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 26443008,
+      "step": 20395
+    },
+    {
+      "epoch": 0.9967507878728654,
+      "grad_norm": 0.000988221843726933,
+      "learning_rate": 0.1453001613120527,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 26449184,
+      "step": 20400
+    },
+    {
+      "epoch": 0.9967507878728654,
+      "eval_loss": 0.09594520181417465,
+      "eval_runtime": 401.9779,
+      "eval_samples_per_second": 90.515,
+      "eval_steps_per_second": 22.631,
+      "num_input_tokens_seen": 26449184,
+      "step": 20400
+    },
+    {
+      "epoch": 0.9969950895365598,
+      "grad_norm": 0.000730140833184123,
+      "learning_rate": 0.14524128573455547,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 26455616,
+      "step": 20405
+    },
+    {
+      "epoch": 0.9972393912002541,
+      "grad_norm": 0.0007171963225118816,
+      "learning_rate": 0.14518241089091177,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 26461920,
+      "step": 20410
+    },
+    {
+      "epoch": 0.9974836928639484,
+      "grad_norm": 0.00077079824404791,
+      "learning_rate": 0.1451235367902009,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 26468192,
+      "step": 20415
+    },
+    {
+      "epoch": 0.9977279945276427,
+      "grad_norm": 0.0007430916302837431,
+      "learning_rate": 0.1450646634415019,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 26474848,
+      "step": 20420
+    },
+    {
+      "epoch": 0.9979722961913371,
+      "grad_norm": 0.0015621059574186802,
+      "learning_rate": 0.1450057908538938,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 26480960,
+      "step": 20425
+    },
+    {
+      "epoch": 0.9982165978550314,
+      "grad_norm": 0.0014769547851756215,
+      "learning_rate": 0.14494691903645557,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 26486944,
+      "step": 20430
+    },
+    {
+      "epoch": 0.9984608995187257,
+      "grad_norm": 0.0016121063381433487,
+      "learning_rate": 0.14488804799826588,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 26493728,
+      "step": 20435
+    },
+    {
+      "epoch": 0.99870520118242,
+      "grad_norm": 0.0007652232307009399,
+      "learning_rate": 0.14482917774840348,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 26500640,
+      "step": 20440
+    },
+    {
+      "epoch": 0.9989495028461144,
+      "grad_norm": 0.0006797517999075353,
+      "learning_rate": 0.14477030829594684,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 26507008,
+      "step": 20445
+    },
+    {
+      "epoch": 0.9991938045098087,
+      "grad_norm": 0.0006418574484996498,
+      "learning_rate": 0.14471143964997432,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 26513312,
+      "step": 20450
+    },
+    {
+      "epoch": 0.999438106173503,
+      "grad_norm": 0.0013355695409700274,
+      "learning_rate": 0.14465257181956434,
+      "loss": 0.0602,
+      "num_input_tokens_seen": 26519776,
+      "step": 20455
+    },
+    {
+      "epoch": 0.9996824078371974,
+      "grad_norm": 0.0015310862800106406,
+      "learning_rate": 0.1445937048137949,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 26525888,
+      "step": 20460
+    },
+    {
+      "epoch": 0.9999267095008917,
+      "grad_norm": 0.0005927713355049491,
+      "learning_rate": 0.14453483864174416,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 26532384,
+      "step": 20465
+    },
+    {
+      "epoch": 1.0001954413309555,
+      "grad_norm": 0.002186753787100315,
+      "learning_rate": 0.14447597331249,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 26538976,
+      "step": 20470
+    },
+    {
+      "epoch": 1.0004397429946499,
+      "grad_norm": 0.0009480072185397148,
+      "learning_rate": 0.1444171088351102,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 26545568,
+      "step": 20475
+    },
+    {
+      "epoch": 1.000684044658344,
+      "grad_norm": 0.0010610298486426473,
+      "learning_rate": 0.14435824521868235,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 26552448,
+      "step": 20480
+    },
+    {
+      "epoch": 1.0009283463220384,
+      "grad_norm": 0.0017356903990730643,
+      "learning_rate": 0.14429938247228397,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 26558464,
+      "step": 20485
+    },
+    {
+      "epoch": 1.0011726479857328,
+      "grad_norm": 0.0005703876377083361,
+      "learning_rate": 0.14424052060499243,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 26566528,
+      "step": 20490
+    },
+    {
+      "epoch": 1.0014169496494272,
+      "grad_norm": 0.0013428179081529379,
+      "learning_rate": 0.14418165962588506,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 26572960,
+      "step": 20495
+    },
+    {
+      "epoch": 1.0016612513131213,
+      "grad_norm": 0.0011472615879029036,
+      "learning_rate": 0.1441227995440388,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 26579296,
+      "step": 20500
+    },
+    {
+      "epoch": 1.0019055529768157,
+      "grad_norm": 0.001139275380410254,
+      "learning_rate": 0.14406394036853082,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 26585664,
+      "step": 20505
+    },
+    {
+      "epoch": 1.00214985464051,
+      "grad_norm": 0.0013787519419565797,
+      "learning_rate": 0.14400508210843774,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 26592800,
+      "step": 20510
+    },
+    {
+      "epoch": 1.0023941563042045,
+      "grad_norm": 0.0020843648817390203,
+      "learning_rate": 0.1439462247728364,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 26599456,
+      "step": 20515
+    },
+    {
+      "epoch": 1.0026384579678989,
+      "grad_norm": 0.0011628777720034122,
+      "learning_rate": 0.14388736837080326,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 26605760,
+      "step": 20520
+    },
+    {
+      "epoch": 1.002882759631593,
+      "grad_norm": 0.0013338197022676468,
+      "learning_rate": 0.14382851291141469,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 26612544,
+      "step": 20525
+    },
+    {
+      "epoch": 1.0031270612952874,
+      "grad_norm": 0.000634790922049433,
+      "learning_rate": 0.14376965840374697,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 26619488,
+      "step": 20530
+    },
+    {
+      "epoch": 1.0033713629589818,
+      "grad_norm": 0.0012371388729661703,
+      "learning_rate": 0.14371080485687632,
+      "loss": 0.089,
+      "num_input_tokens_seen": 26626144,
+      "step": 20535
+    },
+    {
+      "epoch": 1.0036156646226762,
+      "grad_norm": 0.0006532712723128498,
+      "learning_rate": 0.1436519522798785,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 26632384,
+      "step": 20540
+    },
+    {
+      "epoch": 1.0038599662863703,
+      "grad_norm": 0.0007534011965617537,
+      "learning_rate": 0.14359310068182948,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 26639168,
+      "step": 20545
+    },
+    {
+      "epoch": 1.0041042679500647,
+      "grad_norm": 0.0011416601482778788,
+      "learning_rate": 0.14353425007180484,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 26646112,
+      "step": 20550
+    },
+    {
+      "epoch": 1.004348569613759,
+      "grad_norm": 0.0009490707889199257,
+      "learning_rate": 0.14347540045888005,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 26652384,
+      "step": 20555
+    },
+    {
+      "epoch": 1.0045928712774534,
+      "grad_norm": 0.0012537569273263216,
+      "learning_rate": 0.14341655185213056,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 26658912,
+      "step": 20560
+    },
+    {
+      "epoch": 1.0048371729411478,
+      "grad_norm": 0.0011037116637453437,
+      "learning_rate": 0.14335770426063144,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 26665024,
+      "step": 20565
+    },
+    {
+      "epoch": 1.005081474604842,
+      "grad_norm": 0.00034392887027934194,
+      "learning_rate": 0.1432988576934578,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 26671200,
+      "step": 20570
+    },
+    {
+      "epoch": 1.0053257762685364,
+      "grad_norm": 0.001014203648082912,
+      "learning_rate": 0.14324001215968457,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 26677792,
+      "step": 20575
+    },
+    {
+      "epoch": 1.0055700779322307,
+      "grad_norm": 0.0015979910967871547,
+      "learning_rate": 0.14318116766838637,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 26684512,
+      "step": 20580
+    },
+    {
+      "epoch": 1.0058143795959251,
+      "grad_norm": 0.0006908914656378329,
+      "learning_rate": 0.14312232422863788,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 26690880,
+      "step": 20585
+    },
+    {
+      "epoch": 1.0060586812596193,
+      "grad_norm": 0.0012840059353038669,
+      "learning_rate": 0.14306348184951334,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 26697504,
+      "step": 20590
+    },
+    {
+      "epoch": 1.0063029829233137,
+      "grad_norm": 0.0016314949607476592,
+      "learning_rate": 0.1430046405400871,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 26703808,
+      "step": 20595
+    },
+    {
+      "epoch": 1.006547284587008,
+      "grad_norm": 0.0014612477971240878,
+      "learning_rate": 0.14294580030943324,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 26710048,
+      "step": 20600
+    },
+    {
+      "epoch": 1.006547284587008,
+      "eval_loss": 0.09938289225101471,
+      "eval_runtime": 402.3605,
+      "eval_samples_per_second": 90.429,
+      "eval_steps_per_second": 22.609,
+      "num_input_tokens_seen": 26710048,
+      "step": 20600
+    },
+    {
+      "epoch": 1.0067915862507024,
+      "grad_norm": 0.0013994949404150248,
+      "learning_rate": 0.14288696116662553,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 26716544,
+      "step": 20605
+    },
+    {
+      "epoch": 1.0070358879143968,
+      "grad_norm": 0.0010188705055043101,
+      "learning_rate": 0.1428281231207378,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 26722880,
+      "step": 20610
+    },
+    {
+      "epoch": 1.007280189578091,
+      "grad_norm": 0.0008885830175131559,
+      "learning_rate": 0.1427692861808437,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 26729600,
+      "step": 20615
+    },
+    {
+      "epoch": 1.0075244912417853,
+      "grad_norm": 0.0009953760309144855,
+      "learning_rate": 0.1427104503560165,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 26735968,
+      "step": 20620
+    },
+    {
+      "epoch": 1.0077687929054797,
+      "grad_norm": 0.0007720266003161669,
+      "learning_rate": 0.14265161565532947,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 26742304,
+      "step": 20625
+    },
+    {
+      "epoch": 1.008013094569174,
+      "grad_norm": 0.0008837715722620487,
+      "learning_rate": 0.14259278208785564,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 26749024,
+      "step": 20630
+    },
+    {
+      "epoch": 1.0082573962328683,
+      "grad_norm": 0.0012705313274636865,
+      "learning_rate": 0.14253394966266789,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 26755328,
+      "step": 20635
+    },
+    {
+      "epoch": 1.0085016978965626,
+      "grad_norm": 0.0011299996403977275,
+      "learning_rate": 0.14247511838883894,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 26761760,
+      "step": 20640
+    },
+    {
+      "epoch": 1.008745999560257,
+      "grad_norm": 0.0009928969666361809,
+      "learning_rate": 0.14241628827544126,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 26767872,
+      "step": 20645
+    },
+    {
+      "epoch": 1.0089903012239514,
+      "grad_norm": 0.0005016888026148081,
+      "learning_rate": 0.14235745933154723,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 26774112,
+      "step": 20650
+    },
+    {
+      "epoch": 1.0092346028876458,
+      "grad_norm": 0.001409450895152986,
+      "learning_rate": 0.14229863156622907,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 26780832,
+      "step": 20655
+    },
+    {
+      "epoch": 1.00947890455134,
+      "grad_norm": 0.0011605179170146585,
+      "learning_rate": 0.14223980498855868,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 26787264,
+      "step": 20660
+    },
+    {
+      "epoch": 1.0097232062150343,
+      "grad_norm": 0.0007030564011074603,
+      "learning_rate": 0.14218097960760792,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 26793312,
+      "step": 20665
+    },
+    {
+      "epoch": 1.0099675078787287,
+      "grad_norm": 0.000910881906747818,
+      "learning_rate": 0.1421221554324483,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 26799840,
+      "step": 20670
+    },
+    {
+      "epoch": 1.010211809542423,
+      "grad_norm": 0.001189140835776925,
+      "learning_rate": 0.1420633324721513,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 26806816,
+      "step": 20675
+    },
+    {
+      "epoch": 1.0104561112061172,
+      "grad_norm": 0.0012368238531053066,
+      "learning_rate": 0.14200451073578824,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 26813344,
+      "step": 20680
+    },
+    {
+      "epoch": 1.0107004128698116,
+      "grad_norm": 0.0008418634533882141,
+      "learning_rate": 0.14194569023243003,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 26819616,
+      "step": 20685
+    },
+    {
+      "epoch": 1.010944714533506,
+      "grad_norm": 0.001124703325331211,
+      "learning_rate": 0.14188687097114766,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 26826272,
+      "step": 20690
+    },
+    {
+      "epoch": 1.0111890161972004,
+      "grad_norm": 0.0020638855639845133,
+      "learning_rate": 0.14182805296101172,
+      "loss": 0.103,
+      "num_input_tokens_seen": 26832704,
+      "step": 20695
+    },
+    {
+      "epoch": 1.0114333178608947,
+      "grad_norm": 0.0009343070560134947,
+      "learning_rate": 0.14176923621109272,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 26839424,
+      "step": 20700
+    },
+    {
+      "epoch": 1.011677619524589,
+      "grad_norm": 0.0015224473318085074,
+      "learning_rate": 0.14171042073046097,
+      "loss": 0.112,
+      "num_input_tokens_seen": 26845568,
+      "step": 20705
+    },
+    {
+      "epoch": 1.0119219211882833,
+      "grad_norm": 0.0011195959523320198,
+      "learning_rate": 0.14165160652818642,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 26852032,
+      "step": 20710
+    },
+    {
+      "epoch": 1.0121662228519777,
+      "grad_norm": 0.0010892233112826943,
+      "learning_rate": 0.14159279361333907,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 26858304,
+      "step": 20715
+    },
+    {
+      "epoch": 1.012410524515672,
+      "grad_norm": 0.0014277203008532524,
+      "learning_rate": 0.14153398199498868,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 26865504,
+      "step": 20720
+    },
+    {
+      "epoch": 1.0126548261793662,
+      "grad_norm": 0.0010732711525633931,
+      "learning_rate": 0.14147517168220458,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 26872160,
+      "step": 20725
+    },
+    {
+      "epoch": 1.0128991278430606,
+      "grad_norm": 0.001859849551692605,
+      "learning_rate": 0.14141636268405616,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 26878368,
+      "step": 20730
+    },
+    {
+      "epoch": 1.013143429506755,
+      "grad_norm": 0.0014696632279083133,
+      "learning_rate": 0.14135755500961253,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 26885088,
+      "step": 20735
+    },
+    {
+      "epoch": 1.0133877311704493,
+      "grad_norm": 0.0012999975588172674,
+      "learning_rate": 0.14129874866794245,
+      "loss": 0.103,
+      "num_input_tokens_seen": 26891584,
+      "step": 20740
+    },
+    {
+      "epoch": 1.0136320328341435,
+      "grad_norm": 0.0011912272311747074,
+      "learning_rate": 0.14123994366811476,
+      "loss": 0.097,
+      "num_input_tokens_seen": 26898112,
+      "step": 20745
+    },
+    {
+      "epoch": 1.0138763344978379,
+      "grad_norm": 0.0013300852151587605,
+      "learning_rate": 0.14118114001919774,
+      "loss": 0.077,
+      "num_input_tokens_seen": 26905088,
+      "step": 20750
+    },
+    {
+      "epoch": 1.0141206361615323,
+      "grad_norm": 0.0012279768707230687,
+      "learning_rate": 0.14112233773025978,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 26911968,
+      "step": 20755
+    },
+    {
+      "epoch": 1.0143649378252266,
+      "grad_norm": 0.0011865205597132444,
+      "learning_rate": 0.14106353681036896,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 26918272,
+      "step": 20760
+    },
+    {
+      "epoch": 1.014609239488921,
+      "grad_norm": 0.0006208817940205336,
+      "learning_rate": 0.14100473726859303,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 26924672,
+      "step": 20765
+    },
+    {
+      "epoch": 1.0148535411526152,
+      "grad_norm": 0.000884358596522361,
+      "learning_rate": 0.14094593911399964,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 26930688,
+      "step": 20770
+    },
+    {
+      "epoch": 1.0150978428163095,
+      "grad_norm": 0.0006318718078546226,
+      "learning_rate": 0.14088714235565625,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 26937024,
+      "step": 20775
+    },
+    {
+      "epoch": 1.015342144480004,
+      "grad_norm": 0.000848635972943157,
+      "learning_rate": 0.14082834700263,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 26943616,
+      "step": 20780
+    },
+    {
+      "epoch": 1.0155864461436983,
+      "grad_norm": 0.0008753227884881198,
+      "learning_rate": 0.14076955306398795,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 26949952,
+      "step": 20785
+    },
+    {
+      "epoch": 1.0158307478073925,
+      "grad_norm": 0.0014150083297863603,
+      "learning_rate": 0.14071076054879675,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 26956192,
+      "step": 20790
+    },
+    {
+      "epoch": 1.0160750494710868,
+      "grad_norm": 0.001134058111347258,
+      "learning_rate": 0.14065196946612302,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 26962464,
+      "step": 20795
+    },
+    {
+      "epoch": 1.0163193511347812,
+      "grad_norm": 0.0015585428336635232,
+      "learning_rate": 0.1405931798250331,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 26968800,
+      "step": 20800
+    },
+    {
+      "epoch": 1.0163193511347812,
+      "eval_loss": 0.09433497488498688,
+      "eval_runtime": 402.7263,
+      "eval_samples_per_second": 90.347,
+      "eval_steps_per_second": 22.589,
+      "num_input_tokens_seen": 26968800,
+      "step": 20800
+    },
+    {
+      "epoch": 1.0165636527984756,
+      "grad_norm": 0.0013650258770212531,
+      "learning_rate": 0.14053439163459308,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 26975936,
+      "step": 20805
+    },
+    {
+      "epoch": 1.01680795446217,
+      "grad_norm": 0.001086244941689074,
+      "learning_rate": 0.14047560490386876,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 26982656,
+      "step": 20810
+    },
+    {
+      "epoch": 1.0170522561258641,
+      "grad_norm": 0.0012559453025460243,
+      "learning_rate": 0.14041681964192593,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 26989760,
+      "step": 20815
+    },
+    {
+      "epoch": 1.0172965577895585,
+      "grad_norm": 0.0007597898365929723,
+      "learning_rate": 0.14035803585782988,
+      "loss": 0.08,
+      "num_input_tokens_seen": 26996576,
+      "step": 20820
+    },
+    {
+      "epoch": 1.017540859453253,
+      "grad_norm": 0.000990328611806035,
+      "learning_rate": 0.14029925356064593,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 27003232,
+      "step": 20825
+    },
+    {
+      "epoch": 1.0177851611169473,
+      "grad_norm": 0.0011675377609208226,
+      "learning_rate": 0.1402404727594389,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 27009312,
+      "step": 20830
+    },
+    {
+      "epoch": 1.0180294627806414,
+      "grad_norm": 0.0012729184236377478,
+      "learning_rate": 0.1401816934632737,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 27015552,
+      "step": 20835
+    },
+    {
+      "epoch": 1.0182737644443358,
+      "grad_norm": 0.0009322831756435335,
+      "learning_rate": 0.1401229156812147,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 27022336,
+      "step": 20840
+    },
+    {
+      "epoch": 1.0185180661080302,
+      "grad_norm": 0.0009345178259536624,
+      "learning_rate": 0.14006413942232626,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 27028800,
+      "step": 20845
+    },
+    {
+      "epoch": 1.0187623677717246,
+      "grad_norm": 0.0007351326639764011,
+      "learning_rate": 0.14000536469567235,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 27035584,
+      "step": 20850
+    },
+    {
+      "epoch": 1.019006669435419,
+      "grad_norm": 0.0016152994940057397,
+      "learning_rate": 0.13994659151031685,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 27042400,
+      "step": 20855
+    },
+    {
+      "epoch": 1.0192509710991131,
+      "grad_norm": 0.001337930210866034,
+      "learning_rate": 0.13988781987532323,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 27048704,
+      "step": 20860
+    },
+    {
+      "epoch": 1.0194952727628075,
+      "grad_norm": 0.0008672375697642565,
+      "learning_rate": 0.1398290497997549,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 27055296,
+      "step": 20865
+    },
+    {
+      "epoch": 1.0197395744265019,
+      "grad_norm": 0.0012540515745058656,
+      "learning_rate": 0.13977028129267488,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 27061824,
+      "step": 20870
+    },
+    {
+      "epoch": 1.0199838760901963,
+      "grad_norm": 0.0012696873163804412,
+      "learning_rate": 0.13971151436314605,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 27068352,
+      "step": 20875
+    },
+    {
+      "epoch": 1.0202281777538904,
+      "grad_norm": 0.0007751485682092607,
+      "learning_rate": 0.13965274902023103,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 27074816,
+      "step": 20880
+    },
+    {
+      "epoch": 1.0204724794175848,
+      "grad_norm": 0.0010521267540752888,
+      "learning_rate": 0.13959398527299208,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 27081504,
+      "step": 20885
+    },
+    {
+      "epoch": 1.0207167810812792,
+      "grad_norm": 0.0004944460233673453,
+      "learning_rate": 0.13953522313049138,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 27087744,
+      "step": 20890
+    },
+    {
+      "epoch": 1.0209610827449735,
+      "grad_norm": 0.0010819894960150123,
+      "learning_rate": 0.13947646260179083,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 27094464,
+      "step": 20895
+    },
+    {
+      "epoch": 1.021205384408668,
+      "grad_norm": 0.009754388593137264,
+      "learning_rate": 0.13941770369595194,
+      "loss": 0.111,
+      "num_input_tokens_seen": 27100512,
+      "step": 20900
+    },
+    {
+      "epoch": 1.021449686072362,
+      "grad_norm": 0.001250391243956983,
+      "learning_rate": 0.1393589464220362,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 27107008,
+      "step": 20905
+    },
+    {
+      "epoch": 1.0216939877360565,
+      "grad_norm": 0.0012137795565649867,
+      "learning_rate": 0.13930019078910455,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 27113472,
+      "step": 20910
+    },
+    {
+      "epoch": 1.0219382893997508,
+      "grad_norm": 0.0011166553013026714,
+      "learning_rate": 0.139241436806218,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 27119808,
+      "step": 20915
+    },
+    {
+      "epoch": 1.0221825910634452,
+      "grad_norm": 0.00216299993917346,
+      "learning_rate": 0.13918268448243712,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 27125920,
+      "step": 20920
+    },
+    {
+      "epoch": 1.0224268927271394,
+      "grad_norm": 0.0008488960447721183,
+      "learning_rate": 0.13912393382682217,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 27132960,
+      "step": 20925
+    },
+    {
+      "epoch": 1.0226711943908338,
+      "grad_norm": 0.0014313937863335013,
+      "learning_rate": 0.1390651848484333,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 27140000,
+      "step": 20930
+    },
+    {
+      "epoch": 1.0229154960545281,
+      "grad_norm": 0.0011079367250204086,
+      "learning_rate": 0.1390064375563304,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 27146080,
+      "step": 20935
+    },
+    {
+      "epoch": 1.0231597977182225,
+      "grad_norm": 0.001337229274213314,
+      "learning_rate": 0.13894769195957293,
+      "loss": 0.095,
+      "num_input_tokens_seen": 27152416,
+      "step": 20940
+    },
+    {
+      "epoch": 1.023404099381917,
+      "grad_norm": 0.0010114923352375627,
+      "learning_rate": 0.13888894806722032,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 27159200,
+      "step": 20945
+    },
+    {
+      "epoch": 1.023648401045611,
+      "grad_norm": 0.0009811188792809844,
+      "learning_rate": 0.1388302058883315,
+      "loss": 0.089,
+      "num_input_tokens_seen": 27165472,
+      "step": 20950
+    },
+    {
+      "epoch": 1.0238927027093054,
+      "grad_norm": 0.000931074027903378,
+      "learning_rate": 0.13877146543196528,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 27172064,
+      "step": 20955
+    },
+    {
+      "epoch": 1.0241370043729998,
+      "grad_norm": 0.0008057938539423048,
+      "learning_rate": 0.13871272670718027,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 27178432,
+      "step": 20960
+    },
+    {
+      "epoch": 1.0243813060366942,
+      "grad_norm": 0.00116734707262367,
+      "learning_rate": 0.13865398972303455,
+      "loss": 0.088,
+      "num_input_tokens_seen": 27184992,
+      "step": 20965
+    },
+    {
+      "epoch": 1.0246256077003884,
+      "grad_norm": 0.0012190502602607012,
+      "learning_rate": 0.13859525448858623,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 27191712,
+      "step": 20970
+    },
+    {
+      "epoch": 1.0248699093640827,
+      "grad_norm": 0.0010124478721991181,
+      "learning_rate": 0.13853652101289304,
+      "loss": 0.081,
+      "num_input_tokens_seen": 27198048,
+      "step": 20975
+    },
+    {
+      "epoch": 1.0251142110277771,
+      "grad_norm": 0.0013032964197918773,
+      "learning_rate": 0.13847778930501234,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 27204384,
+      "step": 20980
+    },
+    {
+      "epoch": 1.0253585126914715,
+      "grad_norm": 0.0009032879606820643,
+      "learning_rate": 0.1384190593740013,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 27210592,
+      "step": 20985
+    },
+    {
+      "epoch": 1.0256028143551656,
+      "grad_norm": 0.0015317421639338136,
+      "learning_rate": 0.13836033122891686,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 27216960,
+      "step": 20990
+    },
+    {
+      "epoch": 1.02584711601886,
+      "grad_norm": 0.001095977844670415,
+      "learning_rate": 0.1383016048788156,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 27223552,
+      "step": 20995
+    },
+    {
+      "epoch": 1.0260914176825544,
+      "grad_norm": 0.0012844977900385857,
+      "learning_rate": 0.13824288033275392,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 27230240,
+      "step": 21000
+    },
+    {
+      "epoch": 1.0260914176825544,
+      "eval_loss": 0.1055796816945076,
+      "eval_runtime": 402.1425,
+      "eval_samples_per_second": 90.478,
+      "eval_steps_per_second": 22.621,
+      "num_input_tokens_seen": 27230240,
+      "step": 21000
+    },
+    {
+      "epoch": 1.0263357193462488,
+      "grad_norm": 0.0008730414556339383,
+      "learning_rate": 0.1381841575997878,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 27236704,
+      "step": 21005
+    },
+    {
+      "epoch": 1.0265800210099432,
+      "grad_norm": 0.0009742409456521273,
+      "learning_rate": 0.13812543668897306,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 27242688,
+      "step": 21010
+    },
+    {
+      "epoch": 1.0268243226736373,
+      "grad_norm": 0.002033266704529524,
+      "learning_rate": 0.13806671760936526,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 27249408,
+      "step": 21015
+    },
+    {
+      "epoch": 1.0270686243373317,
+      "grad_norm": 0.0008926842710934579,
+      "learning_rate": 0.13800800037001956,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 27255872,
+      "step": 21020
+    },
+    {
+      "epoch": 1.027312926001026,
+      "grad_norm": 0.001288104336708784,
+      "learning_rate": 0.13794928497999087,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 27262240,
+      "step": 21025
+    },
+    {
+      "epoch": 1.0275572276647205,
+      "grad_norm": 0.0011489654425531626,
+      "learning_rate": 0.1378905714483339,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 27268384,
+      "step": 21030
+    },
+    {
+      "epoch": 1.0278015293284146,
+      "grad_norm": 0.0012247991980984807,
+      "learning_rate": 0.13783185978410295,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 27274912,
+      "step": 21035
+    },
+    {
+      "epoch": 1.028045830992109,
+      "grad_norm": 0.00159212586004287,
+      "learning_rate": 0.13777314999635218,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 27281280,
+      "step": 21040
+    },
+    {
+      "epoch": 1.0282901326558034,
+      "grad_norm": 0.0014268578961491585,
+      "learning_rate": 0.1377144420941353,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 27287520,
+      "step": 21045
+    },
+    {
+      "epoch": 1.0285344343194978,
+      "grad_norm": 0.0015036859549582005,
+      "learning_rate": 0.13765573608650586,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 27294464,
+      "step": 21050
+    },
+    {
+      "epoch": 1.0287787359831921,
+      "grad_norm": 0.0013794702244922519,
+      "learning_rate": 0.13759703198251702,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 27301024,
+      "step": 21055
+    },
+    {
+      "epoch": 1.0290230376468863,
+      "grad_norm": 0.0014114645309746265,
+      "learning_rate": 0.13753832979122174,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 27307808,
+      "step": 21060
+    },
+    {
+      "epoch": 1.0292673393105807,
+      "grad_norm": 0.001893583103083074,
+      "learning_rate": 0.13747962952167264,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 27314272,
+      "step": 21065
+    },
+    {
+      "epoch": 1.029511640974275,
+      "grad_norm": 0.0010860050097107887,
+      "learning_rate": 0.13742093118292192,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 27320992,
+      "step": 21070
+    },
+    {
+      "epoch": 1.0297559426379694,
+      "grad_norm": 0.0009358865208923817,
+      "learning_rate": 0.13736223478402174,
+      "loss": 0.097,
+      "num_input_tokens_seen": 27327488,
+      "step": 21075
+    },
+    {
+      "epoch": 1.0300002443016636,
+      "grad_norm": 0.0006481375312432647,
+      "learning_rate": 0.1373035403340238,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 27333728,
+      "step": 21080
+    },
+    {
+      "epoch": 1.030244545965358,
+      "grad_norm": 0.0012126066721975803,
+      "learning_rate": 0.13724484784197943,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 27340192,
+      "step": 21085
+    },
+    {
+      "epoch": 1.0304888476290524,
+      "grad_norm": 0.0008379507926292717,
+      "learning_rate": 0.13718615731693987,
+      "loss": 0.1208,
+      "num_input_tokens_seen": 27346528,
+      "step": 21090
+    },
+    {
+      "epoch": 1.0307331492927467,
+      "grad_norm": 0.0010841719340533018,
+      "learning_rate": 0.13712746876795587,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 27352832,
+      "step": 21095
+    },
+    {
+      "epoch": 1.030977450956441,
+      "grad_norm": 0.0008829680155031383,
+      "learning_rate": 0.13706878220407792,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 27359328,
+      "step": 21100
+    },
+    {
+      "epoch": 1.0312217526201353,
+      "grad_norm": 0.0007203482091426849,
+      "learning_rate": 0.13701009763435631,
+      "loss": 0.079,
+      "num_input_tokens_seen": 27366080,
+      "step": 21105
+    },
+    {
+      "epoch": 1.0314660542838296,
+      "grad_norm": 0.0007952941232360899,
+      "learning_rate": 0.13695141506784084,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 27372736,
+      "step": 21110
+    },
+    {
+      "epoch": 1.031710355947524,
+      "grad_norm": 0.0011358850169926882,
+      "learning_rate": 0.13689273451358114,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 27379328,
+      "step": 21115
+    },
+    {
+      "epoch": 1.0319546576112184,
+      "grad_norm": 0.003053368767723441,
+      "learning_rate": 0.13683405598062653,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 27385888,
+      "step": 21120
+    },
+    {
+      "epoch": 1.0321989592749126,
+      "grad_norm": 0.0014941069530323148,
+      "learning_rate": 0.1367753794780259,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 27391904,
+      "step": 21125
+    },
+    {
+      "epoch": 1.032443260938607,
+      "grad_norm": 0.0027936934493482113,
+      "learning_rate": 0.13671670501482802,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 27398176,
+      "step": 21130
+    },
+    {
+      "epoch": 1.0326875626023013,
+      "grad_norm": 0.0015457833651453257,
+      "learning_rate": 0.1366580326000811,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 27404512,
+      "step": 21135
+    },
+    {
+      "epoch": 1.0329318642659957,
+      "grad_norm": 0.0013659369433298707,
+      "learning_rate": 0.1365993622428332,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 27411136,
+      "step": 21140
+    },
+    {
+      "epoch": 1.03317616592969,
+      "grad_norm": 0.0007714607054367661,
+      "learning_rate": 0.13654069395213211,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 27417344,
+      "step": 21145
+    },
+    {
+      "epoch": 1.0334204675933842,
+      "grad_norm": 0.0010756602277979255,
+      "learning_rate": 0.13648202773702509,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 27424064,
+      "step": 21150
+    },
+    {
+      "epoch": 1.0336647692570786,
+      "grad_norm": 0.0007315311231650412,
+      "learning_rate": 0.13642336360655927,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 27430304,
+      "step": 21155
+    },
+    {
+      "epoch": 1.033909070920773,
+      "grad_norm": 0.0011198463616892695,
+      "learning_rate": 0.13636470156978145,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 27436736,
+      "step": 21160
+    },
+    {
+      "epoch": 1.0341533725844674,
+      "grad_norm": 0.0010656729573383927,
+      "learning_rate": 0.13630604163573798,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 27443232,
+      "step": 21165
+    },
+    {
+      "epoch": 1.0343976742481615,
+      "grad_norm": 0.0009600571356713772,
+      "learning_rate": 0.13624738381347495,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 27449600,
+      "step": 21170
+    },
+    {
+      "epoch": 1.034641975911856,
+      "grad_norm": 0.0008991071372292936,
+      "learning_rate": 0.1361887281120382,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 27456032,
+      "step": 21175
+    },
+    {
+      "epoch": 1.0348862775755503,
+      "grad_norm": 0.0007890230044722557,
+      "learning_rate": 0.13613007454047307,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 27462432,
+      "step": 21180
+    },
+    {
+      "epoch": 1.0351305792392447,
+      "grad_norm": 0.001027237274684012,
+      "learning_rate": 0.13607142310782486,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 27469440,
+      "step": 21185
+    },
+    {
+      "epoch": 1.035374880902939,
+      "grad_norm": 0.0006541185430251062,
+      "learning_rate": 0.13601277382313814,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 27476096,
+      "step": 21190
+    },
+    {
+      "epoch": 1.0356191825666332,
+      "grad_norm": 0.000801075017079711,
+      "learning_rate": 0.1359541266954575,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 27482560,
+      "step": 21195
+    },
+    {
+      "epoch": 1.0358634842303276,
+      "grad_norm": 0.0008625138434581459,
+      "learning_rate": 0.13589548173382707,
+      "loss": 0.07,
+      "num_input_tokens_seen": 27489152,
+      "step": 21200
+    },
+    {
+      "epoch": 1.0358634842303276,
+      "eval_loss": 0.09864918887615204,
+      "eval_runtime": 402.9034,
+      "eval_samples_per_second": 90.307,
+      "eval_steps_per_second": 22.579,
+      "num_input_tokens_seen": 27489152,
+      "step": 21200
+    },
+    {
+      "epoch": 1.036107785894022,
+      "grad_norm": 0.0005832379683852196,
+      "learning_rate": 0.1358368389472906,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 27495008,
+      "step": 21205
+    },
+    {
+      "epoch": 1.0363520875577164,
+      "grad_norm": 0.0011426935670897365,
+      "learning_rate": 0.13577819834489155,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 27501568,
+      "step": 21210
+    },
+    {
+      "epoch": 1.0365963892214105,
+      "grad_norm": 0.0007401816546916962,
+      "learning_rate": 0.135719559935673,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 27508032,
+      "step": 21215
+    },
+    {
+      "epoch": 1.0368406908851049,
+      "grad_norm": 0.0017990939086303115,
+      "learning_rate": 0.13566092372867775,
+      "loss": 0.071,
+      "num_input_tokens_seen": 27514656,
+      "step": 21220
+    },
+    {
+      "epoch": 1.0370849925487993,
+      "grad_norm": 0.0014070946490392089,
+      "learning_rate": 0.13560228973294833,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 27520608,
+      "step": 21225
+    },
+    {
+      "epoch": 1.0373292942124936,
+      "grad_norm": 0.000940449652262032,
+      "learning_rate": 0.13554365795752668,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 27527456,
+      "step": 21230
+    },
+    {
+      "epoch": 1.037573595876188,
+      "grad_norm": 0.0010203662095591426,
+      "learning_rate": 0.1354850284114547,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 27533888,
+      "step": 21235
+    },
+    {
+      "epoch": 1.0378178975398822,
+      "grad_norm": 0.00059178052470088,
+      "learning_rate": 0.13542640110377374,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 27540544,
+      "step": 21240
+    },
+    {
+      "epoch": 1.0380621992035766,
+      "grad_norm": 0.0009657465270720422,
+      "learning_rate": 0.13536777604352487,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 27546816,
+      "step": 21245
+    },
+    {
+      "epoch": 1.038306500867271,
+      "grad_norm": 0.0015366475563496351,
+      "learning_rate": 0.13530915323974887,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 27553408,
+      "step": 21250
+    },
+    {
+      "epoch": 1.0385508025309653,
+      "grad_norm": 0.001082811621017754,
+      "learning_rate": 0.13525053270148596,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 27559808,
+      "step": 21255
+    },
+    {
+      "epoch": 1.0387951041946595,
+      "grad_norm": 0.0016546017723158002,
+      "learning_rate": 0.13519191443777628,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 27566080,
+      "step": 21260
+    },
+    {
+      "epoch": 1.0390394058583539,
+      "grad_norm": 0.0006919643492437899,
+      "learning_rate": 0.13513329845765953,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 27572672,
+      "step": 21265
+    },
+    {
+      "epoch": 1.0392837075220482,
+      "grad_norm": 0.0006633157026953995,
+      "learning_rate": 0.13507468477017495,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 27579136,
+      "step": 21270
+    },
+    {
+      "epoch": 1.0395280091857426,
+      "grad_norm": 0.0009227843256667256,
+      "learning_rate": 0.13501607338436153,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 27585632,
+      "step": 21275
+    },
+    {
+      "epoch": 1.039772310849437,
+      "grad_norm": 0.0012821357231587172,
+      "learning_rate": 0.13495746430925798,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 27591904,
+      "step": 21280
+    },
+    {
+      "epoch": 1.0400166125131312,
+      "grad_norm": 0.0008243247284553945,
+      "learning_rate": 0.13489885755390238,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 27598720,
+      "step": 21285
+    },
+    {
+      "epoch": 1.0402609141768255,
+      "grad_norm": 0.0012429701164364815,
+      "learning_rate": 0.13484025312733275,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 27605216,
+      "step": 21290
+    },
+    {
+      "epoch": 1.04050521584052,
+      "grad_norm": 0.0008658512379042804,
+      "learning_rate": 0.13478165103858658,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 27612192,
+      "step": 21295
+    },
+    {
+      "epoch": 1.0407495175042143,
+      "grad_norm": 0.0010695260716602206,
+      "learning_rate": 0.13472305129670106,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 27618720,
+      "step": 21300
+    },
+    {
+      "epoch": 1.0409938191679085,
+      "grad_norm": 0.001006843289360404,
+      "learning_rate": 0.13466445391071305,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 27624832,
+      "step": 21305
+    },
+    {
+      "epoch": 1.0412381208316028,
+      "grad_norm": 0.0011336390161886811,
+      "learning_rate": 0.13460585888965895,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 27630880,
+      "step": 21310
+    },
+    {
+      "epoch": 1.0414824224952972,
+      "grad_norm": 0.0014411498559638858,
+      "learning_rate": 0.13454726624257482,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 27637664,
+      "step": 21315
+    },
+    {
+      "epoch": 1.0417267241589916,
+      "grad_norm": 0.0018521333113312721,
+      "learning_rate": 0.1344886759784965,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 27644224,
+      "step": 21320
+    },
+    {
+      "epoch": 1.0419710258226857,
+      "grad_norm": 0.0013456186279654503,
+      "learning_rate": 0.13443008810645923,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 27650304,
+      "step": 21325
+    },
+    {
+      "epoch": 1.0422153274863801,
+      "grad_norm": 0.0010382996406406164,
+      "learning_rate": 0.13437150263549807,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 27657024,
+      "step": 21330
+    },
+    {
+      "epoch": 1.0424596291500745,
+      "grad_norm": 0.0008089079055935144,
+      "learning_rate": 0.13431291957464755,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 27663360,
+      "step": 21335
+    },
+    {
+      "epoch": 1.0427039308137689,
+      "grad_norm": 0.0011522357817739248,
+      "learning_rate": 0.13425433893294197,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 27670304,
+      "step": 21340
+    },
+    {
+      "epoch": 1.0429482324774633,
+      "grad_norm": 0.0008403757237829268,
+      "learning_rate": 0.13419576071941525,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 27676416,
+      "step": 21345
+    },
+    {
+      "epoch": 1.0431925341411574,
+      "grad_norm": 0.0007292656810022891,
+      "learning_rate": 0.1341371849431008,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 27683008,
+      "step": 21350
+    },
+    {
+      "epoch": 1.0434368358048518,
+      "grad_norm": 0.0007884882506914437,
+      "learning_rate": 0.13407861161303178,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 27689536,
+      "step": 21355
+    },
+    {
+      "epoch": 1.0436811374685462,
+      "grad_norm": 0.0011832509189844131,
+      "learning_rate": 0.13402004073824098,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 27695776,
+      "step": 21360
+    },
+    {
+      "epoch": 1.0439254391322406,
+      "grad_norm": 0.0019990524742752314,
+      "learning_rate": 0.13396147232776062,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 27702048,
+      "step": 21365
+    },
+    {
+      "epoch": 1.0441697407959347,
+      "grad_norm": 0.0013667969033122063,
+      "learning_rate": 0.13390290639062288,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 27708640,
+      "step": 21370
+    },
+    {
+      "epoch": 1.044414042459629,
+      "grad_norm": 0.0018607144011184573,
+      "learning_rate": 0.13384434293585917,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 27714496,
+      "step": 21375
+    },
+    {
+      "epoch": 1.0446583441233235,
+      "grad_norm": 0.0012680654181167483,
+      "learning_rate": 0.13378578197250088,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 27721024,
+      "step": 21380
+    },
+    {
+      "epoch": 1.0449026457870179,
+      "grad_norm": 0.0010573461186140776,
+      "learning_rate": 0.13372722350957872,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 27727584,
+      "step": 21385
+    },
+    {
+      "epoch": 1.0451469474507122,
+      "grad_norm": 0.0012509688967838883,
+      "learning_rate": 0.13366866755612322,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 27733760,
+      "step": 21390
+    },
+    {
+      "epoch": 1.0453912491144064,
+      "grad_norm": 0.0014487792504951358,
+      "learning_rate": 0.13361011412116436,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 27740192,
+      "step": 21395
+    },
+    {
+      "epoch": 1.0456355507781008,
+      "grad_norm": 0.0017140095587819815,
+      "learning_rate": 0.13355156321373196,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 27746528,
+      "step": 21400
+    },
+    {
+      "epoch": 1.0456355507781008,
+      "eval_loss": 0.1003485918045044,
+      "eval_runtime": 402.5497,
+      "eval_samples_per_second": 90.386,
+      "eval_steps_per_second": 22.598,
+      "num_input_tokens_seen": 27746528,
+      "step": 21400
+    },
+    {
+      "epoch": 1.0458798524417952,
+      "grad_norm": 0.0012461612932384014,
+      "learning_rate": 0.13349301484285514,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 27753216,
+      "step": 21405
+    },
+    {
+      "epoch": 1.0461241541054895,
+      "grad_norm": 0.002200531540438533,
+      "learning_rate": 0.13343446901756295,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 27759936,
+      "step": 21410
+    },
+    {
+      "epoch": 1.0463684557691837,
+      "grad_norm": 0.002068073023110628,
+      "learning_rate": 0.13337592574688376,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 27766400,
+      "step": 21415
+    },
+    {
+      "epoch": 1.046612757432878,
+      "grad_norm": 0.0009602477075532079,
+      "learning_rate": 0.13331738503984572,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 27772704,
+      "step": 21420
+    },
+    {
+      "epoch": 1.0468570590965725,
+      "grad_norm": 0.001468145870603621,
+      "learning_rate": 0.1332588469054766,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 27779296,
+      "step": 21425
+    },
+    {
+      "epoch": 1.0471013607602668,
+      "grad_norm": 0.001182141830213368,
+      "learning_rate": 0.1332003113528036,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 27785408,
+      "step": 21430
+    },
+    {
+      "epoch": 1.0473456624239612,
+      "grad_norm": 0.0011585158063098788,
+      "learning_rate": 0.13314177839085373,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 27791520,
+      "step": 21435
+    },
+    {
+      "epoch": 1.0475899640876554,
+      "grad_norm": 0.001268459134735167,
+      "learning_rate": 0.13308324802865354,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 27798144,
+      "step": 21440
+    },
+    {
+      "epoch": 1.0478342657513497,
+      "grad_norm": 0.0007727954653091729,
+      "learning_rate": 0.13302472027522905,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 27804768,
+      "step": 21445
+    },
+    {
+      "epoch": 1.0480785674150441,
+      "grad_norm": 0.0016053264262154698,
+      "learning_rate": 0.13296619513960606,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 27811264,
+      "step": 21450
+    },
+    {
+      "epoch": 1.0483228690787385,
+      "grad_norm": 0.0010500488569959998,
+      "learning_rate": 0.1329076726308098,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 27817664,
+      "step": 21455
+    },
+    {
+      "epoch": 1.0485671707424327,
+      "grad_norm": 0.0008867051801644266,
+      "learning_rate": 0.13284915275786519,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 27824384,
+      "step": 21460
+    },
+    {
+      "epoch": 1.048811472406127,
+      "grad_norm": 0.0022801384329795837,
+      "learning_rate": 0.1327906355297968,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 27830848,
+      "step": 21465
+    },
+    {
+      "epoch": 1.0490557740698214,
+      "grad_norm": 0.0009469336946494877,
+      "learning_rate": 0.13273212095562867,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 27837568,
+      "step": 21470
+    },
+    {
+      "epoch": 1.0493000757335158,
+      "grad_norm": 0.0015141450567170978,
+      "learning_rate": 0.13267360904438444,
+      "loss": 0.082,
+      "num_input_tokens_seen": 27844224,
+      "step": 21475
+    },
+    {
+      "epoch": 1.0495443773972102,
+      "grad_norm": 0.0014495783252641559,
+      "learning_rate": 0.1326150998050875,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 27850592,
+      "step": 21480
+    },
+    {
+      "epoch": 1.0497886790609043,
+      "grad_norm": 0.0007853690767660737,
+      "learning_rate": 0.1325565932467606,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 27857376,
+      "step": 21485
+    },
+    {
+      "epoch": 1.0500329807245987,
+      "grad_norm": 0.0022418752778321505,
+      "learning_rate": 0.13249808937842628,
+      "loss": 0.146,
+      "num_input_tokens_seen": 27863872,
+      "step": 21490
+    },
+    {
+      "epoch": 1.050277282388293,
+      "grad_norm": 0.0015540429158136249,
+      "learning_rate": 0.1324395882091065,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 27870272,
+      "step": 21495
+    },
+    {
+      "epoch": 1.0505215840519875,
+      "grad_norm": 0.0010854712454602122,
+      "learning_rate": 0.13238108974782284,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 27876800,
+      "step": 21500
+    },
+    {
+      "epoch": 1.0507658857156816,
+      "grad_norm": 0.0010300107533112168,
+      "learning_rate": 0.13232259400359664,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 27883584,
+      "step": 21505
+    },
+    {
+      "epoch": 1.051010187379376,
+      "grad_norm": 0.0008187037310563028,
+      "learning_rate": 0.13226410098544852,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 27891072,
+      "step": 21510
+    },
+    {
+      "epoch": 1.0512544890430704,
+      "grad_norm": 0.0011580969439819455,
+      "learning_rate": 0.13220561070239892,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 27898080,
+      "step": 21515
+    },
+    {
+      "epoch": 1.0514987907067648,
+      "grad_norm": 0.0009675098117440939,
+      "learning_rate": 0.13214712316346783,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 27904768,
+      "step": 21520
+    },
+    {
+      "epoch": 1.051743092370459,
+      "grad_norm": 0.001962281297892332,
+      "learning_rate": 0.13208863837767465,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 27911104,
+      "step": 21525
+    },
+    {
+      "epoch": 1.0519873940341533,
+      "grad_norm": 0.0013633311027660966,
+      "learning_rate": 0.13203015635403856,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 27917376,
+      "step": 21530
+    },
+    {
+      "epoch": 1.0522316956978477,
+      "grad_norm": 0.0008904458954930305,
+      "learning_rate": 0.13197167710157817,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 27924064,
+      "step": 21535
+    },
+    {
+      "epoch": 1.052475997361542,
+      "grad_norm": 0.000936213182285428,
+      "learning_rate": 0.13191320062931167,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 27931264,
+      "step": 21540
+    },
+    {
+      "epoch": 1.0527202990252365,
+      "grad_norm": 0.0010667407186701894,
+      "learning_rate": 0.13185472694625702,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 27937568,
+      "step": 21545
+    },
+    {
+      "epoch": 1.0529646006889306,
+      "grad_norm": 0.0013269615592435002,
+      "learning_rate": 0.13179625606143142,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 27944128,
+      "step": 21550
+    },
+    {
+      "epoch": 1.053208902352625,
+      "grad_norm": 0.0010310201905667782,
+      "learning_rate": 0.13173778798385188,
+      "loss": 0.098,
+      "num_input_tokens_seen": 27950560,
+      "step": 21555
+    },
+    {
+      "epoch": 1.0534532040163194,
+      "grad_norm": 0.000711916945874691,
+      "learning_rate": 0.13167932272253505,
+      "loss": 0.082,
+      "num_input_tokens_seen": 27957152,
+      "step": 21560
+    },
+    {
+      "epoch": 1.0536975056800137,
+      "grad_norm": 0.0015295769553631544,
+      "learning_rate": 0.1316208602864968,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 27963776,
+      "step": 21565
+    },
+    {
+      "epoch": 1.053941807343708,
+      "grad_norm": 0.0010906050447374582,
+      "learning_rate": 0.13156240068475292,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 27970272,
+      "step": 21570
+    },
+    {
+      "epoch": 1.0541861090074023,
+      "grad_norm": 0.0008450300083495677,
+      "learning_rate": 0.1315039439263185,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 27976544,
+      "step": 21575
+    },
+    {
+      "epoch": 1.0544304106710967,
+      "grad_norm": 0.0004230899503454566,
+      "learning_rate": 0.13144549002020833,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 27982688,
+      "step": 21580
+    },
+    {
+      "epoch": 1.054674712334791,
+      "grad_norm": 0.0010178172960877419,
+      "learning_rate": 0.13138703897543688,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 27989216,
+      "step": 21585
+    },
+    {
+      "epoch": 1.0549190139984854,
+      "grad_norm": 0.0014426193665713072,
+      "learning_rate": 0.1313285908010178,
+      "loss": 0.07,
+      "num_input_tokens_seen": 27996032,
+      "step": 21590
+    },
+    {
+      "epoch": 1.0551633156621796,
+      "grad_norm": 0.001193493022583425,
+      "learning_rate": 0.13127014550596475,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 28002528,
+      "step": 21595
+    },
+    {
+      "epoch": 1.055407617325874,
+      "grad_norm": 0.0008787908591330051,
+      "learning_rate": 0.1312117030992906,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 28009568,
+      "step": 21600
+    },
+    {
+      "epoch": 1.055407617325874,
+      "eval_loss": 0.0971703976392746,
+      "eval_runtime": 402.2664,
+      "eval_samples_per_second": 90.45,
+      "eval_steps_per_second": 22.614,
+      "num_input_tokens_seen": 28009568,
+      "step": 21600
+    },
+    {
+      "epoch": 1.0556519189895683,
+      "grad_norm": 0.0006513847038149834,
+      "learning_rate": 0.13115326359000795,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 28016320,
+      "step": 21605
+    },
+    {
+      "epoch": 1.0558962206532627,
+      "grad_norm": 0.0011034030467271805,
+      "learning_rate": 0.13109482698712896,
+      "loss": 0.073,
+      "num_input_tokens_seen": 28023168,
+      "step": 21610
+    },
+    {
+      "epoch": 1.0561405223169569,
+      "grad_norm": 0.0004804357304237783,
+      "learning_rate": 0.1310363932996651,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 28029408,
+      "step": 21615
+    },
+    {
+      "epoch": 1.0563848239806513,
+      "grad_norm": 0.0011482008267194033,
+      "learning_rate": 0.13097796253662775,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 28035744,
+      "step": 21620
+    },
+    {
+      "epoch": 1.0566291256443456,
+      "grad_norm": 0.001988503150641918,
+      "learning_rate": 0.1309195347070277,
+      "loss": 0.08,
+      "num_input_tokens_seen": 28042784,
+      "step": 21625
+    },
+    {
+      "epoch": 1.05687342730804,
+      "grad_norm": 0.0009365826845169067,
+      "learning_rate": 0.13086110981987506,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 28049504,
+      "step": 21630
+    },
+    {
+      "epoch": 1.0571177289717344,
+      "grad_norm": 0.0012571495026350021,
+      "learning_rate": 0.13080268788417987,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 28055936,
+      "step": 21635
+    },
+    {
+      "epoch": 1.0573620306354286,
+      "grad_norm": 0.0004956864286214113,
+      "learning_rate": 0.1307442689089515,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 28062496,
+      "step": 21640
+    },
+    {
+      "epoch": 1.057606332299123,
+      "grad_norm": 0.0015711060259491205,
+      "learning_rate": 0.13068585290319873,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 28069632,
+      "step": 21645
+    },
+    {
+      "epoch": 1.0578506339628173,
+      "grad_norm": 0.0008950949413701892,
+      "learning_rate": 0.13062743987593026,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 28075552,
+      "step": 21650
+    },
+    {
+      "epoch": 1.0580949356265117,
+      "grad_norm": 0.0010968934511765838,
+      "learning_rate": 0.13056902983615395,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 28082016,
+      "step": 21655
+    },
+    {
+      "epoch": 1.0583392372902058,
+      "grad_norm": 0.0007000657496973872,
+      "learning_rate": 0.13051062279287742,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 28088704,
+      "step": 21660
+    },
+    {
+      "epoch": 1.0585835389539002,
+      "grad_norm": 0.0008407121640630066,
+      "learning_rate": 0.13045221875510782,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 28094752,
+      "step": 21665
+    },
+    {
+      "epoch": 1.0588278406175946,
+      "grad_norm": 0.0014512910274788737,
+      "learning_rate": 0.13039381773185174,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 28101312,
+      "step": 21670
+    },
+    {
+      "epoch": 1.059072142281289,
+      "grad_norm": 0.0013088646810501814,
+      "learning_rate": 0.1303354197321153,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 28107744,
+      "step": 21675
+    },
+    {
+      "epoch": 1.0593164439449834,
+      "grad_norm": 0.0014657687861472368,
+      "learning_rate": 0.13027702476490433,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 28114368,
+      "step": 21680
+    },
+    {
+      "epoch": 1.0595607456086775,
+      "grad_norm": 0.0010215514339506626,
+      "learning_rate": 0.1302186328392239,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 28120640,
+      "step": 21685
+    },
+    {
+      "epoch": 1.059805047272372,
+      "grad_norm": 0.0008938196115195751,
+      "learning_rate": 0.130160243964079,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 28127232,
+      "step": 21690
+    },
+    {
+      "epoch": 1.0600493489360663,
+      "grad_norm": 0.0012243249220773578,
+      "learning_rate": 0.13010185814847372,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 28133664,
+      "step": 21695
+    },
+    {
+      "epoch": 1.0602936505997607,
+      "grad_norm": 0.0008235318819060922,
+      "learning_rate": 0.13004347540141192,
+      "loss": 0.12,
+      "num_input_tokens_seen": 28140576,
+      "step": 21700
+    },
+    {
+      "epoch": 1.0605379522634548,
+      "grad_norm": 0.0010288581252098083,
+      "learning_rate": 0.12998509573189712,
+      "loss": 0.079,
+      "num_input_tokens_seen": 28146848,
+      "step": 21705
+    },
+    {
+      "epoch": 1.0607822539271492,
+      "grad_norm": 0.0013855879660695791,
+      "learning_rate": 0.12992671914893203,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 28153152,
+      "step": 21710
+    },
+    {
+      "epoch": 1.0610265555908436,
+      "grad_norm": 0.001112298690713942,
+      "learning_rate": 0.12986834566151909,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 28160000,
+      "step": 21715
+    },
+    {
+      "epoch": 1.061270857254538,
+      "grad_norm": 0.001267043873667717,
+      "learning_rate": 0.12980997527866028,
+      "loss": 0.104,
+      "num_input_tokens_seen": 28166944,
+      "step": 21720
+    },
+    {
+      "epoch": 1.0615151589182323,
+      "grad_norm": 0.0018657655455172062,
+      "learning_rate": 0.12975160800935692,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 28173824,
+      "step": 21725
+    },
+    {
+      "epoch": 1.0617594605819265,
+      "grad_norm": 0.001341348048299551,
+      "learning_rate": 0.12969324386261016,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 28180064,
+      "step": 21730
+    },
+    {
+      "epoch": 1.0620037622456209,
+      "grad_norm": 0.00087919388897717,
+      "learning_rate": 0.12963488284742034,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 28186816,
+      "step": 21735
+    },
+    {
+      "epoch": 1.0622480639093153,
+      "grad_norm": 0.0008439011289738119,
+      "learning_rate": 0.12957652497278752,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 28193440,
+      "step": 21740
+    },
+    {
+      "epoch": 1.0624923655730096,
+      "grad_norm": 0.0010903330985456705,
+      "learning_rate": 0.12951817024771117,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 28200032,
+      "step": 21745
+    },
+    {
+      "epoch": 1.0627366672367038,
+      "grad_norm": 0.000914389209356159,
+      "learning_rate": 0.12945981868119041,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 28206304,
+      "step": 21750
+    },
+    {
+      "epoch": 1.0629809689003982,
+      "grad_norm": 0.0010625508148223162,
+      "learning_rate": 0.12940147028222376,
+      "loss": 0.079,
+      "num_input_tokens_seen": 28212800,
+      "step": 21755
+    },
+    {
+      "epoch": 1.0632252705640926,
+      "grad_norm": 0.0008063875138759613,
+      "learning_rate": 0.12934312505980916,
+      "loss": 0.091,
+      "num_input_tokens_seen": 28219200,
+      "step": 21760
+    },
+    {
+      "epoch": 1.063469572227787,
+      "grad_norm": 0.0006029783398844302,
+      "learning_rate": 0.1292847830229443,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 28225472,
+      "step": 21765
+    },
+    {
+      "epoch": 1.0637138738914813,
+      "grad_norm": 0.0016971477307379246,
+      "learning_rate": 0.12922644418062626,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 28232064,
+      "step": 21770
+    },
+    {
+      "epoch": 1.0639581755551755,
+      "grad_norm": 0.0009886592160910368,
+      "learning_rate": 0.1291681085418515,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 28238528,
+      "step": 21775
+    },
+    {
+      "epoch": 1.0642024772188698,
+      "grad_norm": 0.0012404738226905465,
+      "learning_rate": 0.12910977611561628,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 28245120,
+      "step": 21780
+    },
+    {
+      "epoch": 1.0644467788825642,
+      "grad_norm": 0.0010038241744041443,
+      "learning_rate": 0.1290514469109161,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 28251328,
+      "step": 21785
+    },
+    {
+      "epoch": 1.0646910805462586,
+      "grad_norm": 0.0018177377060055733,
+      "learning_rate": 0.128993120936746,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 28257696,
+      "step": 21790
+    },
+    {
+      "epoch": 1.0649353822099528,
+      "grad_norm": 0.0016259591793641448,
+      "learning_rate": 0.12893479820210071,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 28264256,
+      "step": 21795
+    },
+    {
+      "epoch": 1.0651796838736471,
+      "grad_norm": 0.0016881373012438416,
+      "learning_rate": 0.1288764787159742,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 28270592,
+      "step": 21800
+    },
+    {
+      "epoch": 1.0651796838736471,
+      "eval_loss": 0.09476463496685028,
+      "eval_runtime": 402.7542,
+      "eval_samples_per_second": 90.34,
+      "eval_steps_per_second": 22.587,
+      "num_input_tokens_seen": 28270592,
+      "step": 21800
+    },
+    {
+      "epoch": 1.0654239855373415,
+      "grad_norm": 0.0013624971034005284,
+      "learning_rate": 0.1288181624873601,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 28277632,
+      "step": 21805
+    },
+    {
+      "epoch": 1.065668287201036,
+      "grad_norm": 0.001085534691810608,
+      "learning_rate": 0.12875984952525163,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 28283872,
+      "step": 21810
+    },
+    {
+      "epoch": 1.0659125888647303,
+      "grad_norm": 0.0014808244304731488,
+      "learning_rate": 0.12870153983864122,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 28290112,
+      "step": 21815
+    },
+    {
+      "epoch": 1.0661568905284244,
+      "grad_norm": 0.0008906896691769361,
+      "learning_rate": 0.12864323343652104,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 28296640,
+      "step": 21820
+    },
+    {
+      "epoch": 1.0664011921921188,
+      "grad_norm": 0.0008551803766749799,
+      "learning_rate": 0.12858493032788268,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 28303520,
+      "step": 21825
+    },
+    {
+      "epoch": 1.0666454938558132,
+      "grad_norm": 0.0023533375933766365,
+      "learning_rate": 0.12852663052171714,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 28309824,
+      "step": 21830
+    },
+    {
+      "epoch": 1.0668897955195076,
+      "grad_norm": 0.0010609121527522802,
+      "learning_rate": 0.12846833402701507,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 28316256,
+      "step": 21835
+    },
+    {
+      "epoch": 1.0671340971832017,
+      "grad_norm": 0.0014248040970414877,
+      "learning_rate": 0.12841004085276642,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 28323040,
+      "step": 21840
+    },
+    {
+      "epoch": 1.0673783988468961,
+      "grad_norm": 0.0008048378513194621,
+      "learning_rate": 0.12835175100796076,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 28329824,
+      "step": 21845
+    },
+    {
+      "epoch": 1.0676227005105905,
+      "grad_norm": 0.0013174728956073523,
+      "learning_rate": 0.12829346450158724,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 28335968,
+      "step": 21850
+    },
+    {
+      "epoch": 1.0678670021742849,
+      "grad_norm": 0.0009695563348941505,
+      "learning_rate": 0.12823518134263423,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 28343008,
+      "step": 21855
+    },
+    {
+      "epoch": 1.0681113038379793,
+      "grad_norm": 0.0013702824944630265,
+      "learning_rate": 0.12817690154008973,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 28349760,
+      "step": 21860
+    },
+    {
+      "epoch": 1.0683556055016734,
+      "grad_norm": 0.001774936099536717,
+      "learning_rate": 0.12811862510294134,
+      "loss": 0.081,
+      "num_input_tokens_seen": 28355840,
+      "step": 21865
+    },
+    {
+      "epoch": 1.0685999071653678,
+      "grad_norm": 0.0007971441955305636,
+      "learning_rate": 0.12806035204017585,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 28362016,
+      "step": 21870
+    },
+    {
+      "epoch": 1.0688442088290622,
+      "grad_norm": 0.0020528153982013464,
+      "learning_rate": 0.12800208236077987,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 28368512,
+      "step": 21875
+    },
+    {
+      "epoch": 1.0690885104927565,
+      "grad_norm": 0.0016294163651764393,
+      "learning_rate": 0.12794381607373917,
+      "loss": 0.078,
+      "num_input_tokens_seen": 28374976,
+      "step": 21880
+    },
+    {
+      "epoch": 1.0693328121564507,
+      "grad_norm": 0.001085562282241881,
+      "learning_rate": 0.12788555318803924,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 28381792,
+      "step": 21885
+    },
+    {
+      "epoch": 1.069577113820145,
+      "grad_norm": 0.0010524754179641604,
+      "learning_rate": 0.1278272937126649,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 28388128,
+      "step": 21890
+    },
+    {
+      "epoch": 1.0698214154838395,
+      "grad_norm": 0.0013323462335392833,
+      "learning_rate": 0.1277690376566005,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 28394720,
+      "step": 21895
+    },
+    {
+      "epoch": 1.0700657171475338,
+      "grad_norm": 0.0014220719458535314,
+      "learning_rate": 0.12771078502882985,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 28401600,
+      "step": 21900
+    },
+    {
+      "epoch": 1.070310018811228,
+      "grad_norm": 0.0012859145645052195,
+      "learning_rate": 0.12765253583833633,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 28408160,
+      "step": 21905
+    },
+    {
+      "epoch": 1.0705543204749224,
+      "grad_norm": 0.0010528876446187496,
+      "learning_rate": 0.12759429009410256,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 28414528,
+      "step": 21910
+    },
+    {
+      "epoch": 1.0707986221386168,
+      "grad_norm": 0.0010539523791521788,
+      "learning_rate": 0.12753604780511085,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 28420864,
+      "step": 21915
+    },
+    {
+      "epoch": 1.0710429238023111,
+      "grad_norm": 0.0009950114181265235,
+      "learning_rate": 0.12747780898034283,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 28427776,
+      "step": 21920
+    },
+    {
+      "epoch": 1.0712872254660055,
+      "grad_norm": 0.0013359255390241742,
+      "learning_rate": 0.12741957362877973,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 28434176,
+      "step": 21925
+    },
+    {
+      "epoch": 1.0715315271296997,
+      "grad_norm": 0.0011911304900422692,
+      "learning_rate": 0.12736134175940214,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 28440896,
+      "step": 21930
+    },
+    {
+      "epoch": 1.071775828793394,
+      "grad_norm": 0.0013209469616413116,
+      "learning_rate": 0.12730311338119016,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 28447584,
+      "step": 21935
+    },
+    {
+      "epoch": 1.0720201304570884,
+      "grad_norm": 0.0007417346350848675,
+      "learning_rate": 0.12724488850312327,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 28454016,
+      "step": 21940
+    },
+    {
+      "epoch": 1.0722644321207828,
+      "grad_norm": 0.0010617448715493083,
+      "learning_rate": 0.1271866671341806,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 28460736,
+      "step": 21945
+    },
+    {
+      "epoch": 1.072508733784477,
+      "grad_norm": 0.0005201597814448178,
+      "learning_rate": 0.12712844928334047,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 28467424,
+      "step": 21950
+    },
+    {
+      "epoch": 1.0727530354481714,
+      "grad_norm": 0.0017951990012079477,
+      "learning_rate": 0.12707023495958095,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 28473920,
+      "step": 21955
+    },
+    {
+      "epoch": 1.0729973371118657,
+      "grad_norm": 0.0009675905457697809,
+      "learning_rate": 0.12701202417187932,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 28480576,
+      "step": 21960
+    },
+    {
+      "epoch": 1.0732416387755601,
+      "grad_norm": 0.0010810394305735826,
+      "learning_rate": 0.12695381692921243,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 28486720,
+      "step": 21965
+    },
+    {
+      "epoch": 1.0734859404392545,
+      "grad_norm": 0.001334147178567946,
+      "learning_rate": 0.12689561324055665,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 28493696,
+      "step": 21970
+    },
+    {
+      "epoch": 1.0737302421029487,
+      "grad_norm": 0.001329729682765901,
+      "learning_rate": 0.12683741311488758,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 28499968,
+      "step": 21975
+    },
+    {
+      "epoch": 1.073974543766643,
+      "grad_norm": 0.0018884571036323905,
+      "learning_rate": 0.1267792165611805,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 28506976,
+      "step": 21980
+    },
+    {
+      "epoch": 1.0742188454303374,
+      "grad_norm": 0.001368609257042408,
+      "learning_rate": 0.1267210235884101,
+      "loss": 0.073,
+      "num_input_tokens_seen": 28513792,
+      "step": 21985
+    },
+    {
+      "epoch": 1.0744631470940318,
+      "grad_norm": 0.001095268758945167,
+      "learning_rate": 0.12666283420555033,
+      "loss": 0.084,
+      "num_input_tokens_seen": 28520608,
+      "step": 21990
+    },
+    {
+      "epoch": 1.074707448757726,
+      "grad_norm": 0.0008243289776146412,
+      "learning_rate": 0.12660464842157487,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 28526944,
+      "step": 21995
+    },
+    {
+      "epoch": 1.0749517504214203,
+      "grad_norm": 0.0010260287672281265,
+      "learning_rate": 0.1265464662454566,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 28533952,
+      "step": 22000
+    },
+    {
+      "epoch": 1.0749517504214203,
+      "eval_loss": 0.09810065478086472,
+      "eval_runtime": 402.8647,
+      "eval_samples_per_second": 90.316,
+      "eval_steps_per_second": 22.581,
+      "num_input_tokens_seen": 28533952,
+      "step": 22000
+    },
+    {
+      "epoch": 1.0751960520851147,
+      "grad_norm": 0.001172712305560708,
+      "learning_rate": 0.12648828768616793,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 28540576,
+      "step": 22005
+    },
+    {
+      "epoch": 1.075440353748809,
+      "grad_norm": 0.0012334393104538321,
+      "learning_rate": 0.12643011275268085,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 28547264,
+      "step": 22010
+    },
+    {
+      "epoch": 1.0756846554125032,
+      "grad_norm": 0.0010112286545336246,
+      "learning_rate": 0.1263719414539665,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 28553120,
+      "step": 22015
+    },
+    {
+      "epoch": 1.0759289570761976,
+      "grad_norm": 0.001184401335194707,
+      "learning_rate": 0.1263137737989957,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 28559104,
+      "step": 22020
+    },
+    {
+      "epoch": 1.076173258739892,
+      "grad_norm": 0.0011576494434848428,
+      "learning_rate": 0.1262556097967387,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 28565440,
+      "step": 22025
+    },
+    {
+      "epoch": 1.0764175604035864,
+      "grad_norm": 0.0008827525889500976,
+      "learning_rate": 0.126197449456165,
+      "loss": 0.096,
+      "num_input_tokens_seen": 28572000,
+      "step": 22030
+    },
+    {
+      "epoch": 1.0766618620672808,
+      "grad_norm": 0.0014898793306201696,
+      "learning_rate": 0.12613929278624378,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 28578784,
+      "step": 22035
+    },
+    {
+      "epoch": 1.076906163730975,
+      "grad_norm": 0.00125587556976825,
+      "learning_rate": 0.12608113979594343,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 28585120,
+      "step": 22040
+    },
+    {
+      "epoch": 1.0771504653946693,
+      "grad_norm": 0.0006617777980864048,
+      "learning_rate": 0.1260229904942319,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 28591584,
+      "step": 22045
+    },
+    {
+      "epoch": 1.0773947670583637,
+      "grad_norm": 0.0010538690257817507,
+      "learning_rate": 0.12596484489007662,
+      "loss": 0.103,
+      "num_input_tokens_seen": 28597792,
+      "step": 22050
+    },
+    {
+      "epoch": 1.077639068722058,
+      "grad_norm": 0.0009558504680171609,
+      "learning_rate": 0.1259067029924442,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 28604064,
+      "step": 22055
+    },
+    {
+      "epoch": 1.0778833703857522,
+      "grad_norm": 0.001322999014519155,
+      "learning_rate": 0.12584856481030096,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 28610336,
+      "step": 22060
+    },
+    {
+      "epoch": 1.0781276720494466,
+      "grad_norm": 0.002006783150136471,
+      "learning_rate": 0.12579043035261261,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 28617344,
+      "step": 22065
+    },
+    {
+      "epoch": 1.078371973713141,
+      "grad_norm": 0.0019091736758127809,
+      "learning_rate": 0.1257322996283441,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 28623296,
+      "step": 22070
+    },
+    {
+      "epoch": 1.0786162753768354,
+      "grad_norm": 0.0010439192410558462,
+      "learning_rate": 0.12567417264645994,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 28629952,
+      "step": 22075
+    },
+    {
+      "epoch": 1.0788605770405297,
+      "grad_norm": 0.0007738082204014063,
+      "learning_rate": 0.12561604941592408,
+      "loss": 0.113,
+      "num_input_tokens_seen": 28636192,
+      "step": 22080
+    },
+    {
+      "epoch": 1.079104878704224,
+      "grad_norm": 0.0019593180622905493,
+      "learning_rate": 0.12555792994569978,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 28642816,
+      "step": 22085
+    },
+    {
+      "epoch": 1.0793491803679183,
+      "grad_norm": 0.001536033465526998,
+      "learning_rate": 0.1254998142447499,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 28648672,
+      "step": 22090
+    },
+    {
+      "epoch": 1.0795934820316127,
+      "grad_norm": 0.0007655537920072675,
+      "learning_rate": 0.1254417023220365,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 28654784,
+      "step": 22095
+    },
+    {
+      "epoch": 1.079837783695307,
+      "grad_norm": 0.00149181904271245,
+      "learning_rate": 0.12538359418652126,
+      "loss": 0.088,
+      "num_input_tokens_seen": 28661376,
+      "step": 22100
+    },
+    {
+      "epoch": 1.0800820853590012,
+      "grad_norm": 0.0011864706175401807,
+      "learning_rate": 0.12532548984716513,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 28667712,
+      "step": 22105
+    },
+    {
+      "epoch": 1.0803263870226956,
+      "grad_norm": 0.000873398152180016,
+      "learning_rate": 0.12526738931292855,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 28674208,
+      "step": 22110
+    },
+    {
+      "epoch": 1.08057068868639,
+      "grad_norm": 0.0011393956374377012,
+      "learning_rate": 0.1252092925927714,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 28680736,
+      "step": 22115
+    },
+    {
+      "epoch": 1.0808149903500843,
+      "grad_norm": 0.0012329547898843884,
+      "learning_rate": 0.12515119969565278,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 28686848,
+      "step": 22120
+    },
+    {
+      "epoch": 1.0810592920137787,
+      "grad_norm": 0.0016241817502304912,
+      "learning_rate": 0.12509311063053144,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 28692768,
+      "step": 22125
+    },
+    {
+      "epoch": 1.0813035936774729,
+      "grad_norm": 0.0011284807696938515,
+      "learning_rate": 0.1250350254063655,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 28699072,
+      "step": 22130
+    },
+    {
+      "epoch": 1.0815478953411672,
+      "grad_norm": 0.001408719806931913,
+      "learning_rate": 0.1249769440321123,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 28705376,
+      "step": 22135
+    },
+    {
+      "epoch": 1.0817921970048616,
+      "grad_norm": 0.0014837068738415837,
+      "learning_rate": 0.12491886651672884,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 28711808,
+      "step": 22140
+    },
+    {
+      "epoch": 1.082036498668556,
+      "grad_norm": 0.0020732558332383633,
+      "learning_rate": 0.12486079286917139,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 28717920,
+      "step": 22145
+    },
+    {
+      "epoch": 1.0822808003322502,
+      "grad_norm": 0.0013993524480611086,
+      "learning_rate": 0.12480272309839553,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 28724128,
+      "step": 22150
+    },
+    {
+      "epoch": 1.0825251019959445,
+      "grad_norm": 0.0017567953327670693,
+      "learning_rate": 0.12474465721335648,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 28730304,
+      "step": 22155
+    },
+    {
+      "epoch": 1.082769403659639,
+      "grad_norm": 0.001232940354384482,
+      "learning_rate": 0.12468659522300861,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 28737440,
+      "step": 22160
+    },
+    {
+      "epoch": 1.0830137053233333,
+      "grad_norm": 0.0013608860317617655,
+      "learning_rate": 0.12462853713630584,
+      "loss": 0.1127,
+      "num_input_tokens_seen": 28743840,
+      "step": 22165
+    },
+    {
+      "epoch": 1.0832580069870277,
+      "grad_norm": 0.000591309682931751,
+      "learning_rate": 0.12457048296220156,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 28750048,
+      "step": 22170
+    },
+    {
+      "epoch": 1.0835023086507218,
+      "grad_norm": 0.0012762482510879636,
+      "learning_rate": 0.12451243270964832,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 28756704,
+      "step": 22175
+    },
+    {
+      "epoch": 1.0837466103144162,
+      "grad_norm": 0.002171242842450738,
+      "learning_rate": 0.12445438638759827,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 28762912,
+      "step": 22180
+    },
+    {
+      "epoch": 1.0839909119781106,
+      "grad_norm": 0.0013401230098679662,
+      "learning_rate": 0.1243963440050029,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 28769152,
+      "step": 22185
+    },
+    {
+      "epoch": 1.084235213641805,
+      "grad_norm": 0.0012115460122004151,
+      "learning_rate": 0.12433830557081298,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 28775744,
+      "step": 22190
+    },
+    {
+      "epoch": 1.0844795153054991,
+      "grad_norm": 0.001222984865307808,
+      "learning_rate": 0.12428027109397889,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 28782080,
+      "step": 22195
+    },
+    {
+      "epoch": 1.0847238169691935,
+      "grad_norm": 0.0010363858891651034,
+      "learning_rate": 0.12422224058345015,
+      "loss": 0.092,
+      "num_input_tokens_seen": 28788352,
+      "step": 22200
+    },
+    {
+      "epoch": 1.0847238169691935,
+      "eval_loss": 0.09352832287549973,
+      "eval_runtime": 402.5702,
+      "eval_samples_per_second": 90.382,
+      "eval_steps_per_second": 22.597,
+      "num_input_tokens_seen": 28788352,
+      "step": 22200
+    },
+    {
+      "epoch": 1.084968118632888,
+      "grad_norm": 0.0009480526787228882,
+      "learning_rate": 0.12416421404817583,
+      "loss": 0.074,
+      "num_input_tokens_seen": 28795072,
+      "step": 22205
+    },
+    {
+      "epoch": 1.0852124202965823,
+      "grad_norm": 0.0007700546993874013,
+      "learning_rate": 0.12410619149710447,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 28801824,
+      "step": 22210
+    },
+    {
+      "epoch": 1.0854567219602766,
+      "grad_norm": 0.0015195320593193173,
+      "learning_rate": 0.12404817293918374,
+      "loss": 0.105,
+      "num_input_tokens_seen": 28808480,
+      "step": 22215
+    },
+    {
+      "epoch": 1.0857010236239708,
+      "grad_norm": 0.002098476281389594,
+      "learning_rate": 0.12399015838336086,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 28815328,
+      "step": 22220
+    },
+    {
+      "epoch": 1.0859453252876652,
+      "grad_norm": 0.0018052667146548629,
+      "learning_rate": 0.12393214783858246,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 28821728,
+      "step": 22225
+    },
+    {
+      "epoch": 1.0861896269513596,
+      "grad_norm": 0.0038209580816328526,
+      "learning_rate": 0.1238741413137944,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 28828192,
+      "step": 22230
+    },
+    {
+      "epoch": 1.086433928615054,
+      "grad_norm": 0.0013519618660211563,
+      "learning_rate": 0.12381613881794212,
+      "loss": 0.113,
+      "num_input_tokens_seen": 28834272,
+      "step": 22235
+    },
+    {
+      "epoch": 1.086678230278748,
+      "grad_norm": 0.0013146541314199567,
+      "learning_rate": 0.12375814035997022,
+      "loss": 0.096,
+      "num_input_tokens_seen": 28840384,
+      "step": 22240
+    },
+    {
+      "epoch": 1.0869225319424425,
+      "grad_norm": 0.001735515077598393,
+      "learning_rate": 0.12370014594882285,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 28846816,
+      "step": 22245
+    },
+    {
+      "epoch": 1.0871668336061369,
+      "grad_norm": 0.0012084910413250327,
+      "learning_rate": 0.12364215559344356,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 28853024,
+      "step": 22250
+    },
+    {
+      "epoch": 1.0874111352698312,
+      "grad_norm": 0.0015198498731479049,
+      "learning_rate": 0.12358416930277506,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 28859552,
+      "step": 22255
+    },
+    {
+      "epoch": 1.0876554369335256,
+      "grad_norm": 0.0011666014324873686,
+      "learning_rate": 0.1235261870857596,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 28866720,
+      "step": 22260
+    },
+    {
+      "epoch": 1.0878997385972198,
+      "grad_norm": 0.0008529219194315374,
+      "learning_rate": 0.12346820895133884,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 28873280,
+      "step": 22265
+    },
+    {
+      "epoch": 1.0881440402609142,
+      "grad_norm": 0.001574606285430491,
+      "learning_rate": 0.12341023490845361,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 28880128,
+      "step": 22270
+    },
+    {
+      "epoch": 1.0883883419246085,
+      "grad_norm": 0.0007719980203546584,
+      "learning_rate": 0.12335226496604437,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 28886720,
+      "step": 22275
+    },
+    {
+      "epoch": 1.088632643588303,
+      "grad_norm": 0.0010042217327281833,
+      "learning_rate": 0.12329429913305069,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 28893088,
+      "step": 22280
+    },
+    {
+      "epoch": 1.088876945251997,
+      "grad_norm": 0.0009649527492001653,
+      "learning_rate": 0.12323633741841171,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 28899904,
+      "step": 22285
+    },
+    {
+      "epoch": 1.0891212469156915,
+      "grad_norm": 0.0013962194789201021,
+      "learning_rate": 0.12317837983106583,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 28906176,
+      "step": 22290
+    },
+    {
+      "epoch": 1.0893655485793858,
+      "grad_norm": 0.0013276386307552457,
+      "learning_rate": 0.12312042637995087,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 28912416,
+      "step": 22295
+    },
+    {
+      "epoch": 1.0896098502430802,
+      "grad_norm": 0.0019295443780720234,
+      "learning_rate": 0.12306247707400389,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 28918976,
+      "step": 22300
+    },
+    {
+      "epoch": 1.0898541519067746,
+      "grad_norm": 0.0010823950869962573,
+      "learning_rate": 0.12300453192216154,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 28925056,
+      "step": 22305
+    },
+    {
+      "epoch": 1.0900984535704688,
+      "grad_norm": 0.0018551347311586142,
+      "learning_rate": 0.12294659093335956,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 28931520,
+      "step": 22310
+    },
+    {
+      "epoch": 1.0903427552341631,
+      "grad_norm": 0.0016293056542053819,
+      "learning_rate": 0.12288865411653327,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 28937760,
+      "step": 22315
+    },
+    {
+      "epoch": 1.0905870568978575,
+      "grad_norm": 0.0010726905893534422,
+      "learning_rate": 0.12283072148061717,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 28943872,
+      "step": 22320
+    },
+    {
+      "epoch": 1.090831358561552,
+      "grad_norm": 0.001135341008193791,
+      "learning_rate": 0.12277279303454529,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 28950112,
+      "step": 22325
+    },
+    {
+      "epoch": 1.091075660225246,
+      "grad_norm": 0.0009680751827545464,
+      "learning_rate": 0.12271486878725091,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 28956640,
+      "step": 22330
+    },
+    {
+      "epoch": 1.0913199618889404,
+      "grad_norm": 0.0012115162098780274,
+      "learning_rate": 0.12265694874766658,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 28963136,
+      "step": 22335
+    },
+    {
+      "epoch": 1.0915642635526348,
+      "grad_norm": 0.0012400184059515595,
+      "learning_rate": 0.12259903292472435,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 28969376,
+      "step": 22340
+    },
+    {
+      "epoch": 1.0918085652163292,
+      "grad_norm": 0.0011850749142467976,
+      "learning_rate": 0.12254112132735567,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 28975968,
+      "step": 22345
+    },
+    {
+      "epoch": 1.0920528668800236,
+      "grad_norm": 0.0017058472149074078,
+      "learning_rate": 0.12248321396449108,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 28982368,
+      "step": 22350
+    },
+    {
+      "epoch": 1.0922971685437177,
+      "grad_norm": 0.0009577056625857949,
+      "learning_rate": 0.12242531084506075,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 28989216,
+      "step": 22355
+    },
+    {
+      "epoch": 1.092541470207412,
+      "grad_norm": 0.0008254505810327828,
+      "learning_rate": 0.122367411977994,
+      "loss": 0.068,
+      "num_input_tokens_seen": 28995872,
+      "step": 22360
+    },
+    {
+      "epoch": 1.0927857718711065,
+      "grad_norm": 0.0012112975819036365,
+      "learning_rate": 0.12230951737221954,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 29002624,
+      "step": 22365
+    },
+    {
+      "epoch": 1.0930300735348009,
+      "grad_norm": 0.0018581878393888474,
+      "learning_rate": 0.12225162703666555,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 29009184,
+      "step": 22370
+    },
+    {
+      "epoch": 1.093274375198495,
+      "grad_norm": 0.0009380063856951892,
+      "learning_rate": 0.1221937409802593,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 29015648,
+      "step": 22375
+    },
+    {
+      "epoch": 1.0935186768621894,
+      "grad_norm": 0.0015639775665476918,
+      "learning_rate": 0.12213585921192768,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 29022144,
+      "step": 22380
+    },
+    {
+      "epoch": 1.0937629785258838,
+      "grad_norm": 0.001674798084422946,
+      "learning_rate": 0.1220779817405967,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 29028032,
+      "step": 22385
+    },
+    {
+      "epoch": 1.0940072801895782,
+      "grad_norm": 0.0016830076929181814,
+      "learning_rate": 0.12202010857519181,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 29034720,
+      "step": 22390
+    },
+    {
+      "epoch": 1.0942515818532725,
+      "grad_norm": 0.0010319831781089306,
+      "learning_rate": 0.12196223972463785,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 29040864,
+      "step": 22395
+    },
+    {
+      "epoch": 1.0944958835169667,
+      "grad_norm": 0.0010576698696240783,
+      "learning_rate": 0.12190437519785885,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 29047328,
+      "step": 22400
+    },
+    {
+      "epoch": 1.0944958835169667,
+      "eval_loss": 0.09437805414199829,
+      "eval_runtime": 402.1394,
+      "eval_samples_per_second": 90.479,
+      "eval_steps_per_second": 22.622,
+      "num_input_tokens_seen": 29047328,
+      "step": 22400
+    },
+    {
+      "epoch": 1.094740185180661,
+      "grad_norm": 0.002498387824743986,
+      "learning_rate": 0.12184651500377823,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 29053504,
+      "step": 22405
+    },
+    {
+      "epoch": 1.0949844868443555,
+      "grad_norm": 0.0011763314250856638,
+      "learning_rate": 0.12178865915131885,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 29059872,
+      "step": 22410
+    },
+    {
+      "epoch": 1.0952287885080498,
+      "grad_norm": 0.0012885077157989144,
+      "learning_rate": 0.1217308076494027,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 29066176,
+      "step": 22415
+    },
+    {
+      "epoch": 1.095473090171744,
+      "grad_norm": 0.001056781387887895,
+      "learning_rate": 0.12167296050695134,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 29072480,
+      "step": 22420
+    },
+    {
+      "epoch": 1.0957173918354384,
+      "grad_norm": 0.0017068303423002362,
+      "learning_rate": 0.12161511773288536,
+      "loss": 0.108,
+      "num_input_tokens_seen": 29078880,
+      "step": 22425
+    },
+    {
+      "epoch": 1.0959616934991327,
+      "grad_norm": 0.0016942678485065699,
+      "learning_rate": 0.121557279336125,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 29084928,
+      "step": 22430
+    },
+    {
+      "epoch": 1.0962059951628271,
+      "grad_norm": 0.0007431362755596638,
+      "learning_rate": 0.12149944532558957,
+      "loss": 0.102,
+      "num_input_tokens_seen": 29091072,
+      "step": 22435
+    },
+    {
+      "epoch": 1.0964502968265213,
+      "grad_norm": 0.001760152168571949,
+      "learning_rate": 0.12144161571019785,
+      "loss": 0.109,
+      "num_input_tokens_seen": 29097280,
+      "step": 22440
+    },
+    {
+      "epoch": 1.0966945984902157,
+      "grad_norm": 0.0008649717201478779,
+      "learning_rate": 0.12138379049886781,
+      "loss": 0.086,
+      "num_input_tokens_seen": 29103872,
+      "step": 22445
+    },
+    {
+      "epoch": 1.09693890015391,
+      "grad_norm": 0.0015086558414623141,
+      "learning_rate": 0.12132596970051697,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 29110688,
+      "step": 22450
+    },
+    {
+      "epoch": 1.0971832018176044,
+      "grad_norm": 0.0015327486908063293,
+      "learning_rate": 0.12126815332406189,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 29117376,
+      "step": 22455
+    },
+    {
+      "epoch": 1.0974275034812988,
+      "grad_norm": 0.0012385837035253644,
+      "learning_rate": 0.12121034137841868,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 29123808,
+      "step": 22460
+    },
+    {
+      "epoch": 1.097671805144993,
+      "grad_norm": 0.0008596571860834956,
+      "learning_rate": 0.12115253387250258,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 29130528,
+      "step": 22465
+    },
+    {
+      "epoch": 1.0979161068086873,
+      "grad_norm": 0.0012843571603298187,
+      "learning_rate": 0.12109473081522831,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 29137408,
+      "step": 22470
+    },
+    {
+      "epoch": 1.0981604084723817,
+      "grad_norm": 0.002025584690272808,
+      "learning_rate": 0.12103693221550982,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 29143680,
+      "step": 22475
+    },
+    {
+      "epoch": 1.098404710136076,
+      "grad_norm": 0.0014435274060815573,
+      "learning_rate": 0.12097913808226027,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 29150432,
+      "step": 22480
+    },
+    {
+      "epoch": 1.0986490117997703,
+      "grad_norm": 0.0018563710618764162,
+      "learning_rate": 0.12092134842439234,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 29156768,
+      "step": 22485
+    },
+    {
+      "epoch": 1.0988933134634646,
+      "grad_norm": 0.001007911516353488,
+      "learning_rate": 0.12086356325081798,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 29163168,
+      "step": 22490
+    },
+    {
+      "epoch": 1.099137615127159,
+      "grad_norm": 0.000931190385017544,
+      "learning_rate": 0.12080578257044824,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 29170432,
+      "step": 22495
+    },
+    {
+      "epoch": 1.0993819167908534,
+      "grad_norm": 0.0011492520570755005,
+      "learning_rate": 0.12074800639219378,
+      "loss": 0.089,
+      "num_input_tokens_seen": 29177568,
+      "step": 22500
+    },
+    {
+      "epoch": 1.0996262184545478,
+      "grad_norm": 0.0008479716489091516,
+      "learning_rate": 0.12069023472496428,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 29184288,
+      "step": 22505
+    },
+    {
+      "epoch": 1.099870520118242,
+      "grad_norm": 0.001032893662340939,
+      "learning_rate": 0.12063246757766893,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 29190720,
+      "step": 22510
+    },
+    {
+      "epoch": 1.1001148217819363,
+      "grad_norm": 0.0010732300579547882,
+      "learning_rate": 0.12057470495921618,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 29196768,
+      "step": 22515
+    },
+    {
+      "epoch": 1.1003591234456307,
+      "grad_norm": 0.001476700883358717,
+      "learning_rate": 0.12051694687851364,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 29203072,
+      "step": 22520
+    },
+    {
+      "epoch": 1.100603425109325,
+      "grad_norm": 0.0010828949743881822,
+      "learning_rate": 0.12045919334446839,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 29209344,
+      "step": 22525
+    },
+    {
+      "epoch": 1.1008477267730192,
+      "grad_norm": 0.0009777280502021313,
+      "learning_rate": 0.12040144436598683,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 29216064,
+      "step": 22530
+    },
+    {
+      "epoch": 1.1010920284367136,
+      "grad_norm": 0.0009147629607468843,
+      "learning_rate": 0.12034369995197444,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 29222528,
+      "step": 22535
+    },
+    {
+      "epoch": 1.101336330100408,
+      "grad_norm": 0.0026257222052663565,
+      "learning_rate": 0.12028596011133627,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 29228864,
+      "step": 22540
+    },
+    {
+      "epoch": 1.1015806317641024,
+      "grad_norm": 0.0008910034084692597,
+      "learning_rate": 0.12022822485297643,
+      "loss": 0.077,
+      "num_input_tokens_seen": 29235168,
+      "step": 22545
+    },
+    {
+      "epoch": 1.1018249334277965,
+      "grad_norm": 0.001612793537788093,
+      "learning_rate": 0.12017049418579843,
+      "loss": 0.108,
+      "num_input_tokens_seen": 29241408,
+      "step": 22550
+    },
+    {
+      "epoch": 1.102069235091491,
+      "grad_norm": 0.0012279574293643236,
+      "learning_rate": 0.12011276811870514,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 29248384,
+      "step": 22555
+    },
+    {
+      "epoch": 1.1023135367551853,
+      "grad_norm": 0.0016819167649373412,
+      "learning_rate": 0.12005504666059852,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 29255104,
+      "step": 22560
+    },
+    {
+      "epoch": 1.1025578384188797,
+      "grad_norm": 0.00108810281381011,
+      "learning_rate": 0.11999732982038003,
+      "loss": 0.099,
+      "num_input_tokens_seen": 29261568,
+      "step": 22565
+    },
+    {
+      "epoch": 1.102802140082574,
+      "grad_norm": 0.0005232211551629007,
+      "learning_rate": 0.11993961760695038,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 29268000,
+      "step": 22570
+    },
+    {
+      "epoch": 1.1030464417462682,
+      "grad_norm": 0.0009668603306636214,
+      "learning_rate": 0.11988191002920942,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 29274016,
+      "step": 22575
+    },
+    {
+      "epoch": 1.1032907434099626,
+      "grad_norm": 0.0014998686965554953,
+      "learning_rate": 0.11982420709605641,
+      "loss": 0.067,
+      "num_input_tokens_seen": 29280704,
+      "step": 22580
+    },
+    {
+      "epoch": 1.103535045073657,
+      "grad_norm": 0.0012822216376662254,
+      "learning_rate": 0.11976650881638991,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 29287168,
+      "step": 22585
+    },
+    {
+      "epoch": 1.1037793467373513,
+      "grad_norm": 0.0009978878078982234,
+      "learning_rate": 0.11970881519910764,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 29293280,
+      "step": 22590
+    },
+    {
+      "epoch": 1.1040236484010455,
+      "grad_norm": 0.0008640151936560869,
+      "learning_rate": 0.1196511262531068,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 29299520,
+      "step": 22595
+    },
+    {
+      "epoch": 1.1042679500647399,
+      "grad_norm": 0.0009699521469883621,
+      "learning_rate": 0.11959344198728361,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 29306368,
+      "step": 22600
+    },
+    {
+      "epoch": 1.1042679500647399,
+      "eval_loss": 0.0956297293305397,
+      "eval_runtime": 401.8053,
+      "eval_samples_per_second": 90.554,
+      "eval_steps_per_second": 22.64,
+      "num_input_tokens_seen": 29306368,
+      "step": 22600
+    },
+    {
+      "epoch": 1.1045122517284343,
+      "grad_norm": 0.001815083553083241,
+      "learning_rate": 0.11953576241053378,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 29313408,
+      "step": 22605
+    },
+    {
+      "epoch": 1.1047565533921286,
+      "grad_norm": 0.0016144990222528577,
+      "learning_rate": 0.11947808753175228,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 29320224,
+      "step": 22610
+    },
+    {
+      "epoch": 1.105000855055823,
+      "grad_norm": 0.002225106582045555,
+      "learning_rate": 0.1194204173598332,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 29326848,
+      "step": 22615
+    },
+    {
+      "epoch": 1.1052451567195172,
+      "grad_norm": 0.001071340637281537,
+      "learning_rate": 0.11936275190367007,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 29333632,
+      "step": 22620
+    },
+    {
+      "epoch": 1.1054894583832116,
+      "grad_norm": 0.002150610787793994,
+      "learning_rate": 0.11930509117215563,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 29340000,
+      "step": 22625
+    },
+    {
+      "epoch": 1.105733760046906,
+      "grad_norm": 0.001468008034862578,
+      "learning_rate": 0.11924743517418179,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 29346368,
+      "step": 22630
+    },
+    {
+      "epoch": 1.1059780617106003,
+      "grad_norm": 0.000911967596039176,
+      "learning_rate": 0.11918978391864,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 29352736,
+      "step": 22635
+    },
+    {
+      "epoch": 1.1062223633742945,
+      "grad_norm": 0.0014561722055077553,
+      "learning_rate": 0.11913213741442065,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 29358912,
+      "step": 22640
+    },
+    {
+      "epoch": 1.1064666650379889,
+      "grad_norm": 0.001115082181058824,
+      "learning_rate": 0.11907449567041364,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 29365248,
+      "step": 22645
+    },
+    {
+      "epoch": 1.1067109667016832,
+      "grad_norm": 0.0009365850710310042,
+      "learning_rate": 0.11901685869550803,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 29371936,
+      "step": 22650
+    },
+    {
+      "epoch": 1.1069552683653776,
+      "grad_norm": 0.0013738427078351378,
+      "learning_rate": 0.1189592264985922,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 29378432,
+      "step": 22655
+    },
+    {
+      "epoch": 1.107199570029072,
+      "grad_norm": 0.0008525936282239854,
+      "learning_rate": 0.11890159908855373,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 29384864,
+      "step": 22660
+    },
+    {
+      "epoch": 1.1074438716927661,
+      "grad_norm": 0.0016903226496651769,
+      "learning_rate": 0.11884397647427941,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 29391264,
+      "step": 22665
+    },
+    {
+      "epoch": 1.1076881733564605,
+      "grad_norm": 0.0013549641007557511,
+      "learning_rate": 0.11878635866465546,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 29397568,
+      "step": 22670
+    },
+    {
+      "epoch": 1.107932475020155,
+      "grad_norm": 0.0018646264215931296,
+      "learning_rate": 0.11872874566856734,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 29404672,
+      "step": 22675
+    },
+    {
+      "epoch": 1.1081767766838493,
+      "grad_norm": 0.0016617337241768837,
+      "learning_rate": 0.11867113749489955,
+      "loss": 0.08,
+      "num_input_tokens_seen": 29410816,
+      "step": 22680
+    },
+    {
+      "epoch": 1.1084210783475434,
+      "grad_norm": 0.0009732077596709132,
+      "learning_rate": 0.11861353415253607,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 29417312,
+      "step": 22685
+    },
+    {
+      "epoch": 1.1086653800112378,
+      "grad_norm": 0.0008729675319045782,
+      "learning_rate": 0.11855593565036011,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 29424000,
+      "step": 22690
+    },
+    {
+      "epoch": 1.1089096816749322,
+      "grad_norm": 0.0008465920109301805,
+      "learning_rate": 0.11849834199725394,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 29430080,
+      "step": 22695
+    },
+    {
+      "epoch": 1.1091539833386266,
+      "grad_norm": 0.0012903816532343626,
+      "learning_rate": 0.1184407532020994,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 29436096,
+      "step": 22700
+    },
+    {
+      "epoch": 1.109398285002321,
+      "grad_norm": 0.0019492337014526129,
+      "learning_rate": 0.11838316927377723,
+      "loss": 0.07,
+      "num_input_tokens_seen": 29442688,
+      "step": 22705
+    },
+    {
+      "epoch": 1.1096425866660151,
+      "grad_norm": 0.00226630293764174,
+      "learning_rate": 0.11832559022116766,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 29449280,
+      "step": 22710
+    },
+    {
+      "epoch": 1.1098868883297095,
+      "grad_norm": 0.0009272925090044737,
+      "learning_rate": 0.11826801605315022,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 29455488,
+      "step": 22715
+    },
+    {
+      "epoch": 1.1101311899934039,
+      "grad_norm": 0.001682823640294373,
+      "learning_rate": 0.1182104467786034,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 29462400,
+      "step": 22720
+    },
+    {
+      "epoch": 1.1103754916570983,
+      "grad_norm": 0.0009082207689061761,
+      "learning_rate": 0.1181528824064052,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 29468832,
+      "step": 22725
+    },
+    {
+      "epoch": 1.1106197933207924,
+      "grad_norm": 0.0011318254983052611,
+      "learning_rate": 0.11809532294543279,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 29475456,
+      "step": 22730
+    },
+    {
+      "epoch": 1.1108640949844868,
+      "grad_norm": 0.0017432866152375937,
+      "learning_rate": 0.11803776840456245,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 29482336,
+      "step": 22735
+    },
+    {
+      "epoch": 1.1111083966481812,
+      "grad_norm": 0.0013830552343279123,
+      "learning_rate": 0.11798021879266997,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 29488800,
+      "step": 22740
+    },
+    {
+      "epoch": 1.1113526983118756,
+      "grad_norm": 0.0011635273694992065,
+      "learning_rate": 0.11792267411863006,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 29495264,
+      "step": 22745
+    },
+    {
+      "epoch": 1.11159699997557,
+      "grad_norm": 0.0012137737357988954,
+      "learning_rate": 0.1178651343913169,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 29501632,
+      "step": 22750
+    },
+    {
+      "epoch": 1.111841301639264,
+      "grad_norm": 0.0009532968979328871,
+      "learning_rate": 0.11780759961960392,
+      "loss": 0.085,
+      "num_input_tokens_seen": 29508096,
+      "step": 22755
+    },
+    {
+      "epoch": 1.1120856033029585,
+      "grad_norm": 0.0016980640357360244,
+      "learning_rate": 0.1177500698123636,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 29514976,
+      "step": 22760
+    },
+    {
+      "epoch": 1.1123299049666528,
+      "grad_norm": 0.0011556892422959208,
+      "learning_rate": 0.11769254497846778,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 29521312,
+      "step": 22765
+    },
+    {
+      "epoch": 1.1125742066303472,
+      "grad_norm": 0.0009634310845285654,
+      "learning_rate": 0.11763502512678758,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 29527872,
+      "step": 22770
+    },
+    {
+      "epoch": 1.1128185082940414,
+      "grad_norm": 0.0012828842736780643,
+      "learning_rate": 0.11757751026619315,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 29534944,
+      "step": 22775
+    },
+    {
+      "epoch": 1.1130628099577358,
+      "grad_norm": 0.0010299670975655317,
+      "learning_rate": 0.11752000040555416,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 29541696,
+      "step": 22780
+    },
+    {
+      "epoch": 1.1133071116214301,
+      "grad_norm": 0.0006981150363571942,
+      "learning_rate": 0.11746249555373921,
+      "loss": 0.069,
+      "num_input_tokens_seen": 29548128,
+      "step": 22785
+    },
+    {
+      "epoch": 1.1135514132851245,
+      "grad_norm": 0.0008846033015288413,
+      "learning_rate": 0.11740499571961638,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 29554656,
+      "step": 22790
+    },
+    {
+      "epoch": 1.113795714948819,
+      "grad_norm": 0.0009987849043682218,
+      "learning_rate": 0.11734750091205279,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 29561024,
+      "step": 22795
+    },
+    {
+      "epoch": 1.114040016612513,
+      "grad_norm": 0.0006589735276065767,
+      "learning_rate": 0.11729001113991493,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 29567616,
+      "step": 22800
+    },
+    {
+      "epoch": 1.114040016612513,
+      "eval_loss": 0.09384085237979889,
+      "eval_runtime": 402.3772,
+      "eval_samples_per_second": 90.425,
+      "eval_steps_per_second": 22.608,
+      "num_input_tokens_seen": 29567616,
+      "step": 22800
+    },
+    {
+      "epoch": 1.1142843182762074,
+      "grad_norm": 0.0006671895971521735,
+      "learning_rate": 0.11723252641206837,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 29573824,
+      "step": 22805
+    },
+    {
+      "epoch": 1.1145286199399018,
+      "grad_norm": 0.0009115938446484506,
+      "learning_rate": 0.11717504673737808,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 29580096,
+      "step": 22810
+    },
+    {
+      "epoch": 1.1147729216035962,
+      "grad_norm": 0.001443873276002705,
+      "learning_rate": 0.11711757212470802,
+      "loss": 0.1305,
+      "num_input_tokens_seen": 29586880,
+      "step": 22815
+    },
+    {
+      "epoch": 1.1150172232672904,
+      "grad_norm": 0.0008223216864280403,
+      "learning_rate": 0.11706010258292165,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 29593728,
+      "step": 22820
+    },
+    {
+      "epoch": 1.1152615249309847,
+      "grad_norm": 0.001257190597243607,
+      "learning_rate": 0.11700263812088131,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 29600544,
+      "step": 22825
+    },
+    {
+      "epoch": 1.1155058265946791,
+      "grad_norm": 0.0018495457479730248,
+      "learning_rate": 0.11694517874744892,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 29607136,
+      "step": 22830
+    },
+    {
+      "epoch": 1.1157501282583735,
+      "grad_norm": 0.0011677911970764399,
+      "learning_rate": 0.11688772447148532,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 29613184,
+      "step": 22835
+    },
+    {
+      "epoch": 1.1159944299220679,
+      "grad_norm": 0.0013172619510442019,
+      "learning_rate": 0.11683027530185074,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 29619424,
+      "step": 22840
+    },
+    {
+      "epoch": 1.116238731585762,
+      "grad_norm": 0.0010473121656104922,
+      "learning_rate": 0.11677283124740451,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 29626208,
+      "step": 22845
+    },
+    {
+      "epoch": 1.1164830332494564,
+      "grad_norm": 0.0007953434251248837,
+      "learning_rate": 0.11671539231700531,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 29632640,
+      "step": 22850
+    },
+    {
+      "epoch": 1.1167273349131508,
+      "grad_norm": 0.0009367679012939334,
+      "learning_rate": 0.11665795851951084,
+      "loss": 0.07,
+      "num_input_tokens_seen": 29640032,
+      "step": 22855
+    },
+    {
+      "epoch": 1.1169716365768452,
+      "grad_norm": 0.001858372357673943,
+      "learning_rate": 0.11660052986377825,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 29646272,
+      "step": 22860
+    },
+    {
+      "epoch": 1.1172159382405393,
+      "grad_norm": 0.0015237312763929367,
+      "learning_rate": 0.1165431063586636,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 29652576,
+      "step": 22865
+    },
+    {
+      "epoch": 1.1174602399042337,
+      "grad_norm": 0.0011607040651142597,
+      "learning_rate": 0.11648568801302245,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 29659616,
+      "step": 22870
+    },
+    {
+      "epoch": 1.117704541567928,
+      "grad_norm": 0.002002204302698374,
+      "learning_rate": 0.11642827483570937,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 29666272,
+      "step": 22875
+    },
+    {
+      "epoch": 1.1179488432316225,
+      "grad_norm": 0.0010703313164412975,
+      "learning_rate": 0.11637086683557815,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 29672544,
+      "step": 22880
+    },
+    {
+      "epoch": 1.1181931448953168,
+      "grad_norm": 0.0009873281233012676,
+      "learning_rate": 0.11631346402148188,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 29679168,
+      "step": 22885
+    },
+    {
+      "epoch": 1.118437446559011,
+      "grad_norm": 0.0012869761558249593,
+      "learning_rate": 0.11625606640227285,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 29686176,
+      "step": 22890
+    },
+    {
+      "epoch": 1.1186817482227054,
+      "grad_norm": 0.0013319561257958412,
+      "learning_rate": 0.11619867398680238,
+      "loss": 0.064,
+      "num_input_tokens_seen": 29693120,
+      "step": 22895
+    },
+    {
+      "epoch": 1.1189260498863998,
+      "grad_norm": 0.0011749890400096774,
+      "learning_rate": 0.11614128678392119,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 29698912,
+      "step": 22900
+    },
+    {
+      "epoch": 1.1191703515500941,
+      "grad_norm": 0.0008904912392608821,
+      "learning_rate": 0.11608390480247906,
+      "loss": 0.094,
+      "num_input_tokens_seen": 29705056,
+      "step": 22905
+    },
+    {
+      "epoch": 1.1194146532137883,
+      "grad_norm": 0.001070785103365779,
+      "learning_rate": 0.11602652805132499,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 29711936,
+      "step": 22910
+    },
+    {
+      "epoch": 1.1196589548774827,
+      "grad_norm": 0.0018644554074853659,
+      "learning_rate": 0.11596915653930731,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 29718816,
+      "step": 22915
+    },
+    {
+      "epoch": 1.119903256541177,
+      "grad_norm": 0.0007122614188119769,
+      "learning_rate": 0.11591179027527328,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 29725472,
+      "step": 22920
+    },
+    {
+      "epoch": 1.1201475582048714,
+      "grad_norm": 0.0013772232923656702,
+      "learning_rate": 0.11585442926806956,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 29732384,
+      "step": 22925
+    },
+    {
+      "epoch": 1.1203918598685658,
+      "grad_norm": 0.0018739770166575909,
+      "learning_rate": 0.11579707352654202,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 29738880,
+      "step": 22930
+    },
+    {
+      "epoch": 1.12063616153226,
+      "grad_norm": 0.0010754610411822796,
+      "learning_rate": 0.11573972305953548,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 29745088,
+      "step": 22935
+    },
+    {
+      "epoch": 1.1208804631959544,
+      "grad_norm": 0.0011936796363443136,
+      "learning_rate": 0.11568237787589426,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 29751936,
+      "step": 22940
+    },
+    {
+      "epoch": 1.1211247648596487,
+      "grad_norm": 0.0011385231046006083,
+      "learning_rate": 0.11562503798446161,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 29758304,
+      "step": 22945
+    },
+    {
+      "epoch": 1.1213690665233431,
+      "grad_norm": 0.0013281998690217733,
+      "learning_rate": 0.11556770339408005,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 29764800,
+      "step": 22950
+    },
+    {
+      "epoch": 1.1216133681870373,
+      "grad_norm": 0.0009100367315113544,
+      "learning_rate": 0.1155103741135914,
+      "loss": 0.101,
+      "num_input_tokens_seen": 29770848,
+      "step": 22955
+    },
+    {
+      "epoch": 1.1218576698507317,
+      "grad_norm": 0.0013085377868264914,
+      "learning_rate": 0.1154530501518364,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 29777568,
+      "step": 22960
+    },
+    {
+      "epoch": 1.122101971514426,
+      "grad_norm": 0.0010880501940846443,
+      "learning_rate": 0.11539573151765523,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 29784160,
+      "step": 22965
+    },
+    {
+      "epoch": 1.1223462731781204,
+      "grad_norm": 0.0013809552183374763,
+      "learning_rate": 0.11533841821988719,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 29790400,
+      "step": 22970
+    },
+    {
+      "epoch": 1.1225905748418146,
+      "grad_norm": 0.0005781057989224792,
+      "learning_rate": 0.11528111026737059,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 29796672,
+      "step": 22975
+    },
+    {
+      "epoch": 1.122834876505509,
+      "grad_norm": 0.0014771645655855536,
+      "learning_rate": 0.11522380766894312,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 29803232,
+      "step": 22980
+    },
+    {
+      "epoch": 1.1230791781692033,
+      "grad_norm": 0.0008638349245302379,
+      "learning_rate": 0.11516651043344152,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 29810048,
+      "step": 22985
+    },
+    {
+      "epoch": 1.1233234798328977,
+      "grad_norm": 0.00121233647223562,
+      "learning_rate": 0.11510921856970172,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 29816640,
+      "step": 22990
+    },
+    {
+      "epoch": 1.123567781496592,
+      "grad_norm": 0.0012830840423703194,
+      "learning_rate": 0.11505193208655895,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 29823200,
+      "step": 22995
+    },
+    {
+      "epoch": 1.1238120831602862,
+      "grad_norm": 0.000694166636094451,
+      "learning_rate": 0.11499465099284738,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 29829920,
+      "step": 23000
+    },
+    {
+      "epoch": 1.1238120831602862,
+      "eval_loss": 0.09254075586795807,
+      "eval_runtime": 402.4675,
+      "eval_samples_per_second": 90.405,
+      "eval_steps_per_second": 22.603,
+      "num_input_tokens_seen": 29829920,
+      "step": 23000
+    },
+    {
+      "epoch": 1.1240563848239806,
+      "grad_norm": 0.0008355005411431193,
+      "learning_rate": 0.1149373752974006,
+      "loss": 0.07,
+      "num_input_tokens_seen": 29836448,
+      "step": 23005
+    },
+    {
+      "epoch": 1.124300686487675,
+      "grad_norm": 0.0008243769407272339,
+      "learning_rate": 0.11488010500905109,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 29842816,
+      "step": 23010
+    },
+    {
+      "epoch": 1.1245449881513694,
+      "grad_norm": 0.0012553032720461488,
+      "learning_rate": 0.11482284013663077,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 29849344,
+      "step": 23015
+    },
+    {
+      "epoch": 1.1247892898150635,
+      "grad_norm": 0.0012229477288201451,
+      "learning_rate": 0.11476558068897061,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 29855680,
+      "step": 23020
+    },
+    {
+      "epoch": 1.125033591478758,
+      "grad_norm": 0.0011784235248342156,
+      "learning_rate": 0.11470832667490061,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 29862304,
+      "step": 23025
+    },
+    {
+      "epoch": 1.1252778931424523,
+      "grad_norm": 0.0012178502511233091,
+      "learning_rate": 0.11465107810325013,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 29869312,
+      "step": 23030
+    },
+    {
+      "epoch": 1.1255221948061467,
+      "grad_norm": 0.0013691347558051348,
+      "learning_rate": 0.11459383498284771,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 29875712,
+      "step": 23035
+    },
+    {
+      "epoch": 1.1257664964698408,
+      "grad_norm": 0.0017746285302564502,
+      "learning_rate": 0.11453659732252082,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 29882176,
+      "step": 23040
+    },
+    {
+      "epoch": 1.1260107981335352,
+      "grad_norm": 0.0010581579990684986,
+      "learning_rate": 0.11447936513109633,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 29888800,
+      "step": 23045
+    },
+    {
+      "epoch": 1.1262550997972296,
+      "grad_norm": 0.0011982058640569448,
+      "learning_rate": 0.11442213841740011,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 29895264,
+      "step": 23050
+    },
+    {
+      "epoch": 1.126499401460924,
+      "grad_norm": 0.0006203183438628912,
+      "learning_rate": 0.1143649171902572,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 29901760,
+      "step": 23055
+    },
+    {
+      "epoch": 1.1267437031246184,
+      "grad_norm": 0.0014560542767867446,
+      "learning_rate": 0.11430770145849194,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 29908896,
+      "step": 23060
+    },
+    {
+      "epoch": 1.1269880047883125,
+      "grad_norm": 0.0016031808918341994,
+      "learning_rate": 0.11425049123092756,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 29915296,
+      "step": 23065
+    },
+    {
+      "epoch": 1.127232306452007,
+      "grad_norm": 0.001249050605110824,
+      "learning_rate": 0.11419328651638674,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 29921280,
+      "step": 23070
+    },
+    {
+      "epoch": 1.1274766081157013,
+      "grad_norm": 0.0010600927053019404,
+      "learning_rate": 0.11413608732369115,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 29928416,
+      "step": 23075
+    },
+    {
+      "epoch": 1.1277209097793957,
+      "grad_norm": 0.0014771948335692286,
+      "learning_rate": 0.11407889366166153,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 29934976,
+      "step": 23080
+    },
+    {
+      "epoch": 1.1279652114430898,
+      "grad_norm": 0.0014995633391663432,
+      "learning_rate": 0.11402170553911797,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 29941472,
+      "step": 23085
+    },
+    {
+      "epoch": 1.1282095131067842,
+      "grad_norm": 0.0011194770922884345,
+      "learning_rate": 0.11396452296487955,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 29948352,
+      "step": 23090
+    },
+    {
+      "epoch": 1.1284538147704786,
+      "grad_norm": 0.0008845528936944902,
+      "learning_rate": 0.11390734594776449,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 29954976,
+      "step": 23095
+    },
+    {
+      "epoch": 1.128698116434173,
+      "grad_norm": 0.0014972048811614513,
+      "learning_rate": 0.11385017449659031,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 29961504,
+      "step": 23100
+    },
+    {
+      "epoch": 1.1289424180978673,
+      "grad_norm": 0.0010997607605531812,
+      "learning_rate": 0.11379300862017344,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 29967936,
+      "step": 23105
+    },
+    {
+      "epoch": 1.1291867197615615,
+      "grad_norm": 0.0014192858943715692,
+      "learning_rate": 0.11373584832732966,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 29974240,
+      "step": 23110
+    },
+    {
+      "epoch": 1.1294310214252559,
+      "grad_norm": 0.0019656866788864136,
+      "learning_rate": 0.11367869362687386,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 29980608,
+      "step": 23115
+    },
+    {
+      "epoch": 1.1296753230889502,
+      "grad_norm": 0.001459824969060719,
+      "learning_rate": 0.11362154452761988,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 29986624,
+      "step": 23120
+    },
+    {
+      "epoch": 1.1299196247526446,
+      "grad_norm": 0.0015809257747605443,
+      "learning_rate": 0.11356440103838095,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 29993280,
+      "step": 23125
+    },
+    {
+      "epoch": 1.1301639264163388,
+      "grad_norm": 0.0013096017064526677,
+      "learning_rate": 0.11350726316796922,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 29999840,
+      "step": 23130
+    },
+    {
+      "epoch": 1.1304082280800332,
+      "grad_norm": 0.0012436212273314595,
+      "learning_rate": 0.11345013092519607,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 30006304,
+      "step": 23135
+    },
+    {
+      "epoch": 1.1306525297437275,
+      "grad_norm": 0.0015291267773136497,
+      "learning_rate": 0.11339300431887213,
+      "loss": 0.089,
+      "num_input_tokens_seen": 30012928,
+      "step": 23140
+    },
+    {
+      "epoch": 1.130896831407422,
+      "grad_norm": 0.0019381640013307333,
+      "learning_rate": 0.11333588335780687,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 30019264,
+      "step": 23145
+    },
+    {
+      "epoch": 1.1311411330711163,
+      "grad_norm": 0.001631527324207127,
+      "learning_rate": 0.11327876805080916,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 30025504,
+      "step": 23150
+    },
+    {
+      "epoch": 1.1313854347348105,
+      "grad_norm": 0.0008962780702859163,
+      "learning_rate": 0.11322165840668696,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 30032096,
+      "step": 23155
+    },
+    {
+      "epoch": 1.1316297363985048,
+      "grad_norm": 0.0009562247432768345,
+      "learning_rate": 0.11316455443424717,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 30038400,
+      "step": 23160
+    },
+    {
+      "epoch": 1.1318740380621992,
+      "grad_norm": 0.0023482993710786104,
+      "learning_rate": 0.11310745614229603,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 30045024,
+      "step": 23165
+    },
+    {
+      "epoch": 1.1321183397258936,
+      "grad_norm": 0.0009518415317870677,
+      "learning_rate": 0.1130503635396387,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 30051552,
+      "step": 23170
+    },
+    {
+      "epoch": 1.1323626413895878,
+      "grad_norm": 0.001949106459505856,
+      "learning_rate": 0.11299327663507966,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 30058688,
+      "step": 23175
+    },
+    {
+      "epoch": 1.1326069430532821,
+      "grad_norm": 0.001288347295485437,
+      "learning_rate": 0.11293619543742246,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 30065760,
+      "step": 23180
+    },
+    {
+      "epoch": 1.1328512447169765,
+      "grad_norm": 0.0011806429829448462,
+      "learning_rate": 0.11287911995546965,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 30072160,
+      "step": 23185
+    },
+    {
+      "epoch": 1.133095546380671,
+      "grad_norm": 0.0009797160746529698,
+      "learning_rate": 0.11282205019802308,
+      "loss": 0.084,
+      "num_input_tokens_seen": 30078720,
+      "step": 23190
+    },
+    {
+      "epoch": 1.1333398480443653,
+      "grad_norm": 0.0010089566931128502,
+      "learning_rate": 0.11276498617388354,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 30085888,
+      "step": 23195
+    },
+    {
+      "epoch": 1.1335841497080594,
+      "grad_norm": 0.0013945710379630327,
+      "learning_rate": 0.11270792789185109,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 30092128,
+      "step": 23200
+    },
+    {
+      "epoch": 1.1335841497080594,
+      "eval_loss": 0.09246733039617538,
+      "eval_runtime": 401.9381,
+      "eval_samples_per_second": 90.524,
+      "eval_steps_per_second": 22.633,
+      "num_input_tokens_seen": 30092128,
+      "step": 23200
+    },
+    {
+      "epoch": 1.1338284513717538,
+      "grad_norm": 0.0010442690690979362,
+      "learning_rate": 0.11265087536072482,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 30098848,
+      "step": 23205
+    },
+    {
+      "epoch": 1.1340727530354482,
+      "grad_norm": 0.001672646147198975,
+      "learning_rate": 0.11259382858930288,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 30105344,
+      "step": 23210
+    },
+    {
+      "epoch": 1.1343170546991426,
+      "grad_norm": 0.0012657458428293467,
+      "learning_rate": 0.11253678758638262,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 30111680,
+      "step": 23215
+    },
+    {
+      "epoch": 1.1345613563628367,
+      "grad_norm": 0.001002528122626245,
+      "learning_rate": 0.11247975236076059,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 30118464,
+      "step": 23220
+    },
+    {
+      "epoch": 1.134805658026531,
+      "grad_norm": 0.0010346167255192995,
+      "learning_rate": 0.11242272292123218,
+      "loss": 0.084,
+      "num_input_tokens_seen": 30124704,
+      "step": 23225
+    },
+    {
+      "epoch": 1.1350499596902255,
+      "grad_norm": 0.0010710906935855746,
+      "learning_rate": 0.11236569927659217,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 30130816,
+      "step": 23230
+    },
+    {
+      "epoch": 1.1352942613539199,
+      "grad_norm": 0.003068498568609357,
+      "learning_rate": 0.11230868143563429,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 30137408,
+      "step": 23235
+    },
+    {
+      "epoch": 1.1355385630176142,
+      "grad_norm": 0.0014878022484481335,
+      "learning_rate": 0.11225166940715131,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 30144160,
+      "step": 23240
+    },
+    {
+      "epoch": 1.1357828646813084,
+      "grad_norm": 0.0008877896470949054,
+      "learning_rate": 0.11219466319993537,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 30150464,
+      "step": 23245
+    },
+    {
+      "epoch": 1.1360271663450028,
+      "grad_norm": 0.0014459833037108183,
+      "learning_rate": 0.11213766282277739,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 30156768,
+      "step": 23250
+    },
+    {
+      "epoch": 1.1362714680086972,
+      "grad_norm": 0.0009936465648934245,
+      "learning_rate": 0.11208066828446761,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 30163776,
+      "step": 23255
+    },
+    {
+      "epoch": 1.1365157696723915,
+      "grad_norm": 0.0011059241369366646,
+      "learning_rate": 0.11202367959379537,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 30170240,
+      "step": 23260
+    },
+    {
+      "epoch": 1.1367600713360857,
+      "grad_norm": 0.0006793513312004507,
+      "learning_rate": 0.11196669675954894,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 30176736,
+      "step": 23265
+    },
+    {
+      "epoch": 1.13700437299978,
+      "grad_norm": 0.0006532729603350163,
+      "learning_rate": 0.1119097197905158,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 30183104,
+      "step": 23270
+    },
+    {
+      "epoch": 1.1372486746634745,
+      "grad_norm": 0.0012325322022661567,
+      "learning_rate": 0.11185274869548259,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 30189344,
+      "step": 23275
+    },
+    {
+      "epoch": 1.1374929763271688,
+      "grad_norm": 0.0013418116141110659,
+      "learning_rate": 0.11179578348323486,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 30195520,
+      "step": 23280
+    },
+    {
+      "epoch": 1.1377372779908632,
+      "grad_norm": 0.0008867286960594356,
+      "learning_rate": 0.1117388241625575,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 30201632,
+      "step": 23285
+    },
+    {
+      "epoch": 1.1379815796545574,
+      "grad_norm": 0.0006853225058875978,
+      "learning_rate": 0.11168187074223421,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 30208128,
+      "step": 23290
+    },
+    {
+      "epoch": 1.1382258813182518,
+      "grad_norm": 0.001610215287655592,
+      "learning_rate": 0.11162492323104796,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 30214144,
+      "step": 23295
+    },
+    {
+      "epoch": 1.1384701829819461,
+      "grad_norm": 0.0009584352374076843,
+      "learning_rate": 0.11156798163778091,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 30220320,
+      "step": 23300
+    },
+    {
+      "epoch": 1.1387144846456405,
+      "grad_norm": 0.0038620231207460165,
+      "learning_rate": 0.11151104597121399,
+      "loss": 0.085,
+      "num_input_tokens_seen": 30227200,
+      "step": 23305
+    },
+    {
+      "epoch": 1.1389587863093347,
+      "grad_norm": 0.00142824521753937,
+      "learning_rate": 0.11145411624012742,
+      "loss": 0.082,
+      "num_input_tokens_seen": 30233632,
+      "step": 23310
+    },
+    {
+      "epoch": 1.139203087973029,
+      "grad_norm": 0.000946389336604625,
+      "learning_rate": 0.11139719245330063,
+      "loss": 0.093,
+      "num_input_tokens_seen": 30240160,
+      "step": 23315
+    },
+    {
+      "epoch": 1.1394473896367234,
+      "grad_norm": 0.00174328510183841,
+      "learning_rate": 0.11134027461951179,
+      "loss": 0.113,
+      "num_input_tokens_seen": 30246656,
+      "step": 23320
+    },
+    {
+      "epoch": 1.1396916913004178,
+      "grad_norm": 0.0017108377069234848,
+      "learning_rate": 0.11128336274753849,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 30253216,
+      "step": 23325
+    },
+    {
+      "epoch": 1.1399359929641122,
+      "grad_norm": 0.001054993481375277,
+      "learning_rate": 0.11122645684615715,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 30259936,
+      "step": 23330
+    },
+    {
+      "epoch": 1.1401802946278063,
+      "grad_norm": 0.0007996855420060456,
+      "learning_rate": 0.11116955692414345,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 30266624,
+      "step": 23335
+    },
+    {
+      "epoch": 1.1404245962915007,
+      "grad_norm": 0.001067113596946001,
+      "learning_rate": 0.11111266299027203,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 30272864,
+      "step": 23340
+    },
+    {
+      "epoch": 1.140668897955195,
+      "grad_norm": 0.0015758267836645246,
+      "learning_rate": 0.11105577505331668,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 30278976,
+      "step": 23345
+    },
+    {
+      "epoch": 1.1409131996188895,
+      "grad_norm": 0.001435750164091587,
+      "learning_rate": 0.11099889312205018,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 30285536,
+      "step": 23350
+    },
+    {
+      "epoch": 1.1411575012825836,
+      "grad_norm": 0.0015367339365184307,
+      "learning_rate": 0.11094201720524455,
+      "loss": 0.102,
+      "num_input_tokens_seen": 30291776,
+      "step": 23355
+    },
+    {
+      "epoch": 1.141401802946278,
+      "grad_norm": 0.001765075488947332,
+      "learning_rate": 0.11088514731167064,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 30297728,
+      "step": 23360
+    },
+    {
+      "epoch": 1.1416461046099724,
+      "grad_norm": 0.0010898082982748747,
+      "learning_rate": 0.11082828345009862,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 30304800,
+      "step": 23365
+    },
+    {
+      "epoch": 1.1418904062736668,
+      "grad_norm": 0.0011013870825991035,
+      "learning_rate": 0.11077142562929748,
+      "loss": 0.1088,
+      "num_input_tokens_seen": 30311136,
+      "step": 23370
+    },
+    {
+      "epoch": 1.1421347079373612,
+      "grad_norm": 0.0011223952751606703,
+      "learning_rate": 0.11071457385803554,
+      "loss": 0.1199,
+      "num_input_tokens_seen": 30317504,
+      "step": 23375
+    },
+    {
+      "epoch": 1.1423790096010553,
+      "grad_norm": 0.0007446063682436943,
+      "learning_rate": 0.11065772814508001,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 30324032,
+      "step": 23380
+    },
+    {
+      "epoch": 1.1426233112647497,
+      "grad_norm": 0.0008210416999645531,
+      "learning_rate": 0.11060088849919715,
+      "loss": 0.083,
+      "num_input_tokens_seen": 30330048,
+      "step": 23385
+    },
+    {
+      "epoch": 1.142867612928444,
+      "grad_norm": 0.0007453899597749114,
+      "learning_rate": 0.11054405492915244,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 30336832,
+      "step": 23390
+    },
+    {
+      "epoch": 1.1431119145921385,
+      "grad_norm": 0.0021302595268934965,
+      "learning_rate": 0.11048722744371031,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 30343360,
+      "step": 23395
+    },
+    {
+      "epoch": 1.1433562162558326,
+      "grad_norm": 0.0014051655307412148,
+      "learning_rate": 0.1104304060516342,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 30349984,
+      "step": 23400
+    },
+    {
+      "epoch": 1.1433562162558326,
+      "eval_loss": 0.09408387541770935,
+      "eval_runtime": 402.2369,
+      "eval_samples_per_second": 90.457,
+      "eval_steps_per_second": 22.616,
+      "num_input_tokens_seen": 30349984,
+      "step": 23400
+    },
+    {
+      "epoch": 1.143600517919527,
+      "grad_norm": 0.0010580437956377864,
+      "learning_rate": 0.11037359076168682,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 30356416,
+      "step": 23405
+    },
+    {
+      "epoch": 1.1438448195832214,
+      "grad_norm": 0.0011598618002608418,
+      "learning_rate": 0.11031678158262966,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 30362848,
+      "step": 23410
+    },
+    {
+      "epoch": 1.1440891212469158,
+      "grad_norm": 0.0009011505171656609,
+      "learning_rate": 0.11025997852322349,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 30369536,
+      "step": 23415
+    },
+    {
+      "epoch": 1.1443334229106101,
+      "grad_norm": 0.0012104118941351771,
+      "learning_rate": 0.11020318159222807,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 30375840,
+      "step": 23420
+    },
+    {
+      "epoch": 1.1445777245743043,
+      "grad_norm": 0.0010762227466329932,
+      "learning_rate": 0.1101463907984021,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 30382080,
+      "step": 23425
+    },
+    {
+      "epoch": 1.1448220262379987,
+      "grad_norm": 0.0009284798288717866,
+      "learning_rate": 0.11008960615050352,
+      "loss": 0.109,
+      "num_input_tokens_seen": 30387872,
+      "step": 23430
+    },
+    {
+      "epoch": 1.145066327901693,
+      "grad_norm": 0.0008903076522983611,
+      "learning_rate": 0.11003282765728925,
+      "loss": 0.099,
+      "num_input_tokens_seen": 30394272,
+      "step": 23435
+    },
+    {
+      "epoch": 1.1453106295653874,
+      "grad_norm": 0.0007455542800016701,
+      "learning_rate": 0.10997605532751518,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 30400768,
+      "step": 23440
+    },
+    {
+      "epoch": 1.1455549312290816,
+      "grad_norm": 0.0009765154682099819,
+      "learning_rate": 0.1099192891699364,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 30407392,
+      "step": 23445
+    },
+    {
+      "epoch": 1.145799232892776,
+      "grad_norm": 0.0014446181012317538,
+      "learning_rate": 0.10986252919330687,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 30413728,
+      "step": 23450
+    },
+    {
+      "epoch": 1.1460435345564703,
+      "grad_norm": 0.001292589120566845,
+      "learning_rate": 0.10980577540637973,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 30420096,
+      "step": 23455
+    },
+    {
+      "epoch": 1.1462878362201647,
+      "grad_norm": 0.0008695657597854733,
+      "learning_rate": 0.10974902781790719,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 30426880,
+      "step": 23460
+    },
+    {
+      "epoch": 1.146532137883859,
+      "grad_norm": 0.0011858546640723944,
+      "learning_rate": 0.10969228643664032,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 30433152,
+      "step": 23465
+    },
+    {
+      "epoch": 1.1467764395475533,
+      "grad_norm": 0.0021062574815005064,
+      "learning_rate": 0.10963555127132942,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 30439456,
+      "step": 23470
+    },
+    {
+      "epoch": 1.1470207412112476,
+      "grad_norm": 0.0009893927490338683,
+      "learning_rate": 0.10957882233072382,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 30445536,
+      "step": 23475
+    },
+    {
+      "epoch": 1.147265042874942,
+      "grad_norm": 0.0006219573551788926,
+      "learning_rate": 0.10952209962357176,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 30451872,
+      "step": 23480
+    },
+    {
+      "epoch": 1.1475093445386364,
+      "grad_norm": 0.0008460439275950193,
+      "learning_rate": 0.10946538315862062,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 30458400,
+      "step": 23485
+    },
+    {
+      "epoch": 1.1477536462023306,
+      "grad_norm": 0.001139773172326386,
+      "learning_rate": 0.10940867294461679,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 30464928,
+      "step": 23490
+    },
+    {
+      "epoch": 1.147997947866025,
+      "grad_norm": 0.0008952537318691611,
+      "learning_rate": 0.10935196899030565,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 30470976,
+      "step": 23495
+    },
+    {
+      "epoch": 1.1482422495297193,
+      "grad_norm": 0.0014143313746899366,
+      "learning_rate": 0.10929527130443177,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 30477728,
+      "step": 23500
+    },
+    {
+      "epoch": 1.1484865511934137,
+      "grad_norm": 0.00045097569818608463,
+      "learning_rate": 0.1092385798957385,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 30483776,
+      "step": 23505
+    },
+    {
+      "epoch": 1.148730852857108,
+      "grad_norm": 0.0013856363948434591,
+      "learning_rate": 0.10918189477296848,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 30490144,
+      "step": 23510
+    },
+    {
+      "epoch": 1.1489751545208022,
+      "grad_norm": 0.0013580137165263295,
+      "learning_rate": 0.1091252159448633,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 30496640,
+      "step": 23515
+    },
+    {
+      "epoch": 1.1492194561844966,
+      "grad_norm": 0.0007652966887690127,
+      "learning_rate": 0.10906854342016345,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 30502944,
+      "step": 23520
+    },
+    {
+      "epoch": 1.149463757848191,
+      "grad_norm": 0.0011187723139300942,
+      "learning_rate": 0.10901187720760858,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 30509088,
+      "step": 23525
+    },
+    {
+      "epoch": 1.1497080595118854,
+      "grad_norm": 0.0015025229658931494,
+      "learning_rate": 0.10895521731593734,
+      "loss": 0.1124,
+      "num_input_tokens_seen": 30515264,
+      "step": 23530
+    },
+    {
+      "epoch": 1.1499523611755795,
+      "grad_norm": 0.0013136774068698287,
+      "learning_rate": 0.10889856375388733,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 30521440,
+      "step": 23535
+    },
+    {
+      "epoch": 1.150196662839274,
+      "grad_norm": 0.0015981068136170506,
+      "learning_rate": 0.1088419165301954,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 30528000,
+      "step": 23540
+    },
+    {
+      "epoch": 1.1504409645029683,
+      "grad_norm": 0.0009201017674058676,
+      "learning_rate": 0.1087852756535971,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 30534272,
+      "step": 23545
+    },
+    {
+      "epoch": 1.1506852661666627,
+      "grad_norm": 0.0015229912241920829,
+      "learning_rate": 0.10872864113282725,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 30540384,
+      "step": 23550
+    },
+    {
+      "epoch": 1.150929567830357,
+      "grad_norm": 0.000792122446000576,
+      "learning_rate": 0.10867201297661958,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 30546944,
+      "step": 23555
+    },
+    {
+      "epoch": 1.1511738694940512,
+      "grad_norm": 0.0009434618405066431,
+      "learning_rate": 0.10861539119370689,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 30553888,
+      "step": 23560
+    },
+    {
+      "epoch": 1.1514181711577456,
+      "grad_norm": 0.0016932040452957153,
+      "learning_rate": 0.10855877579282096,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 30560736,
+      "step": 23565
+    },
+    {
+      "epoch": 1.15166247282144,
+      "grad_norm": 0.001518811797723174,
+      "learning_rate": 0.10850216678269252,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 30567264,
+      "step": 23570
+    },
+    {
+      "epoch": 1.1519067744851341,
+      "grad_norm": 0.0012218249030411243,
+      "learning_rate": 0.10844556417205146,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 30573536,
+      "step": 23575
+    },
+    {
+      "epoch": 1.1521510761488285,
+      "grad_norm": 0.0025090384297072887,
+      "learning_rate": 0.10838896796962669,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 30579776,
+      "step": 23580
+    },
+    {
+      "epoch": 1.1523953778125229,
+      "grad_norm": 0.0008992078364826739,
+      "learning_rate": 0.1083323781841459,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 30586080,
+      "step": 23585
+    },
+    {
+      "epoch": 1.1526396794762173,
+      "grad_norm": 0.0014047937002032995,
+      "learning_rate": 0.10827579482433607,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 30592480,
+      "step": 23590
+    },
+    {
+      "epoch": 1.1528839811399116,
+      "grad_norm": 0.0011052173795178533,
+      "learning_rate": 0.10821921789892304,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 30598912,
+      "step": 23595
+    },
+    {
+      "epoch": 1.1531282828036058,
+      "grad_norm": 0.0008847339195199311,
+      "learning_rate": 0.10816264741663158,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 30605344,
+      "step": 23600
+    },
+    {
+      "epoch": 1.1531282828036058,
+      "eval_loss": 0.09443467110395432,
+      "eval_runtime": 402.3019,
+      "eval_samples_per_second": 90.442,
+      "eval_steps_per_second": 22.612,
+      "num_input_tokens_seen": 30605344,
+      "step": 23600
+    },
+    {
+      "epoch": 1.1533725844673002,
+      "grad_norm": 0.0010621803812682629,
+      "learning_rate": 0.10810608338618573,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 30612416,
+      "step": 23605
+    },
+    {
+      "epoch": 1.1536168861309946,
+      "grad_norm": 0.0013327214401215315,
+      "learning_rate": 0.10804952581630821,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 30618464,
+      "step": 23610
+    },
+    {
+      "epoch": 1.153861187794689,
+      "grad_norm": 0.0009897592244669795,
+      "learning_rate": 0.10799297471572102,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 30624704,
+      "step": 23615
+    },
+    {
+      "epoch": 1.154105489458383,
+      "grad_norm": 0.0011910221073776484,
+      "learning_rate": 0.10793643009314507,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 30631008,
+      "step": 23620
+    },
+    {
+      "epoch": 1.1543497911220775,
+      "grad_norm": 0.0008548352052457631,
+      "learning_rate": 0.10787989195730015,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 30637792,
+      "step": 23625
+    },
+    {
+      "epoch": 1.1545940927857719,
+      "grad_norm": 0.0005340336356312037,
+      "learning_rate": 0.10782336031690525,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 30644096,
+      "step": 23630
+    },
+    {
+      "epoch": 1.1548383944494662,
+      "grad_norm": 0.000664780440274626,
+      "learning_rate": 0.10776683518067821,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 30650848,
+      "step": 23635
+    },
+    {
+      "epoch": 1.1550826961131606,
+      "grad_norm": 0.0019160029478371143,
+      "learning_rate": 0.10771031655733587,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 30657664,
+      "step": 23640
+    },
+    {
+      "epoch": 1.1553269977768548,
+      "grad_norm": 0.0009486329508945346,
+      "learning_rate": 0.10765380445559422,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 30664640,
+      "step": 23645
+    },
+    {
+      "epoch": 1.1555712994405491,
+      "grad_norm": 0.0011394219473004341,
+      "learning_rate": 0.10759729888416801,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 30671488,
+      "step": 23650
+    },
+    {
+      "epoch": 1.1558156011042435,
+      "grad_norm": 0.0009731571190059185,
+      "learning_rate": 0.10754079985177119,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 30677952,
+      "step": 23655
+    },
+    {
+      "epoch": 1.156059902767938,
+      "grad_norm": 0.001346671488136053,
+      "learning_rate": 0.10748430736711667,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 30684384,
+      "step": 23660
+    },
+    {
+      "epoch": 1.156304204431632,
+      "grad_norm": 0.0019759631250053644,
+      "learning_rate": 0.10742782143891623,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 30690848,
+      "step": 23665
+    },
+    {
+      "epoch": 1.1565485060953264,
+      "grad_norm": 0.000944876519497484,
+      "learning_rate": 0.10737134207588069,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 30697728,
+      "step": 23670
+    },
+    {
+      "epoch": 1.1567928077590208,
+      "grad_norm": 0.0006841050926595926,
+      "learning_rate": 0.10731486928671992,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 30704160,
+      "step": 23675
+    },
+    {
+      "epoch": 1.1570371094227152,
+      "grad_norm": 0.001622232492081821,
+      "learning_rate": 0.10725840308014269,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 30710752,
+      "step": 23680
+    },
+    {
+      "epoch": 1.1572814110864096,
+      "grad_norm": 0.0013301329454407096,
+      "learning_rate": 0.10720194346485688,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 30717568,
+      "step": 23685
+    },
+    {
+      "epoch": 1.1575257127501037,
+      "grad_norm": 0.0013941696379333735,
+      "learning_rate": 0.10714549044956918,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 30723968,
+      "step": 23690
+    },
+    {
+      "epoch": 1.1577700144137981,
+      "grad_norm": 0.0012136942241340876,
+      "learning_rate": 0.10708904404298542,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 30730592,
+      "step": 23695
+    },
+    {
+      "epoch": 1.1580143160774925,
+      "grad_norm": 0.0010109238792210817,
+      "learning_rate": 0.1070326042538103,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 30737024,
+      "step": 23700
+    },
+    {
+      "epoch": 1.1582586177411869,
+      "grad_norm": 0.0011632655514404178,
+      "learning_rate": 0.10697617109074758,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 30743136,
+      "step": 23705
+    },
+    {
+      "epoch": 1.158502919404881,
+      "grad_norm": 0.0010603271657600999,
+      "learning_rate": 0.10691974456249999,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 30749280,
+      "step": 23710
+    },
+    {
+      "epoch": 1.1587472210685754,
+      "grad_norm": 0.0007519408245570958,
+      "learning_rate": 0.10686332467776909,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 30755776,
+      "step": 23715
+    },
+    {
+      "epoch": 1.1589915227322698,
+      "grad_norm": 0.0012752395123243332,
+      "learning_rate": 0.10680691144525563,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 30762368,
+      "step": 23720
+    },
+    {
+      "epoch": 1.1592358243959642,
+      "grad_norm": 0.0016394193517044187,
+      "learning_rate": 0.10675050487365928,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 30769024,
+      "step": 23725
+    },
+    {
+      "epoch": 1.1594801260596586,
+      "grad_norm": 0.0016187210567295551,
+      "learning_rate": 0.10669410497167851,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 30775456,
+      "step": 23730
+    },
+    {
+      "epoch": 1.1597244277233527,
+      "grad_norm": 0.0008881499525159597,
+      "learning_rate": 0.10663771174801102,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 30781824,
+      "step": 23735
+    },
+    {
+      "epoch": 1.159968729387047,
+      "grad_norm": 0.0011099884286522865,
+      "learning_rate": 0.10658132521135329,
+      "loss": 0.083,
+      "num_input_tokens_seen": 30788576,
+      "step": 23740
+    },
+    {
+      "epoch": 1.1602130310507415,
+      "grad_norm": 0.0010162538383156061,
+      "learning_rate": 0.10652494537040084,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 30795008,
+      "step": 23745
+    },
+    {
+      "epoch": 1.1604573327144359,
+      "grad_norm": 0.0012703813845291734,
+      "learning_rate": 0.1064685722338482,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 30801664,
+      "step": 23750
+    },
+    {
+      "epoch": 1.16070163437813,
+      "grad_norm": 0.0013635392533615232,
+      "learning_rate": 0.10641220581038871,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 30808256,
+      "step": 23755
+    },
+    {
+      "epoch": 1.1609459360418244,
+      "grad_norm": 0.001299510826356709,
+      "learning_rate": 0.10635584610871483,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 30815072,
+      "step": 23760
+    },
+    {
+      "epoch": 1.1611902377055188,
+      "grad_norm": 0.0012526905629783869,
+      "learning_rate": 0.10629949313751803,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 30821632,
+      "step": 23765
+    },
+    {
+      "epoch": 1.1614345393692131,
+      "grad_norm": 0.001192797557450831,
+      "learning_rate": 0.10624314690548849,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 30828032,
+      "step": 23770
+    },
+    {
+      "epoch": 1.1616788410329075,
+      "grad_norm": 0.0008715243311598897,
+      "learning_rate": 0.1061868074213156,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 30835008,
+      "step": 23775
+    },
+    {
+      "epoch": 1.1619231426966017,
+      "grad_norm": 0.0006626482936553657,
+      "learning_rate": 0.10613047469368765,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 30841664,
+      "step": 23780
+    },
+    {
+      "epoch": 1.162167444360296,
+      "grad_norm": 0.0012190857669338584,
+      "learning_rate": 0.10607414873129171,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 30847616,
+      "step": 23785
+    },
+    {
+      "epoch": 1.1624117460239904,
+      "grad_norm": 0.0009940799791365862,
+      "learning_rate": 0.10601782954281413,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 30854272,
+      "step": 23790
+    },
+    {
+      "epoch": 1.1626560476876848,
+      "grad_norm": 0.0011105991434305906,
+      "learning_rate": 0.1059615171369399,
+      "loss": 0.108,
+      "num_input_tokens_seen": 30860960,
+      "step": 23795
+    },
+    {
+      "epoch": 1.162900349351379,
+      "grad_norm": 0.0010812492109835148,
+      "learning_rate": 0.10590521152235312,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 30867648,
+      "step": 23800
+    },
+    {
+      "epoch": 1.162900349351379,
+      "eval_loss": 0.091725192964077,
+      "eval_runtime": 401.889,
+      "eval_samples_per_second": 90.535,
+      "eval_steps_per_second": 22.636,
+      "num_input_tokens_seen": 30867648,
+      "step": 23800
+    },
+    {
+      "epoch": 1.1631446510150734,
+      "grad_norm": 0.0009772691410034895,
+      "learning_rate": 0.1058489127077369,
+      "loss": 0.099,
+      "num_input_tokens_seen": 30873696,
+      "step": 23805
+    },
+    {
+      "epoch": 1.1633889526787677,
+      "grad_norm": 0.0009635406895540655,
+      "learning_rate": 0.1057926207017732,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 30880064,
+      "step": 23810
+    },
+    {
+      "epoch": 1.1636332543424621,
+      "grad_norm": 0.0005893849884159863,
+      "learning_rate": 0.10573633551314285,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 30886816,
+      "step": 23815
+    },
+    {
+      "epoch": 1.1638775560061565,
+      "grad_norm": 0.0008112158393487334,
+      "learning_rate": 0.1056800571505259,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 30893760,
+      "step": 23820
+    },
+    {
+      "epoch": 1.1641218576698507,
+      "grad_norm": 0.0008587480988353491,
+      "learning_rate": 0.10562378562260105,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 30900384,
+      "step": 23825
+    },
+    {
+      "epoch": 1.164366159333545,
+      "grad_norm": 0.0011753750732168555,
+      "learning_rate": 0.10556752093804615,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 30907488,
+      "step": 23830
+    },
+    {
+      "epoch": 1.1646104609972394,
+      "grad_norm": 0.0009785124566406012,
+      "learning_rate": 0.10551126310553786,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 30914112,
+      "step": 23835
+    },
+    {
+      "epoch": 1.1648547626609338,
+      "grad_norm": 0.0014366719406098127,
+      "learning_rate": 0.10545501213375187,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 30920288,
+      "step": 23840
+    },
+    {
+      "epoch": 1.165099064324628,
+      "grad_norm": 0.0010301036527380347,
+      "learning_rate": 0.10539876803136287,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 30927168,
+      "step": 23845
+    },
+    {
+      "epoch": 1.1653433659883223,
+      "grad_norm": 0.0014814691385254264,
+      "learning_rate": 0.10534253080704428,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 30933600,
+      "step": 23850
+    },
+    {
+      "epoch": 1.1655876676520167,
+      "grad_norm": 0.0015058700228109956,
+      "learning_rate": 0.10528630046946862,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 30940224,
+      "step": 23855
+    },
+    {
+      "epoch": 1.165831969315711,
+      "grad_norm": 0.0011235146084800363,
+      "learning_rate": 0.1052300770273074,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 30946912,
+      "step": 23860
+    },
+    {
+      "epoch": 1.1660762709794055,
+      "grad_norm": 0.0009912211680784822,
+      "learning_rate": 0.10517386048923086,
+      "loss": 0.106,
+      "num_input_tokens_seen": 30953376,
+      "step": 23865
+    },
+    {
+      "epoch": 1.1663205726430996,
+      "grad_norm": 0.001013339962810278,
+      "learning_rate": 0.10511765086390841,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 30959808,
+      "step": 23870
+    },
+    {
+      "epoch": 1.166564874306794,
+      "grad_norm": 0.001256113755516708,
+      "learning_rate": 0.10506144816000816,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 30966304,
+      "step": 23875
+    },
+    {
+      "epoch": 1.1668091759704884,
+      "grad_norm": 0.001026311656460166,
+      "learning_rate": 0.10500525238619736,
+      "loss": 0.096,
+      "num_input_tokens_seen": 30972576,
+      "step": 23880
+    },
+    {
+      "epoch": 1.1670534776341828,
+      "grad_norm": 0.0014752852730453014,
+      "learning_rate": 0.10494906355114209,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 30978976,
+      "step": 23885
+    },
+    {
+      "epoch": 1.167297779297877,
+      "grad_norm": 0.001568425097502768,
+      "learning_rate": 0.10489288166350737,
+      "loss": 0.086,
+      "num_input_tokens_seen": 30985568,
+      "step": 23890
+    },
+    {
+      "epoch": 1.1675420809615713,
+      "grad_norm": 0.0011794513557106256,
+      "learning_rate": 0.10483670673195711,
+      "loss": 0.07,
+      "num_input_tokens_seen": 30992224,
+      "step": 23895
+    },
+    {
+      "epoch": 1.1677863826252657,
+      "grad_norm": 0.0007672258070670068,
+      "learning_rate": 0.10478053876515431,
+      "loss": 0.078,
+      "num_input_tokens_seen": 30999008,
+      "step": 23900
+    },
+    {
+      "epoch": 1.16803068428896,
+      "grad_norm": 0.0011259311577305198,
+      "learning_rate": 0.10472437777176061,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 31005408,
+      "step": 23905
+    },
+    {
+      "epoch": 1.1682749859526544,
+      "grad_norm": 0.0011640188749879599,
+      "learning_rate": 0.1046682237604369,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 31011520,
+      "step": 23910
+    },
+    {
+      "epoch": 1.1685192876163486,
+      "grad_norm": 0.0011094182264059782,
+      "learning_rate": 0.1046120767398427,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 31017792,
+      "step": 23915
+    },
+    {
+      "epoch": 1.168763589280043,
+      "grad_norm": 0.0007111740997061133,
+      "learning_rate": 0.10455593671863667,
+      "loss": 0.076,
+      "num_input_tokens_seen": 31024352,
+      "step": 23920
+    },
+    {
+      "epoch": 1.1690078909437374,
+      "grad_norm": 0.0011380012147128582,
+      "learning_rate": 0.1044998037054763,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 31030816,
+      "step": 23925
+    },
+    {
+      "epoch": 1.1692521926074317,
+      "grad_norm": 0.0008126604370772839,
+      "learning_rate": 0.10444367770901794,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 31036736,
+      "step": 23930
+    },
+    {
+      "epoch": 1.169496494271126,
+      "grad_norm": 0.0012198706390336156,
+      "learning_rate": 0.10438755873791698,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 31043392,
+      "step": 23935
+    },
+    {
+      "epoch": 1.1697407959348203,
+      "grad_norm": 0.00088619499001652,
+      "learning_rate": 0.10433144680082775,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 31049888,
+      "step": 23940
+    },
+    {
+      "epoch": 1.1699850975985147,
+      "grad_norm": 0.0007288389024324715,
+      "learning_rate": 0.10427534190640322,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 31056736,
+      "step": 23945
+    },
+    {
+      "epoch": 1.170229399262209,
+      "grad_norm": 0.0016335879918187857,
+      "learning_rate": 0.10421924406329568,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 31063424,
+      "step": 23950
+    },
+    {
+      "epoch": 1.1704737009259034,
+      "grad_norm": 0.0011474454076960683,
+      "learning_rate": 0.10416315328015598,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 31069760,
+      "step": 23955
+    },
+    {
+      "epoch": 1.1707180025895976,
+      "grad_norm": 0.0011178847635164857,
+      "learning_rate": 0.10410706956563402,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 31076352,
+      "step": 23960
+    },
+    {
+      "epoch": 1.170962304253292,
+      "grad_norm": 0.0009841988794505596,
+      "learning_rate": 0.10405099292837874,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 31082560,
+      "step": 23965
+    },
+    {
+      "epoch": 1.1712066059169863,
+      "grad_norm": 0.0011507375165820122,
+      "learning_rate": 0.10399492337703771,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 31089152,
+      "step": 23970
+    },
+    {
+      "epoch": 1.1714509075806807,
+      "grad_norm": 0.0009373925859108567,
+      "learning_rate": 0.10393886092025764,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 31095744,
+      "step": 23975
+    },
+    {
+      "epoch": 1.1716952092443749,
+      "grad_norm": 0.0009606504463590682,
+      "learning_rate": 0.10388280556668412,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 31102272,
+      "step": 23980
+    },
+    {
+      "epoch": 1.1719395109080692,
+      "grad_norm": 0.0009738794760778546,
+      "learning_rate": 0.10382675732496145,
+      "loss": 0.099,
+      "num_input_tokens_seen": 31108832,
+      "step": 23985
+    },
+    {
+      "epoch": 1.1721838125717636,
+      "grad_norm": 0.0021371867042034864,
+      "learning_rate": 0.10377071620373311,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 31114912,
+      "step": 23990
+    },
+    {
+      "epoch": 1.172428114235458,
+      "grad_norm": 0.0014040411915630102,
+      "learning_rate": 0.10371468221164128,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 31121280,
+      "step": 23995
+    },
+    {
+      "epoch": 1.1726724158991524,
+      "grad_norm": 0.0010924929520115256,
+      "learning_rate": 0.10365865535732706,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 31127744,
+      "step": 24000
+    },
+    {
+      "epoch": 1.1726724158991524,
+      "eval_loss": 0.09170150756835938,
+      "eval_runtime": 402.4015,
+      "eval_samples_per_second": 90.42,
+      "eval_steps_per_second": 22.607,
+      "num_input_tokens_seen": 31127744,
+      "step": 24000
+    },
+    {
+      "epoch": 1.1729167175628465,
+      "grad_norm": 0.0011791607830673456,
+      "learning_rate": 0.10360263564943062,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 31134272,
+      "step": 24005
+    },
+    {
+      "epoch": 1.173161019226541,
+      "grad_norm": 0.0014124218141660094,
+      "learning_rate": 0.10354662309659075,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 31140640,
+      "step": 24010
+    },
+    {
+      "epoch": 1.1734053208902353,
+      "grad_norm": 0.0012583944480866194,
+      "learning_rate": 0.10349061770744537,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 31146368,
+      "step": 24015
+    },
+    {
+      "epoch": 1.1736496225539297,
+      "grad_norm": 0.000938179437071085,
+      "learning_rate": 0.10343461949063128,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 31152480,
+      "step": 24020
+    },
+    {
+      "epoch": 1.1738939242176238,
+      "grad_norm": 0.0014682415639981627,
+      "learning_rate": 0.103378628454784,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 31158784,
+      "step": 24025
+    },
+    {
+      "epoch": 1.1741382258813182,
+      "grad_norm": 0.0011140468996018171,
+      "learning_rate": 0.10332264460853811,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 31165248,
+      "step": 24030
+    },
+    {
+      "epoch": 1.1743825275450126,
+      "grad_norm": 0.0010216737864539027,
+      "learning_rate": 0.10326666796052701,
+      "loss": 0.083,
+      "num_input_tokens_seen": 31171360,
+      "step": 24035
+    },
+    {
+      "epoch": 1.174626829208707,
+      "grad_norm": 0.0009753673220984638,
+      "learning_rate": 0.10321069851938296,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 31177760,
+      "step": 24040
+    },
+    {
+      "epoch": 1.1748711308724014,
+      "grad_norm": 0.0021770326420664787,
+      "learning_rate": 0.10315473629373724,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 31184160,
+      "step": 24045
+    },
+    {
+      "epoch": 1.1751154325360955,
+      "grad_norm": 0.000951842637732625,
+      "learning_rate": 0.10309878129221982,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 31190944,
+      "step": 24050
+    },
+    {
+      "epoch": 1.17535973419979,
+      "grad_norm": 0.0010287126060575247,
+      "learning_rate": 0.10304283352345973,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 31197440,
+      "step": 24055
+    },
+    {
+      "epoch": 1.1756040358634843,
+      "grad_norm": 0.0009578716126270592,
+      "learning_rate": 0.10298689299608486,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 31204352,
+      "step": 24060
+    },
+    {
+      "epoch": 1.1758483375271787,
+      "grad_norm": 0.0013073625741526484,
+      "learning_rate": 0.10293095971872188,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 31210752,
+      "step": 24065
+    },
+    {
+      "epoch": 1.1760926391908728,
+      "grad_norm": 0.0010995222255587578,
+      "learning_rate": 0.10287503369999645,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 31217792,
+      "step": 24070
+    },
+    {
+      "epoch": 1.1763369408545672,
+      "grad_norm": 0.0014191775117069483,
+      "learning_rate": 0.10281911494853295,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 31224320,
+      "step": 24075
+    },
+    {
+      "epoch": 1.1765812425182616,
+      "grad_norm": 0.0010905605740845203,
+      "learning_rate": 0.10276320347295485,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 31230592,
+      "step": 24080
+    },
+    {
+      "epoch": 1.176825544181956,
+      "grad_norm": 0.001413712278008461,
+      "learning_rate": 0.10270729928188446,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 31236416,
+      "step": 24085
+    },
+    {
+      "epoch": 1.1770698458456503,
+      "grad_norm": 0.0012503372272476554,
+      "learning_rate": 0.10265140238394276,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 31242656,
+      "step": 24090
+    },
+    {
+      "epoch": 1.1773141475093445,
+      "grad_norm": 0.0014419788494706154,
+      "learning_rate": 0.10259551278774988,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 31249280,
+      "step": 24095
+    },
+    {
+      "epoch": 1.1775584491730389,
+      "grad_norm": 0.0012613738654181361,
+      "learning_rate": 0.10253963050192462,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 31255968,
+      "step": 24100
+    },
+    {
+      "epoch": 1.1778027508367332,
+      "grad_norm": 0.0007075080065988004,
+      "learning_rate": 0.10248375553508478,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 31262208,
+      "step": 24105
+    },
+    {
+      "epoch": 1.1780470525004274,
+      "grad_norm": 0.0022465756628662348,
+      "learning_rate": 0.102427887895847,
+      "loss": 0.138,
+      "num_input_tokens_seen": 31268160,
+      "step": 24110
+    },
+    {
+      "epoch": 1.1782913541641218,
+      "grad_norm": 0.0011205562623217702,
+      "learning_rate": 0.10237202759282668,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 31274368,
+      "step": 24115
+    },
+    {
+      "epoch": 1.1785356558278162,
+      "grad_norm": 0.0015615872107446194,
+      "learning_rate": 0.10231617463463821,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 31280416,
+      "step": 24120
+    },
+    {
+      "epoch": 1.1787799574915105,
+      "grad_norm": 0.0009780417894944549,
+      "learning_rate": 0.10226032902989492,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 31286656,
+      "step": 24125
+    },
+    {
+      "epoch": 1.179024259155205,
+      "grad_norm": 0.0018251813016831875,
+      "learning_rate": 0.10220449078720877,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 31292736,
+      "step": 24130
+    },
+    {
+      "epoch": 1.179268560818899,
+      "grad_norm": 0.0013035794254392385,
+      "learning_rate": 0.1021486599151908,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 31299008,
+      "step": 24135
+    },
+    {
+      "epoch": 1.1795128624825935,
+      "grad_norm": 0.0018444120651111007,
+      "learning_rate": 0.10209283642245084,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 31305568,
+      "step": 24140
+    },
+    {
+      "epoch": 1.1797571641462878,
+      "grad_norm": 0.0007441001944243908,
+      "learning_rate": 0.10203702031759748,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 31311936,
+      "step": 24145
+    },
+    {
+      "epoch": 1.1800014658099822,
+      "grad_norm": 0.0012367567978799343,
+      "learning_rate": 0.1019812116092384,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 31318208,
+      "step": 24150
+    },
+    {
+      "epoch": 1.1802457674736764,
+      "grad_norm": 0.002065615728497505,
+      "learning_rate": 0.10192541030597986,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 31324512,
+      "step": 24155
+    },
+    {
+      "epoch": 1.1804900691373708,
+      "grad_norm": 0.0014458007644861937,
+      "learning_rate": 0.1018696164164272,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 31331584,
+      "step": 24160
+    },
+    {
+      "epoch": 1.1807343708010651,
+      "grad_norm": 0.0011744268704205751,
+      "learning_rate": 0.10181382994918459,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 31338016,
+      "step": 24165
+    },
+    {
+      "epoch": 1.1809786724647595,
+      "grad_norm": 0.00108047085814178,
+      "learning_rate": 0.10175805091285492,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 31344640,
+      "step": 24170
+    },
+    {
+      "epoch": 1.181222974128454,
+      "grad_norm": 0.0014539766125380993,
+      "learning_rate": 0.10170227931603999,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 31351040,
+      "step": 24175
+    },
+    {
+      "epoch": 1.181467275792148,
+      "grad_norm": 0.0007090603467077017,
+      "learning_rate": 0.10164651516734062,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 31357664,
+      "step": 24180
+    },
+    {
+      "epoch": 1.1817115774558424,
+      "grad_norm": 0.0009503260371275246,
+      "learning_rate": 0.1015907584753562,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 31364064,
+      "step": 24185
+    },
+    {
+      "epoch": 1.1819558791195368,
+      "grad_norm": 0.0007459775079041719,
+      "learning_rate": 0.10153500924868523,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 31370592,
+      "step": 24190
+    },
+    {
+      "epoch": 1.1822001807832312,
+      "grad_norm": 0.0014360620407387614,
+      "learning_rate": 0.10147926749592483,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 31377120,
+      "step": 24195
+    },
+    {
+      "epoch": 1.1824444824469253,
+      "grad_norm": 0.0005053716595284641,
+      "learning_rate": 0.10142353322567112,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 31383392,
+      "step": 24200
+    },
+    {
+      "epoch": 1.1824444824469253,
+      "eval_loss": 0.09184528887271881,
+      "eval_runtime": 402.5174,
+      "eval_samples_per_second": 90.394,
+      "eval_steps_per_second": 22.6,
+      "num_input_tokens_seen": 31383392,
+      "step": 24200
+    },
+    {
+      "epoch": 1.1826887841106197,
+      "grad_norm": 0.0012912340462207794,
+      "learning_rate": 0.1013678064465191,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 31390304,
+      "step": 24205
+    },
+    {
+      "epoch": 1.182933085774314,
+      "grad_norm": 0.0010797976283356547,
+      "learning_rate": 0.10131208716706244,
+      "loss": 0.096,
+      "num_input_tokens_seen": 31396768,
+      "step": 24210
+    },
+    {
+      "epoch": 1.1831773874380085,
+      "grad_norm": 0.000915258249733597,
+      "learning_rate": 0.10125637539589379,
+      "loss": 0.071,
+      "num_input_tokens_seen": 31403232,
+      "step": 24215
+    },
+    {
+      "epoch": 1.1834216891017029,
+      "grad_norm": 0.001093352329917252,
+      "learning_rate": 0.10120067114160464,
+      "loss": 0.071,
+      "num_input_tokens_seen": 31410368,
+      "step": 24220
+    },
+    {
+      "epoch": 1.183665990765397,
+      "grad_norm": 0.0012661871733143926,
+      "learning_rate": 0.10114497441278517,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 31416768,
+      "step": 24225
+    },
+    {
+      "epoch": 1.1839102924290914,
+      "grad_norm": 0.0016350619262084365,
+      "learning_rate": 0.10108928521802468,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 31422976,
+      "step": 24230
+    },
+    {
+      "epoch": 1.1841545940927858,
+      "grad_norm": 0.0016345275798812509,
+      "learning_rate": 0.101033603565911,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 31429600,
+      "step": 24235
+    },
+    {
+      "epoch": 1.1843988957564802,
+      "grad_norm": 0.0015674714231863618,
+      "learning_rate": 0.10097792946503102,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 31436256,
+      "step": 24240
+    },
+    {
+      "epoch": 1.1846431974201743,
+      "grad_norm": 0.0018953140825033188,
+      "learning_rate": 0.10092226292397039,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 31442304,
+      "step": 24245
+    },
+    {
+      "epoch": 1.1848874990838687,
+      "grad_norm": 0.002342848340049386,
+      "learning_rate": 0.10086660395131354,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 31448832,
+      "step": 24250
+    },
+    {
+      "epoch": 1.185131800747563,
+      "grad_norm": 0.0014210615772753954,
+      "learning_rate": 0.10081095255564385,
+      "loss": 0.111,
+      "num_input_tokens_seen": 31455616,
+      "step": 24255
+    },
+    {
+      "epoch": 1.1853761024112575,
+      "grad_norm": 0.001204928383231163,
+      "learning_rate": 0.10075530874554335,
+      "loss": 0.087,
+      "num_input_tokens_seen": 31462016,
+      "step": 24260
+    },
+    {
+      "epoch": 1.1856204040749518,
+      "grad_norm": 0.0011940719559788704,
+      "learning_rate": 0.10069967252959311,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 31468288,
+      "step": 24265
+    },
+    {
+      "epoch": 1.185864705738646,
+      "grad_norm": 0.0007091877632774413,
+      "learning_rate": 0.10064404391637297,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 31474720,
+      "step": 24270
+    },
+    {
+      "epoch": 1.1861090074023404,
+      "grad_norm": 0.0016542894300073385,
+      "learning_rate": 0.10058842291446145,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 31481376,
+      "step": 24275
+    },
+    {
+      "epoch": 1.1863533090660348,
+      "grad_norm": 0.0010810964740812778,
+      "learning_rate": 0.10053280953243608,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 31487584,
+      "step": 24280
+    },
+    {
+      "epoch": 1.1865976107297291,
+      "grad_norm": 0.0014508579624816775,
+      "learning_rate": 0.10047720377887315,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 31493760,
+      "step": 24285
+    },
+    {
+      "epoch": 1.1868419123934233,
+      "grad_norm": 0.0008820039220154285,
+      "learning_rate": 0.10042160566234767,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 31499936,
+      "step": 24290
+    },
+    {
+      "epoch": 1.1870862140571177,
+      "grad_norm": 0.0012958049774169922,
+      "learning_rate": 0.10036601519143372,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 31505984,
+      "step": 24295
+    },
+    {
+      "epoch": 1.187330515720812,
+      "grad_norm": 0.0014083333080634475,
+      "learning_rate": 0.1003104323747039,
+      "loss": 0.093,
+      "num_input_tokens_seen": 31512640,
+      "step": 24300
+    },
+    {
+      "epoch": 1.1875748173845064,
+      "grad_norm": 0.0010803603800013661,
+      "learning_rate": 0.10025485722072984,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 31518816,
+      "step": 24305
+    },
+    {
+      "epoch": 1.1878191190482008,
+      "grad_norm": 0.001464216155000031,
+      "learning_rate": 0.10019928973808201,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 31525280,
+      "step": 24310
+    },
+    {
+      "epoch": 1.188063420711895,
+      "grad_norm": 0.0014994036173447967,
+      "learning_rate": 0.10014372993532945,
+      "loss": 0.093,
+      "num_input_tokens_seen": 31531584,
+      "step": 24315
+    },
+    {
+      "epoch": 1.1883077223755893,
+      "grad_norm": 0.0013139928923919797,
+      "learning_rate": 0.1000881778210403,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 31538048,
+      "step": 24320
+    },
+    {
+      "epoch": 1.1885520240392837,
+      "grad_norm": 0.0008505535079166293,
+      "learning_rate": 0.10003263340378142,
+      "loss": 0.094,
+      "num_input_tokens_seen": 31544800,
+      "step": 24325
+    },
+    {
+      "epoch": 1.188796325702978,
+      "grad_norm": 0.000685251725371927,
+      "learning_rate": 0.09997709669211834,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 31551680,
+      "step": 24330
+    },
+    {
+      "epoch": 1.1890406273666723,
+      "grad_norm": 0.0010277159744873643,
+      "learning_rate": 0.0999215676946156,
+      "loss": 0.08,
+      "num_input_tokens_seen": 31558240,
+      "step": 24335
+    },
+    {
+      "epoch": 1.1892849290303666,
+      "grad_norm": 0.0007594769704155624,
+      "learning_rate": 0.0998660464198364,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 31564608,
+      "step": 24340
+    },
+    {
+      "epoch": 1.189529230694061,
+      "grad_norm": 0.0010806324426084757,
+      "learning_rate": 0.09981053287634288,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 31570880,
+      "step": 24345
+    },
+    {
+      "epoch": 1.1897735323577554,
+      "grad_norm": 0.0016616192879155278,
+      "learning_rate": 0.09975502707269596,
+      "loss": 0.088,
+      "num_input_tokens_seen": 31577664,
+      "step": 24350
+    },
+    {
+      "epoch": 1.1900178340214498,
+      "grad_norm": 0.0007256076205521822,
+      "learning_rate": 0.09969952901745524,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 31584128,
+      "step": 24355
+    },
+    {
+      "epoch": 1.190262135685144,
+      "grad_norm": 0.0005287114763632417,
+      "learning_rate": 0.09964403871917925,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 31590592,
+      "step": 24360
+    },
+    {
+      "epoch": 1.1905064373488383,
+      "grad_norm": 0.0014495333889499307,
+      "learning_rate": 0.09958855618642536,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 31596864,
+      "step": 24365
+    },
+    {
+      "epoch": 1.1907507390125327,
+      "grad_norm": 0.0016420881729573011,
+      "learning_rate": 0.09953308142774955,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 31603040,
+      "step": 24370
+    },
+    {
+      "epoch": 1.190995040676227,
+      "grad_norm": 0.0008511843043379486,
+      "learning_rate": 0.09947761445170686,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 31609248,
+      "step": 24375
+    },
+    {
+      "epoch": 1.1912393423399212,
+      "grad_norm": 0.0007924340898171067,
+      "learning_rate": 0.09942215526685086,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 31615648,
+      "step": 24380
+    },
+    {
+      "epoch": 1.1914836440036156,
+      "grad_norm": 0.0014697861624881625,
+      "learning_rate": 0.09936670388173414,
+      "loss": 0.11,
+      "num_input_tokens_seen": 31621600,
+      "step": 24385
+    },
+    {
+      "epoch": 1.19172794566731,
+      "grad_norm": 0.0007851478294469416,
+      "learning_rate": 0.09931126030490799,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 31628000,
+      "step": 24390
+    },
+    {
+      "epoch": 1.1919722473310044,
+      "grad_norm": 0.0010441525373607874,
+      "learning_rate": 0.0992558245449225,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 31634560,
+      "step": 24395
+    },
+    {
+      "epoch": 1.1922165489946988,
+      "grad_norm": 0.0013035680167376995,
+      "learning_rate": 0.09920039661032651,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 31641056,
+      "step": 24400
+    },
+    {
+      "epoch": 1.1922165489946988,
+      "eval_loss": 0.09734250605106354,
+      "eval_runtime": 402.7552,
+      "eval_samples_per_second": 90.34,
+      "eval_steps_per_second": 22.587,
+      "num_input_tokens_seen": 31641056,
+      "step": 24400
+    },
+    {
+      "epoch": 1.192460850658393,
+      "grad_norm": 0.0016806444618850946,
+      "learning_rate": 0.09914497650966782,
+      "loss": 0.108,
+      "num_input_tokens_seen": 31648064,
+      "step": 24405
+    },
+    {
+      "epoch": 1.1927051523220873,
+      "grad_norm": 0.0014672859106212854,
+      "learning_rate": 0.09908956425149276,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 31654528,
+      "step": 24410
+    },
+    {
+      "epoch": 1.1929494539857817,
+      "grad_norm": 0.0009551233379170299,
+      "learning_rate": 0.09903415984434677,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 31661216,
+      "step": 24415
+    },
+    {
+      "epoch": 1.193193755649476,
+      "grad_norm": 0.0012440432328730822,
+      "learning_rate": 0.09897876329677373,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 31667584,
+      "step": 24420
+    },
+    {
+      "epoch": 1.1934380573131702,
+      "grad_norm": 0.000700084085110575,
+      "learning_rate": 0.09892337461731658,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 31673728,
+      "step": 24425
+    },
+    {
+      "epoch": 1.1936823589768646,
+      "grad_norm": 0.001104610739275813,
+      "learning_rate": 0.09886799381451693,
+      "loss": 0.101,
+      "num_input_tokens_seen": 31679872,
+      "step": 24430
+    },
+    {
+      "epoch": 1.193926660640559,
+      "grad_norm": 0.0012179926270619035,
+      "learning_rate": 0.09881262089691521,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 31686176,
+      "step": 24435
+    },
+    {
+      "epoch": 1.1941709623042533,
+      "grad_norm": 0.0008927297894842923,
+      "learning_rate": 0.09875725587305059,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 31692544,
+      "step": 24440
+    },
+    {
+      "epoch": 1.1944152639679477,
+      "grad_norm": 0.0011230278760194778,
+      "learning_rate": 0.09870189875146111,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 31699136,
+      "step": 24445
+    },
+    {
+      "epoch": 1.1946595656316419,
+      "grad_norm": 0.0013442145427688956,
+      "learning_rate": 0.09864654954068346,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 31705472,
+      "step": 24450
+    },
+    {
+      "epoch": 1.1949038672953363,
+      "grad_norm": 0.0008908587624318898,
+      "learning_rate": 0.09859120824925326,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 31711712,
+      "step": 24455
+    },
+    {
+      "epoch": 1.1951481689590306,
+      "grad_norm": 0.0015566773945465684,
+      "learning_rate": 0.09853587488570474,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 31718368,
+      "step": 24460
+    },
+    {
+      "epoch": 1.195392470622725,
+      "grad_norm": 0.0012331882026046515,
+      "learning_rate": 0.09848054945857107,
+      "loss": 0.075,
+      "num_input_tokens_seen": 31724576,
+      "step": 24465
+    },
+    {
+      "epoch": 1.1956367722864192,
+      "grad_norm": 0.0011916793882846832,
+      "learning_rate": 0.09842523197638416,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 31731776,
+      "step": 24470
+    },
+    {
+      "epoch": 1.1958810739501136,
+      "grad_norm": 0.000961719430051744,
+      "learning_rate": 0.09836992244767452,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 31738400,
+      "step": 24475
+    },
+    {
+      "epoch": 1.196125375613808,
+      "grad_norm": 0.0010529770515859127,
+      "learning_rate": 0.09831462088097168,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 31744384,
+      "step": 24480
+    },
+    {
+      "epoch": 1.1963696772775023,
+      "grad_norm": 0.0021849186159670353,
+      "learning_rate": 0.09825932728480385,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 31750816,
+      "step": 24485
+    },
+    {
+      "epoch": 1.1966139789411967,
+      "grad_norm": 0.0012017997214570642,
+      "learning_rate": 0.09820404166769794,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 31757344,
+      "step": 24490
+    },
+    {
+      "epoch": 1.1968582806048909,
+      "grad_norm": 0.0008814377360977232,
+      "learning_rate": 0.09814876403817978,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 31764096,
+      "step": 24495
+    },
+    {
+      "epoch": 1.1971025822685852,
+      "grad_norm": 0.0012472885427996516,
+      "learning_rate": 0.09809349440477376,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 31770528,
+      "step": 24500
+    },
+    {
+      "epoch": 1.1973468839322796,
+      "grad_norm": 0.0015322621911764145,
+      "learning_rate": 0.09803823277600317,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 31776576,
+      "step": 24505
+    },
+    {
+      "epoch": 1.197591185595974,
+      "grad_norm": 0.0009051284869201481,
+      "learning_rate": 0.09798297916039014,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 31782848,
+      "step": 24510
+    },
+    {
+      "epoch": 1.1978354872596682,
+      "grad_norm": 0.0015590114053338766,
+      "learning_rate": 0.09792773356645534,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 31789696,
+      "step": 24515
+    },
+    {
+      "epoch": 1.1980797889233625,
+      "grad_norm": 0.0008781833457760513,
+      "learning_rate": 0.09787249600271843,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 31796512,
+      "step": 24520
+    },
+    {
+      "epoch": 1.198324090587057,
+      "grad_norm": 0.0011107869213446975,
+      "learning_rate": 0.09781726647769776,
+      "loss": 0.1,
+      "num_input_tokens_seen": 31802272,
+      "step": 24525
+    },
+    {
+      "epoch": 1.1985683922507513,
+      "grad_norm": 0.0013004557695239782,
+      "learning_rate": 0.0977620449999103,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 31809312,
+      "step": 24530
+    },
+    {
+      "epoch": 1.1988126939144457,
+      "grad_norm": 0.0007358186994679272,
+      "learning_rate": 0.09770683157787204,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 31815424,
+      "step": 24535
+    },
+    {
+      "epoch": 1.1990569955781398,
+      "grad_norm": 0.0010960487416014075,
+      "learning_rate": 0.09765162622009745,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 31822048,
+      "step": 24540
+    },
+    {
+      "epoch": 1.1993012972418342,
+      "grad_norm": 0.0007904191734269261,
+      "learning_rate": 0.09759642893509995,
+      "loss": 0.075,
+      "num_input_tokens_seen": 31828544,
+      "step": 24545
+    },
+    {
+      "epoch": 1.1995455989055286,
+      "grad_norm": 0.0018255648901686072,
+      "learning_rate": 0.09754123973139169,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 31835424,
+      "step": 24550
+    },
+    {
+      "epoch": 1.199789900569223,
+      "grad_norm": 0.0013108161510899663,
+      "learning_rate": 0.09748605861748345,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 31841856,
+      "step": 24555
+    },
+    {
+      "epoch": 1.2000342022329171,
+      "grad_norm": 0.0016831073444336653,
+      "learning_rate": 0.0974308856018849,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 31848032,
+      "step": 24560
+    },
+    {
+      "epoch": 1.2002785038966115,
+      "grad_norm": 0.0014192695962265134,
+      "learning_rate": 0.09737572069310449,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 31854464,
+      "step": 24565
+    },
+    {
+      "epoch": 1.2005228055603059,
+      "grad_norm": 0.0015908522764220834,
+      "learning_rate": 0.09732056389964922,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 31860992,
+      "step": 24570
+    },
+    {
+      "epoch": 1.2007671072240003,
+      "grad_norm": 0.0007567342254333198,
+      "learning_rate": 0.097265415230025,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 31867904,
+      "step": 24575
+    },
+    {
+      "epoch": 1.2010114088876946,
+      "grad_norm": 0.0007275679963640869,
+      "learning_rate": 0.09721027469273648,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 31874048,
+      "step": 24580
+    },
+    {
+      "epoch": 1.2012557105513888,
+      "grad_norm": 0.000850810669362545,
+      "learning_rate": 0.09715514229628695,
+      "loss": 0.089,
+      "num_input_tokens_seen": 31881952,
+      "step": 24585
+    },
+    {
+      "epoch": 1.2015000122150832,
+      "grad_norm": 0.0013596676290035248,
+      "learning_rate": 0.09710001804917864,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 31888256,
+      "step": 24590
+    },
+    {
+      "epoch": 1.2017443138787776,
+      "grad_norm": 0.0011327668325975537,
+      "learning_rate": 0.09704490195991226,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 31894624,
+      "step": 24595
+    },
+    {
+      "epoch": 1.201988615542472,
+      "grad_norm": 0.001996656646952033,
+      "learning_rate": 0.09698979403698753,
+      "loss": 0.098,
+      "num_input_tokens_seen": 31900960,
+      "step": 24600
+    },
+    {
+      "epoch": 1.201988615542472,
+      "eval_loss": 0.09195403754711151,
+      "eval_runtime": 401.8348,
+      "eval_samples_per_second": 90.547,
+      "eval_steps_per_second": 22.639,
+      "num_input_tokens_seen": 31900960,
+      "step": 24600
+    },
+    {
+      "epoch": 1.202232917206166,
+      "grad_norm": 0.001125733251683414,
+      "learning_rate": 0.0969346942889027,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 31907584,
+      "step": 24605
+    },
+    {
+      "epoch": 1.2024772188698605,
+      "grad_norm": 0.001516639138571918,
+      "learning_rate": 0.09687960272415487,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 31914208,
+      "step": 24610
+    },
+    {
+      "epoch": 1.2027215205335549,
+      "grad_norm": 0.0014186511980369687,
+      "learning_rate": 0.0968245193512399,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 31920128,
+      "step": 24615
+    },
+    {
+      "epoch": 1.2029658221972492,
+      "grad_norm": 0.0010320020373910666,
+      "learning_rate": 0.09676944417865221,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 31926688,
+      "step": 24620
+    },
+    {
+      "epoch": 1.2032101238609436,
+      "grad_norm": 0.0008020127424970269,
+      "learning_rate": 0.09671437721488517,
+      "loss": 0.0601,
+      "num_input_tokens_seen": 31933152,
+      "step": 24625
+    },
+    {
+      "epoch": 1.2034544255246378,
+      "grad_norm": 0.0018813635688275099,
+      "learning_rate": 0.09665931846843086,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 31940576,
+      "step": 24630
+    },
+    {
+      "epoch": 1.2036987271883322,
+      "grad_norm": 0.0009080271702259779,
+      "learning_rate": 0.0966042679477799,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 31947360,
+      "step": 24635
+    },
+    {
+      "epoch": 1.2039430288520265,
+      "grad_norm": 0.0011042613768950105,
+      "learning_rate": 0.09654922566142186,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 31953760,
+      "step": 24640
+    },
+    {
+      "epoch": 1.2041873305157207,
+      "grad_norm": 0.001175863086245954,
+      "learning_rate": 0.09649419161784498,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 31960064,
+      "step": 24645
+    },
+    {
+      "epoch": 1.204431632179415,
+      "grad_norm": 0.0012827578466385603,
+      "learning_rate": 0.09643916582553606,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 31967168,
+      "step": 24650
+    },
+    {
+      "epoch": 1.2046759338431094,
+      "grad_norm": 0.0008569850469939411,
+      "learning_rate": 0.09638414829298093,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 31974144,
+      "step": 24655
+    },
+    {
+      "epoch": 1.2049202355068038,
+      "grad_norm": 0.0011768144322559237,
+      "learning_rate": 0.09632913902866386,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 31980672,
+      "step": 24660
+    },
+    {
+      "epoch": 1.2051645371704982,
+      "grad_norm": 0.0010728446068242192,
+      "learning_rate": 0.096274138041068,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 31987040,
+      "step": 24665
+    },
+    {
+      "epoch": 1.2054088388341924,
+      "grad_norm": 0.0010761613957583904,
+      "learning_rate": 0.09621914533867527,
+      "loss": 0.068,
+      "num_input_tokens_seen": 31993760,
+      "step": 24670
+    },
+    {
+      "epoch": 1.2056531404978867,
+      "grad_norm": 0.00174901622813195,
+      "learning_rate": 0.09616416092996616,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 32000288,
+      "step": 24675
+    },
+    {
+      "epoch": 1.2058974421615811,
+      "grad_norm": 0.0010076502803713083,
+      "learning_rate": 0.09610918482342,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 32006592,
+      "step": 24680
+    },
+    {
+      "epoch": 1.2061417438252755,
+      "grad_norm": 0.0009841980645433068,
+      "learning_rate": 0.09605421702751478,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 32012352,
+      "step": 24685
+    },
+    {
+      "epoch": 1.2063860454889697,
+      "grad_norm": 0.0009788644965738058,
+      "learning_rate": 0.09599925755072718,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 32018880,
+      "step": 24690
+    },
+    {
+      "epoch": 1.206630347152664,
+      "grad_norm": 0.0008545861928723752,
+      "learning_rate": 0.09594430640153273,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 32025184,
+      "step": 24695
+    },
+    {
+      "epoch": 1.2068746488163584,
+      "grad_norm": 0.0016311880899593234,
+      "learning_rate": 0.09588936358840547,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 32031648,
+      "step": 24700
+    },
+    {
+      "epoch": 1.2071189504800528,
+      "grad_norm": 0.0016771513037383556,
+      "learning_rate": 0.09583442911981836,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 32038432,
+      "step": 24705
+    },
+    {
+      "epoch": 1.2073632521437472,
+      "grad_norm": 0.001691321493126452,
+      "learning_rate": 0.09577950300424302,
+      "loss": 0.092,
+      "num_input_tokens_seen": 32044384,
+      "step": 24710
+    },
+    {
+      "epoch": 1.2076075538074413,
+      "grad_norm": 0.0014130984200164676,
+      "learning_rate": 0.09572458525014967,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 32050688,
+      "step": 24715
+    },
+    {
+      "epoch": 1.2078518554711357,
+      "grad_norm": 0.0015288463328033686,
+      "learning_rate": 0.0956696758660073,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 32057216,
+      "step": 24720
+    },
+    {
+      "epoch": 1.20809615713483,
+      "grad_norm": 0.0016805172199383378,
+      "learning_rate": 0.09561477486028373,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 32063680,
+      "step": 24725
+    },
+    {
+      "epoch": 1.2083404587985245,
+      "grad_norm": 0.0014676552964374423,
+      "learning_rate": 0.09555988224144528,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 32070080,
+      "step": 24730
+    },
+    {
+      "epoch": 1.2085847604622186,
+      "grad_norm": 0.001188886002637446,
+      "learning_rate": 0.09550499801795717,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 32076384,
+      "step": 24735
+    },
+    {
+      "epoch": 1.208829062125913,
+      "grad_norm": 0.0009279006044380367,
+      "learning_rate": 0.09545012219828314,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 32082880,
+      "step": 24740
+    },
+    {
+      "epoch": 1.2090733637896074,
+      "grad_norm": 0.0014982393477112055,
+      "learning_rate": 0.09539525479088577,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 32088928,
+      "step": 24745
+    },
+    {
+      "epoch": 1.2093176654533018,
+      "grad_norm": 0.0012659536441788077,
+      "learning_rate": 0.0953403958042264,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 32095200,
+      "step": 24750
+    },
+    {
+      "epoch": 1.2095619671169962,
+      "grad_norm": 0.0007311746012419462,
+      "learning_rate": 0.09528554524676484,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 32101856,
+      "step": 24755
+    },
+    {
+      "epoch": 1.2098062687806903,
+      "grad_norm": 0.0025652945041656494,
+      "learning_rate": 0.09523070312695978,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 32108096,
+      "step": 24760
+    },
+    {
+      "epoch": 1.2100505704443847,
+      "grad_norm": 0.0016901622293516994,
+      "learning_rate": 0.09517586945326863,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 32114304,
+      "step": 24765
+    },
+    {
+      "epoch": 1.210294872108079,
+      "grad_norm": 0.0022855361457914114,
+      "learning_rate": 0.0951210442341473,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 32120576,
+      "step": 24770
+    },
+    {
+      "epoch": 1.2105391737717734,
+      "grad_norm": 0.0010300357826054096,
+      "learning_rate": 0.09506622747805066,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 32126688,
+      "step": 24775
+    },
+    {
+      "epoch": 1.2107834754354676,
+      "grad_norm": 0.0011864943662658334,
+      "learning_rate": 0.09501141919343203,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 32132864,
+      "step": 24780
+    },
+    {
+      "epoch": 1.211027777099162,
+      "grad_norm": 0.0012937304563820362,
+      "learning_rate": 0.09495661938874361,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 32139136,
+      "step": 24785
+    },
+    {
+      "epoch": 1.2112720787628564,
+      "grad_norm": 0.0008229885715991259,
+      "learning_rate": 0.0949018280724362,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 32145440,
+      "step": 24790
+    },
+    {
+      "epoch": 1.2115163804265507,
+      "grad_norm": 0.0014001497766003013,
+      "learning_rate": 0.09484704525295934,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 32151936,
+      "step": 24795
+    },
+    {
+      "epoch": 1.2117606820902451,
+      "grad_norm": 0.0015727505087852478,
+      "learning_rate": 0.09479227093876112,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 32158304,
+      "step": 24800
+    },
+    {
+      "epoch": 1.2117606820902451,
+      "eval_loss": 0.09121868759393692,
+      "eval_runtime": 402.6976,
+      "eval_samples_per_second": 90.353,
+      "eval_steps_per_second": 22.59,
+      "num_input_tokens_seen": 32158304,
+      "step": 24800
+    },
+    {
+      "epoch": 1.2120049837539393,
+      "grad_norm": 0.0015074346447363496,
+      "learning_rate": 0.0947375051382886,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 32164832,
+      "step": 24805
+    },
+    {
+      "epoch": 1.2122492854176337,
+      "grad_norm": 0.0013095560716465116,
+      "learning_rate": 0.09468274785998718,
+      "loss": 0.074,
+      "num_input_tokens_seen": 32171360,
+      "step": 24810
+    },
+    {
+      "epoch": 1.212493587081328,
+      "grad_norm": 0.0010292710503563285,
+      "learning_rate": 0.09462799911230127,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 32178016,
+      "step": 24815
+    },
+    {
+      "epoch": 1.2127378887450224,
+      "grad_norm": 0.0010619598906487226,
+      "learning_rate": 0.0945732589036737,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 32184320,
+      "step": 24820
+    },
+    {
+      "epoch": 1.2129821904087166,
+      "grad_norm": 0.001236091135069728,
+      "learning_rate": 0.09451852724254614,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 32190816,
+      "step": 24825
+    },
+    {
+      "epoch": 1.213226492072411,
+      "grad_norm": 0.001337636262178421,
+      "learning_rate": 0.09446380413735894,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 32197440,
+      "step": 24830
+    },
+    {
+      "epoch": 1.2134707937361053,
+      "grad_norm": 0.0013081032084301114,
+      "learning_rate": 0.09440908959655099,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 32204096,
+      "step": 24835
+    },
+    {
+      "epoch": 1.2137150953997997,
+      "grad_norm": 0.0011090370826423168,
+      "learning_rate": 0.09435438362856004,
+      "loss": 0.08,
+      "num_input_tokens_seen": 32210560,
+      "step": 24840
+    },
+    {
+      "epoch": 1.213959397063494,
+      "grad_norm": 0.0007479005143977702,
+      "learning_rate": 0.0942996862418225,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 32217600,
+      "step": 24845
+    },
+    {
+      "epoch": 1.2142036987271883,
+      "grad_norm": 0.0013966754777356982,
+      "learning_rate": 0.09424499744477322,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 32224160,
+      "step": 24850
+    },
+    {
+      "epoch": 1.2144480003908826,
+      "grad_norm": 0.001317319693043828,
+      "learning_rate": 0.09419031724584608,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 32230560,
+      "step": 24855
+    },
+    {
+      "epoch": 1.214692302054577,
+      "grad_norm": 0.0010014886502176523,
+      "learning_rate": 0.09413564565347331,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 32236736,
+      "step": 24860
+    },
+    {
+      "epoch": 1.2149366037182714,
+      "grad_norm": 0.0014766913373023272,
+      "learning_rate": 0.094080982676086,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 32243200,
+      "step": 24865
+    },
+    {
+      "epoch": 1.2151809053819655,
+      "grad_norm": 0.0011078300885856152,
+      "learning_rate": 0.09402632832211395,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 32249728,
+      "step": 24870
+    },
+    {
+      "epoch": 1.21542520704566,
+      "grad_norm": 0.001795479329302907,
+      "learning_rate": 0.09397168259998541,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 32256416,
+      "step": 24875
+    },
+    {
+      "epoch": 1.2156695087093543,
+      "grad_norm": 0.0008391398587264121,
+      "learning_rate": 0.09391704551812759,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 32262560,
+      "step": 24880
+    },
+    {
+      "epoch": 1.2159138103730487,
+      "grad_norm": 0.002071611350402236,
+      "learning_rate": 0.09386241708496605,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 32268928,
+      "step": 24885
+    },
+    {
+      "epoch": 1.216158112036743,
+      "grad_norm": 0.0007873475551605225,
+      "learning_rate": 0.09380779730892527,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 32275200,
+      "step": 24890
+    },
+    {
+      "epoch": 1.2164024137004372,
+      "grad_norm": 0.0010818374576047063,
+      "learning_rate": 0.09375318619842836,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 32282080,
+      "step": 24895
+    },
+    {
+      "epoch": 1.2166467153641316,
+      "grad_norm": 0.0009420563001185656,
+      "learning_rate": 0.09369858376189696,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 32289184,
+      "step": 24900
+    },
+    {
+      "epoch": 1.216891017027826,
+      "grad_norm": 0.0009436981636099517,
+      "learning_rate": 0.09364399000775143,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 32295776,
+      "step": 24905
+    },
+    {
+      "epoch": 1.2171353186915204,
+      "grad_norm": 0.0016276647802442312,
+      "learning_rate": 0.09358940494441093,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 32302240,
+      "step": 24910
+    },
+    {
+      "epoch": 1.2173796203552145,
+      "grad_norm": 0.0017380480421707034,
+      "learning_rate": 0.09353482858029301,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 32308384,
+      "step": 24915
+    },
+    {
+      "epoch": 1.217623922018909,
+      "grad_norm": 0.001124605885706842,
+      "learning_rate": 0.09348026092381419,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 32314912,
+      "step": 24920
+    },
+    {
+      "epoch": 1.2178682236826033,
+      "grad_norm": 0.0013288345653563738,
+      "learning_rate": 0.09342570198338931,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 32322112,
+      "step": 24925
+    },
+    {
+      "epoch": 1.2181125253462977,
+      "grad_norm": 0.0008596524712629616,
+      "learning_rate": 0.0933711517674322,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 32328704,
+      "step": 24930
+    },
+    {
+      "epoch": 1.218356827009992,
+      "grad_norm": 0.001164320157840848,
+      "learning_rate": 0.09331661028435513,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 32335168,
+      "step": 24935
+    },
+    {
+      "epoch": 1.2186011286736862,
+      "grad_norm": 0.0010882950155064464,
+      "learning_rate": 0.09326207754256909,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 32341856,
+      "step": 24940
+    },
+    {
+      "epoch": 1.2188454303373806,
+      "grad_norm": 0.0007956969202496111,
+      "learning_rate": 0.09320755355048366,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 32348384,
+      "step": 24945
+    },
+    {
+      "epoch": 1.219089732001075,
+      "grad_norm": 0.0014512810157611966,
+      "learning_rate": 0.09315303831650722,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 32355136,
+      "step": 24950
+    },
+    {
+      "epoch": 1.2193340336647693,
+      "grad_norm": 0.0006691979942843318,
+      "learning_rate": 0.09309853184904661,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 32361568,
+      "step": 24955
+    },
+    {
+      "epoch": 1.2195783353284635,
+      "grad_norm": 0.0009472097735852003,
+      "learning_rate": 0.09304403415650753,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 32368128,
+      "step": 24960
+    },
+    {
+      "epoch": 1.2198226369921579,
+      "grad_norm": 0.0011972495121881366,
+      "learning_rate": 0.09298954524729405,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 32374336,
+      "step": 24965
+    },
+    {
+      "epoch": 1.2200669386558523,
+      "grad_norm": 0.0013085213722661138,
+      "learning_rate": 0.09293506512980916,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 32381024,
+      "step": 24970
+    },
+    {
+      "epoch": 1.2203112403195466,
+      "grad_norm": 0.0013523672241717577,
+      "learning_rate": 0.0928805938124544,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 32387552,
+      "step": 24975
+    },
+    {
+      "epoch": 1.220555541983241,
+      "grad_norm": 0.0013504025992006063,
+      "learning_rate": 0.09282613130362982,
+      "loss": 0.11,
+      "num_input_tokens_seen": 32394048,
+      "step": 24980
+    },
+    {
+      "epoch": 1.2207998436469352,
+      "grad_norm": 0.000633395160548389,
+      "learning_rate": 0.09277167761173427,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 32400352,
+      "step": 24985
+    },
+    {
+      "epoch": 1.2210441453106295,
+      "grad_norm": 0.0010032793506979942,
+      "learning_rate": 0.0927172327451653,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 32406944,
+      "step": 24990
+    },
+    {
+      "epoch": 1.221288446974324,
+      "grad_norm": 0.0012490125373005867,
+      "learning_rate": 0.09266279671231882,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 32412672,
+      "step": 24995
+    },
+    {
+      "epoch": 1.2215327486380183,
+      "grad_norm": 0.0013059823540970683,
+      "learning_rate": 0.09260836952158967,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 32419552,
+      "step": 25000
+    },
+    {
+      "epoch": 1.2215327486380183,
+      "eval_loss": 0.09187959879636765,
+      "eval_runtime": 402.6969,
+      "eval_samples_per_second": 90.353,
+      "eval_steps_per_second": 22.59,
+      "num_input_tokens_seen": 32419552,
+      "step": 25000
+    },
+    {
+      "epoch": 1.2217770503017125,
+      "grad_norm": 0.0007767357747070491,
+      "learning_rate": 0.09255395118137114,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 32425728,
+      "step": 25005
+    },
+    {
+      "epoch": 1.2220213519654068,
+      "grad_norm": 0.000764586147852242,
+      "learning_rate": 0.09249954170005527,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 32432096,
+      "step": 25010
+    },
+    {
+      "epoch": 1.2222656536291012,
+      "grad_norm": 0.0008679453167133033,
+      "learning_rate": 0.0924451410860327,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 32438528,
+      "step": 25015
+    },
+    {
+      "epoch": 1.2225099552927956,
+      "grad_norm": 0.0008342025685124099,
+      "learning_rate": 0.09239074934769258,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 32445632,
+      "step": 25020
+    },
+    {
+      "epoch": 1.22275425695649,
+      "grad_norm": 0.001683821901679039,
+      "learning_rate": 0.09233636649342288,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 32451936,
+      "step": 25025
+    },
+    {
+      "epoch": 1.2229985586201841,
+      "grad_norm": 0.0008436593343503773,
+      "learning_rate": 0.09228199253161017,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 32458176,
+      "step": 25030
+    },
+    {
+      "epoch": 1.2232428602838785,
+      "grad_norm": 0.0009199716150760651,
+      "learning_rate": 0.09222762747063949,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 32464640,
+      "step": 25035
+    },
+    {
+      "epoch": 1.223487161947573,
+      "grad_norm": 0.0011252081021666527,
+      "learning_rate": 0.09217327131889473,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 32471904,
+      "step": 25040
+    },
+    {
+      "epoch": 1.2237314636112673,
+      "grad_norm": 0.0012902957387268543,
+      "learning_rate": 0.09211892408475818,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 32478240,
+      "step": 25045
+    },
+    {
+      "epoch": 1.2239757652749614,
+      "grad_norm": 0.0011525892186909914,
+      "learning_rate": 0.09206458577661089,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 32484768,
+      "step": 25050
+    },
+    {
+      "epoch": 1.2242200669386558,
+      "grad_norm": 0.0013195305364206433,
+      "learning_rate": 0.09201025640283263,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 32491264,
+      "step": 25055
+    },
+    {
+      "epoch": 1.2244643686023502,
+      "grad_norm": 0.0022841852623969316,
+      "learning_rate": 0.09195593597180148,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 32497344,
+      "step": 25060
+    },
+    {
+      "epoch": 1.2247086702660446,
+      "grad_norm": 0.0014254512498155236,
+      "learning_rate": 0.09190162449189444,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 32503680,
+      "step": 25065
+    },
+    {
+      "epoch": 1.224952971929739,
+      "grad_norm": 0.0010687249014154077,
+      "learning_rate": 0.09184732197148705,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 32510016,
+      "step": 25070
+    },
+    {
+      "epoch": 1.2251972735934331,
+      "grad_norm": 0.0008551210048608482,
+      "learning_rate": 0.09179302841895343,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 32516320,
+      "step": 25075
+    },
+    {
+      "epoch": 1.2254415752571275,
+      "grad_norm": 0.0009433721425011754,
+      "learning_rate": 0.09173874384266625,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 32522400,
+      "step": 25080
+    },
+    {
+      "epoch": 1.2256858769208219,
+      "grad_norm": 0.0014181772712618113,
+      "learning_rate": 0.09168446825099695,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 32528992,
+      "step": 25085
+    },
+    {
+      "epoch": 1.2259301785845163,
+      "grad_norm": 0.0018753400072455406,
+      "learning_rate": 0.09163020165231545,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 32535296,
+      "step": 25090
+    },
+    {
+      "epoch": 1.2261744802482104,
+      "grad_norm": 0.0009280827362090349,
+      "learning_rate": 0.09157594405499044,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 32541568,
+      "step": 25095
+    },
+    {
+      "epoch": 1.2264187819119048,
+      "grad_norm": 0.001698582898825407,
+      "learning_rate": 0.09152169546738899,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 32548064,
+      "step": 25100
+    },
+    {
+      "epoch": 1.2266630835755992,
+      "grad_norm": 0.0009025080362334847,
+      "learning_rate": 0.09146745589787698,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 32554592,
+      "step": 25105
+    },
+    {
+      "epoch": 1.2269073852392935,
+      "grad_norm": 0.000705883780028671,
+      "learning_rate": 0.09141322535481891,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 32561440,
+      "step": 25110
+    },
+    {
+      "epoch": 1.227151686902988,
+      "grad_norm": 0.0010231444612145424,
+      "learning_rate": 0.0913590038465777,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 32568064,
+      "step": 25115
+    },
+    {
+      "epoch": 1.227395988566682,
+      "grad_norm": 0.000992232351563871,
+      "learning_rate": 0.09130479138151505,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 32574592,
+      "step": 25120
+    },
+    {
+      "epoch": 1.2276402902303765,
+      "grad_norm": 0.0008727959357202053,
+      "learning_rate": 0.09125058796799114,
+      "loss": 0.1,
+      "num_input_tokens_seen": 32580608,
+      "step": 25125
+    },
+    {
+      "epoch": 1.2278845918940708,
+      "grad_norm": 0.0018414370715618134,
+      "learning_rate": 0.09119639361436485,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 32587200,
+      "step": 25130
+    },
+    {
+      "epoch": 1.2281288935577652,
+      "grad_norm": 0.0016356776468455791,
+      "learning_rate": 0.09114220832899368,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 32593568,
+      "step": 25135
+    },
+    {
+      "epoch": 1.2283731952214594,
+      "grad_norm": 0.001007022918201983,
+      "learning_rate": 0.0910880321202336,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 32600128,
+      "step": 25140
+    },
+    {
+      "epoch": 1.2286174968851538,
+      "grad_norm": 0.0008854287443682551,
+      "learning_rate": 0.09103386499643933,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 32606336,
+      "step": 25145
+    },
+    {
+      "epoch": 1.2288617985488481,
+      "grad_norm": 0.0013021955965086818,
+      "learning_rate": 0.09097970696596407,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 32613088,
+      "step": 25150
+    },
+    {
+      "epoch": 1.2291061002125425,
+      "grad_norm": 0.0008589564240537584,
+      "learning_rate": 0.09092555803715971,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 32619520,
+      "step": 25155
+    },
+    {
+      "epoch": 1.229350401876237,
+      "grad_norm": 0.0028619577642530203,
+      "learning_rate": 0.0908714182183767,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 32626016,
+      "step": 25160
+    },
+    {
+      "epoch": 1.229594703539931,
+      "grad_norm": 0.0014139015693217516,
+      "learning_rate": 0.090817287517964,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 32632352,
+      "step": 25165
+    },
+    {
+      "epoch": 1.2298390052036254,
+      "grad_norm": 0.0010151856113225222,
+      "learning_rate": 0.09076316594426931,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 32639552,
+      "step": 25170
+    },
+    {
+      "epoch": 1.2300833068673198,
+      "grad_norm": 0.0011669406667351723,
+      "learning_rate": 0.09070905350563888,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 32646464,
+      "step": 25175
+    },
+    {
+      "epoch": 1.230327608531014,
+      "grad_norm": 0.0010708903428167105,
+      "learning_rate": 0.09065495021041745,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 32653024,
+      "step": 25180
+    },
+    {
+      "epoch": 1.2305719101947084,
+      "grad_norm": 0.0011160590220242739,
+      "learning_rate": 0.09060085606694851,
+      "loss": 0.075,
+      "num_input_tokens_seen": 32659072,
+      "step": 25185
+    },
+    {
+      "epoch": 1.2308162118584027,
+      "grad_norm": 0.0012902953894808888,
+      "learning_rate": 0.09054677108357405,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 32665152,
+      "step": 25190
+    },
+    {
+      "epoch": 1.231060513522097,
+      "grad_norm": 0.0006989336689002812,
+      "learning_rate": 0.09049269526863457,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 32671872,
+      "step": 25195
+    },
+    {
+      "epoch": 1.2313048151857915,
+      "grad_norm": 0.0007782441098242998,
+      "learning_rate": 0.09043862863046935,
+      "loss": 0.058,
+      "num_input_tokens_seen": 32677888,
+      "step": 25200
+    },
+    {
+      "epoch": 1.2313048151857915,
+      "eval_loss": 0.09475168585777283,
+      "eval_runtime": 403.2138,
+      "eval_samples_per_second": 90.237,
+      "eval_steps_per_second": 22.561,
+      "num_input_tokens_seen": 32677888,
+      "step": 25200
+    },
+    {
+      "epoch": 1.2315491168494859,
+      "grad_norm": 0.001436862163245678,
+      "learning_rate": 0.09038457117741602,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 32684576,
+      "step": 25205
+    },
+    {
+      "epoch": 1.23179341851318,
+      "grad_norm": 0.001481569604948163,
+      "learning_rate": 0.09033052291781099,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 32690912,
+      "step": 25210
+    },
+    {
+      "epoch": 1.2320377201768744,
+      "grad_norm": 0.0015857625985518098,
+      "learning_rate": 0.09027648385998926,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 32697376,
+      "step": 25215
+    },
+    {
+      "epoch": 1.2322820218405688,
+      "grad_norm": 0.0028160293586552143,
+      "learning_rate": 0.09022245401228417,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 32703584,
+      "step": 25220
+    },
+    {
+      "epoch": 1.232526323504263,
+      "grad_norm": 0.0007734753889963031,
+      "learning_rate": 0.09016843338302792,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 32709760,
+      "step": 25225
+    },
+    {
+      "epoch": 1.2327706251679573,
+      "grad_norm": 0.0014846650883555412,
+      "learning_rate": 0.09011442198055115,
+      "loss": 0.063,
+      "num_input_tokens_seen": 32715968,
+      "step": 25230
+    },
+    {
+      "epoch": 1.2330149268316517,
+      "grad_norm": 0.0015656540635973215,
+      "learning_rate": 0.09006041981318305,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 32722368,
+      "step": 25235
+    },
+    {
+      "epoch": 1.233259228495346,
+      "grad_norm": 0.001151642412878573,
+      "learning_rate": 0.09000642688925149,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 32729088,
+      "step": 25240
+    },
+    {
+      "epoch": 1.2335035301590405,
+      "grad_norm": 0.0015232277801260352,
+      "learning_rate": 0.0899524432170828,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 32735328,
+      "step": 25245
+    },
+    {
+      "epoch": 1.2337478318227346,
+      "grad_norm": 0.0006389568443410099,
+      "learning_rate": 0.08989846880500196,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 32742272,
+      "step": 25250
+    },
+    {
+      "epoch": 1.233992133486429,
+      "grad_norm": 0.0017363044898957014,
+      "learning_rate": 0.08984450366133256,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 32748736,
+      "step": 25255
+    },
+    {
+      "epoch": 1.2342364351501234,
+      "grad_norm": 0.0017825959948822856,
+      "learning_rate": 0.08979054779439664,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 32755360,
+      "step": 25260
+    },
+    {
+      "epoch": 1.2344807368138178,
+      "grad_norm": 0.00125342165119946,
+      "learning_rate": 0.08973660121251485,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 32761824,
+      "step": 25265
+    },
+    {
+      "epoch": 1.234725038477512,
+      "grad_norm": 0.0013228252064436674,
+      "learning_rate": 0.08968266392400655,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 32768384,
+      "step": 25270
+    },
+    {
+      "epoch": 1.2349693401412063,
+      "grad_norm": 0.0009553452837280929,
+      "learning_rate": 0.0896287359371894,
+      "loss": 0.068,
+      "num_input_tokens_seen": 32774464,
+      "step": 25275
+    },
+    {
+      "epoch": 1.2352136418049007,
+      "grad_norm": 0.001943731214851141,
+      "learning_rate": 0.08957481726037989,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 32780704,
+      "step": 25280
+    },
+    {
+      "epoch": 1.235457943468595,
+      "grad_norm": 0.0011120858835056424,
+      "learning_rate": 0.08952090790189286,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 32787392,
+      "step": 25285
+    },
+    {
+      "epoch": 1.2357022451322894,
+      "grad_norm": 0.0010460768826305866,
+      "learning_rate": 0.08946700787004187,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 32793248,
+      "step": 25290
+    },
+    {
+      "epoch": 1.2359465467959836,
+      "grad_norm": 0.001382363261654973,
+      "learning_rate": 0.08941311717313899,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 32799808,
+      "step": 25295
+    },
+    {
+      "epoch": 1.236190848459678,
+      "grad_norm": 0.0014813512098044157,
+      "learning_rate": 0.08935923581949483,
+      "loss": 0.091,
+      "num_input_tokens_seen": 32806464,
+      "step": 25300
+    },
+    {
+      "epoch": 1.2364351501233724,
+      "grad_norm": 0.0008698052261024714,
+      "learning_rate": 0.0893053638174185,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 32812928,
+      "step": 25305
+    },
+    {
+      "epoch": 1.2366794517870667,
+      "grad_norm": 0.0011591344373300672,
+      "learning_rate": 0.0892515011752179,
+      "loss": 0.084,
+      "num_input_tokens_seen": 32819648,
+      "step": 25310
+    },
+    {
+      "epoch": 1.2369237534507609,
+      "grad_norm": 0.0014097238890826702,
+      "learning_rate": 0.08919764790119918,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 32825984,
+      "step": 25315
+    },
+    {
+      "epoch": 1.2371680551144553,
+      "grad_norm": 0.0012756565120071173,
+      "learning_rate": 0.08914380400366727,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 32832192,
+      "step": 25320
+    },
+    {
+      "epoch": 1.2374123567781496,
+      "grad_norm": 0.0007900788332335651,
+      "learning_rate": 0.08908996949092551,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 32838784,
+      "step": 25325
+    },
+    {
+      "epoch": 1.237656658441844,
+      "grad_norm": 0.0014684309717267752,
+      "learning_rate": 0.08903614437127592,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 32845152,
+      "step": 25330
+    },
+    {
+      "epoch": 1.2379009601055384,
+      "grad_norm": 0.0010414622956886888,
+      "learning_rate": 0.088982328653019,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 32851712,
+      "step": 25335
+    },
+    {
+      "epoch": 1.2381452617692326,
+      "grad_norm": 0.001610913430340588,
+      "learning_rate": 0.0889285223444538,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 32858080,
+      "step": 25340
+    },
+    {
+      "epoch": 1.238389563432927,
+      "grad_norm": 0.001506212865933776,
+      "learning_rate": 0.08887472545387787,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 32864672,
+      "step": 25345
+    },
+    {
+      "epoch": 1.2386338650966213,
+      "grad_norm": 0.0013406771467998624,
+      "learning_rate": 0.08882093798958751,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 32871296,
+      "step": 25350
+    },
+    {
+      "epoch": 1.2388781667603157,
+      "grad_norm": 0.001416159444488585,
+      "learning_rate": 0.08876715995987726,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 32877792,
+      "step": 25355
+    },
+    {
+      "epoch": 1.2391224684240099,
+      "grad_norm": 0.0009312194888480008,
+      "learning_rate": 0.08871339137304052,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 32884640,
+      "step": 25360
+    },
+    {
+      "epoch": 1.2393667700877042,
+      "grad_norm": 0.0020033109467476606,
+      "learning_rate": 0.0886596322373689,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 32891648,
+      "step": 25365
+    },
+    {
+      "epoch": 1.2396110717513986,
+      "grad_norm": 0.0012098157312721014,
+      "learning_rate": 0.08860588256115293,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 32898432,
+      "step": 25370
+    },
+    {
+      "epoch": 1.239855373415093,
+      "grad_norm": 0.0010559025686234236,
+      "learning_rate": 0.0885521423526814,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 32904512,
+      "step": 25375
+    },
+    {
+      "epoch": 1.2400996750787874,
+      "grad_norm": 0.0019284236477687955,
+      "learning_rate": 0.08849841162024165,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 32910656,
+      "step": 25380
+    },
+    {
+      "epoch": 1.2403439767424815,
+      "grad_norm": 0.0015068593202158809,
+      "learning_rate": 0.08844469037211973,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 32917216,
+      "step": 25385
+    },
+    {
+      "epoch": 1.240588278406176,
+      "grad_norm": 0.0006021906156092882,
+      "learning_rate": 0.08839097861660014,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 32923808,
+      "step": 25390
+    },
+    {
+      "epoch": 1.2408325800698703,
+      "grad_norm": 0.0005265615764074028,
+      "learning_rate": 0.08833727636196585,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 32930240,
+      "step": 25395
+    },
+    {
+      "epoch": 1.2410768817335647,
+      "grad_norm": 0.0013744068564847112,
+      "learning_rate": 0.08828358361649848,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 32936608,
+      "step": 25400
+    },
+    {
+      "epoch": 1.2410768817335647,
+      "eval_loss": 0.09156373143196106,
+      "eval_runtime": 402.5231,
+      "eval_samples_per_second": 90.392,
+      "eval_steps_per_second": 22.6,
+      "num_input_tokens_seen": 32936608,
+      "step": 25400
+    },
+    {
+      "epoch": 1.2413211833972588,
+      "grad_norm": 0.0011855678167194128,
+      "learning_rate": 0.08822990038847807,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 32942912,
+      "step": 25405
+    },
+    {
+      "epoch": 1.2415654850609532,
+      "grad_norm": 0.0011288790265098214,
+      "learning_rate": 0.08817622668618325,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 32948800,
+      "step": 25410
+    },
+    {
+      "epoch": 1.2418097867246476,
+      "grad_norm": 0.0021093408577144146,
+      "learning_rate": 0.08812256251789125,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 32955456,
+      "step": 25415
+    },
+    {
+      "epoch": 1.242054088388342,
+      "grad_norm": 0.0014707270311191678,
+      "learning_rate": 0.08806890789187766,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 32961664,
+      "step": 25420
+    },
+    {
+      "epoch": 1.2422983900520363,
+      "grad_norm": 0.0011298621539026499,
+      "learning_rate": 0.08801526281641672,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 32967872,
+      "step": 25425
+    },
+    {
+      "epoch": 1.2425426917157305,
+      "grad_norm": 0.0011873102048411965,
+      "learning_rate": 0.0879616272997813,
+      "loss": 0.0931,
+      "num_input_tokens_seen": 32973696,
+      "step": 25430
+    },
+    {
+      "epoch": 1.2427869933794249,
+      "grad_norm": 0.0010329593205824494,
+      "learning_rate": 0.08790800135024247,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 32979904,
+      "step": 25435
+    },
+    {
+      "epoch": 1.2430312950431193,
+      "grad_norm": 0.0017863124376162887,
+      "learning_rate": 0.08785438497607023,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 32986016,
+      "step": 25440
+    },
+    {
+      "epoch": 1.2432755967068136,
+      "grad_norm": 0.0008694807766005397,
+      "learning_rate": 0.08780077818553277,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 32992160,
+      "step": 25445
+    },
+    {
+      "epoch": 1.2435198983705078,
+      "grad_norm": 0.0013092070585116744,
+      "learning_rate": 0.0877471809868969,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 32998272,
+      "step": 25450
+    },
+    {
+      "epoch": 1.2437642000342022,
+      "grad_norm": 0.0013548372080549598,
+      "learning_rate": 0.08769359338842811,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 33005344,
+      "step": 25455
+    },
+    {
+      "epoch": 1.2440085016978966,
+      "grad_norm": 0.0016625917050987482,
+      "learning_rate": 0.08764001539839016,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 33011680,
+      "step": 25460
+    },
+    {
+      "epoch": 1.244252803361591,
+      "grad_norm": 0.0007802696782164276,
+      "learning_rate": 0.08758644702504548,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 33018208,
+      "step": 25465
+    },
+    {
+      "epoch": 1.2444971050252853,
+      "grad_norm": 0.0005167615599930286,
+      "learning_rate": 0.0875328882766551,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 33024768,
+      "step": 25470
+    },
+    {
+      "epoch": 1.2447414066889795,
+      "grad_norm": 0.0015481181908398867,
+      "learning_rate": 0.08747933916147828,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 33031392,
+      "step": 25475
+    },
+    {
+      "epoch": 1.2449857083526739,
+      "grad_norm": 0.0006230099243111908,
+      "learning_rate": 0.0874257996877731,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 33038304,
+      "step": 25480
+    },
+    {
+      "epoch": 1.2452300100163682,
+      "grad_norm": 0.0008590742945671082,
+      "learning_rate": 0.08737226986379593,
+      "loss": 0.093,
+      "num_input_tokens_seen": 33044736,
+      "step": 25485
+    },
+    {
+      "epoch": 1.2454743116800626,
+      "grad_norm": 0.00047651882050558925,
+      "learning_rate": 0.08731874969780173,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 33051168,
+      "step": 25490
+    },
+    {
+      "epoch": 1.2457186133437568,
+      "grad_norm": 0.0017387480475008488,
+      "learning_rate": 0.08726523919804412,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 33057792,
+      "step": 25495
+    },
+    {
+      "epoch": 1.2459629150074512,
+      "grad_norm": 0.0008188495994545519,
+      "learning_rate": 0.08721173837277492,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 33064576,
+      "step": 25500
+    },
+    {
+      "epoch": 1.2462072166711455,
+      "grad_norm": 0.0019482828211039305,
+      "learning_rate": 0.08715824723024479,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 33071360,
+      "step": 25505
+    },
+    {
+      "epoch": 1.24645151833484,
+      "grad_norm": 0.0005999520653858781,
+      "learning_rate": 0.08710476577870258,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 33078080,
+      "step": 25510
+    },
+    {
+      "epoch": 1.2466958199985343,
+      "grad_norm": 0.00070715177571401,
+      "learning_rate": 0.08705129402639587,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 33084448,
+      "step": 25515
+    },
+    {
+      "epoch": 1.2469401216622285,
+      "grad_norm": 0.0013087376719340682,
+      "learning_rate": 0.08699783198157078,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 33090624,
+      "step": 25520
+    },
+    {
+      "epoch": 1.2471844233259228,
+      "grad_norm": 0.0009672612650319934,
+      "learning_rate": 0.08694437965247163,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 33097440,
+      "step": 25525
+    },
+    {
+      "epoch": 1.2474287249896172,
+      "grad_norm": 0.0017823674716055393,
+      "learning_rate": 0.08689093704734165,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 33104096,
+      "step": 25530
+    },
+    {
+      "epoch": 1.2476730266533116,
+      "grad_norm": 0.0004160506359767169,
+      "learning_rate": 0.08683750417442222,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 33110848,
+      "step": 25535
+    },
+    {
+      "epoch": 1.2479173283170057,
+      "grad_norm": 0.0013404875062406063,
+      "learning_rate": 0.08678408104195334,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 33117408,
+      "step": 25540
+    },
+    {
+      "epoch": 1.2481616299807001,
+      "grad_norm": 0.0013267146423459053,
+      "learning_rate": 0.08673066765817365,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 33123904,
+      "step": 25545
+    },
+    {
+      "epoch": 1.2484059316443945,
+      "grad_norm": 0.0017367592081427574,
+      "learning_rate": 0.08667726403132005,
+      "loss": 0.062,
+      "num_input_tokens_seen": 33130208,
+      "step": 25550
+    },
+    {
+      "epoch": 1.2486502333080889,
+      "grad_norm": 0.0032236981205642223,
+      "learning_rate": 0.0866238701696281,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 33136672,
+      "step": 25555
+    },
+    {
+      "epoch": 1.2488945349717833,
+      "grad_norm": 0.0021490200888365507,
+      "learning_rate": 0.08657048608133185,
+      "loss": 0.084,
+      "num_input_tokens_seen": 33142944,
+      "step": 25560
+    },
+    {
+      "epoch": 1.2491388366354774,
+      "grad_norm": 0.0011032845359295607,
+      "learning_rate": 0.08651711177466369,
+      "loss": 0.063,
+      "num_input_tokens_seen": 33149728,
+      "step": 25565
+    },
+    {
+      "epoch": 1.2493831382991718,
+      "grad_norm": 0.0014601285802200437,
+      "learning_rate": 0.08646374725785466,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 33156576,
+      "step": 25570
+    },
+    {
+      "epoch": 1.2496274399628662,
+      "grad_norm": 0.001423213048838079,
+      "learning_rate": 0.08641039253913434,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 33163328,
+      "step": 25575
+    },
+    {
+      "epoch": 1.2498717416265606,
+      "grad_norm": 0.0011598268756642938,
+      "learning_rate": 0.08635704762673052,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 33169632,
+      "step": 25580
+    },
+    {
+      "epoch": 1.2501160432902547,
+      "grad_norm": 0.0011487844167277217,
+      "learning_rate": 0.08630371252886981,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 33176224,
+      "step": 25585
+    },
+    {
+      "epoch": 1.250360344953949,
+      "grad_norm": 0.0013225860893726349,
+      "learning_rate": 0.08625038725377704,
+      "loss": 0.102,
+      "num_input_tokens_seen": 33182304,
+      "step": 25590
+    },
+    {
+      "epoch": 1.2506046466176435,
+      "grad_norm": 0.0007141039823181927,
+      "learning_rate": 0.08619707180967566,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 33188896,
+      "step": 25595
+    },
+    {
+      "epoch": 1.2508489482813379,
+      "grad_norm": 0.0014052769402042031,
+      "learning_rate": 0.08614376620478768,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 33195264,
+      "step": 25600
+    },
+    {
+      "epoch": 1.2508489482813379,
+      "eval_loss": 0.09638015925884247,
+      "eval_runtime": 402.5507,
+      "eval_samples_per_second": 90.386,
+      "eval_steps_per_second": 22.598,
+      "num_input_tokens_seen": 33195264,
+      "step": 25600
+    },
+    {
+      "epoch": 1.2510932499450322,
+      "grad_norm": 0.0009300444507971406,
+      "learning_rate": 0.08609047044733344,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 33201920,
+      "step": 25605
+    },
+    {
+      "epoch": 1.2513375516087264,
+      "grad_norm": 0.0011659222654998302,
+      "learning_rate": 0.08603718454553168,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 33208192,
+      "step": 25610
+    },
+    {
+      "epoch": 1.2515818532724208,
+      "grad_norm": 0.001170493895187974,
+      "learning_rate": 0.08598390850759997,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 33214624,
+      "step": 25615
+    },
+    {
+      "epoch": 1.2518261549361152,
+      "grad_norm": 0.0013358592987060547,
+      "learning_rate": 0.08593064234175397,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 33220736,
+      "step": 25620
+    },
+    {
+      "epoch": 1.2520704565998093,
+      "grad_norm": 0.0012277048081159592,
+      "learning_rate": 0.08587738605620815,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 33227584,
+      "step": 25625
+    },
+    {
+      "epoch": 1.2523147582635037,
+      "grad_norm": 0.0015130293322727084,
+      "learning_rate": 0.08582413965917512,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 33234400,
+      "step": 25630
+    },
+    {
+      "epoch": 1.252559059927198,
+      "grad_norm": 0.0011364771053195,
+      "learning_rate": 0.08577090315886628,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 33241152,
+      "step": 25635
+    },
+    {
+      "epoch": 1.2528033615908925,
+      "grad_norm": 0.0008847310091368854,
+      "learning_rate": 0.08571767656349136,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 33247520,
+      "step": 25640
+    },
+    {
+      "epoch": 1.2530476632545868,
+      "grad_norm": 0.000741969037335366,
+      "learning_rate": 0.08566445988125847,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 33254304,
+      "step": 25645
+    },
+    {
+      "epoch": 1.2532919649182812,
+      "grad_norm": 0.0008664630586281419,
+      "learning_rate": 0.08561125312037436,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 33260928,
+      "step": 25650
+    },
+    {
+      "epoch": 1.2535362665819754,
+      "grad_norm": 0.0014305372023954988,
+      "learning_rate": 0.08555805628904424,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 33267264,
+      "step": 25655
+    },
+    {
+      "epoch": 1.2537805682456697,
+      "grad_norm": 0.000922060979064554,
+      "learning_rate": 0.08550486939547161,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 33273536,
+      "step": 25660
+    },
+    {
+      "epoch": 1.2540248699093641,
+      "grad_norm": 0.0010172042530030012,
+      "learning_rate": 0.08545169244785869,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 33280256,
+      "step": 25665
+    },
+    {
+      "epoch": 1.2542691715730583,
+      "grad_norm": 0.0010000189067795873,
+      "learning_rate": 0.08539852545440589,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 33286944,
+      "step": 25670
+    },
+    {
+      "epoch": 1.2545134732367527,
+      "grad_norm": 0.0009306779247708619,
+      "learning_rate": 0.08534536842331235,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 33293312,
+      "step": 25675
+    },
+    {
+      "epoch": 1.254757774900447,
+      "grad_norm": 0.0010808005463331938,
+      "learning_rate": 0.08529222136277545,
+      "loss": 0.057,
+      "num_input_tokens_seen": 33299968,
+      "step": 25680
+    },
+    {
+      "epoch": 1.2550020765641414,
+      "grad_norm": 0.0014186814660206437,
+      "learning_rate": 0.08523908428099125,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 33306272,
+      "step": 25685
+    },
+    {
+      "epoch": 1.2552463782278358,
+      "grad_norm": 0.001213140320032835,
+      "learning_rate": 0.08518595718615402,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 33313120,
+      "step": 25690
+    },
+    {
+      "epoch": 1.2554906798915302,
+      "grad_norm": 0.0009904083563014865,
+      "learning_rate": 0.08513284008645675,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 33319040,
+      "step": 25695
+    },
+    {
+      "epoch": 1.2557349815552243,
+      "grad_norm": 0.001651423517614603,
+      "learning_rate": 0.08507973299009065,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 33325376,
+      "step": 25700
+    },
+    {
+      "epoch": 1.2559792832189187,
+      "grad_norm": 0.0012850068742409348,
+      "learning_rate": 0.08502663590524563,
+      "loss": 0.088,
+      "num_input_tokens_seen": 33332352,
+      "step": 25705
+    },
+    {
+      "epoch": 1.256223584882613,
+      "grad_norm": 0.0011182768503203988,
+      "learning_rate": 0.08497354884010981,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 33339104,
+      "step": 25710
+    },
+    {
+      "epoch": 1.2564678865463073,
+      "grad_norm": 0.0011601962614804506,
+      "learning_rate": 0.0849204718028699,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 33346176,
+      "step": 25715
+    },
+    {
+      "epoch": 1.2567121882100016,
+      "grad_norm": 0.000826326955575496,
+      "learning_rate": 0.08486740480171118,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 33352448,
+      "step": 25720
+    },
+    {
+      "epoch": 1.256956489873696,
+      "grad_norm": 0.0013120108051225543,
+      "learning_rate": 0.08481434784481706,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 33359040,
+      "step": 25725
+    },
+    {
+      "epoch": 1.2572007915373904,
+      "grad_norm": 0.0011952818604186177,
+      "learning_rate": 0.08476130094036968,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 33365408,
+      "step": 25730
+    },
+    {
+      "epoch": 1.2574450932010848,
+      "grad_norm": 0.0009078708244487643,
+      "learning_rate": 0.08470826409654961,
+      "loss": 0.069,
+      "num_input_tokens_seen": 33372000,
+      "step": 25735
+    },
+    {
+      "epoch": 1.2576893948647792,
+      "grad_norm": 0.001870551728643477,
+      "learning_rate": 0.08465523732153564,
+      "loss": 0.089,
+      "num_input_tokens_seen": 33378560,
+      "step": 25740
+    },
+    {
+      "epoch": 1.2579336965284733,
+      "grad_norm": 0.0014545354060828686,
+      "learning_rate": 0.08460222062350532,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 33384992,
+      "step": 25745
+    },
+    {
+      "epoch": 1.2581779981921677,
+      "grad_norm": 0.0008357822662219405,
+      "learning_rate": 0.08454921401063442,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 33391424,
+      "step": 25750
+    },
+    {
+      "epoch": 1.258422299855862,
+      "grad_norm": 0.0021431976929306984,
+      "learning_rate": 0.08449621749109716,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 33397888,
+      "step": 25755
+    },
+    {
+      "epoch": 1.2586666015195562,
+      "grad_norm": 0.0009551410912536085,
+      "learning_rate": 0.08444323107306641,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 33404128,
+      "step": 25760
+    },
+    {
+      "epoch": 1.2589109031832506,
+      "grad_norm": 0.0009083696641027927,
+      "learning_rate": 0.0843902547647132,
+      "loss": 0.108,
+      "num_input_tokens_seen": 33410464,
+      "step": 25765
+    },
+    {
+      "epoch": 1.259155204846945,
+      "grad_norm": 0.0021048772614449263,
+      "learning_rate": 0.0843372885742072,
+      "loss": 0.112,
+      "num_input_tokens_seen": 33416864,
+      "step": 25770
+    },
+    {
+      "epoch": 1.2593995065106394,
+      "grad_norm": 0.0010716529795899987,
+      "learning_rate": 0.08428433250971652,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 33423328,
+      "step": 25775
+    },
+    {
+      "epoch": 1.2596438081743337,
+      "grad_norm": 0.0011246780632063746,
+      "learning_rate": 0.08423138657940757,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 33429600,
+      "step": 25780
+    },
+    {
+      "epoch": 1.2598881098380281,
+      "grad_norm": 0.0009619712363928556,
+      "learning_rate": 0.08417845079144536,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 33435552,
+      "step": 25785
+    },
+    {
+      "epoch": 1.2601324115017223,
+      "grad_norm": 0.001313935499638319,
+      "learning_rate": 0.08412552515399314,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 33441696,
+      "step": 25790
+    },
+    {
+      "epoch": 1.2603767131654167,
+      "grad_norm": 0.0019261217676103115,
+      "learning_rate": 0.08407260967521278,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 33448256,
+      "step": 25795
+    },
+    {
+      "epoch": 1.260621014829111,
+      "grad_norm": 0.0013964304234832525,
+      "learning_rate": 0.08401970436326454,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 33454720,
+      "step": 25800
+    },
+    {
+      "epoch": 1.260621014829111,
+      "eval_loss": 0.0945761427283287,
+      "eval_runtime": 402.156,
+      "eval_samples_per_second": 90.475,
+      "eval_steps_per_second": 22.621,
+      "num_input_tokens_seen": 33454720,
+      "step": 25800
+    },
+    {
+      "epoch": 1.2608653164928052,
+      "grad_norm": 0.0014390724245458841,
+      "learning_rate": 0.08396680922630702,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 33460992,
+      "step": 25805
+    },
+    {
+      "epoch": 1.2611096181564996,
+      "grad_norm": 0.0010058843763545156,
+      "learning_rate": 0.08391392427249732,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 33467040,
+      "step": 25810
+    },
+    {
+      "epoch": 1.261353919820194,
+      "grad_norm": 0.0011219828156754375,
+      "learning_rate": 0.08386104950999107,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 33473248,
+      "step": 25815
+    },
+    {
+      "epoch": 1.2615982214838883,
+      "grad_norm": 0.001160880783572793,
+      "learning_rate": 0.0838081849469421,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 33479776,
+      "step": 25820
+    },
+    {
+      "epoch": 1.2618425231475827,
+      "grad_norm": 0.001041596056893468,
+      "learning_rate": 0.08375533059150281,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 33486144,
+      "step": 25825
+    },
+    {
+      "epoch": 1.262086824811277,
+      "grad_norm": 0.0007353362161666155,
+      "learning_rate": 0.08370248645182406,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 33493600,
+      "step": 25830
+    },
+    {
+      "epoch": 1.2623311264749713,
+      "grad_norm": 0.000903365551494062,
+      "learning_rate": 0.083649652536055,
+      "loss": 0.0514,
+      "num_input_tokens_seen": 33499872,
+      "step": 25835
+    },
+    {
+      "epoch": 1.2625754281386656,
+      "grad_norm": 0.0008618325809948146,
+      "learning_rate": 0.08359682885234339,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 33506848,
+      "step": 25840
+    },
+    {
+      "epoch": 1.26281972980236,
+      "grad_norm": 0.0013618952361866832,
+      "learning_rate": 0.08354401540883516,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 33513440,
+      "step": 25845
+    },
+    {
+      "epoch": 1.2630640314660542,
+      "grad_norm": 0.0014080960536375642,
+      "learning_rate": 0.0834912122136749,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 33519872,
+      "step": 25850
+    },
+    {
+      "epoch": 1.2633083331297486,
+      "grad_norm": 0.0008109242771752179,
+      "learning_rate": 0.0834384192750056,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 33526496,
+      "step": 25855
+    },
+    {
+      "epoch": 1.263552634793443,
+      "grad_norm": 0.0014026208082213998,
+      "learning_rate": 0.08338563660096844,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 33532928,
+      "step": 25860
+    },
+    {
+      "epoch": 1.2637969364571373,
+      "grad_norm": 0.001026695012114942,
+      "learning_rate": 0.08333286419970329,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 33539968,
+      "step": 25865
+    },
+    {
+      "epoch": 1.2640412381208317,
+      "grad_norm": 0.0012038060231134295,
+      "learning_rate": 0.08328010207934824,
+      "loss": 0.103,
+      "num_input_tokens_seen": 33546048,
+      "step": 25870
+    },
+    {
+      "epoch": 1.264285539784526,
+      "grad_norm": 0.0014178537530824542,
+      "learning_rate": 0.08322735024803989,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 33552800,
+      "step": 25875
+    },
+    {
+      "epoch": 1.2645298414482202,
+      "grad_norm": 0.0011038953671231866,
+      "learning_rate": 0.08317460871391331,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 33559712,
+      "step": 25880
+    },
+    {
+      "epoch": 1.2647741431119146,
+      "grad_norm": 0.0016846568323671818,
+      "learning_rate": 0.08312187748510179,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 33565888,
+      "step": 25885
+    },
+    {
+      "epoch": 1.265018444775609,
+      "grad_norm": 0.001323905074968934,
+      "learning_rate": 0.08306915656973726,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 33572256,
+      "step": 25890
+    },
+    {
+      "epoch": 1.2652627464393031,
+      "grad_norm": 0.0011115256929770112,
+      "learning_rate": 0.08301644597594988,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 33578656,
+      "step": 25895
+    },
+    {
+      "epoch": 1.2655070481029975,
+      "grad_norm": 0.0014240107266232371,
+      "learning_rate": 0.08296374571186826,
+      "loss": 0.091,
+      "num_input_tokens_seen": 33584640,
+      "step": 25900
+    },
+    {
+      "epoch": 1.265751349766692,
+      "grad_norm": 0.001274219946935773,
+      "learning_rate": 0.08291105578561955,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 33591264,
+      "step": 25905
+    },
+    {
+      "epoch": 1.2659956514303863,
+      "grad_norm": 0.0018116901628673077,
+      "learning_rate": 0.08285837620532904,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 33597376,
+      "step": 25910
+    },
+    {
+      "epoch": 1.2662399530940807,
+      "grad_norm": 0.0013798102736473083,
+      "learning_rate": 0.0828057069791207,
+      "loss": 0.0692,
+      "num_input_tokens_seen": 33604000,
+      "step": 25915
+    },
+    {
+      "epoch": 1.2664842547577748,
+      "grad_norm": 0.0007336615235544741,
+      "learning_rate": 0.0827530481151168,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 33610912,
+      "step": 25920
+    },
+    {
+      "epoch": 1.2667285564214692,
+      "grad_norm": 0.000923492421861738,
+      "learning_rate": 0.08270039962143792,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 33617792,
+      "step": 25925
+    },
+    {
+      "epoch": 1.2669728580851636,
+      "grad_norm": 0.0005231878021731973,
+      "learning_rate": 0.08264776150620314,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 33624448,
+      "step": 25930
+    },
+    {
+      "epoch": 1.267217159748858,
+      "grad_norm": 0.0013380820164456964,
+      "learning_rate": 0.08259513377753,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 33630976,
+      "step": 25935
+    },
+    {
+      "epoch": 1.2674614614125521,
+      "grad_norm": 0.0010028143879026175,
+      "learning_rate": 0.08254251644353423,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 33637280,
+      "step": 25940
+    },
+    {
+      "epoch": 1.2677057630762465,
+      "grad_norm": 0.0009190183482132852,
+      "learning_rate": 0.08248990951233022,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 33644160,
+      "step": 25945
+    },
+    {
+      "epoch": 1.2679500647399409,
+      "grad_norm": 0.0009093956323340535,
+      "learning_rate": 0.08243731299203048,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 33650528,
+      "step": 25950
+    },
+    {
+      "epoch": 1.2681943664036353,
+      "grad_norm": 0.0019930400885641575,
+      "learning_rate": 0.08238472689074612,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 33657024,
+      "step": 25955
+    },
+    {
+      "epoch": 1.2684386680673296,
+      "grad_norm": 0.0012036616681143641,
+      "learning_rate": 0.08233215121658666,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 33663296,
+      "step": 25960
+    },
+    {
+      "epoch": 1.2686829697310238,
+      "grad_norm": 0.0011712113628163934,
+      "learning_rate": 0.08227958597765982,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 33669568,
+      "step": 25965
+    },
+    {
+      "epoch": 1.2689272713947182,
+      "grad_norm": 0.0011071496410295367,
+      "learning_rate": 0.08222703118207181,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 33676000,
+      "step": 25970
+    },
+    {
+      "epoch": 1.2691715730584125,
+      "grad_norm": 0.0022062119096517563,
+      "learning_rate": 0.08217448683792734,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 33682432,
+      "step": 25975
+    },
+    {
+      "epoch": 1.269415874722107,
+      "grad_norm": 0.0009557584417052567,
+      "learning_rate": 0.08212195295332926,
+      "loss": 0.062,
+      "num_input_tokens_seen": 33688928,
+      "step": 25980
+    },
+    {
+      "epoch": 1.269660176385801,
+      "grad_norm": 0.0019330477807670832,
+      "learning_rate": 0.08206942953637915,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 33695456,
+      "step": 25985
+    },
+    {
+      "epoch": 1.2699044780494955,
+      "grad_norm": 0.001016924623399973,
+      "learning_rate": 0.08201691659517658,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 33702208,
+      "step": 25990
+    },
+    {
+      "epoch": 1.2701487797131898,
+      "grad_norm": 0.0010259926784783602,
+      "learning_rate": 0.08196441413781981,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 33708480,
+      "step": 25995
+    },
+    {
+      "epoch": 1.2703930813768842,
+      "grad_norm": 0.0012223697267472744,
+      "learning_rate": 0.08191192217240544,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 33714496,
+      "step": 26000
+    },
+    {
+      "epoch": 1.2703930813768842,
+      "eval_loss": 0.0894274115562439,
+      "eval_runtime": 402.2967,
+      "eval_samples_per_second": 90.443,
+      "eval_steps_per_second": 22.613,
+      "num_input_tokens_seen": 33714496,
+      "step": 26000
+    },
+    {
+      "epoch": 1.2706373830405786,
+      "grad_norm": 0.0008279799367301166,
+      "learning_rate": 0.08185944070702823,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 33720992,
+      "step": 26005
+    },
+    {
+      "epoch": 1.2708816847042728,
+      "grad_norm": 0.0020063985139131546,
+      "learning_rate": 0.08180696974978159,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 33727680,
+      "step": 26010
+    },
+    {
+      "epoch": 1.2711259863679671,
+      "grad_norm": 0.0010507418774068356,
+      "learning_rate": 0.08175450930875724,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 33733984,
+      "step": 26015
+    },
+    {
+      "epoch": 1.2713702880316615,
+      "grad_norm": 0.0011688568629324436,
+      "learning_rate": 0.08170205939204513,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 33740384,
+      "step": 26020
+    },
+    {
+      "epoch": 1.271614589695356,
+      "grad_norm": 0.0010254436638206244,
+      "learning_rate": 0.08164962000773379,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 33746848,
+      "step": 26025
+    },
+    {
+      "epoch": 1.27185889135905,
+      "grad_norm": 0.0005665483186021447,
+      "learning_rate": 0.08159719116390995,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 33753024,
+      "step": 26030
+    },
+    {
+      "epoch": 1.2721031930227444,
+      "grad_norm": 0.0013368806103244424,
+      "learning_rate": 0.08154477286865887,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 33759360,
+      "step": 26035
+    },
+    {
+      "epoch": 1.2723474946864388,
+      "grad_norm": 0.0009778544772416353,
+      "learning_rate": 0.08149236513006404,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 33765632,
+      "step": 26040
+    },
+    {
+      "epoch": 1.2725917963501332,
+      "grad_norm": 0.001533033442683518,
+      "learning_rate": 0.08143996795620746,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 33771872,
+      "step": 26045
+    },
+    {
+      "epoch": 1.2728360980138276,
+      "grad_norm": 0.0010330852819606662,
+      "learning_rate": 0.08138758135516938,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 33778752,
+      "step": 26050
+    },
+    {
+      "epoch": 1.2730803996775217,
+      "grad_norm": 0.0011569177731871605,
+      "learning_rate": 0.08133520533502851,
+      "loss": 0.1132,
+      "num_input_tokens_seen": 33785216,
+      "step": 26055
+    },
+    {
+      "epoch": 1.2733247013412161,
+      "grad_norm": 0.001823537633754313,
+      "learning_rate": 0.08128283990386184,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 33791584,
+      "step": 26060
+    },
+    {
+      "epoch": 1.2735690030049105,
+      "grad_norm": 0.0013509726850315928,
+      "learning_rate": 0.08123048506974488,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 33797920,
+      "step": 26065
+    },
+    {
+      "epoch": 1.2738133046686049,
+      "grad_norm": 0.001683853450231254,
+      "learning_rate": 0.08117814084075124,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 33804448,
+      "step": 26070
+    },
+    {
+      "epoch": 1.274057606332299,
+      "grad_norm": 0.0019777824636548758,
+      "learning_rate": 0.08112580722495318,
+      "loss": 0.092,
+      "num_input_tokens_seen": 33810976,
+      "step": 26075
+    },
+    {
+      "epoch": 1.2743019079959934,
+      "grad_norm": 0.0008974542724899948,
+      "learning_rate": 0.08107348423042122,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 33817056,
+      "step": 26080
+    },
+    {
+      "epoch": 1.2745462096596878,
+      "grad_norm": 0.000560265441890806,
+      "learning_rate": 0.08102117186522413,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 33823296,
+      "step": 26085
+    },
+    {
+      "epoch": 1.2747905113233822,
+      "grad_norm": 0.0018778059165924788,
+      "learning_rate": 0.08096887013742916,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 33830048,
+      "step": 26090
+    },
+    {
+      "epoch": 1.2750348129870765,
+      "grad_norm": 0.0016863003838807344,
+      "learning_rate": 0.08091657905510198,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 33836640,
+      "step": 26095
+    },
+    {
+      "epoch": 1.2752791146507707,
+      "grad_norm": 0.001415450475178659,
+      "learning_rate": 0.08086429862630642,
+      "loss": 0.088,
+      "num_input_tokens_seen": 33843328,
+      "step": 26100
+    },
+    {
+      "epoch": 1.275523416314465,
+      "grad_norm": 0.0012440497521311045,
+      "learning_rate": 0.08081202885910488,
+      "loss": 0.07,
+      "num_input_tokens_seen": 33850368,
+      "step": 26105
+    },
+    {
+      "epoch": 1.2757677179781595,
+      "grad_norm": 0.0013879077741876245,
+      "learning_rate": 0.08075976976155795,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 33856480,
+      "step": 26110
+    },
+    {
+      "epoch": 1.2760120196418536,
+      "grad_norm": 0.0014043875271454453,
+      "learning_rate": 0.08070752134172461,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 33862720,
+      "step": 26115
+    },
+    {
+      "epoch": 1.276256321305548,
+      "grad_norm": 0.0012200387427583337,
+      "learning_rate": 0.08065528360766229,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 33869056,
+      "step": 26120
+    },
+    {
+      "epoch": 1.2765006229692424,
+      "grad_norm": 0.0009811237687245011,
+      "learning_rate": 0.08060305656742664,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 33875488,
+      "step": 26125
+    },
+    {
+      "epoch": 1.2767449246329368,
+      "grad_norm": 0.000977837247774005,
+      "learning_rate": 0.08055084022907182,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 33881920,
+      "step": 26130
+    },
+    {
+      "epoch": 1.2769892262966311,
+      "grad_norm": 0.0009669419378042221,
+      "learning_rate": 0.08049863460065014,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 33888704,
+      "step": 26135
+    },
+    {
+      "epoch": 1.2772335279603255,
+      "grad_norm": 0.0022636603098362684,
+      "learning_rate": 0.0804464396902124,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 33895328,
+      "step": 26140
+    },
+    {
+      "epoch": 1.2774778296240197,
+      "grad_norm": 0.0009922710014507174,
+      "learning_rate": 0.08039425550580777,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 33901920,
+      "step": 26145
+    },
+    {
+      "epoch": 1.277722131287714,
+      "grad_norm": 0.0006864435854367912,
+      "learning_rate": 0.08034208205548363,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 33908608,
+      "step": 26150
+    },
+    {
+      "epoch": 1.2779664329514084,
+      "grad_norm": 0.0016605586279183626,
+      "learning_rate": 0.08028991934728581,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 33915072,
+      "step": 26155
+    },
+    {
+      "epoch": 1.2782107346151026,
+      "grad_norm": 0.001953283092007041,
+      "learning_rate": 0.0802377673892585,
+      "loss": 0.102,
+      "num_input_tokens_seen": 33921536,
+      "step": 26160
+    },
+    {
+      "epoch": 1.278455036278797,
+      "grad_norm": 0.0012008072808384895,
+      "learning_rate": 0.0801856261894441,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 33927808,
+      "step": 26165
+    },
+    {
+      "epoch": 1.2786993379424914,
+      "grad_norm": 0.0013246263843029737,
+      "learning_rate": 0.08013349575588354,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 33933856,
+      "step": 26170
+    },
+    {
+      "epoch": 1.2789436396061857,
+      "grad_norm": 0.0009185769013129175,
+      "learning_rate": 0.08008137609661586,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 33940096,
+      "step": 26175
+    },
+    {
+      "epoch": 1.2791879412698801,
+      "grad_norm": 0.0009849794441834092,
+      "learning_rate": 0.08002926721967872,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 33946528,
+      "step": 26180
+    },
+    {
+      "epoch": 1.2794322429335745,
+      "grad_norm": 0.0011661745375022292,
+      "learning_rate": 0.07997716913310782,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 33952800,
+      "step": 26185
+    },
+    {
+      "epoch": 1.2796765445972687,
+      "grad_norm": 0.0022773013915866613,
+      "learning_rate": 0.07992508184493745,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 33959136,
+      "step": 26190
+    },
+    {
+      "epoch": 1.279920846260963,
+      "grad_norm": 0.0014325878582894802,
+      "learning_rate": 0.07987300536320001,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 33965888,
+      "step": 26195
+    },
+    {
+      "epoch": 1.2801651479246574,
+      "grad_norm": 0.001104680122807622,
+      "learning_rate": 0.07982093969592649,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 33972576,
+      "step": 26200
+    },
+    {
+      "epoch": 1.2801651479246574,
+      "eval_loss": 0.09034081548452377,
+      "eval_runtime": 401.9047,
+      "eval_samples_per_second": 90.531,
+      "eval_steps_per_second": 22.635,
+      "num_input_tokens_seen": 33972576,
+      "step": 26200
+    },
+    {
+      "epoch": 1.2804094495883516,
+      "grad_norm": 0.0011314627481624484,
+      "learning_rate": 0.07976888485114592,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 33978976,
+      "step": 26205
+    },
+    {
+      "epoch": 1.280653751252046,
+      "grad_norm": 0.0007173545309342444,
+      "learning_rate": 0.07971684083688595,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 33985248,
+      "step": 26210
+    },
+    {
+      "epoch": 1.2808980529157403,
+      "grad_norm": 0.0006942196632735431,
+      "learning_rate": 0.0796648076611723,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 33991264,
+      "step": 26215
+    },
+    {
+      "epoch": 1.2811423545794347,
+      "grad_norm": 0.0008080090046860278,
+      "learning_rate": 0.07961278533202922,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 33997824,
+      "step": 26220
+    },
+    {
+      "epoch": 1.281386656243129,
+      "grad_norm": 0.0010628850432112813,
+      "learning_rate": 0.07956077385747919,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 34004672,
+      "step": 26225
+    },
+    {
+      "epoch": 1.2816309579068235,
+      "grad_norm": 0.0005122520378790796,
+      "learning_rate": 0.079508773245543,
+      "loss": 0.0613,
+      "num_input_tokens_seen": 34011392,
+      "step": 26230
+    },
+    {
+      "epoch": 1.2818752595705176,
+      "grad_norm": 0.0010894244769588113,
+      "learning_rate": 0.07945678350423982,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 34018016,
+      "step": 26235
+    },
+    {
+      "epoch": 1.282119561234212,
+      "grad_norm": 0.0014196099946275353,
+      "learning_rate": 0.07940480464158717,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 34024192,
+      "step": 26240
+    },
+    {
+      "epoch": 1.2823638628979064,
+      "grad_norm": 0.000895873992703855,
+      "learning_rate": 0.07935283666560076,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 34030496,
+      "step": 26245
+    },
+    {
+      "epoch": 1.2826081645616005,
+      "grad_norm": 0.0013302294537425041,
+      "learning_rate": 0.07930087958429478,
+      "loss": 0.099,
+      "num_input_tokens_seen": 34037632,
+      "step": 26250
+    },
+    {
+      "epoch": 1.282852466225295,
+      "grad_norm": 0.0015118059236556292,
+      "learning_rate": 0.07924893340568159,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 34044256,
+      "step": 26255
+    },
+    {
+      "epoch": 1.2830967678889893,
+      "grad_norm": 0.0012138655874878168,
+      "learning_rate": 0.07919699813777205,
+      "loss": 0.093,
+      "num_input_tokens_seen": 34050752,
+      "step": 26260
+    },
+    {
+      "epoch": 1.2833410695526837,
+      "grad_norm": 0.0010044854134321213,
+      "learning_rate": 0.07914507378857515,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 34057440,
+      "step": 26265
+    },
+    {
+      "epoch": 1.283585371216378,
+      "grad_norm": 0.0022276591043919325,
+      "learning_rate": 0.07909316036609822,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 34063744,
+      "step": 26270
+    },
+    {
+      "epoch": 1.2838296728800724,
+      "grad_norm": 0.0013209165772423148,
+      "learning_rate": 0.07904125787834704,
+      "loss": 0.082,
+      "num_input_tokens_seen": 34069920,
+      "step": 26275
+    },
+    {
+      "epoch": 1.2840739745437666,
+      "grad_norm": 0.0010357270948588848,
+      "learning_rate": 0.07898936633332569,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 34076224,
+      "step": 26280
+    },
+    {
+      "epoch": 1.284318276207461,
+      "grad_norm": 0.001572497421875596,
+      "learning_rate": 0.07893748573903635,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 34082496,
+      "step": 26285
+    },
+    {
+      "epoch": 1.2845625778711554,
+      "grad_norm": 0.0010885950177907944,
+      "learning_rate": 0.0788856161034798,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 34088992,
+      "step": 26290
+    },
+    {
+      "epoch": 1.2848068795348495,
+      "grad_norm": 0.001579725998453796,
+      "learning_rate": 0.07883375743465487,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 34095296,
+      "step": 26295
+    },
+    {
+      "epoch": 1.285051181198544,
+      "grad_norm": 0.0016659063985571265,
+      "learning_rate": 0.07878190974055888,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 34101632,
+      "step": 26300
+    },
+    {
+      "epoch": 1.2852954828622383,
+      "grad_norm": 0.0010919091291725636,
+      "learning_rate": 0.07873007302918746,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 34108448,
+      "step": 26305
+    },
+    {
+      "epoch": 1.2855397845259326,
+      "grad_norm": 0.0016604174161329865,
+      "learning_rate": 0.07867824730853433,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 34114816,
+      "step": 26310
+    },
+    {
+      "epoch": 1.285784086189627,
+      "grad_norm": 0.0010992665775120258,
+      "learning_rate": 0.07862643258659176,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 34121408,
+      "step": 26315
+    },
+    {
+      "epoch": 1.2860283878533214,
+      "grad_norm": 0.001140510430559516,
+      "learning_rate": 0.07857462887135026,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 34127776,
+      "step": 26320
+    },
+    {
+      "epoch": 1.2862726895170156,
+      "grad_norm": 0.0009916505077853799,
+      "learning_rate": 0.0785228361707986,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 34134304,
+      "step": 26325
+    },
+    {
+      "epoch": 1.28651699118071,
+      "grad_norm": 0.0009621320059522986,
+      "learning_rate": 0.07847105449292378,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 34140768,
+      "step": 26330
+    },
+    {
+      "epoch": 1.2867612928444043,
+      "grad_norm": 0.0017426683334633708,
+      "learning_rate": 0.0784192838457113,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 34147200,
+      "step": 26335
+    },
+    {
+      "epoch": 1.2870055945080985,
+      "grad_norm": 0.0010877738241106272,
+      "learning_rate": 0.07836752423714473,
+      "loss": 0.083,
+      "num_input_tokens_seen": 34153664,
+      "step": 26340
+    },
+    {
+      "epoch": 1.2872498961717929,
+      "grad_norm": 0.0023746760562062263,
+      "learning_rate": 0.07831577567520616,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 34159904,
+      "step": 26345
+    },
+    {
+      "epoch": 1.2874941978354872,
+      "grad_norm": 0.0010811175452545285,
+      "learning_rate": 0.07826403816787579,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 34166400,
+      "step": 26350
+    },
+    {
+      "epoch": 1.2877384994991816,
+      "grad_norm": 0.0019301316933706403,
+      "learning_rate": 0.0782123117231322,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 34173152,
+      "step": 26355
+    },
+    {
+      "epoch": 1.287982801162876,
+      "grad_norm": 0.0013060709461569786,
+      "learning_rate": 0.07816059634895237,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 34179840,
+      "step": 26360
+    },
+    {
+      "epoch": 1.2882271028265704,
+      "grad_norm": 0.0011365690734237432,
+      "learning_rate": 0.0781088920533113,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 34185824,
+      "step": 26365
+    },
+    {
+      "epoch": 1.2884714044902645,
+      "grad_norm": 0.0011940906988456845,
+      "learning_rate": 0.07805719884418257,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 34192672,
+      "step": 26370
+    },
+    {
+      "epoch": 1.288715706153959,
+      "grad_norm": 0.0014948541065678,
+      "learning_rate": 0.07800551672953779,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 34198816,
+      "step": 26375
+    },
+    {
+      "epoch": 1.2889600078176533,
+      "grad_norm": 0.0011701214825734496,
+      "learning_rate": 0.07795384571734709,
+      "loss": 0.154,
+      "num_input_tokens_seen": 34205888,
+      "step": 26380
+    },
+    {
+      "epoch": 1.2892043094813475,
+      "grad_norm": 0.0020676394924521446,
+      "learning_rate": 0.07790218581557883,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 34212000,
+      "step": 26385
+    },
+    {
+      "epoch": 1.2894486111450418,
+      "grad_norm": 0.002524222247302532,
+      "learning_rate": 0.07785053703219949,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 34218464,
+      "step": 26390
+    },
+    {
+      "epoch": 1.2896929128087362,
+      "grad_norm": 0.001360314548946917,
+      "learning_rate": 0.07779889937517409,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 34224704,
+      "step": 26395
+    },
+    {
+      "epoch": 1.2899372144724306,
+      "grad_norm": 0.0013524782843887806,
+      "learning_rate": 0.0777472728524657,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 34231488,
+      "step": 26400
+    },
+    {
+      "epoch": 1.2899372144724306,
+      "eval_loss": 0.08994686603546143,
+      "eval_runtime": 403.2432,
+      "eval_samples_per_second": 90.231,
+      "eval_steps_per_second": 22.56,
+      "num_input_tokens_seen": 34231488,
+      "step": 26400
+    },
+    {
+      "epoch": 1.290181516136125,
+      "grad_norm": 0.0010990308364853263,
+      "learning_rate": 0.07769565747203584,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 34238016,
+      "step": 26405
+    },
+    {
+      "epoch": 1.2904258177998194,
+      "grad_norm": 0.00171353155747056,
+      "learning_rate": 0.07764405324184427,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 34244416,
+      "step": 26410
+    },
+    {
+      "epoch": 1.2906701194635135,
+      "grad_norm": 0.000891003874130547,
+      "learning_rate": 0.07759246016984889,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 34250560,
+      "step": 26415
+    },
+    {
+      "epoch": 1.290914421127208,
+      "grad_norm": 0.0014802063815295696,
+      "learning_rate": 0.07754087826400609,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 34257504,
+      "step": 26420
+    },
+    {
+      "epoch": 1.2911587227909023,
+      "grad_norm": 0.001261106226593256,
+      "learning_rate": 0.0774893075322705,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 34263776,
+      "step": 26425
+    },
+    {
+      "epoch": 1.2914030244545964,
+      "grad_norm": 0.0006982818595133722,
+      "learning_rate": 0.07743774798259484,
+      "loss": 0.076,
+      "num_input_tokens_seen": 34269792,
+      "step": 26430
+    },
+    {
+      "epoch": 1.2916473261182908,
+      "grad_norm": 0.0010491308057680726,
+      "learning_rate": 0.07738619962293032,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 34276160,
+      "step": 26435
+    },
+    {
+      "epoch": 1.2918916277819852,
+      "grad_norm": 0.001493072253651917,
+      "learning_rate": 0.0773346624612264,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 34282464,
+      "step": 26440
+    },
+    {
+      "epoch": 1.2921359294456796,
+      "grad_norm": 0.0008988179615698755,
+      "learning_rate": 0.07728313650543066,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 34288512,
+      "step": 26445
+    },
+    {
+      "epoch": 1.292380231109374,
+      "grad_norm": 0.0011903827544301748,
+      "learning_rate": 0.07723162176348913,
+      "loss": 0.097,
+      "num_input_tokens_seen": 34294432,
+      "step": 26450
+    },
+    {
+      "epoch": 1.292624532773068,
+      "grad_norm": 0.0009165463270619512,
+      "learning_rate": 0.07718011824334593,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 34300928,
+      "step": 26455
+    },
+    {
+      "epoch": 1.2928688344367625,
+      "grad_norm": 0.001313483458943665,
+      "learning_rate": 0.07712862595294363,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 34307360,
+      "step": 26460
+    },
+    {
+      "epoch": 1.2931131361004569,
+      "grad_norm": 0.0010764694306999445,
+      "learning_rate": 0.07707714490022301,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 34313792,
+      "step": 26465
+    },
+    {
+      "epoch": 1.2933574377641512,
+      "grad_norm": 0.001105735544115305,
+      "learning_rate": 0.07702567509312298,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 34321664,
+      "step": 26470
+    },
+    {
+      "epoch": 1.2936017394278454,
+      "grad_norm": 0.0010878823231905699,
+      "learning_rate": 0.07697421653958098,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 34328672,
+      "step": 26475
+    },
+    {
+      "epoch": 1.2938460410915398,
+      "grad_norm": 0.0022622912656515837,
+      "learning_rate": 0.07692276924753247,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 34335232,
+      "step": 26480
+    },
+    {
+      "epoch": 1.2940903427552342,
+      "grad_norm": 0.0015783662674948573,
+      "learning_rate": 0.07687133322491124,
+      "loss": 0.1124,
+      "num_input_tokens_seen": 34342400,
+      "step": 26485
+    },
+    {
+      "epoch": 1.2943346444189285,
+      "grad_norm": 0.0012791563058272004,
+      "learning_rate": 0.07681990847964948,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 34348736,
+      "step": 26490
+    },
+    {
+      "epoch": 1.294578946082623,
+      "grad_norm": 0.0008396261837333441,
+      "learning_rate": 0.0767684950196774,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 34354976,
+      "step": 26495
+    },
+    {
+      "epoch": 1.294823247746317,
+      "grad_norm": 0.0014856290072202682,
+      "learning_rate": 0.0767170928529237,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 34361472,
+      "step": 26500
+    },
+    {
+      "epoch": 1.2950675494100115,
+      "grad_norm": 0.0013744396856054664,
+      "learning_rate": 0.07666570198731526,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 34367776,
+      "step": 26505
+    },
+    {
+      "epoch": 1.2953118510737058,
+      "grad_norm": 0.0008767107501626015,
+      "learning_rate": 0.07661432243077708,
+      "loss": 0.075,
+      "num_input_tokens_seen": 34375360,
+      "step": 26510
+    },
+    {
+      "epoch": 1.2955561527374002,
+      "grad_norm": 0.001246660714969039,
+      "learning_rate": 0.0765629541912326,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 34381696,
+      "step": 26515
+    },
+    {
+      "epoch": 1.2958004544010944,
+      "grad_norm": 0.0012545052450150251,
+      "learning_rate": 0.07651159727660352,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 34387968,
+      "step": 26520
+    },
+    {
+      "epoch": 1.2960447560647887,
+      "grad_norm": 0.001170053263194859,
+      "learning_rate": 0.07646025169480959,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 34394464,
+      "step": 26525
+    },
+    {
+      "epoch": 1.2962890577284831,
+      "grad_norm": 0.001702590612694621,
+      "learning_rate": 0.07640891745376908,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 34400608,
+      "step": 26530
+    },
+    {
+      "epoch": 1.2965333593921775,
+      "grad_norm": 0.0011353815207257867,
+      "learning_rate": 0.07635759456139822,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 34406848,
+      "step": 26535
+    },
+    {
+      "epoch": 1.2967776610558719,
+      "grad_norm": 0.0018057749839499593,
+      "learning_rate": 0.0763062830256118,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 34413664,
+      "step": 26540
+    },
+    {
+      "epoch": 1.297021962719566,
+      "grad_norm": 0.000995837152004242,
+      "learning_rate": 0.07625498285432258,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 34420448,
+      "step": 26545
+    },
+    {
+      "epoch": 1.2972662643832604,
+      "grad_norm": 0.001653402461670339,
+      "learning_rate": 0.07620369405544176,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 34427168,
+      "step": 26550
+    },
+    {
+      "epoch": 1.2975105660469548,
+      "grad_norm": 0.0008910009637475014,
+      "learning_rate": 0.07615241663687868,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 34433824,
+      "step": 26555
+    },
+    {
+      "epoch": 1.2977548677106492,
+      "grad_norm": 0.002112144371494651,
+      "learning_rate": 0.07610115060654106,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 34440480,
+      "step": 26560
+    },
+    {
+      "epoch": 1.2979991693743433,
+      "grad_norm": 0.0011157536646351218,
+      "learning_rate": 0.07604989597233458,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 34447712,
+      "step": 26565
+    },
+    {
+      "epoch": 1.2982434710380377,
+      "grad_norm": 0.0010253711370751262,
+      "learning_rate": 0.07599865274216352,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 34454560,
+      "step": 26570
+    },
+    {
+      "epoch": 1.298487772701732,
+      "grad_norm": 0.0011901299003511667,
+      "learning_rate": 0.07594742092393013,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 34461216,
+      "step": 26575
+    },
+    {
+      "epoch": 1.2987320743654265,
+      "grad_norm": 0.0011055811773985624,
+      "learning_rate": 0.07589620052553503,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 34467456,
+      "step": 26580
+    },
+    {
+      "epoch": 1.2989763760291209,
+      "grad_norm": 0.0009433326777070761,
+      "learning_rate": 0.0758449915548771,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 34473504,
+      "step": 26585
+    },
+    {
+      "epoch": 1.299220677692815,
+      "grad_norm": 0.001317292801104486,
+      "learning_rate": 0.07579379401985332,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 34479552,
+      "step": 26590
+    },
+    {
+      "epoch": 1.2994649793565094,
+      "grad_norm": 0.0009858320700004697,
+      "learning_rate": 0.07574260792835905,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 34485568,
+      "step": 26595
+    },
+    {
+      "epoch": 1.2997092810202038,
+      "grad_norm": 0.0017173485830426216,
+      "learning_rate": 0.07569143328828784,
+      "loss": 0.106,
+      "num_input_tokens_seen": 34491904,
+      "step": 26600
+    },
+    {
+      "epoch": 1.2997092810202038,
+      "eval_loss": 0.09147468954324722,
+      "eval_runtime": 402.0229,
+      "eval_samples_per_second": 90.505,
+      "eval_steps_per_second": 22.628,
+      "num_input_tokens_seen": 34491904,
+      "step": 26600
+    },
+    {
+      "epoch": 1.2999535826838982,
+      "grad_norm": 0.0011748448014259338,
+      "learning_rate": 0.0756402701075314,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 34498112,
+      "step": 26605
+    },
+    {
+      "epoch": 1.3001978843475923,
+      "grad_norm": 0.0010621696710586548,
+      "learning_rate": 0.07558911839397982,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 34504256,
+      "step": 26610
+    },
+    {
+      "epoch": 1.3004421860112867,
+      "grad_norm": 0.0012653839075937867,
+      "learning_rate": 0.07553797815552123,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 34510496,
+      "step": 26615
+    },
+    {
+      "epoch": 1.300686487674981,
+      "grad_norm": 0.0021941470913589,
+      "learning_rate": 0.07548684940004222,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 34516672,
+      "step": 26620
+    },
+    {
+      "epoch": 1.3009307893386755,
+      "grad_norm": 0.0016921630594879389,
+      "learning_rate": 0.07543573213542744,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 34522976,
+      "step": 26625
+    },
+    {
+      "epoch": 1.3011750910023698,
+      "grad_norm": 0.0005058835376985371,
+      "learning_rate": 0.0753846263695597,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 34529632,
+      "step": 26630
+    },
+    {
+      "epoch": 1.301419392666064,
+      "grad_norm": 0.0014994359808042645,
+      "learning_rate": 0.07533353211032029,
+      "loss": 0.089,
+      "num_input_tokens_seen": 34536416,
+      "step": 26635
+    },
+    {
+      "epoch": 1.3016636943297584,
+      "grad_norm": 0.0006587738753296435,
+      "learning_rate": 0.07528244936558857,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 34543136,
+      "step": 26640
+    },
+    {
+      "epoch": 1.3019079959934527,
+      "grad_norm": 0.001618970069102943,
+      "learning_rate": 0.07523137814324206,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 34549504,
+      "step": 26645
+    },
+    {
+      "epoch": 1.302152297657147,
+      "grad_norm": 0.0010877352906391025,
+      "learning_rate": 0.07518031845115672,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 34555840,
+      "step": 26650
+    },
+    {
+      "epoch": 1.3023965993208413,
+      "grad_norm": 0.0010902329813688993,
+      "learning_rate": 0.07512927029720647,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 34563328,
+      "step": 26655
+    },
+    {
+      "epoch": 1.3026409009845357,
+      "grad_norm": 0.0006906437920406461,
+      "learning_rate": 0.0750782336892636,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 34569600,
+      "step": 26660
+    },
+    {
+      "epoch": 1.30288520264823,
+      "grad_norm": 0.0013474604347720742,
+      "learning_rate": 0.0750272086351987,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 34575712,
+      "step": 26665
+    },
+    {
+      "epoch": 1.3031295043119244,
+      "grad_norm": 0.0011208540527150035,
+      "learning_rate": 0.07497619514288031,
+      "loss": 0.092,
+      "num_input_tokens_seen": 34582272,
+      "step": 26670
+    },
+    {
+      "epoch": 1.3033738059756188,
+      "grad_norm": 0.0011706309160217643,
+      "learning_rate": 0.07492519322017545,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 34588576,
+      "step": 26675
+    },
+    {
+      "epoch": 1.303618107639313,
+      "grad_norm": 0.0013145572738721967,
+      "learning_rate": 0.0748742028749493,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 34595264,
+      "step": 26680
+    },
+    {
+      "epoch": 1.3038624093030073,
+      "grad_norm": 0.0006440733559429646,
+      "learning_rate": 0.0748232241150651,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 34602144,
+      "step": 26685
+    },
+    {
+      "epoch": 1.3041067109667017,
+      "grad_norm": 0.00036820792593061924,
+      "learning_rate": 0.07477225694838453,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 34608576,
+      "step": 26690
+    },
+    {
+      "epoch": 1.3043510126303959,
+      "grad_norm": 0.0008459951495751739,
+      "learning_rate": 0.07472130138276731,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 34614880,
+      "step": 26695
+    },
+    {
+      "epoch": 1.3045953142940903,
+      "grad_norm": 0.00043714509229175746,
+      "learning_rate": 0.07467035742607138,
+      "loss": 0.097,
+      "num_input_tokens_seen": 34621536,
+      "step": 26700
+    },
+    {
+      "epoch": 1.3048396159577846,
+      "grad_norm": 0.001022462034597993,
+      "learning_rate": 0.07461942508615303,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 34627776,
+      "step": 26705
+    },
+    {
+      "epoch": 1.305083917621479,
+      "grad_norm": 0.0009518723818473518,
+      "learning_rate": 0.07456850437086657,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 34634272,
+      "step": 26710
+    },
+    {
+      "epoch": 1.3053282192851734,
+      "grad_norm": 0.0017677476862445474,
+      "learning_rate": 0.07451759528806468,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 34640960,
+      "step": 26715
+    },
+    {
+      "epoch": 1.3055725209488678,
+      "grad_norm": 0.0008658102597109973,
+      "learning_rate": 0.0744666978455982,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 34647296,
+      "step": 26720
+    },
+    {
+      "epoch": 1.305816822612562,
+      "grad_norm": 0.0012175773736089468,
+      "learning_rate": 0.07441581205131609,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 34653920,
+      "step": 26725
+    },
+    {
+      "epoch": 1.3060611242762563,
+      "grad_norm": 0.0008248942904174328,
+      "learning_rate": 0.07436493791306566,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 34660224,
+      "step": 26730
+    },
+    {
+      "epoch": 1.3063054259399507,
+      "grad_norm": 0.0012454040115699172,
+      "learning_rate": 0.07431407543869223,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 34666784,
+      "step": 26735
+    },
+    {
+      "epoch": 1.3065497276036449,
+      "grad_norm": 0.001479150028899312,
+      "learning_rate": 0.0742632246360395,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 34673760,
+      "step": 26740
+    },
+    {
+      "epoch": 1.3067940292673392,
+      "grad_norm": 0.002082020975649357,
+      "learning_rate": 0.07421238551294934,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 34679968,
+      "step": 26745
+    },
+    {
+      "epoch": 1.3070383309310336,
+      "grad_norm": 0.0014080768451094627,
+      "learning_rate": 0.07416155807726171,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 34686560,
+      "step": 26750
+    },
+    {
+      "epoch": 1.307282632594728,
+      "grad_norm": 0.001298877876251936,
+      "learning_rate": 0.07411074233681492,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 34692864,
+      "step": 26755
+    },
+    {
+      "epoch": 1.3075269342584224,
+      "grad_norm": 0.001248466200195253,
+      "learning_rate": 0.07405993829944528,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 34699040,
+      "step": 26760
+    },
+    {
+      "epoch": 1.3077712359221167,
+      "grad_norm": 0.000721468823030591,
+      "learning_rate": 0.07400914597298755,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 34705248,
+      "step": 26765
+    },
+    {
+      "epoch": 1.308015537585811,
+      "grad_norm": 0.001496599754318595,
+      "learning_rate": 0.07395836536527445,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 34711904,
+      "step": 26770
+    },
+    {
+      "epoch": 1.3082598392495053,
+      "grad_norm": 0.0006484561017714441,
+      "learning_rate": 0.07390759648413696,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 34718272,
+      "step": 26775
+    },
+    {
+      "epoch": 1.3085041409131997,
+      "grad_norm": 0.0008125486201606691,
+      "learning_rate": 0.07385683933740435,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 34724768,
+      "step": 26780
+    },
+    {
+      "epoch": 1.3087484425768938,
+      "grad_norm": 0.0006416343967430294,
+      "learning_rate": 0.07380609393290402,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 34731232,
+      "step": 26785
+    },
+    {
+      "epoch": 1.3089927442405882,
+      "grad_norm": 0.001301950542256236,
+      "learning_rate": 0.07375536027846147,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 34737984,
+      "step": 26790
+    },
+    {
+      "epoch": 1.3092370459042826,
+      "grad_norm": 0.0017812781734392047,
+      "learning_rate": 0.07370463838190057,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 34744480,
+      "step": 26795
+    },
+    {
+      "epoch": 1.309481347567977,
+      "grad_norm": 0.000874718592967838,
+      "learning_rate": 0.07365392825104317,
+      "loss": 0.076,
+      "num_input_tokens_seen": 34751008,
+      "step": 26800
+    },
+    {
+      "epoch": 1.309481347567977,
+      "eval_loss": 0.08869751542806625,
+      "eval_runtime": 402.4415,
+      "eval_samples_per_second": 90.411,
+      "eval_steps_per_second": 22.605,
+      "num_input_tokens_seen": 34751008,
+      "step": 26800
+    },
+    {
+      "epoch": 1.3097256492316713,
+      "grad_norm": 0.0014464680571109056,
+      "learning_rate": 0.07360322989370945,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 34757440,
+      "step": 26805
+    },
+    {
+      "epoch": 1.3099699508953657,
+      "grad_norm": 0.0021597028244286776,
+      "learning_rate": 0.07355254331771781,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 34763840,
+      "step": 26810
+    },
+    {
+      "epoch": 1.3102142525590599,
+      "grad_norm": 0.001938295317813754,
+      "learning_rate": 0.07350186853088461,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 34770176,
+      "step": 26815
+    },
+    {
+      "epoch": 1.3104585542227543,
+      "grad_norm": 0.002741581527516246,
+      "learning_rate": 0.07345120554102462,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 34776576,
+      "step": 26820
+    },
+    {
+      "epoch": 1.3107028558864486,
+      "grad_norm": 0.0030454122461378574,
+      "learning_rate": 0.07340055435595079,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 34783136,
+      "step": 26825
+    },
+    {
+      "epoch": 1.3109471575501428,
+      "grad_norm": 0.0010632039047777653,
+      "learning_rate": 0.07334991498347401,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 34789344,
+      "step": 26830
+    },
+    {
+      "epoch": 1.3111914592138372,
+      "grad_norm": 0.0010401956969872117,
+      "learning_rate": 0.07329928743140365,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 34795584,
+      "step": 26835
+    },
+    {
+      "epoch": 1.3114357608775316,
+      "grad_norm": 0.0007470008567906916,
+      "learning_rate": 0.07324867170754705,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 34801600,
+      "step": 26840
+    },
+    {
+      "epoch": 1.311680062541226,
+      "grad_norm": 0.001017797039821744,
+      "learning_rate": 0.07319806781970974,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 34807456,
+      "step": 26845
+    },
+    {
+      "epoch": 1.3119243642049203,
+      "grad_norm": 0.0011153430677950382,
+      "learning_rate": 0.07314747577569555,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 34814240,
+      "step": 26850
+    },
+    {
+      "epoch": 1.3121686658686147,
+      "grad_norm": 0.0020157862454652786,
+      "learning_rate": 0.07309689558330636,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 34820416,
+      "step": 26855
+    },
+    {
+      "epoch": 1.3124129675323088,
+      "grad_norm": 0.00133793824352324,
+      "learning_rate": 0.0730463272503423,
+      "loss": 0.071,
+      "num_input_tokens_seen": 34827936,
+      "step": 26860
+    },
+    {
+      "epoch": 1.3126572691960032,
+      "grad_norm": 0.0013680533738806844,
+      "learning_rate": 0.07299577078460168,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 34833856,
+      "step": 26865
+    },
+    {
+      "epoch": 1.3129015708596976,
+      "grad_norm": 0.0012766581494361162,
+      "learning_rate": 0.07294522619388083,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 34840672,
+      "step": 26870
+    },
+    {
+      "epoch": 1.3131458725233918,
+      "grad_norm": 0.0014528827741742134,
+      "learning_rate": 0.07289469348597452,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 34847872,
+      "step": 26875
+    },
+    {
+      "epoch": 1.3133901741870861,
+      "grad_norm": 0.0019050101982429624,
+      "learning_rate": 0.07284417266867535,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 34854176,
+      "step": 26880
+    },
+    {
+      "epoch": 1.3136344758507805,
+      "grad_norm": 0.0013080431381240487,
+      "learning_rate": 0.07279366374977439,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 34860000,
+      "step": 26885
+    },
+    {
+      "epoch": 1.313878777514475,
+      "grad_norm": 0.0023010633885860443,
+      "learning_rate": 0.07274316673706074,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 34866560,
+      "step": 26890
+    },
+    {
+      "epoch": 1.3141230791781693,
+      "grad_norm": 0.0016631537582725286,
+      "learning_rate": 0.07269268163832161,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 34872672,
+      "step": 26895
+    },
+    {
+      "epoch": 1.3143673808418637,
+      "grad_norm": 0.0015951954992488027,
+      "learning_rate": 0.07264220846134248,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 34878848,
+      "step": 26900
+    },
+    {
+      "epoch": 1.3146116825055578,
+      "grad_norm": 0.0011363248340785503,
+      "learning_rate": 0.07259174721390699,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 34885664,
+      "step": 26905
+    },
+    {
+      "epoch": 1.3148559841692522,
+      "grad_norm": 0.001540876692160964,
+      "learning_rate": 0.07254129790379686,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 34892032,
+      "step": 26910
+    },
+    {
+      "epoch": 1.3151002858329466,
+      "grad_norm": 0.0012400284176692367,
+      "learning_rate": 0.072490860538792,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 34898272,
+      "step": 26915
+    },
+    {
+      "epoch": 1.3153445874966407,
+      "grad_norm": 0.0009272955358028412,
+      "learning_rate": 0.07244043512667042,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 34904448,
+      "step": 26920
+    },
+    {
+      "epoch": 1.3155888891603351,
+      "grad_norm": 0.0028412560932338238,
+      "learning_rate": 0.07239002167520843,
+      "loss": 0.0931,
+      "num_input_tokens_seen": 34911104,
+      "step": 26925
+    },
+    {
+      "epoch": 1.3158331908240295,
+      "grad_norm": 0.0009385824669152498,
+      "learning_rate": 0.07233962019218045,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 34917568,
+      "step": 26930
+    },
+    {
+      "epoch": 1.3160774924877239,
+      "grad_norm": 0.001289862091653049,
+      "learning_rate": 0.07228923068535892,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 34924000,
+      "step": 26935
+    },
+    {
+      "epoch": 1.3163217941514183,
+      "grad_norm": 0.001517180586233735,
+      "learning_rate": 0.0722388531625146,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 34930816,
+      "step": 26940
+    },
+    {
+      "epoch": 1.3165660958151126,
+      "grad_norm": 0.0008982345461845398,
+      "learning_rate": 0.07218848763141639,
+      "loss": 0.068,
+      "num_input_tokens_seen": 34937312,
+      "step": 26945
+    },
+    {
+      "epoch": 1.3168103974788068,
+      "grad_norm": 0.00082999630831182,
+      "learning_rate": 0.07213813409983118,
+      "loss": 0.087,
+      "num_input_tokens_seen": 34943200,
+      "step": 26950
+    },
+    {
+      "epoch": 1.3170546991425012,
+      "grad_norm": 0.0011225645430386066,
+      "learning_rate": 0.0720877925755242,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 34949408,
+      "step": 26955
+    },
+    {
+      "epoch": 1.3172990008061956,
+      "grad_norm": 0.0017355959862470627,
+      "learning_rate": 0.07203746306625866,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 34955616,
+      "step": 26960
+    },
+    {
+      "epoch": 1.3175433024698897,
+      "grad_norm": 0.0012007992481812835,
+      "learning_rate": 0.07198714557979606,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 34961888,
+      "step": 26965
+    },
+    {
+      "epoch": 1.317787604133584,
+      "grad_norm": 0.00090679811546579,
+      "learning_rate": 0.07193684012389602,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 34968352,
+      "step": 26970
+    },
+    {
+      "epoch": 1.3180319057972785,
+      "grad_norm": 0.001580013195052743,
+      "learning_rate": 0.07188654670631621,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 34974624,
+      "step": 26975
+    },
+    {
+      "epoch": 1.3182762074609728,
+      "grad_norm": 0.0011883812258020043,
+      "learning_rate": 0.07183626533481258,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 34980576,
+      "step": 26980
+    },
+    {
+      "epoch": 1.3185205091246672,
+      "grad_norm": 0.001101488247513771,
+      "learning_rate": 0.07178599601713909,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 34987040,
+      "step": 26985
+    },
+    {
+      "epoch": 1.3187648107883614,
+      "grad_norm": 0.0010036792373284698,
+      "learning_rate": 0.07173573876104786,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 34993856,
+      "step": 26990
+    },
+    {
+      "epoch": 1.3190091124520558,
+      "grad_norm": 0.001516419812105596,
+      "learning_rate": 0.0716854935742893,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 35000000,
+      "step": 26995
+    },
+    {
+      "epoch": 1.3192534141157501,
+      "grad_norm": 0.0013793669641017914,
+      "learning_rate": 0.07163526046461174,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 35006432,
+      "step": 27000
+    },
+    {
+      "epoch": 1.3192534141157501,
+      "eval_loss": 0.09002908319234848,
+      "eval_runtime": 402.3909,
+      "eval_samples_per_second": 90.422,
+      "eval_steps_per_second": 22.607,
+      "num_input_tokens_seen": 35006432,
+      "step": 27000
+    },
+    {
+      "epoch": 1.3194977157794445,
+      "grad_norm": 0.0014493736671283841,
+      "learning_rate": 0.07158503943976181,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 35012608,
+      "step": 27005
+    },
+    {
+      "epoch": 1.3197420174431387,
+      "grad_norm": 0.0015992078697308898,
+      "learning_rate": 0.07153483050748427,
+      "loss": 0.089,
+      "num_input_tokens_seen": 35019136,
+      "step": 27010
+    },
+    {
+      "epoch": 1.319986319106833,
+      "grad_norm": 0.0014035971835255623,
+      "learning_rate": 0.07148463367552188,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 35025600,
+      "step": 27015
+    },
+    {
+      "epoch": 1.3202306207705274,
+      "grad_norm": 0.0011651759268715978,
+      "learning_rate": 0.07143444895161565,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 35031936,
+      "step": 27020
+    },
+    {
+      "epoch": 1.3204749224342218,
+      "grad_norm": 0.0011298226891085505,
+      "learning_rate": 0.07138427634350476,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 35038592,
+      "step": 27025
+    },
+    {
+      "epoch": 1.3207192240979162,
+      "grad_norm": 0.0012721898965537548,
+      "learning_rate": 0.07133411585892636,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 35045216,
+      "step": 27030
+    },
+    {
+      "epoch": 1.3209635257616104,
+      "grad_norm": 0.001091091544367373,
+      "learning_rate": 0.07128396750561593,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 35051744,
+      "step": 27035
+    },
+    {
+      "epoch": 1.3212078274253047,
+      "grad_norm": 0.00111380813177675,
+      "learning_rate": 0.07123383129130685,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 35058304,
+      "step": 27040
+    },
+    {
+      "epoch": 1.3214521290889991,
+      "grad_norm": 0.0011262116022408009,
+      "learning_rate": 0.07118370722373084,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 35065056,
+      "step": 27045
+    },
+    {
+      "epoch": 1.3216964307526935,
+      "grad_norm": 0.001292427652515471,
+      "learning_rate": 0.07113359531061769,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 35072288,
+      "step": 27050
+    },
+    {
+      "epoch": 1.3219407324163877,
+      "grad_norm": 0.001325528952293098,
+      "learning_rate": 0.07108349555969525,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 35078752,
+      "step": 27055
+    },
+    {
+      "epoch": 1.322185034080082,
+      "grad_norm": 0.0010754039976745844,
+      "learning_rate": 0.07103340797868944,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 35084992,
+      "step": 27060
+    },
+    {
+      "epoch": 1.3224293357437764,
+      "grad_norm": 0.0012021985603496432,
+      "learning_rate": 0.07098333257532453,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 35091584,
+      "step": 27065
+    },
+    {
+      "epoch": 1.3226736374074708,
+      "grad_norm": 0.0017539025284349918,
+      "learning_rate": 0.07093326935732269,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 35097504,
+      "step": 27070
+    },
+    {
+      "epoch": 1.3229179390711652,
+      "grad_norm": 0.0015372791094705462,
+      "learning_rate": 0.0708832183324044,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 35104032,
+      "step": 27075
+    },
+    {
+      "epoch": 1.3231622407348593,
+      "grad_norm": 0.001103056943975389,
+      "learning_rate": 0.07083317950828799,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 35110560,
+      "step": 27080
+    },
+    {
+      "epoch": 1.3234065423985537,
+      "grad_norm": 0.0018895026296377182,
+      "learning_rate": 0.0707831528926902,
+      "loss": 0.113,
+      "num_input_tokens_seen": 35116576,
+      "step": 27085
+    },
+    {
+      "epoch": 1.323650844062248,
+      "grad_norm": 0.0016137759666889906,
+      "learning_rate": 0.07073313849332578,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 35122880,
+      "step": 27090
+    },
+    {
+      "epoch": 1.3238951457259425,
+      "grad_norm": 0.0011104138102382421,
+      "learning_rate": 0.07068313631790749,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 35130016,
+      "step": 27095
+    },
+    {
+      "epoch": 1.3241394473896366,
+      "grad_norm": 0.0012233442394062877,
+      "learning_rate": 0.07063314637414632,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 35136256,
+      "step": 27100
+    },
+    {
+      "epoch": 1.324383749053331,
+      "grad_norm": 0.001104273833334446,
+      "learning_rate": 0.07058316866975144,
+      "loss": 0.075,
+      "num_input_tokens_seen": 35142656,
+      "step": 27105
+    },
+    {
+      "epoch": 1.3246280507170254,
+      "grad_norm": 0.0009551111725158989,
+      "learning_rate": 0.0705332032124299,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 35148864,
+      "step": 27110
+    },
+    {
+      "epoch": 1.3248723523807198,
+      "grad_norm": 0.000742158736102283,
+      "learning_rate": 0.0704832500098871,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 35155360,
+      "step": 27115
+    },
+    {
+      "epoch": 1.3251166540444141,
+      "grad_norm": 0.001761500257998705,
+      "learning_rate": 0.07043330906982641,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 35161376,
+      "step": 27120
+    },
+    {
+      "epoch": 1.3253609557081083,
+      "grad_norm": 0.0015003994340077043,
+      "learning_rate": 0.07038338039994936,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 35167840,
+      "step": 27125
+    },
+    {
+      "epoch": 1.3256052573718027,
+      "grad_norm": 0.0012235598405823112,
+      "learning_rate": 0.07033346400795562,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 35174944,
+      "step": 27130
+    },
+    {
+      "epoch": 1.325849559035497,
+      "grad_norm": 0.0013609741581603885,
+      "learning_rate": 0.07028355990154282,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 35180928,
+      "step": 27135
+    },
+    {
+      "epoch": 1.3260938606991914,
+      "grad_norm": 0.001877589849755168,
+      "learning_rate": 0.07023366808840685,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 35187424,
+      "step": 27140
+    },
+    {
+      "epoch": 1.3263381623628856,
+      "grad_norm": 0.0012434180825948715,
+      "learning_rate": 0.07018378857624172,
+      "loss": 0.072,
+      "num_input_tokens_seen": 35193792,
+      "step": 27145
+    },
+    {
+      "epoch": 1.32658246402658,
+      "grad_norm": 0.0010081867221742868,
+      "learning_rate": 0.0701339213727394,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 35199936,
+      "step": 27150
+    },
+    {
+      "epoch": 1.3268267656902744,
+      "grad_norm": 0.0012542795157060027,
+      "learning_rate": 0.07008406648559008,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 35206304,
+      "step": 27155
+    },
+    {
+      "epoch": 1.3270710673539687,
+      "grad_norm": 0.0012623437214642763,
+      "learning_rate": 0.07003422392248196,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 35212544,
+      "step": 27160
+    },
+    {
+      "epoch": 1.3273153690176631,
+      "grad_norm": 0.0017139245755970478,
+      "learning_rate": 0.06998439369110142,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 35219616,
+      "step": 27165
+    },
+    {
+      "epoch": 1.3275596706813573,
+      "grad_norm": 0.0012557992013171315,
+      "learning_rate": 0.06993457579913295,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 35225984,
+      "step": 27170
+    },
+    {
+      "epoch": 1.3278039723450517,
+      "grad_norm": 0.0011062187841162086,
+      "learning_rate": 0.06988477025425903,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 35232672,
+      "step": 27175
+    },
+    {
+      "epoch": 1.328048274008746,
+      "grad_norm": 0.001190823270007968,
+      "learning_rate": 0.06983497706416032,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 35239072,
+      "step": 27180
+    },
+    {
+      "epoch": 1.3282925756724404,
+      "grad_norm": 0.0011805641697719693,
+      "learning_rate": 0.0697851962365156,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 35245376,
+      "step": 27185
+    },
+    {
+      "epoch": 1.3285368773361346,
+      "grad_norm": 0.0006492737447842956,
+      "learning_rate": 0.06973542777900163,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 35251968,
+      "step": 27190
+    },
+    {
+      "epoch": 1.328781178999829,
+      "grad_norm": 0.0009159549372270703,
+      "learning_rate": 0.06968567169929342,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 35258624,
+      "step": 27195
+    },
+    {
+      "epoch": 1.3290254806635233,
+      "grad_norm": 0.0010959157953038812,
+      "learning_rate": 0.06963592800506392,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 35264896,
+      "step": 27200
+    },
+    {
+      "epoch": 1.3290254806635233,
+      "eval_loss": 0.09126756340265274,
+      "eval_runtime": 402.5556,
+      "eval_samples_per_second": 90.385,
+      "eval_steps_per_second": 22.598,
+      "num_input_tokens_seen": 35264896,
+      "step": 27200
+    },
+    {
+      "epoch": 1.3292697823272177,
+      "grad_norm": 0.0010134275071322918,
+      "learning_rate": 0.06958619670398417,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 35271040,
+      "step": 27205
+    },
+    {
+      "epoch": 1.329514083990912,
+      "grad_norm": 0.0011670882813632488,
+      "learning_rate": 0.0695364778037235,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 35277472,
+      "step": 27210
+    },
+    {
+      "epoch": 1.3297583856546062,
+      "grad_norm": 0.001227181521244347,
+      "learning_rate": 0.06948677131194907,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 35284384,
+      "step": 27215
+    },
+    {
+      "epoch": 1.3300026873183006,
+      "grad_norm": 0.0013625134015455842,
+      "learning_rate": 0.06943707723632629,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 35290944,
+      "step": 27220
+    },
+    {
+      "epoch": 1.330246988981995,
+      "grad_norm": 0.0009955349378287792,
+      "learning_rate": 0.06938739558451867,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 35297312,
+      "step": 27225
+    },
+    {
+      "epoch": 1.3304912906456892,
+      "grad_norm": 0.0010926579125225544,
+      "learning_rate": 0.06933772636418763,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 35303520,
+      "step": 27230
+    },
+    {
+      "epoch": 1.3307355923093835,
+      "grad_norm": 0.00105603679548949,
+      "learning_rate": 0.06928806958299293,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 35309472,
+      "step": 27235
+    },
+    {
+      "epoch": 1.330979893973078,
+      "grad_norm": 0.0015358718810603023,
+      "learning_rate": 0.06923842524859211,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 35315584,
+      "step": 27240
+    },
+    {
+      "epoch": 1.3312241956367723,
+      "grad_norm": 0.0012133611598983407,
+      "learning_rate": 0.06918879336864105,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 35321472,
+      "step": 27245
+    },
+    {
+      "epoch": 1.3314684973004667,
+      "grad_norm": 0.0016743679298087955,
+      "learning_rate": 0.06913917395079362,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 35328000,
+      "step": 27250
+    },
+    {
+      "epoch": 1.331712798964161,
+      "grad_norm": 0.0012414120137691498,
+      "learning_rate": 0.0690895670027017,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 35334368,
+      "step": 27255
+    },
+    {
+      "epoch": 1.3319571006278552,
+      "grad_norm": 0.002027191687375307,
+      "learning_rate": 0.06903997253201531,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 35341024,
+      "step": 27260
+    },
+    {
+      "epoch": 1.3322014022915496,
+      "grad_norm": 0.0011270925169810653,
+      "learning_rate": 0.06899039054638263,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 35347296,
+      "step": 27265
+    },
+    {
+      "epoch": 1.332445703955244,
+      "grad_norm": 0.0011137448018416762,
+      "learning_rate": 0.06894082105344976,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 35353632,
+      "step": 27270
+    },
+    {
+      "epoch": 1.3326900056189381,
+      "grad_norm": 0.0020361319184303284,
+      "learning_rate": 0.06889126406086087,
+      "loss": 0.097,
+      "num_input_tokens_seen": 35360192,
+      "step": 27275
+    },
+    {
+      "epoch": 1.3329343072826325,
+      "grad_norm": 0.0018720004009082913,
+      "learning_rate": 0.0688417195762584,
+      "loss": 0.079,
+      "num_input_tokens_seen": 35366816,
+      "step": 27280
+    },
+    {
+      "epoch": 1.333178608946327,
+      "grad_norm": 0.0012084882473573089,
+      "learning_rate": 0.06879218760728262,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 35373280,
+      "step": 27285
+    },
+    {
+      "epoch": 1.3334229106100213,
+      "grad_norm": 0.0015646048123016953,
+      "learning_rate": 0.06874266816157207,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 35379648,
+      "step": 27290
+    },
+    {
+      "epoch": 1.3336672122737157,
+      "grad_norm": 0.0010090904543176293,
+      "learning_rate": 0.06869316124676321,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 35385952,
+      "step": 27295
+    },
+    {
+      "epoch": 1.33391151393741,
+      "grad_norm": 0.0006766310543753207,
+      "learning_rate": 0.06864366687049062,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 35392576,
+      "step": 27300
+    },
+    {
+      "epoch": 1.3341558156011042,
+      "grad_norm": 0.0012636922765523195,
+      "learning_rate": 0.06859418504038704,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 35399584,
+      "step": 27305
+    },
+    {
+      "epoch": 1.3344001172647986,
+      "grad_norm": 0.0011781689245253801,
+      "learning_rate": 0.06854471576408311,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 35406432,
+      "step": 27310
+    },
+    {
+      "epoch": 1.334644418928493,
+      "grad_norm": 0.0013499725610017776,
+      "learning_rate": 0.06849525904920767,
+      "loss": 0.087,
+      "num_input_tokens_seen": 35412768,
+      "step": 27315
+    },
+    {
+      "epoch": 1.334888720592187,
+      "grad_norm": 0.0008775359601713717,
+      "learning_rate": 0.06844581490338748,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 35419104,
+      "step": 27320
+    },
+    {
+      "epoch": 1.3351330222558815,
+      "grad_norm": 0.0011442144168540835,
+      "learning_rate": 0.06839638333424752,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 35425824,
+      "step": 27325
+    },
+    {
+      "epoch": 1.3353773239195759,
+      "grad_norm": 0.0013269014889374375,
+      "learning_rate": 0.06834696434941082,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 35432256,
+      "step": 27330
+    },
+    {
+      "epoch": 1.3356216255832702,
+      "grad_norm": 0.0013370220549404621,
+      "learning_rate": 0.06829755795649824,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 35439040,
+      "step": 27335
+    },
+    {
+      "epoch": 1.3358659272469646,
+      "grad_norm": 0.0017985805170610547,
+      "learning_rate": 0.06824816416312904,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 35445280,
+      "step": 27340
+    },
+    {
+      "epoch": 1.336110228910659,
+      "grad_norm": 0.002464412711560726,
+      "learning_rate": 0.06819878297692027,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 35451872,
+      "step": 27345
+    },
+    {
+      "epoch": 1.3363545305743532,
+      "grad_norm": 0.0014870903687551618,
+      "learning_rate": 0.0681494144054871,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 35458240,
+      "step": 27350
+    },
+    {
+      "epoch": 1.3365988322380475,
+      "grad_norm": 0.0011595955584198236,
+      "learning_rate": 0.06810005845644286,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 35464640,
+      "step": 27355
+    },
+    {
+      "epoch": 1.336843133901742,
+      "grad_norm": 0.0009574935538694263,
+      "learning_rate": 0.06805071513739878,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 35471456,
+      "step": 27360
+    },
+    {
+      "epoch": 1.337087435565436,
+      "grad_norm": 0.0010496145114302635,
+      "learning_rate": 0.06800138445596428,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 35477792,
+      "step": 27365
+    },
+    {
+      "epoch": 1.3373317372291305,
+      "grad_norm": 0.0012296028435230255,
+      "learning_rate": 0.06795206641974678,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 35484000,
+      "step": 27370
+    },
+    {
+      "epoch": 1.3375760388928248,
+      "grad_norm": 0.00115953478962183,
+      "learning_rate": 0.06790276103635169,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 35490752,
+      "step": 27375
+    },
+    {
+      "epoch": 1.3378203405565192,
+      "grad_norm": 0.0008042444242164493,
+      "learning_rate": 0.0678534683133826,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 35497248,
+      "step": 27380
+    },
+    {
+      "epoch": 1.3380646422202136,
+      "grad_norm": 0.0008884879644028842,
+      "learning_rate": 0.06780418825844095,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 35504000,
+      "step": 27385
+    },
+    {
+      "epoch": 1.338308943883908,
+      "grad_norm": 0.0010169543093070388,
+      "learning_rate": 0.0677549208791264,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 35510688,
+      "step": 27390
+    },
+    {
+      "epoch": 1.3385532455476021,
+      "grad_norm": 0.0010225878795608878,
+      "learning_rate": 0.06770566618303668,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 35517184,
+      "step": 27395
+    },
+    {
+      "epoch": 1.3387975472112965,
+      "grad_norm": 0.0011816531186923385,
+      "learning_rate": 0.06765642417776736,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 35523424,
+      "step": 27400
+    },
+    {
+      "epoch": 1.3387975472112965,
+      "eval_loss": 0.08994396775960922,
+      "eval_runtime": 402.8505,
+      "eval_samples_per_second": 90.319,
+      "eval_steps_per_second": 22.582,
+      "num_input_tokens_seen": 35523424,
+      "step": 27400
+    },
+    {
+      "epoch": 1.339041848874991,
+      "grad_norm": 0.000678644108120352,
+      "learning_rate": 0.0676071948709122,
+      "loss": 0.0614,
+      "num_input_tokens_seen": 35529824,
+      "step": 27405
+    },
+    {
+      "epoch": 1.339286150538685,
+      "grad_norm": 0.0011382590746507049,
+      "learning_rate": 0.06755797827006307,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 35536224,
+      "step": 27410
+    },
+    {
+      "epoch": 1.3395304522023794,
+      "grad_norm": 0.0010075075551867485,
+      "learning_rate": 0.06750877438280974,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 35542368,
+      "step": 27415
+    },
+    {
+      "epoch": 1.3397747538660738,
+      "grad_norm": 0.0011160930152982473,
+      "learning_rate": 0.06745958321673998,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 35548672,
+      "step": 27420
+    },
+    {
+      "epoch": 1.3400190555297682,
+      "grad_norm": 0.000993897789157927,
+      "learning_rate": 0.0674104047794398,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 35554976,
+      "step": 27425
+    },
+    {
+      "epoch": 1.3402633571934626,
+      "grad_norm": 0.0014292413834482431,
+      "learning_rate": 0.06736123907849303,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 35561088,
+      "step": 27430
+    },
+    {
+      "epoch": 1.340507658857157,
+      "grad_norm": 0.0017800374189391732,
+      "learning_rate": 0.06731208612148178,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 35567680,
+      "step": 27435
+    },
+    {
+      "epoch": 1.340751960520851,
+      "grad_norm": 0.0025746794417500496,
+      "learning_rate": 0.0672629459159859,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 35574016,
+      "step": 27440
+    },
+    {
+      "epoch": 1.3409962621845455,
+      "grad_norm": 0.001256619463674724,
+      "learning_rate": 0.0672138184695835,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 35580608,
+      "step": 27445
+    },
+    {
+      "epoch": 1.3412405638482399,
+      "grad_norm": 0.0004612924240063876,
+      "learning_rate": 0.0671647037898507,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 35587552,
+      "step": 27450
+    },
+    {
+      "epoch": 1.341484865511934,
+      "grad_norm": 0.0019710329361259937,
+      "learning_rate": 0.0671156018843615,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 35593888,
+      "step": 27455
+    },
+    {
+      "epoch": 1.3417291671756284,
+      "grad_norm": 0.0007370646926574409,
+      "learning_rate": 0.06706651276068812,
+      "loss": 0.097,
+      "num_input_tokens_seen": 35600096,
+      "step": 27460
+    },
+    {
+      "epoch": 1.3419734688393228,
+      "grad_norm": 0.0021059869322925806,
+      "learning_rate": 0.06701743642640064,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 35606080,
+      "step": 27465
+    },
+    {
+      "epoch": 1.3422177705030172,
+      "grad_norm": 0.0010928207775577903,
+      "learning_rate": 0.06696837288906729,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 35612960,
+      "step": 27470
+    },
+    {
+      "epoch": 1.3424620721667115,
+      "grad_norm": 0.0022305576130747795,
+      "learning_rate": 0.06691932215625432,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 35619136,
+      "step": 27475
+    },
+    {
+      "epoch": 1.342706373830406,
+      "grad_norm": 0.0014515273505821824,
+      "learning_rate": 0.06687028423552589,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 35625728,
+      "step": 27480
+    },
+    {
+      "epoch": 1.3429506754941,
+      "grad_norm": 0.001581989461556077,
+      "learning_rate": 0.06682125913444435,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 35632160,
+      "step": 27485
+    },
+    {
+      "epoch": 1.3431949771577945,
+      "grad_norm": 0.001185808563604951,
+      "learning_rate": 0.0667722468605699,
+      "loss": 0.092,
+      "num_input_tokens_seen": 35638944,
+      "step": 27490
+    },
+    {
+      "epoch": 1.3434392788214888,
+      "grad_norm": 0.0006531134131364524,
+      "learning_rate": 0.06672324742146094,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 35645408,
+      "step": 27495
+    },
+    {
+      "epoch": 1.343683580485183,
+      "grad_norm": 0.001662932219915092,
+      "learning_rate": 0.06667426082467373,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 35651552,
+      "step": 27500
+    },
+    {
+      "epoch": 1.3439278821488774,
+      "grad_norm": 0.0012755407951772213,
+      "learning_rate": 0.0666252870777626,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 35658976,
+      "step": 27505
+    },
+    {
+      "epoch": 1.3441721838125718,
+      "grad_norm": 0.0013267322210595012,
+      "learning_rate": 0.06657632618827995,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 35665280,
+      "step": 27510
+    },
+    {
+      "epoch": 1.3444164854762661,
+      "grad_norm": 0.0008687151712365448,
+      "learning_rate": 0.06652737816377623,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 35671904,
+      "step": 27515
+    },
+    {
+      "epoch": 1.3446607871399605,
+      "grad_norm": 0.0014776919269934297,
+      "learning_rate": 0.06647844301179971,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 35677888,
+      "step": 27520
+    },
+    {
+      "epoch": 1.344905088803655,
+      "grad_norm": 0.0012136960867792368,
+      "learning_rate": 0.06642952073989689,
+      "loss": 0.084,
+      "num_input_tokens_seen": 35684256,
+      "step": 27525
+    },
+    {
+      "epoch": 1.345149390467349,
+      "grad_norm": 0.0009473502286709845,
+      "learning_rate": 0.06638061135561223,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 35690528,
+      "step": 27530
+    },
+    {
+      "epoch": 1.3453936921310434,
+      "grad_norm": 0.001632955390959978,
+      "learning_rate": 0.06633171486648808,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 35697056,
+      "step": 27535
+    },
+    {
+      "epoch": 1.3456379937947378,
+      "grad_norm": 0.0015495619736611843,
+      "learning_rate": 0.06628283128006499,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 35703552,
+      "step": 27540
+    },
+    {
+      "epoch": 1.345882295458432,
+      "grad_norm": 0.0010266402969136834,
+      "learning_rate": 0.0662339606038813,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 35709760,
+      "step": 27545
+    },
+    {
+      "epoch": 1.3461265971221263,
+      "grad_norm": 0.000642311351839453,
+      "learning_rate": 0.06618510284547358,
+      "loss": 0.074,
+      "num_input_tokens_seen": 35715872,
+      "step": 27550
+    },
+    {
+      "epoch": 1.3463708987858207,
+      "grad_norm": 0.001322527532465756,
+      "learning_rate": 0.06613625801237633,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 35722336,
+      "step": 27555
+    },
+    {
+      "epoch": 1.346615200449515,
+      "grad_norm": 0.0022053837310522795,
+      "learning_rate": 0.066087426112122,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 35728704,
+      "step": 27560
+    },
+    {
+      "epoch": 1.3468595021132095,
+      "grad_norm": 0.0012695938348770142,
+      "learning_rate": 0.06603860715224101,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 35735008,
+      "step": 27565
+    },
+    {
+      "epoch": 1.3471038037769036,
+      "grad_norm": 0.0010616264771670103,
+      "learning_rate": 0.06598980114026198,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 35741664,
+      "step": 27570
+    },
+    {
+      "epoch": 1.347348105440598,
+      "grad_norm": 0.001025938312523067,
+      "learning_rate": 0.06594100808371128,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 35748000,
+      "step": 27575
+    },
+    {
+      "epoch": 1.3475924071042924,
+      "grad_norm": 0.0017657442949712276,
+      "learning_rate": 0.06589222799011357,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 35754336,
+      "step": 27580
+    },
+    {
+      "epoch": 1.3478367087679868,
+      "grad_norm": 0.0017273803241550922,
+      "learning_rate": 0.0658434608669912,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 35760992,
+      "step": 27585
+    },
+    {
+      "epoch": 1.348081010431681,
+      "grad_norm": 0.002391078043729067,
+      "learning_rate": 0.06579470672186473,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 35767872,
+      "step": 27590
+    },
+    {
+      "epoch": 1.3483253120953753,
+      "grad_norm": 0.0011382128577679396,
+      "learning_rate": 0.06574596556225275,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 35774208,
+      "step": 27595
+    },
+    {
+      "epoch": 1.3485696137590697,
+      "grad_norm": 0.0010407684603706002,
+      "learning_rate": 0.06569723739567161,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 35781024,
+      "step": 27600
+    },
+    {
+      "epoch": 1.3485696137590697,
+      "eval_loss": 0.09024789929389954,
+      "eval_runtime": 402.5787,
+      "eval_samples_per_second": 90.38,
+      "eval_steps_per_second": 22.597,
+      "num_input_tokens_seen": 35781024,
+      "step": 27600
+    },
+    {
+      "epoch": 1.348813915422764,
+      "grad_norm": 0.002329568611457944,
+      "learning_rate": 0.06564852222963588,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 35787616,
+      "step": 27605
+    },
+    {
+      "epoch": 1.3490582170864585,
+      "grad_norm": 0.0013165851123631,
+      "learning_rate": 0.06559982007165813,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 35793920,
+      "step": 27610
+    },
+    {
+      "epoch": 1.3493025187501526,
+      "grad_norm": 0.0013996383640915155,
+      "learning_rate": 0.06555113092924868,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 35799936,
+      "step": 27615
+    },
+    {
+      "epoch": 1.349546820413847,
+      "grad_norm": 0.0012763350969180465,
+      "learning_rate": 0.06550245480991615,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 35806560,
+      "step": 27620
+    },
+    {
+      "epoch": 1.3497911220775414,
+      "grad_norm": 0.001356414519250393,
+      "learning_rate": 0.0654537917211669,
+      "loss": 0.081,
+      "num_input_tokens_seen": 35813216,
+      "step": 27625
+    },
+    {
+      "epoch": 1.3500354237412358,
+      "grad_norm": 0.0006276586791500449,
+      "learning_rate": 0.0654051416705055,
+      "loss": 0.09,
+      "num_input_tokens_seen": 35819936,
+      "step": 27630
+    },
+    {
+      "epoch": 1.35027972540493,
+      "grad_norm": 0.0015570600517094135,
+      "learning_rate": 0.06535650466543427,
+      "loss": 0.108,
+      "num_input_tokens_seen": 35826208,
+      "step": 27635
+    },
+    {
+      "epoch": 1.3505240270686243,
+      "grad_norm": 0.001158856670372188,
+      "learning_rate": 0.0653078807134538,
+      "loss": 0.072,
+      "num_input_tokens_seen": 35833344,
+      "step": 27640
+    },
+    {
+      "epoch": 1.3507683287323187,
+      "grad_norm": 0.001970431534573436,
+      "learning_rate": 0.06525926982206236,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 35839776,
+      "step": 27645
+    },
+    {
+      "epoch": 1.351012630396013,
+      "grad_norm": 0.0015311883762478828,
+      "learning_rate": 0.06521067199875648,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 35846176,
+      "step": 27650
+    },
+    {
+      "epoch": 1.3512569320597074,
+      "grad_norm": 0.0012194332666695118,
+      "learning_rate": 0.06516208725103047,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 35852576,
+      "step": 27655
+    },
+    {
+      "epoch": 1.3515012337234016,
+      "grad_norm": 0.001151514588855207,
+      "learning_rate": 0.06511351558637678,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 35859072,
+      "step": 27660
+    },
+    {
+      "epoch": 1.351745535387096,
+      "grad_norm": 0.0013100354699417949,
+      "learning_rate": 0.06506495701228569,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 35865184,
+      "step": 27665
+    },
+    {
+      "epoch": 1.3519898370507903,
+      "grad_norm": 0.0011344790691509843,
+      "learning_rate": 0.06501641153624559,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 35871744,
+      "step": 27670
+    },
+    {
+      "epoch": 1.3522341387144847,
+      "grad_norm": 0.0015294412150979042,
+      "learning_rate": 0.06496787916574286,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 35878208,
+      "step": 27675
+    },
+    {
+      "epoch": 1.3524784403781789,
+      "grad_norm": 0.000804751820396632,
+      "learning_rate": 0.06491935990826168,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 35884512,
+      "step": 27680
+    },
+    {
+      "epoch": 1.3527227420418733,
+      "grad_norm": 0.0010659927502274513,
+      "learning_rate": 0.0648708537712844,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 35890944,
+      "step": 27685
+    },
+    {
+      "epoch": 1.3529670437055676,
+      "grad_norm": 0.0014038265217095613,
+      "learning_rate": 0.06482236076229132,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 35897472,
+      "step": 27690
+    },
+    {
+      "epoch": 1.353211345369262,
+      "grad_norm": 0.0007586674182675779,
+      "learning_rate": 0.06477388088876056,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 35904320,
+      "step": 27695
+    },
+    {
+      "epoch": 1.3534556470329564,
+      "grad_norm": 0.0011202871100977063,
+      "learning_rate": 0.06472541415816846,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 35910656,
+      "step": 27700
+    },
+    {
+      "epoch": 1.3536999486966506,
+      "grad_norm": 0.0014828471466898918,
+      "learning_rate": 0.06467696057798909,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 35916896,
+      "step": 27705
+    },
+    {
+      "epoch": 1.353944250360345,
+      "grad_norm": 0.0015774646308273077,
+      "learning_rate": 0.0646285201556946,
+      "loss": 0.096,
+      "num_input_tokens_seen": 35923424,
+      "step": 27710
+    },
+    {
+      "epoch": 1.3541885520240393,
+      "grad_norm": 0.0014166977489367127,
+      "learning_rate": 0.06458009289875521,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 35930368,
+      "step": 27715
+    },
+    {
+      "epoch": 1.3544328536877337,
+      "grad_norm": 0.0016802659956738353,
+      "learning_rate": 0.0645316788146389,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 35936576,
+      "step": 27720
+    },
+    {
+      "epoch": 1.3546771553514279,
+      "grad_norm": 0.0006753075285814703,
+      "learning_rate": 0.06448327791081175,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 35943072,
+      "step": 27725
+    },
+    {
+      "epoch": 1.3549214570151222,
+      "grad_norm": 0.0014536614762619138,
+      "learning_rate": 0.0644348901947379,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 35948992,
+      "step": 27730
+    },
+    {
+      "epoch": 1.3551657586788166,
+      "grad_norm": 0.0016672369092702866,
+      "learning_rate": 0.06438651567387917,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 35955296,
+      "step": 27735
+    },
+    {
+      "epoch": 1.355410060342511,
+      "grad_norm": 0.0012849883642047644,
+      "learning_rate": 0.0643381543556957,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 35961536,
+      "step": 27740
+    },
+    {
+      "epoch": 1.3556543620062054,
+      "grad_norm": 0.0015659097116440535,
+      "learning_rate": 0.06428980624764526,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 35967680,
+      "step": 27745
+    },
+    {
+      "epoch": 1.3558986636698995,
+      "grad_norm": 0.0017313881544396281,
+      "learning_rate": 0.06424147135718378,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 35974528,
+      "step": 27750
+    },
+    {
+      "epoch": 1.356142965333594,
+      "grad_norm": 0.0016528692794963717,
+      "learning_rate": 0.06419314969176519,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 35980960,
+      "step": 27755
+    },
+    {
+      "epoch": 1.3563872669972883,
+      "grad_norm": 0.001522575505077839,
+      "learning_rate": 0.06414484125884118,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 35987136,
+      "step": 27760
+    },
+    {
+      "epoch": 1.3566315686609824,
+      "grad_norm": 0.0015727492282167077,
+      "learning_rate": 0.06409654606586157,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 35993664,
+      "step": 27765
+    },
+    {
+      "epoch": 1.3568758703246768,
+      "grad_norm": 0.0007091779843904078,
+      "learning_rate": 0.06404826412027415,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 36000384,
+      "step": 27770
+    },
+    {
+      "epoch": 1.3571201719883712,
+      "grad_norm": 0.0010004782816395164,
+      "learning_rate": 0.06399999542952453,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 36006944,
+      "step": 27775
+    },
+    {
+      "epoch": 1.3573644736520656,
+      "grad_norm": 0.0009023742168210447,
+      "learning_rate": 0.0639517400010563,
+      "loss": 0.073,
+      "num_input_tokens_seen": 36013600,
+      "step": 27780
+    },
+    {
+      "epoch": 1.35760877531576,
+      "grad_norm": 0.0008886153809726238,
+      "learning_rate": 0.06390349784231118,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 36020544,
+      "step": 27785
+    },
+    {
+      "epoch": 1.3578530769794543,
+      "grad_norm": 0.0007031045388430357,
+      "learning_rate": 0.06385526896072859,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 36027264,
+      "step": 27790
+    },
+    {
+      "epoch": 1.3580973786431485,
+      "grad_norm": 0.00047846572124399245,
+      "learning_rate": 0.06380705336374613,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 36033696,
+      "step": 27795
+    },
+    {
+      "epoch": 1.3583416803068429,
+      "grad_norm": 0.0009639273630455136,
+      "learning_rate": 0.06375885105879918,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 36040224,
+      "step": 27800
+    },
+    {
+      "epoch": 1.3583416803068429,
+      "eval_loss": 0.08922871947288513,
+      "eval_runtime": 401.8257,
+      "eval_samples_per_second": 90.549,
+      "eval_steps_per_second": 22.639,
+      "num_input_tokens_seen": 36040224,
+      "step": 27800
+    },
+    {
+      "epoch": 1.3585859819705373,
+      "grad_norm": 0.0012717739446088672,
+      "learning_rate": 0.06371066205332115,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 36046688,
+      "step": 27805
+    },
+    {
+      "epoch": 1.3588302836342314,
+      "grad_norm": 0.001397769316099584,
+      "learning_rate": 0.06366248635474347,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 36052928,
+      "step": 27810
+    },
+    {
+      "epoch": 1.3590745852979258,
+      "grad_norm": 0.0013784259790554643,
+      "learning_rate": 0.06361432397049532,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 36059552,
+      "step": 27815
+    },
+    {
+      "epoch": 1.3593188869616202,
+      "grad_norm": 0.0010807664366438985,
+      "learning_rate": 0.06356617490800408,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 36066368,
+      "step": 27820
+    },
+    {
+      "epoch": 1.3595631886253146,
+      "grad_norm": 0.0007257935940288007,
+      "learning_rate": 0.06351803917469478,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 36073088,
+      "step": 27825
+    },
+    {
+      "epoch": 1.359807490289009,
+      "grad_norm": 0.0019748082850128412,
+      "learning_rate": 0.06346991677799067,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 36079520,
+      "step": 27830
+    },
+    {
+      "epoch": 1.3600517919527033,
+      "grad_norm": 0.0011830959701910615,
+      "learning_rate": 0.06342180772531283,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 36086464,
+      "step": 27835
+    },
+    {
+      "epoch": 1.3602960936163975,
+      "grad_norm": 0.0010325255570933223,
+      "learning_rate": 0.06337371202408021,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 36092768,
+      "step": 27840
+    },
+    {
+      "epoch": 1.3605403952800919,
+      "grad_norm": 0.0007732262019999325,
+      "learning_rate": 0.06332562968170984,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 36098912,
+      "step": 27845
+    },
+    {
+      "epoch": 1.3607846969437862,
+      "grad_norm": 0.0014943901915103197,
+      "learning_rate": 0.06327756070561656,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 36105696,
+      "step": 27850
+    },
+    {
+      "epoch": 1.3610289986074804,
+      "grad_norm": 0.0015549794770777225,
+      "learning_rate": 0.06322950510321329,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 36112064,
+      "step": 27855
+    },
+    {
+      "epoch": 1.3612733002711748,
+      "grad_norm": 0.0012212564470246434,
+      "learning_rate": 0.06318146288191076,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 36119072,
+      "step": 27860
+    },
+    {
+      "epoch": 1.3615176019348691,
+      "grad_norm": 0.0006683591054752469,
+      "learning_rate": 0.06313343404911763,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 36125440,
+      "step": 27865
+    },
+    {
+      "epoch": 1.3617619035985635,
+      "grad_norm": 0.0009955615969374776,
+      "learning_rate": 0.0630854186122406,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 36131840,
+      "step": 27870
+    },
+    {
+      "epoch": 1.362006205262258,
+      "grad_norm": 0.0020263190381228924,
+      "learning_rate": 0.06303741657868431,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 36138144,
+      "step": 27875
+    },
+    {
+      "epoch": 1.3622505069259523,
+      "grad_norm": 0.0021800242830067873,
+      "learning_rate": 0.06298942795585115,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 36144448,
+      "step": 27880
+    },
+    {
+      "epoch": 1.3624948085896464,
+      "grad_norm": 0.001056336099281907,
+      "learning_rate": 0.06294145275114167,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 36150688,
+      "step": 27885
+    },
+    {
+      "epoch": 1.3627391102533408,
+      "grad_norm": 0.001235118368640542,
+      "learning_rate": 0.06289349097195428,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 36156928,
+      "step": 27890
+    },
+    {
+      "epoch": 1.3629834119170352,
+      "grad_norm": 0.00173288700170815,
+      "learning_rate": 0.06284554262568516,
+      "loss": 0.1088,
+      "num_input_tokens_seen": 36163136,
+      "step": 27895
+    },
+    {
+      "epoch": 1.3632277135807294,
+      "grad_norm": 0.0018336707726120949,
+      "learning_rate": 0.06279760771972868,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 36169376,
+      "step": 27900
+    },
+    {
+      "epoch": 1.3634720152444237,
+      "grad_norm": 0.0017393151065334678,
+      "learning_rate": 0.06274968626147688,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 36175744,
+      "step": 27905
+    },
+    {
+      "epoch": 1.3637163169081181,
+      "grad_norm": 0.001563719124533236,
+      "learning_rate": 0.06270177825831993,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 36182560,
+      "step": 27910
+    },
+    {
+      "epoch": 1.3639606185718125,
+      "grad_norm": 0.0019385053310543299,
+      "learning_rate": 0.06265388371764587,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 36188992,
+      "step": 27915
+    },
+    {
+      "epoch": 1.3642049202355069,
+      "grad_norm": 0.0009982433402910829,
+      "learning_rate": 0.0626060026468406,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 36195136,
+      "step": 27920
+    },
+    {
+      "epoch": 1.3644492218992013,
+      "grad_norm": 0.0011466332944110036,
+      "learning_rate": 0.06255813505328794,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 36201664,
+      "step": 27925
+    },
+    {
+      "epoch": 1.3646935235628954,
+      "grad_norm": 0.0006821415154263377,
+      "learning_rate": 0.06251028094436978,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 36208128,
+      "step": 27930
+    },
+    {
+      "epoch": 1.3649378252265898,
+      "grad_norm": 0.0016194566851481795,
+      "learning_rate": 0.06246244032746568,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 36214304,
+      "step": 27935
+    },
+    {
+      "epoch": 1.3651821268902842,
+      "grad_norm": 0.0014966689050197601,
+      "learning_rate": 0.06241461320995342,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 36221056,
+      "step": 27940
+    },
+    {
+      "epoch": 1.3654264285539783,
+      "grad_norm": 0.0011382513912394643,
+      "learning_rate": 0.062366799599208426,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 36227584,
+      "step": 27945
+    },
+    {
+      "epoch": 1.3656707302176727,
+      "grad_norm": 0.0014910238096490502,
+      "learning_rate": 0.06231899950260418,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 36233760,
+      "step": 27950
+    },
+    {
+      "epoch": 1.365915031881367,
+      "grad_norm": 0.0008412337629124522,
+      "learning_rate": 0.06227121292751214,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 36239872,
+      "step": 27955
+    },
+    {
+      "epoch": 1.3661593335450615,
+      "grad_norm": 0.0009373155771754682,
+      "learning_rate": 0.062223439881301496,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 36246144,
+      "step": 27960
+    },
+    {
+      "epoch": 1.3664036352087559,
+      "grad_norm": 0.0012367871822789311,
+      "learning_rate": 0.06217568037133948,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 36252928,
+      "step": 27965
+    },
+    {
+      "epoch": 1.3666479368724502,
+      "grad_norm": 0.0011689055245369673,
+      "learning_rate": 0.06212793440499126,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 36259264,
+      "step": 27970
+    },
+    {
+      "epoch": 1.3668922385361444,
+      "grad_norm": 0.0012893362436443567,
+      "learning_rate": 0.062080201989619783,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 36265856,
+      "step": 27975
+    },
+    {
+      "epoch": 1.3671365401998388,
+      "grad_norm": 0.0010894249426200986,
+      "learning_rate": 0.062032483132586094,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 36272224,
+      "step": 27980
+    },
+    {
+      "epoch": 1.3673808418635331,
+      "grad_norm": 0.00041186410817317665,
+      "learning_rate": 0.0619847778412489,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 36278336,
+      "step": 27985
+    },
+    {
+      "epoch": 1.3676251435272273,
+      "grad_norm": 0.0011094348737969995,
+      "learning_rate": 0.06193708612296509,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 36284704,
+      "step": 27990
+    },
+    {
+      "epoch": 1.3678694451909217,
+      "grad_norm": 0.001080686692148447,
+      "learning_rate": 0.06188940798508923,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 36290784,
+      "step": 27995
+    },
+    {
+      "epoch": 1.368113746854616,
+      "grad_norm": 0.0008682747138664126,
+      "learning_rate": 0.06184174343497397,
+      "loss": 0.066,
+      "num_input_tokens_seen": 36297952,
+      "step": 28000
+    },
+    {
+      "epoch": 1.368113746854616,
+      "eval_loss": 0.09009172022342682,
+      "eval_runtime": 402.0356,
+      "eval_samples_per_second": 90.502,
+      "eval_steps_per_second": 22.627,
+      "num_input_tokens_seen": 36297952,
+      "step": 28000
+    },
+    {
+      "epoch": 1.3683580485183104,
+      "grad_norm": 0.0006706152344122529,
+      "learning_rate": 0.061794092479969726,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 36304512,
+      "step": 28005
+    },
+    {
+      "epoch": 1.3686023501820048,
+      "grad_norm": 0.001285684877075255,
+      "learning_rate": 0.06174645512742485,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 36310432,
+      "step": 28010
+    },
+    {
+      "epoch": 1.3688466518456992,
+      "grad_norm": 0.0014535292284563184,
+      "learning_rate": 0.06169883138468565,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 36317376,
+      "step": 28015
+    },
+    {
+      "epoch": 1.3690909535093934,
+      "grad_norm": 0.0011757098836824298,
+      "learning_rate": 0.06165122125909637,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 36323968,
+      "step": 28020
+    },
+    {
+      "epoch": 1.3693352551730877,
+      "grad_norm": 0.0013645458966493607,
+      "learning_rate": 0.061603624757998965,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 36330240,
+      "step": 28025
+    },
+    {
+      "epoch": 1.3695795568367821,
+      "grad_norm": 0.0007354200934059918,
+      "learning_rate": 0.0615560418887335,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 36336704,
+      "step": 28030
+    },
+    {
+      "epoch": 1.3698238585004763,
+      "grad_norm": 0.0014475708594545722,
+      "learning_rate": 0.06150847265863787,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 36343296,
+      "step": 28035
+    },
+    {
+      "epoch": 1.3700681601641707,
+      "grad_norm": 0.0010707227047532797,
+      "learning_rate": 0.061460917075047757,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 36349504,
+      "step": 28040
+    },
+    {
+      "epoch": 1.370312461827865,
+      "grad_norm": 0.000860165455378592,
+      "learning_rate": 0.06141337514529694,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 36356128,
+      "step": 28045
+    },
+    {
+      "epoch": 1.3705567634915594,
+      "grad_norm": 0.00100353779271245,
+      "learning_rate": 0.06136584687671687,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 36362336,
+      "step": 28050
+    },
+    {
+      "epoch": 1.3708010651552538,
+      "grad_norm": 0.001576851005665958,
+      "learning_rate": 0.061318332276637064,
+      "loss": 0.087,
+      "num_input_tokens_seen": 36368512,
+      "step": 28055
+    },
+    {
+      "epoch": 1.3710453668189482,
+      "grad_norm": 0.003078057197853923,
+      "learning_rate": 0.06127083135238491,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 36374656,
+      "step": 28060
+    },
+    {
+      "epoch": 1.3712896684826423,
+      "grad_norm": 0.0013888776302337646,
+      "learning_rate": 0.06122334411128555,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 36380928,
+      "step": 28065
+    },
+    {
+      "epoch": 1.3715339701463367,
+      "grad_norm": 0.001901148003526032,
+      "learning_rate": 0.06117587056066223,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 36388000,
+      "step": 28070
+    },
+    {
+      "epoch": 1.371778271810031,
+      "grad_norm": 0.0008613595273345709,
+      "learning_rate": 0.06112841070783589,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 36394368,
+      "step": 28075
+    },
+    {
+      "epoch": 1.3720225734737252,
+      "grad_norm": 0.0007747175404801965,
+      "learning_rate": 0.061080964560125406,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 36400704,
+      "step": 28080
+    },
+    {
+      "epoch": 1.3722668751374196,
+      "grad_norm": 0.0015227393014356494,
+      "learning_rate": 0.06103353212484766,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 36407104,
+      "step": 28085
+    },
+    {
+      "epoch": 1.372511176801114,
+      "grad_norm": 0.0016606012359261513,
+      "learning_rate": 0.06098611340931722,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 36413600,
+      "step": 28090
+    },
+    {
+      "epoch": 1.3727554784648084,
+      "grad_norm": 0.0011238135630264878,
+      "learning_rate": 0.06093870842084672,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 36419968,
+      "step": 28095
+    },
+    {
+      "epoch": 1.3729997801285028,
+      "grad_norm": 0.000994914909824729,
+      "learning_rate": 0.06089131716674666,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 36426624,
+      "step": 28100
+    },
+    {
+      "epoch": 1.373244081792197,
+      "grad_norm": 0.0015723173273727298,
+      "learning_rate": 0.060843939654325226,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 36433184,
+      "step": 28105
+    },
+    {
+      "epoch": 1.3734883834558913,
+      "grad_norm": 0.001226854044944048,
+      "learning_rate": 0.06079657589088873,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 36439744,
+      "step": 28110
+    },
+    {
+      "epoch": 1.3737326851195857,
+      "grad_norm": 0.0009220019564963877,
+      "learning_rate": 0.06074922588374126,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 36446240,
+      "step": 28115
+    },
+    {
+      "epoch": 1.37397698678328,
+      "grad_norm": 0.0016804899787530303,
+      "learning_rate": 0.06070188964018472,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 36452512,
+      "step": 28120
+    },
+    {
+      "epoch": 1.3742212884469742,
+      "grad_norm": 0.0016855106223374605,
+      "learning_rate": 0.06065456716751902,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 36459360,
+      "step": 28125
+    },
+    {
+      "epoch": 1.3744655901106686,
+      "grad_norm": 0.0020971661433577538,
+      "learning_rate": 0.06060725847304182,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 36465536,
+      "step": 28130
+    },
+    {
+      "epoch": 1.374709891774363,
+      "grad_norm": 0.0011097536189481616,
+      "learning_rate": 0.06055996356404877,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 36472192,
+      "step": 28135
+    },
+    {
+      "epoch": 1.3749541934380574,
+      "grad_norm": 0.0007392533007077873,
+      "learning_rate": 0.06051268244783327,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 36478816,
+      "step": 28140
+    },
+    {
+      "epoch": 1.3751984951017517,
+      "grad_norm": 0.0006934689008630812,
+      "learning_rate": 0.06046541513168676,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 36485376,
+      "step": 28145
+    },
+    {
+      "epoch": 1.375442796765446,
+      "grad_norm": 0.0011629121145233512,
+      "learning_rate": 0.060418161622898356,
+      "loss": 0.0698,
+      "num_input_tokens_seen": 36491648,
+      "step": 28150
+    },
+    {
+      "epoch": 1.3756870984291403,
+      "grad_norm": 0.0012167161330580711,
+      "learning_rate": 0.06037092192875521,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 36498688,
+      "step": 28155
+    },
+    {
+      "epoch": 1.3759314000928347,
+      "grad_norm": 0.0010463251965120435,
+      "learning_rate": 0.060323696056542225,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 36505312,
+      "step": 28160
+    },
+    {
+      "epoch": 1.376175701756529,
+      "grad_norm": 0.0019138803472742438,
+      "learning_rate": 0.06027648401354229,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 36511360,
+      "step": 28165
+    },
+    {
+      "epoch": 1.3764200034202232,
+      "grad_norm": 0.001557568204589188,
+      "learning_rate": 0.06022928580703601,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 36518752,
+      "step": 28170
+    },
+    {
+      "epoch": 1.3766643050839176,
+      "grad_norm": 0.0014171833172440529,
+      "learning_rate": 0.060182101444301986,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 36524992,
+      "step": 28175
+    },
+    {
+      "epoch": 1.376908606747612,
+      "grad_norm": 0.0018651343416422606,
+      "learning_rate": 0.06013493093261669,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 36531648,
+      "step": 28180
+    },
+    {
+      "epoch": 1.3771529084113063,
+      "grad_norm": 0.0010321710724383593,
+      "learning_rate": 0.06008777427925432,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 36537856,
+      "step": 28185
+    },
+    {
+      "epoch": 1.3773972100750007,
+      "grad_norm": 0.0010068804258480668,
+      "learning_rate": 0.06004063149148705,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 36544096,
+      "step": 28190
+    },
+    {
+      "epoch": 1.3776415117386949,
+      "grad_norm": 0.0010428217938169837,
+      "learning_rate": 0.05999350257658497,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 36550688,
+      "step": 28195
+    },
+    {
+      "epoch": 1.3778858134023892,
+      "grad_norm": 0.0015801152912899852,
+      "learning_rate": 0.05994638754181582,
+      "loss": 0.1466,
+      "num_input_tokens_seen": 36557056,
+      "step": 28200
+    },
+    {
+      "epoch": 1.3778858134023892,
+      "eval_loss": 0.08804360777139664,
+      "eval_runtime": 402.3203,
+      "eval_samples_per_second": 90.438,
+      "eval_steps_per_second": 22.611,
+      "num_input_tokens_seen": 36557056,
+      "step": 28200
+    },
+    {
+      "epoch": 1.3781301150660836,
+      "grad_norm": 0.001594768138602376,
+      "learning_rate": 0.059899286394445445,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 36563616,
+      "step": 28205
+    },
+    {
+      "epoch": 1.378374416729778,
+      "grad_norm": 0.0014098254032433033,
+      "learning_rate": 0.059852199141737346,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 36570048,
+      "step": 28210
+    },
+    {
+      "epoch": 1.3786187183934722,
+      "grad_norm": 0.0009340434335172176,
+      "learning_rate": 0.05980512579095304,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 36576128,
+      "step": 28215
+    },
+    {
+      "epoch": 1.3788630200571665,
+      "grad_norm": 0.0011819856008514762,
+      "learning_rate": 0.05975806634935181,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 36582720,
+      "step": 28220
+    },
+    {
+      "epoch": 1.379107321720861,
+      "grad_norm": 0.00082395103527233,
+      "learning_rate": 0.05971102082419076,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 36588832,
+      "step": 28225
+    },
+    {
+      "epoch": 1.3793516233845553,
+      "grad_norm": 0.0013325877953320742,
+      "learning_rate": 0.05966398922272492,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 36595424,
+      "step": 28230
+    },
+    {
+      "epoch": 1.3795959250482497,
+      "grad_norm": 0.0014879563823342323,
+      "learning_rate": 0.059616971552207236,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 36602144,
+      "step": 28235
+    },
+    {
+      "epoch": 1.3798402267119438,
+      "grad_norm": 0.00104216777253896,
+      "learning_rate": 0.059569967819888305,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 36608544,
+      "step": 28240
+    },
+    {
+      "epoch": 1.3800845283756382,
+      "grad_norm": 0.0012143630301579833,
+      "learning_rate": 0.05952297803301681,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 36614944,
+      "step": 28245
+    },
+    {
+      "epoch": 1.3803288300393326,
+      "grad_norm": 0.00267794425599277,
+      "learning_rate": 0.059476002198839056,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 36621440,
+      "step": 28250
+    },
+    {
+      "epoch": 1.380573131703027,
+      "grad_norm": 0.0011296082520857453,
+      "learning_rate": 0.05942904032459935,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 36627744,
+      "step": 28255
+    },
+    {
+      "epoch": 1.3808174333667211,
+      "grad_norm": 0.0016766919288784266,
+      "learning_rate": 0.05938209241753987,
+      "loss": 0.089,
+      "num_input_tokens_seen": 36634240,
+      "step": 28260
+    },
+    {
+      "epoch": 1.3810617350304155,
+      "grad_norm": 0.0014619337162002921,
+      "learning_rate": 0.05933515848490046,
+      "loss": 0.078,
+      "num_input_tokens_seen": 36640992,
+      "step": 28265
+    },
+    {
+      "epoch": 1.38130603669411,
+      "grad_norm": 0.0018239483470097184,
+      "learning_rate": 0.059288238533918985,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 36647296,
+      "step": 28270
+    },
+    {
+      "epoch": 1.3815503383578043,
+      "grad_norm": 0.0016804294427856803,
+      "learning_rate": 0.05924133257183113,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 36653568,
+      "step": 28275
+    },
+    {
+      "epoch": 1.3817946400214987,
+      "grad_norm": 0.0013727350160479546,
+      "learning_rate": 0.059194440605870285,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 36660352,
+      "step": 28280
+    },
+    {
+      "epoch": 1.3820389416851928,
+      "grad_norm": 0.0014828077983111143,
+      "learning_rate": 0.059147562643267884,
+      "loss": 0.08,
+      "num_input_tokens_seen": 36666912,
+      "step": 28285
+    },
+    {
+      "epoch": 1.3822832433488872,
+      "grad_norm": 0.001321942312642932,
+      "learning_rate": 0.059100698691253055,
+      "loss": 0.084,
+      "num_input_tokens_seen": 36673216,
+      "step": 28290
+    },
+    {
+      "epoch": 1.3825275450125816,
+      "grad_norm": 0.001986920600757003,
+      "learning_rate": 0.05905384875705273,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 36679904,
+      "step": 28295
+    },
+    {
+      "epoch": 1.3827718466762757,
+      "grad_norm": 0.0015643128426745534,
+      "learning_rate": 0.05900701284789189,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 36686112,
+      "step": 28300
+    },
+    {
+      "epoch": 1.38301614833997,
+      "grad_norm": 0.0013855474535375834,
+      "learning_rate": 0.058960190970993115,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 36693056,
+      "step": 28305
+    },
+    {
+      "epoch": 1.3832604500036645,
+      "grad_norm": 0.0016649194294586778,
+      "learning_rate": 0.058913383133576955,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 36699456,
+      "step": 28310
+    },
+    {
+      "epoch": 1.3835047516673589,
+      "grad_norm": 0.0018881605938076973,
+      "learning_rate": 0.05886658934286185,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 36705920,
+      "step": 28315
+    },
+    {
+      "epoch": 1.3837490533310532,
+      "grad_norm": 0.0021274001337587833,
+      "learning_rate": 0.058819809606063846,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 36712960,
+      "step": 28320
+    },
+    {
+      "epoch": 1.3839933549947476,
+      "grad_norm": 0.0012218469055369496,
+      "learning_rate": 0.05877304393039711,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 36720064,
+      "step": 28325
+    },
+    {
+      "epoch": 1.3842376566584418,
+      "grad_norm": 0.0012214789167046547,
+      "learning_rate": 0.05872629232307338,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 36726464,
+      "step": 28330
+    },
+    {
+      "epoch": 1.3844819583221362,
+      "grad_norm": 0.0007010240806266665,
+      "learning_rate": 0.05867955479130239,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 36732640,
+      "step": 28335
+    },
+    {
+      "epoch": 1.3847262599858305,
+      "grad_norm": 0.000889610790181905,
+      "learning_rate": 0.058632831342291705,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 36739200,
+      "step": 28340
+    },
+    {
+      "epoch": 1.3849705616495247,
+      "grad_norm": 0.0006328709423542023,
+      "learning_rate": 0.05858612198324655,
+      "loss": 0.0601,
+      "num_input_tokens_seen": 36746144,
+      "step": 28345
+    },
+    {
+      "epoch": 1.385214863313219,
+      "grad_norm": 0.0008902396075427532,
+      "learning_rate": 0.05853942672137025,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 36752672,
+      "step": 28350
+    },
+    {
+      "epoch": 1.3854591649769135,
+      "grad_norm": 0.0011598184937611222,
+      "learning_rate": 0.05849274556386363,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 36758560,
+      "step": 28355
+    },
+    {
+      "epoch": 1.3857034666406078,
+      "grad_norm": 0.0014235101407393813,
+      "learning_rate": 0.05844607851792567,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 36765344,
+      "step": 28360
+    },
+    {
+      "epoch": 1.3859477683043022,
+      "grad_norm": 0.0016387980431318283,
+      "learning_rate": 0.058399425590752924,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 36771456,
+      "step": 28365
+    },
+    {
+      "epoch": 1.3861920699679966,
+      "grad_norm": 0.0013268992770463228,
+      "learning_rate": 0.05835278678953985,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 36777824,
+      "step": 28370
+    },
+    {
+      "epoch": 1.3864363716316908,
+      "grad_norm": 0.001323521020822227,
+      "learning_rate": 0.05830616212147874,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 36784448,
+      "step": 28375
+    },
+    {
+      "epoch": 1.3866806732953851,
+      "grad_norm": 0.0017904428532347083,
+      "learning_rate": 0.058259551593759784,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 36790720,
+      "step": 28380
+    },
+    {
+      "epoch": 1.3869249749590795,
+      "grad_norm": 0.0022853254340589046,
+      "learning_rate": 0.058212955213570804,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 36797344,
+      "step": 28385
+    },
+    {
+      "epoch": 1.3871692766227737,
+      "grad_norm": 0.0017817504703998566,
+      "learning_rate": 0.0581663729880976,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 36803424,
+      "step": 28390
+    },
+    {
+      "epoch": 1.387413578286468,
+      "grad_norm": 0.0014560221461579204,
+      "learning_rate": 0.05811980492452379,
+      "loss": 0.094,
+      "num_input_tokens_seen": 36809632,
+      "step": 28395
+    },
+    {
+      "epoch": 1.3876578799501624,
+      "grad_norm": 0.0009016605908982456,
+      "learning_rate": 0.058073251030030644,
+      "loss": 0.109,
+      "num_input_tokens_seen": 36815904,
+      "step": 28400
+    },
+    {
+      "epoch": 1.3876578799501624,
+      "eval_loss": 0.08811922371387482,
+      "eval_runtime": 402.386,
+      "eval_samples_per_second": 90.423,
+      "eval_steps_per_second": 22.608,
+      "num_input_tokens_seen": 36815904,
+      "step": 28400
+    },
+    {
+      "epoch": 1.3879021816138568,
+      "grad_norm": 0.0015694027533754706,
+      "learning_rate": 0.05802671131179747,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 36822240,
+      "step": 28405
+    },
+    {
+      "epoch": 1.3881464832775512,
+      "grad_norm": 0.0009453463135287166,
+      "learning_rate": 0.057980185777001154,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 36828480,
+      "step": 28410
+    },
+    {
+      "epoch": 1.3883907849412456,
+      "grad_norm": 0.00121788471005857,
+      "learning_rate": 0.057933674432816606,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 36834944,
+      "step": 28415
+    },
+    {
+      "epoch": 1.3886350866049397,
+      "grad_norm": 0.0008735384326428175,
+      "learning_rate": 0.05788717728641648,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 36841248,
+      "step": 28420
+    },
+    {
+      "epoch": 1.388879388268634,
+      "grad_norm": 0.0010026677045971155,
+      "learning_rate": 0.057840694344971126,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 36847552,
+      "step": 28425
+    },
+    {
+      "epoch": 1.3891236899323285,
+      "grad_norm": 0.001822098158299923,
+      "learning_rate": 0.0577942256156489,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 36854208,
+      "step": 28430
+    },
+    {
+      "epoch": 1.3893679915960226,
+      "grad_norm": 0.0011928032618016005,
+      "learning_rate": 0.057747771105615804,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 36860320,
+      "step": 28435
+    },
+    {
+      "epoch": 1.389612293259717,
+      "grad_norm": 0.0013689729385077953,
+      "learning_rate": 0.05770133082203568,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 36867136,
+      "step": 28440
+    },
+    {
+      "epoch": 1.3898565949234114,
+      "grad_norm": 0.0017490154132246971,
+      "learning_rate": 0.0576549047720703,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 36873632,
+      "step": 28445
+    },
+    {
+      "epoch": 1.3901008965871058,
+      "grad_norm": 0.0007920098141767085,
+      "learning_rate": 0.05760849296287902,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 36880352,
+      "step": 28450
+    },
+    {
+      "epoch": 1.3903451982508002,
+      "grad_norm": 0.0014837330672889948,
+      "learning_rate": 0.05756209540161919,
+      "loss": 0.109,
+      "num_input_tokens_seen": 36886784,
+      "step": 28455
+    },
+    {
+      "epoch": 1.3905894999144945,
+      "grad_norm": 0.0007720084977336228,
+      "learning_rate": 0.05751571209544595,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 36893312,
+      "step": 28460
+    },
+    {
+      "epoch": 1.3908338015781887,
+      "grad_norm": 0.0008356455364264548,
+      "learning_rate": 0.057469343051512085,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 36899840,
+      "step": 28465
+    },
+    {
+      "epoch": 1.391078103241883,
+      "grad_norm": 0.002460371470078826,
+      "learning_rate": 0.057422988276968324,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 36906144,
+      "step": 28470
+    },
+    {
+      "epoch": 1.3913224049055775,
+      "grad_norm": 0.0017221012385562062,
+      "learning_rate": 0.05737664777896323,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 36912448,
+      "step": 28475
+    },
+    {
+      "epoch": 1.3915667065692716,
+      "grad_norm": 0.0010390261886641383,
+      "learning_rate": 0.057330321564642975,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 36919168,
+      "step": 28480
+    },
+    {
+      "epoch": 1.391811008232966,
+      "grad_norm": 0.0016106113325804472,
+      "learning_rate": 0.05728400964115174,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 36925728,
+      "step": 28485
+    },
+    {
+      "epoch": 1.3920553098966604,
+      "grad_norm": 0.001967286691069603,
+      "learning_rate": 0.057237712015631305,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 36932128,
+      "step": 28490
+    },
+    {
+      "epoch": 1.3922996115603548,
+      "grad_norm": 0.0013463431969285011,
+      "learning_rate": 0.057191428695221425,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 36938432,
+      "step": 28495
+    },
+    {
+      "epoch": 1.3925439132240491,
+      "grad_norm": 0.0006450550281442702,
+      "learning_rate": 0.05714515968705958,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 36945088,
+      "step": 28500
+    },
+    {
+      "epoch": 1.3927882148877435,
+      "grad_norm": 0.0010170727036893368,
+      "learning_rate": 0.05709890499828099,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 36951584,
+      "step": 28505
+    },
+    {
+      "epoch": 1.3930325165514377,
+      "grad_norm": 0.0014699131716042757,
+      "learning_rate": 0.05705266463601868,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 36957952,
+      "step": 28510
+    },
+    {
+      "epoch": 1.393276818215132,
+      "grad_norm": 0.001171488082036376,
+      "learning_rate": 0.057006438607403565,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 36964576,
+      "step": 28515
+    },
+    {
+      "epoch": 1.3935211198788264,
+      "grad_norm": 0.0016148254508152604,
+      "learning_rate": 0.056960226919564205,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 36971104,
+      "step": 28520
+    },
+    {
+      "epoch": 1.3937654215425206,
+      "grad_norm": 0.0015239693457260728,
+      "learning_rate": 0.05691402957962713,
+      "loss": 0.07,
+      "num_input_tokens_seen": 36977536,
+      "step": 28525
+    },
+    {
+      "epoch": 1.394009723206215,
+      "grad_norm": 0.0006401727441698313,
+      "learning_rate": 0.05686784659471642,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 36983872,
+      "step": 28530
+    },
+    {
+      "epoch": 1.3942540248699093,
+      "grad_norm": 0.0013899606419727206,
+      "learning_rate": 0.056821677971954136,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 36990592,
+      "step": 28535
+    },
+    {
+      "epoch": 1.3944983265336037,
+      "grad_norm": 0.0010111293522641063,
+      "learning_rate": 0.05677552371846012,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 36996864,
+      "step": 28540
+    },
+    {
+      "epoch": 1.394742628197298,
+      "grad_norm": 0.001128894160501659,
+      "learning_rate": 0.05672938384135182,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 37003488,
+      "step": 28545
+    },
+    {
+      "epoch": 1.3949869298609925,
+      "grad_norm": 0.0009671600419096649,
+      "learning_rate": 0.05668325834774465,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 37009760,
+      "step": 28550
+    },
+    {
+      "epoch": 1.3952312315246866,
+      "grad_norm": 0.0010645822621881962,
+      "learning_rate": 0.05663714724475177,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 37016128,
+      "step": 28555
+    },
+    {
+      "epoch": 1.395475533188381,
+      "grad_norm": 0.0008958951220847666,
+      "learning_rate": 0.05659105053948403,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 37022944,
+      "step": 28560
+    },
+    {
+      "epoch": 1.3957198348520754,
+      "grad_norm": 0.0018081923481076956,
+      "learning_rate": 0.056544968239050176,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 37030368,
+      "step": 28565
+    },
+    {
+      "epoch": 1.3959641365157696,
+      "grad_norm": 0.0007862301426939666,
+      "learning_rate": 0.056498900350556616,
+      "loss": 0.073,
+      "num_input_tokens_seen": 37036704,
+      "step": 28570
+    },
+    {
+      "epoch": 1.396208438179464,
+      "grad_norm": 0.0013015479780733585,
+      "learning_rate": 0.05645284688110766,
+      "loss": 0.091,
+      "num_input_tokens_seen": 37042912,
+      "step": 28575
+    },
+    {
+      "epoch": 1.3964527398431583,
+      "grad_norm": 0.0010713490191847086,
+      "learning_rate": 0.05640680783780532,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 37050048,
+      "step": 28580
+    },
+    {
+      "epoch": 1.3966970415068527,
+      "grad_norm": 0.0013394110137596726,
+      "learning_rate": 0.056360783227749324,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 37056480,
+      "step": 28585
+    },
+    {
+      "epoch": 1.396941343170547,
+      "grad_norm": 0.0014353666920214891,
+      "learning_rate": 0.05631477305803728,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 37062912,
+      "step": 28590
+    },
+    {
+      "epoch": 1.3971856448342415,
+      "grad_norm": 0.0013140442315489054,
+      "learning_rate": 0.05626877733576462,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 37069504,
+      "step": 28595
+    },
+    {
+      "epoch": 1.3974299464979356,
+      "grad_norm": 0.000976457551587373,
+      "learning_rate": 0.05622279606802435,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 37076064,
+      "step": 28600
+    },
+    {
+      "epoch": 1.3974299464979356,
+      "eval_loss": 0.0913688987493515,
+      "eval_runtime": 402.5635,
+      "eval_samples_per_second": 90.383,
+      "eval_steps_per_second": 22.598,
+      "num_input_tokens_seen": 37076064,
+      "step": 28600
+    },
+    {
+      "epoch": 1.39767424816163,
+      "grad_norm": 0.0015816559316590428,
+      "learning_rate": 0.05617682926190744,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 37082496,
+      "step": 28605
+    },
+    {
+      "epoch": 1.3979185498253244,
+      "grad_norm": 0.0008354285964742303,
+      "learning_rate": 0.05613087692450248,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 37089184,
+      "step": 28610
+    },
+    {
+      "epoch": 1.3981628514890185,
+      "grad_norm": 0.0004961327649652958,
+      "learning_rate": 0.05608493906289592,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 37095424,
+      "step": 28615
+    },
+    {
+      "epoch": 1.398407153152713,
+      "grad_norm": 0.0007801969768479466,
+      "learning_rate": 0.05603901568417201,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 37101792,
+      "step": 28620
+    },
+    {
+      "epoch": 1.3986514548164073,
+      "grad_norm": 0.0017786581302061677,
+      "learning_rate": 0.055993106795412625,
+      "loss": 0.092,
+      "num_input_tokens_seen": 37108096,
+      "step": 28625
+    },
+    {
+      "epoch": 1.3988957564801017,
+      "grad_norm": 0.0010716953547671437,
+      "learning_rate": 0.05594721240369759,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 37114272,
+      "step": 28630
+    },
+    {
+      "epoch": 1.399140058143796,
+      "grad_norm": 0.0010557550704106688,
+      "learning_rate": 0.055901332516104296,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 37120512,
+      "step": 28635
+    },
+    {
+      "epoch": 1.3993843598074902,
+      "grad_norm": 0.0010451392736285925,
+      "learning_rate": 0.05585546713970804,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 37126976,
+      "step": 28640
+    },
+    {
+      "epoch": 1.3996286614711846,
+      "grad_norm": 0.0006678850622847676,
+      "learning_rate": 0.05580961628158189,
+      "loss": 0.0915,
+      "num_input_tokens_seen": 37133408,
+      "step": 28645
+    },
+    {
+      "epoch": 1.399872963134879,
+      "grad_norm": 0.0015024661552160978,
+      "learning_rate": 0.05576377994879659,
+      "loss": 0.099,
+      "num_input_tokens_seen": 37139712,
+      "step": 28650
+    },
+    {
+      "epoch": 1.4001172647985733,
+      "grad_norm": 0.0017856163904070854,
+      "learning_rate": 0.05571795814842063,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 37146592,
+      "step": 28655
+    },
+    {
+      "epoch": 1.4003615664622675,
+      "grad_norm": 0.001268611871637404,
+      "learning_rate": 0.05567215088752037,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 37153568,
+      "step": 28660
+    },
+    {
+      "epoch": 1.4006058681259619,
+      "grad_norm": 0.000752299907617271,
+      "learning_rate": 0.05562635817315981,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 37160032,
+      "step": 28665
+    },
+    {
+      "epoch": 1.4008501697896563,
+      "grad_norm": 0.0011438884539529681,
+      "learning_rate": 0.05558058001240083,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 37166560,
+      "step": 28670
+    },
+    {
+      "epoch": 1.4010944714533506,
+      "grad_norm": 0.0019745659083127975,
+      "learning_rate": 0.055534816412302915,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 37172992,
+      "step": 28675
+    },
+    {
+      "epoch": 1.401338773117045,
+      "grad_norm": 0.0013442004565149546,
+      "learning_rate": 0.055489067379923436,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 37179264,
+      "step": 28680
+    },
+    {
+      "epoch": 1.4015830747807392,
+      "grad_norm": 0.0016694579971954226,
+      "learning_rate": 0.055443332922317505,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 37185856,
+      "step": 28685
+    },
+    {
+      "epoch": 1.4018273764444336,
+      "grad_norm": 0.001042093732394278,
+      "learning_rate": 0.055397613046537876,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 37192320,
+      "step": 28690
+    },
+    {
+      "epoch": 1.402071678108128,
+      "grad_norm": 0.0015084448968991637,
+      "learning_rate": 0.055351907759635145,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 37198944,
+      "step": 28695
+    },
+    {
+      "epoch": 1.4023159797718223,
+      "grad_norm": 0.0011908791493624449,
+      "learning_rate": 0.05530621706865772,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 37205344,
+      "step": 28700
+    },
+    {
+      "epoch": 1.4025602814355165,
+      "grad_norm": 0.0012428310001268983,
+      "learning_rate": 0.055260540980651564,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 37211488,
+      "step": 28705
+    },
+    {
+      "epoch": 1.4028045830992109,
+      "grad_norm": 0.001072256127372384,
+      "learning_rate": 0.05521487950266062,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 37217536,
+      "step": 28710
+    },
+    {
+      "epoch": 1.4030488847629052,
+      "grad_norm": 0.0026098231319338083,
+      "learning_rate": 0.055169232641726344,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 37223840,
+      "step": 28715
+    },
+    {
+      "epoch": 1.4032931864265996,
+      "grad_norm": 0.0016112910816445947,
+      "learning_rate": 0.055123600404888166,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 37229888,
+      "step": 28720
+    },
+    {
+      "epoch": 1.403537488090294,
+      "grad_norm": 0.0013774132821708918,
+      "learning_rate": 0.05507798279918309,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 37236896,
+      "step": 28725
+    },
+    {
+      "epoch": 1.4037817897539882,
+      "grad_norm": 0.0011911921901628375,
+      "learning_rate": 0.0550323798316459,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 37243488,
+      "step": 28730
+    },
+    {
+      "epoch": 1.4040260914176825,
+      "grad_norm": 0.0014912665355950594,
+      "learning_rate": 0.05498679150930916,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 37249952,
+      "step": 28735
+    },
+    {
+      "epoch": 1.404270393081377,
+      "grad_norm": 0.0010972392046824098,
+      "learning_rate": 0.05494121783920323,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 37256736,
+      "step": 28740
+    },
+    {
+      "epoch": 1.4045146947450713,
+      "grad_norm": 0.0011140031274408102,
+      "learning_rate": 0.05489565882835605,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 37263392,
+      "step": 28745
+    },
+    {
+      "epoch": 1.4047589964087654,
+      "grad_norm": 0.0007639821851626039,
+      "learning_rate": 0.05485011448379348,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 37269504,
+      "step": 28750
+    },
+    {
+      "epoch": 1.4050032980724598,
+      "grad_norm": 0.0007793261320330203,
+      "learning_rate": 0.05480458481253893,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 37276288,
+      "step": 28755
+    },
+    {
+      "epoch": 1.4052475997361542,
+      "grad_norm": 0.0008364845998585224,
+      "learning_rate": 0.054759069821613715,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 37282816,
+      "step": 28760
+    },
+    {
+      "epoch": 1.4054919013998486,
+      "grad_norm": 0.0010390597162768245,
+      "learning_rate": 0.05471356951803683,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 37289088,
+      "step": 28765
+    },
+    {
+      "epoch": 1.405736203063543,
+      "grad_norm": 0.0009602639474906027,
+      "learning_rate": 0.054668083908824945,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 37295200,
+      "step": 28770
+    },
+    {
+      "epoch": 1.4059805047272371,
+      "grad_norm": 0.0014077703235670924,
+      "learning_rate": 0.054622613000992526,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 37302016,
+      "step": 28775
+    },
+    {
+      "epoch": 1.4062248063909315,
+      "grad_norm": 0.0010705539025366306,
+      "learning_rate": 0.05457715680155182,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 37308224,
+      "step": 28780
+    },
+    {
+      "epoch": 1.4064691080546259,
+      "grad_norm": 0.0011465270072221756,
+      "learning_rate": 0.05453171531751265,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 37314528,
+      "step": 28785
+    },
+    {
+      "epoch": 1.4067134097183203,
+      "grad_norm": 0.0012098179431632161,
+      "learning_rate": 0.05448628855588276,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 37320704,
+      "step": 28790
+    },
+    {
+      "epoch": 1.4069577113820144,
+      "grad_norm": 0.001341120689176023,
+      "learning_rate": 0.05444087652366746,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 37326912,
+      "step": 28795
+    },
+    {
+      "epoch": 1.4072020130457088,
+      "grad_norm": 0.0012324274284765124,
+      "learning_rate": 0.05439547922786984,
+      "loss": 0.089,
+      "num_input_tokens_seen": 37333536,
+      "step": 28800
+    },
+    {
+      "epoch": 1.4072020130457088,
+      "eval_loss": 0.089190274477005,
+      "eval_runtime": 402.0917,
+      "eval_samples_per_second": 90.489,
+      "eval_steps_per_second": 22.624,
+      "num_input_tokens_seen": 37333536,
+      "step": 28800
+    },
+    {
+      "epoch": 1.4074463147094032,
+      "grad_norm": 0.0010906817624345422,
+      "learning_rate": 0.0543500966754908,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 37340160,
+      "step": 28805
+    },
+    {
+      "epoch": 1.4076906163730976,
+      "grad_norm": 0.0008607955533079803,
+      "learning_rate": 0.05430472887352882,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 37346720,
+      "step": 28810
+    },
+    {
+      "epoch": 1.407934918036792,
+      "grad_norm": 0.0015275586629286408,
+      "learning_rate": 0.05425937582898023,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 37353152,
+      "step": 28815
+    },
+    {
+      "epoch": 1.408179219700486,
+      "grad_norm": 0.0015214981976896524,
+      "learning_rate": 0.054214037548839085,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 37359232,
+      "step": 28820
+    },
+    {
+      "epoch": 1.4084235213641805,
+      "grad_norm": 0.0015678061172366142,
+      "learning_rate": 0.05416871404009703,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 37365984,
+      "step": 28825
+    },
+    {
+      "epoch": 1.4086678230278749,
+      "grad_norm": 0.000832896854262799,
+      "learning_rate": 0.054123405309743605,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 37372384,
+      "step": 28830
+    },
+    {
+      "epoch": 1.408912124691569,
+      "grad_norm": 0.00131369533482939,
+      "learning_rate": 0.0540781113647659,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 37378784,
+      "step": 28835
+    },
+    {
+      "epoch": 1.4091564263552634,
+      "grad_norm": 0.0014107676688581705,
+      "learning_rate": 0.054032832212148836,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 37385600,
+      "step": 28840
+    },
+    {
+      "epoch": 1.4094007280189578,
+      "grad_norm": 0.001004972611553967,
+      "learning_rate": 0.0539875678588751,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 37392032,
+      "step": 28845
+    },
+    {
+      "epoch": 1.4096450296826522,
+      "grad_norm": 0.003159239422529936,
+      "learning_rate": 0.05394231831192492,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 37398240,
+      "step": 28850
+    },
+    {
+      "epoch": 1.4098893313463465,
+      "grad_norm": 0.0010680241975933313,
+      "learning_rate": 0.05389708357827639,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 37404864,
+      "step": 28855
+    },
+    {
+      "epoch": 1.410133633010041,
+      "grad_norm": 0.0013616137439385056,
+      "learning_rate": 0.05385186366490533,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 37411776,
+      "step": 28860
+    },
+    {
+      "epoch": 1.410377934673735,
+      "grad_norm": 0.0017433097818866372,
+      "learning_rate": 0.053806658578785166,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 37418048,
+      "step": 28865
+    },
+    {
+      "epoch": 1.4106222363374294,
+      "grad_norm": 0.001431377255357802,
+      "learning_rate": 0.05376146832688705,
+      "loss": 0.063,
+      "num_input_tokens_seen": 37424384,
+      "step": 28870
+    },
+    {
+      "epoch": 1.4108665380011238,
+      "grad_norm": 0.0008817470516078174,
+      "learning_rate": 0.053716292916179964,
+      "loss": 0.074,
+      "num_input_tokens_seen": 37431104,
+      "step": 28875
+    },
+    {
+      "epoch": 1.411110839664818,
+      "grad_norm": 0.0013118985807523131,
+      "learning_rate": 0.05367113235363045,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 37437088,
+      "step": 28880
+    },
+    {
+      "epoch": 1.4113551413285124,
+      "grad_norm": 0.001891431980766356,
+      "learning_rate": 0.05362598664620289,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 37443488,
+      "step": 28885
+    },
+    {
+      "epoch": 1.4115994429922067,
+      "grad_norm": 0.0017933498602360487,
+      "learning_rate": 0.053580855800859285,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 37450176,
+      "step": 28890
+    },
+    {
+      "epoch": 1.4118437446559011,
+      "grad_norm": 0.0011845561675727367,
+      "learning_rate": 0.05353573982455938,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 37456864,
+      "step": 28895
+    },
+    {
+      "epoch": 1.4120880463195955,
+      "grad_norm": 0.0008771494030952454,
+      "learning_rate": 0.053490638724260686,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 37463232,
+      "step": 28900
+    },
+    {
+      "epoch": 1.4123323479832899,
+      "grad_norm": 0.0017830965807661414,
+      "learning_rate": 0.05344555250691827,
+      "loss": 0.096,
+      "num_input_tokens_seen": 37470016,
+      "step": 28905
+    },
+    {
+      "epoch": 1.412576649646984,
+      "grad_norm": 0.0009414932574145496,
+      "learning_rate": 0.053400481179485086,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 37476352,
+      "step": 28910
+    },
+    {
+      "epoch": 1.4128209513106784,
+      "grad_norm": 0.001001955708488822,
+      "learning_rate": 0.05335542474891159,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 37483136,
+      "step": 28915
+    },
+    {
+      "epoch": 1.4130652529743728,
+      "grad_norm": 0.0006363310967572033,
+      "learning_rate": 0.053310383222146124,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 37489440,
+      "step": 28920
+    },
+    {
+      "epoch": 1.413309554638067,
+      "grad_norm": 0.0008382493397220969,
+      "learning_rate": 0.053265356606134684,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 37496160,
+      "step": 28925
+    },
+    {
+      "epoch": 1.4135538563017613,
+      "grad_norm": 0.0017668287036940455,
+      "learning_rate": 0.053220344907820856,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 37502304,
+      "step": 28930
+    },
+    {
+      "epoch": 1.4137981579654557,
+      "grad_norm": 0.00193500192835927,
+      "learning_rate": 0.05317534813414608,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 37509248,
+      "step": 28935
+    },
+    {
+      "epoch": 1.41404245962915,
+      "grad_norm": 0.001387807191349566,
+      "learning_rate": 0.05313036629204942,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 37515392,
+      "step": 28940
+    },
+    {
+      "epoch": 1.4142867612928445,
+      "grad_norm": 0.0012462519807741046,
+      "learning_rate": 0.05308539938846756,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 37521824,
+      "step": 28945
+    },
+    {
+      "epoch": 1.4145310629565389,
+      "grad_norm": 0.001364604220725596,
+      "learning_rate": 0.05304044743033507,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 37528896,
+      "step": 28950
+    },
+    {
+      "epoch": 1.414775364620233,
+      "grad_norm": 0.001081672846339643,
+      "learning_rate": 0.05299551042458401,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 37534944,
+      "step": 28955
+    },
+    {
+      "epoch": 1.4150196662839274,
+      "grad_norm": 0.0012210081331431866,
+      "learning_rate": 0.052950588378144266,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 37541280,
+      "step": 28960
+    },
+    {
+      "epoch": 1.4152639679476218,
+      "grad_norm": 0.0011568287154659629,
+      "learning_rate": 0.052905681297943465,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 37548000,
+      "step": 28965
+    },
+    {
+      "epoch": 1.415508269611316,
+      "grad_norm": 0.0010846139630302787,
+      "learning_rate": 0.0528607891909067,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 37553984,
+      "step": 28970
+    },
+    {
+      "epoch": 1.4157525712750103,
+      "grad_norm": 0.0012585598742589355,
+      "learning_rate": 0.05281591206395697,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 37560288,
+      "step": 28975
+    },
+    {
+      "epoch": 1.4159968729387047,
+      "grad_norm": 0.002088769106194377,
+      "learning_rate": 0.05277104992401496,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 37567360,
+      "step": 28980
+    },
+    {
+      "epoch": 1.416241174602399,
+      "grad_norm": 0.0012534359702840447,
+      "learning_rate": 0.05272620277799884,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 37573696,
+      "step": 28985
+    },
+    {
+      "epoch": 1.4164854762660934,
+      "grad_norm": 0.003071385435760021,
+      "learning_rate": 0.05268137063282473,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 37580256,
+      "step": 28990
+    },
+    {
+      "epoch": 1.4167297779297878,
+      "grad_norm": 0.0008603695314377546,
+      "learning_rate": 0.0526365534954062,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 37586784,
+      "step": 28995
+    },
+    {
+      "epoch": 1.416974079593482,
+      "grad_norm": 0.001182161970064044,
+      "learning_rate": 0.052591751372654656,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 37593216,
+      "step": 29000
+    },
+    {
+      "epoch": 1.416974079593482,
+      "eval_loss": 0.09011533856391907,
+      "eval_runtime": 402.7839,
+      "eval_samples_per_second": 90.334,
+      "eval_steps_per_second": 22.585,
+      "num_input_tokens_seen": 37593216,
+      "step": 29000
+    },
+    {
+      "epoch": 1.4172183812571764,
+      "grad_norm": 0.0015873395605012774,
+      "learning_rate": 0.05254696427147921,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 37599232,
+      "step": 29005
+    },
+    {
+      "epoch": 1.4174626829208707,
+      "grad_norm": 0.0014863209798932076,
+      "learning_rate": 0.052502192198786546,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 37605504,
+      "step": 29010
+    },
+    {
+      "epoch": 1.417706984584565,
+      "grad_norm": 0.0014119843253865838,
+      "learning_rate": 0.05245743516148103,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 37612192,
+      "step": 29015
+    },
+    {
+      "epoch": 1.4179512862482593,
+      "grad_norm": 0.0007289907080121338,
+      "learning_rate": 0.05241269316646486,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 37618688,
+      "step": 29020
+    },
+    {
+      "epoch": 1.4181955879119537,
+      "grad_norm": 0.0014910363825038075,
+      "learning_rate": 0.052367966220637725,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 37625312,
+      "step": 29025
+    },
+    {
+      "epoch": 1.418439889575648,
+      "grad_norm": 0.0010491793509572744,
+      "learning_rate": 0.05232325433089716,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 37631328,
+      "step": 29030
+    },
+    {
+      "epoch": 1.4186841912393424,
+      "grad_norm": 0.0008000056259334087,
+      "learning_rate": 0.052278557504138214,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 37637536,
+      "step": 29035
+    },
+    {
+      "epoch": 1.4189284929030368,
+      "grad_norm": 0.0017371276626363397,
+      "learning_rate": 0.05223387574725372,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 37643584,
+      "step": 29040
+    },
+    {
+      "epoch": 1.419172794566731,
+      "grad_norm": 0.0012135491706430912,
+      "learning_rate": 0.05218920906713428,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 37649920,
+      "step": 29045
+    },
+    {
+      "epoch": 1.4194170962304253,
+      "grad_norm": 0.001636622822843492,
+      "learning_rate": 0.05214455747066789,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 37656672,
+      "step": 29050
+    },
+    {
+      "epoch": 1.4196613978941197,
+      "grad_norm": 0.001160430838353932,
+      "learning_rate": 0.05209992096474048,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 37663328,
+      "step": 29055
+    },
+    {
+      "epoch": 1.4199056995578139,
+      "grad_norm": 0.0009640877251513302,
+      "learning_rate": 0.05205529955623559,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 37669824,
+      "step": 29060
+    },
+    {
+      "epoch": 1.4201500012215083,
+      "grad_norm": 0.0017413304885849357,
+      "learning_rate": 0.052010693252034314,
+      "loss": 0.088,
+      "num_input_tokens_seen": 37675872,
+      "step": 29065
+    },
+    {
+      "epoch": 1.4203943028852026,
+      "grad_norm": 0.0006355468649417162,
+      "learning_rate": 0.0519661020590156,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 37682464,
+      "step": 29070
+    },
+    {
+      "epoch": 1.420638604548897,
+      "grad_norm": 0.0010838659945875406,
+      "learning_rate": 0.05192152598405586,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 37688800,
+      "step": 29075
+    },
+    {
+      "epoch": 1.4208829062125914,
+      "grad_norm": 0.0013871613191440701,
+      "learning_rate": 0.05187696503402941,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 37695936,
+      "step": 29080
+    },
+    {
+      "epoch": 1.4211272078762858,
+      "grad_norm": 0.0008756861207075417,
+      "learning_rate": 0.05183241921580798,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 37702560,
+      "step": 29085
+    },
+    {
+      "epoch": 1.42137150953998,
+      "grad_norm": 0.0015643289079889655,
+      "learning_rate": 0.051787888536261206,
+      "loss": 0.09,
+      "num_input_tokens_seen": 37708960,
+      "step": 29090
+    },
+    {
+      "epoch": 1.4216158112036743,
+      "grad_norm": 0.0008652537944726646,
+      "learning_rate": 0.051743373002256184,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 37715712,
+      "step": 29095
+    },
+    {
+      "epoch": 1.4218601128673687,
+      "grad_norm": 0.0009192412253469229,
+      "learning_rate": 0.05169887262065787,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 37722208,
+      "step": 29100
+    },
+    {
+      "epoch": 1.4221044145310628,
+      "grad_norm": 0.0013153868494555354,
+      "learning_rate": 0.051654387398328665,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 37728640,
+      "step": 29105
+    },
+    {
+      "epoch": 1.4223487161947572,
+      "grad_norm": 0.0010991364251822233,
+      "learning_rate": 0.05160991734212888,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 37735008,
+      "step": 29110
+    },
+    {
+      "epoch": 1.4225930178584516,
+      "grad_norm": 0.0009213042794726789,
+      "learning_rate": 0.051565462458916224,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 37741216,
+      "step": 29115
+    },
+    {
+      "epoch": 1.422837319522146,
+      "grad_norm": 0.0009734188788570464,
+      "learning_rate": 0.05152102275554627,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 37747648,
+      "step": 29120
+    },
+    {
+      "epoch": 1.4230816211858404,
+      "grad_norm": 0.001353623578324914,
+      "learning_rate": 0.05147659823887222,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 37754240,
+      "step": 29125
+    },
+    {
+      "epoch": 1.4233259228495347,
+      "grad_norm": 0.0012764108832925558,
+      "learning_rate": 0.05143218891574479,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 37760640,
+      "step": 29130
+    },
+    {
+      "epoch": 1.423570224513229,
+      "grad_norm": 0.0013018515892326832,
+      "learning_rate": 0.0513877947930125,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 37767200,
+      "step": 29135
+    },
+    {
+      "epoch": 1.4238145261769233,
+      "grad_norm": 0.0016073302831500769,
+      "learning_rate": 0.051343415877521566,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 37773376,
+      "step": 29140
+    },
+    {
+      "epoch": 1.4240588278406177,
+      "grad_norm": 0.0014255531132221222,
+      "learning_rate": 0.051299052176115634,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 37780320,
+      "step": 29145
+    },
+    {
+      "epoch": 1.4243031295043118,
+      "grad_norm": 0.0010886286618188024,
+      "learning_rate": 0.051254703695636256,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 37787200,
+      "step": 29150
+    },
+    {
+      "epoch": 1.4245474311680062,
+      "grad_norm": 0.0008470896864309907,
+      "learning_rate": 0.05121037044292249,
+      "loss": 0.093,
+      "num_input_tokens_seen": 37793856,
+      "step": 29155
+    },
+    {
+      "epoch": 1.4247917328317006,
+      "grad_norm": 0.0011618374846875668,
+      "learning_rate": 0.05116605242481101,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 37799840,
+      "step": 29160
+    },
+    {
+      "epoch": 1.425036034495395,
+      "grad_norm": 0.0011980005074292421,
+      "learning_rate": 0.05112174964813634,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 37806304,
+      "step": 29165
+    },
+    {
+      "epoch": 1.4252803361590893,
+      "grad_norm": 0.0012856371467933059,
+      "learning_rate": 0.05107746211973038,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 37812576,
+      "step": 29170
+    },
+    {
+      "epoch": 1.4255246378227835,
+      "grad_norm": 0.0011582098668441176,
+      "learning_rate": 0.05103318984642291,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 37819296,
+      "step": 29175
+    },
+    {
+      "epoch": 1.4257689394864779,
+      "grad_norm": 0.0014885020209476352,
+      "learning_rate": 0.05098893283504131,
+      "loss": 0.063,
+      "num_input_tokens_seen": 37825504,
+      "step": 29180
+    },
+    {
+      "epoch": 1.4260132411501723,
+      "grad_norm": 0.0016818542499095201,
+      "learning_rate": 0.050944691092410475,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 37831808,
+      "step": 29185
+    },
+    {
+      "epoch": 1.4262575428138666,
+      "grad_norm": 0.001049654558300972,
+      "learning_rate": 0.05090046462535313,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 37838144,
+      "step": 29190
+    },
+    {
+      "epoch": 1.4265018444775608,
+      "grad_norm": 0.0013904717052355409,
+      "learning_rate": 0.050856253440689454,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 37844384,
+      "step": 29195
+    },
+    {
+      "epoch": 1.4267461461412552,
+      "grad_norm": 0.0011136592365801334,
+      "learning_rate": 0.050812057545237405,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 37850816,
+      "step": 29200
+    },
+    {
+      "epoch": 1.4267461461412552,
+      "eval_loss": 0.08789268136024475,
+      "eval_runtime": 402.2948,
+      "eval_samples_per_second": 90.444,
+      "eval_steps_per_second": 22.613,
+      "num_input_tokens_seen": 37850816,
+      "step": 29200
+    },
+    {
+      "epoch": 1.4269904478049495,
+      "grad_norm": 0.0008230743114836514,
+      "learning_rate": 0.0507678769458126,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 37857184,
+      "step": 29205
+    },
+    {
+      "epoch": 1.427234749468644,
+      "grad_norm": 0.0009686574339866638,
+      "learning_rate": 0.050723711649228155,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 37863520,
+      "step": 29210
+    },
+    {
+      "epoch": 1.4274790511323383,
+      "grad_norm": 0.001553932554088533,
+      "learning_rate": 0.05067956166229496,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 37869536,
+      "step": 29215
+    },
+    {
+      "epoch": 1.4277233527960325,
+      "grad_norm": 0.0014272663975134492,
+      "learning_rate": 0.05063542699182155,
+      "loss": 0.0584,
+      "num_input_tokens_seen": 37875936,
+      "step": 29220
+    },
+    {
+      "epoch": 1.4279676544597268,
+      "grad_norm": 0.0019744429737329483,
+      "learning_rate": 0.050591307644613996,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 37882880,
+      "step": 29225
+    },
+    {
+      "epoch": 1.4282119561234212,
+      "grad_norm": 0.002485546749085188,
+      "learning_rate": 0.05054720362747599,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 37889440,
+      "step": 29230
+    },
+    {
+      "epoch": 1.4284562577871156,
+      "grad_norm": 0.001700089080259204,
+      "learning_rate": 0.050503114947209035,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 37895936,
+      "step": 29235
+    },
+    {
+      "epoch": 1.4287005594508098,
+      "grad_norm": 0.0013177086366340518,
+      "learning_rate": 0.05045904161061207,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 37902752,
+      "step": 29240
+    },
+    {
+      "epoch": 1.4289448611145041,
+      "grad_norm": 0.0018559419550001621,
+      "learning_rate": 0.05041498362448185,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 37909376,
+      "step": 29245
+    },
+    {
+      "epoch": 1.4291891627781985,
+      "grad_norm": 0.001065060612745583,
+      "learning_rate": 0.05037094099561256,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 37915904,
+      "step": 29250
+    },
+    {
+      "epoch": 1.429433464441893,
+      "grad_norm": 0.002471179934218526,
+      "learning_rate": 0.05032691373079624,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 37922784,
+      "step": 29255
+    },
+    {
+      "epoch": 1.4296777661055873,
+      "grad_norm": 0.001213450450450182,
+      "learning_rate": 0.05028290183682234,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 37928960,
+      "step": 29260
+    },
+    {
+      "epoch": 1.4299220677692814,
+      "grad_norm": 0.0017120590200647712,
+      "learning_rate": 0.050238905320478096,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 37935776,
+      "step": 29265
+    },
+    {
+      "epoch": 1.4301663694329758,
+      "grad_norm": 0.0016711890930309892,
+      "learning_rate": 0.05019492418854838,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 37941920,
+      "step": 29270
+    },
+    {
+      "epoch": 1.4304106710966702,
+      "grad_norm": 0.0012134760618209839,
+      "learning_rate": 0.05015095844781554,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 37948736,
+      "step": 29275
+    },
+    {
+      "epoch": 1.4306549727603646,
+      "grad_norm": 0.0017868392169475555,
+      "learning_rate": 0.05010700810505968,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 37954816,
+      "step": 29280
+    },
+    {
+      "epoch": 1.4308992744240587,
+      "grad_norm": 0.0007005748921073973,
+      "learning_rate": 0.05006307316705856,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 37961536,
+      "step": 29285
+    },
+    {
+      "epoch": 1.431143576087753,
+      "grad_norm": 0.0014874041080474854,
+      "learning_rate": 0.0500191536405874,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 37967968,
+      "step": 29290
+    },
+    {
+      "epoch": 1.4313878777514475,
+      "grad_norm": 0.0008234120323322713,
+      "learning_rate": 0.04997524953241922,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 37974624,
+      "step": 29295
+    },
+    {
+      "epoch": 1.4316321794151419,
+      "grad_norm": 0.0012747971341013908,
+      "learning_rate": 0.049931360849324556,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 37980576,
+      "step": 29300
+    },
+    {
+      "epoch": 1.4318764810788362,
+      "grad_norm": 0.002228298457339406,
+      "learning_rate": 0.04988748759807155,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 37987136,
+      "step": 29305
+    },
+    {
+      "epoch": 1.4321207827425304,
+      "grad_norm": 0.002180425450205803,
+      "learning_rate": 0.0498436297854261,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 37993344,
+      "step": 29310
+    },
+    {
+      "epoch": 1.4323650844062248,
+      "grad_norm": 0.001184134162031114,
+      "learning_rate": 0.04979978741815152,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 38000000,
+      "step": 29315
+    },
+    {
+      "epoch": 1.4326093860699192,
+      "grad_norm": 0.001642123213969171,
+      "learning_rate": 0.04975596050300891,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 38006464,
+      "step": 29320
+    },
+    {
+      "epoch": 1.4328536877336135,
+      "grad_norm": 0.0014475476928055286,
+      "learning_rate": 0.049712149046757005,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 38012768,
+      "step": 29325
+    },
+    {
+      "epoch": 1.4330979893973077,
+      "grad_norm": 0.0010778657160699368,
+      "learning_rate": 0.04966835305615194,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 38019136,
+      "step": 29330
+    },
+    {
+      "epoch": 1.433342291061002,
+      "grad_norm": 0.0014726684894412756,
+      "learning_rate": 0.049624572537947755,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 38025696,
+      "step": 29335
+    },
+    {
+      "epoch": 1.4335865927246965,
+      "grad_norm": 0.0017015283228829503,
+      "learning_rate": 0.04958080749889582,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 38032192,
+      "step": 29340
+    },
+    {
+      "epoch": 1.4338308943883908,
+      "grad_norm": 0.0008359932107850909,
+      "learning_rate": 0.049537057945745304,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 38038816,
+      "step": 29345
+    },
+    {
+      "epoch": 1.4340751960520852,
+      "grad_norm": 0.00128098763525486,
+      "learning_rate": 0.049493323885243,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 38045216,
+      "step": 29350
+    },
+    {
+      "epoch": 1.4343194977157794,
+      "grad_norm": 0.0010825099889189005,
+      "learning_rate": 0.04944960532413318,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 38051584,
+      "step": 29355
+    },
+    {
+      "epoch": 1.4345637993794738,
+      "grad_norm": 0.0015671361470595002,
+      "learning_rate": 0.049405902269157774,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 38058080,
+      "step": 29360
+    },
+    {
+      "epoch": 1.4348081010431681,
+      "grad_norm": 0.0008425941341556609,
+      "learning_rate": 0.04936221472705646,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 38066112,
+      "step": 29365
+    },
+    {
+      "epoch": 1.4350524027068623,
+      "grad_norm": 0.0012435941025614738,
+      "learning_rate": 0.04931854270456632,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 38072416,
+      "step": 29370
+    },
+    {
+      "epoch": 1.4352967043705567,
+      "grad_norm": 0.0018774218624457717,
+      "learning_rate": 0.049274886208422075,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 38079104,
+      "step": 29375
+    },
+    {
+      "epoch": 1.435541006034251,
+      "grad_norm": 0.000992129324004054,
+      "learning_rate": 0.049231245245356235,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 38085568,
+      "step": 29380
+    },
+    {
+      "epoch": 1.4357853076979454,
+      "grad_norm": 0.0012053243117406964,
+      "learning_rate": 0.049187619822098655,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 38091904,
+      "step": 29385
+    },
+    {
+      "epoch": 1.4360296093616398,
+      "grad_norm": 0.0017044511623680592,
+      "learning_rate": 0.04914400994537705,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 38098624,
+      "step": 29390
+    },
+    {
+      "epoch": 1.4362739110253342,
+      "grad_norm": 0.0017142101423814893,
+      "learning_rate": 0.049100415621916485,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 38104896,
+      "step": 29395
+    },
+    {
+      "epoch": 1.4365182126890284,
+      "grad_norm": 0.001973492093384266,
+      "learning_rate": 0.04905683685843981,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 38111232,
+      "step": 29400
+    },
+    {
+      "epoch": 1.4365182126890284,
+      "eval_loss": 0.08719221502542496,
+      "eval_runtime": 402.3968,
+      "eval_samples_per_second": 90.421,
+      "eval_steps_per_second": 22.607,
+      "num_input_tokens_seen": 38111232,
+      "step": 29400
+    },
+    {
+      "epoch": 1.4367625143527227,
+      "grad_norm": 0.000654537754599005,
+      "learning_rate": 0.049013273661667495,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 38117632,
+      "step": 29405
+    },
+    {
+      "epoch": 1.437006816016417,
+      "grad_norm": 0.001384738483466208,
+      "learning_rate": 0.048969726038317396,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 38124544,
+      "step": 29410
+    },
+    {
+      "epoch": 1.4372511176801113,
+      "grad_norm": 0.0010680003324523568,
+      "learning_rate": 0.048926193995105206,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 38130400,
+      "step": 29415
+    },
+    {
+      "epoch": 1.4374954193438056,
+      "grad_norm": 0.0012797893723472953,
+      "learning_rate": 0.048882677538744035,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 38136704,
+      "step": 29420
+    },
+    {
+      "epoch": 1.4377397210075,
+      "grad_norm": 0.00095588737167418,
+      "learning_rate": 0.048839176675944715,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 38143488,
+      "step": 29425
+    },
+    {
+      "epoch": 1.4379840226711944,
+      "grad_norm": 0.0015259679639711976,
+      "learning_rate": 0.04879569141341566,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 38149856,
+      "step": 29430
+    },
+    {
+      "epoch": 1.4382283243348888,
+      "grad_norm": 0.0011113915825262666,
+      "learning_rate": 0.04875222175786274,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 38156000,
+      "step": 29435
+    },
+    {
+      "epoch": 1.4384726259985832,
+      "grad_norm": 0.0018464884487912059,
+      "learning_rate": 0.04870876771598966,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 38162656,
+      "step": 29440
+    },
+    {
+      "epoch": 1.4387169276622773,
+      "grad_norm": 0.0008861309033818543,
+      "learning_rate": 0.04866532929449744,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 38170016,
+      "step": 29445
+    },
+    {
+      "epoch": 1.4389612293259717,
+      "grad_norm": 0.0015494243707507849,
+      "learning_rate": 0.048621906500084945,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 38176448,
+      "step": 29450
+    },
+    {
+      "epoch": 1.439205530989666,
+      "grad_norm": 0.0015705206897109747,
+      "learning_rate": 0.04857849933944845,
+      "loss": 0.096,
+      "num_input_tokens_seen": 38182560,
+      "step": 29455
+    },
+    {
+      "epoch": 1.4394498326533602,
+      "grad_norm": 0.0021756382193416357,
+      "learning_rate": 0.048535107819281866,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 38189344,
+      "step": 29460
+    },
+    {
+      "epoch": 1.4396941343170546,
+      "grad_norm": 0.0008074399665929377,
+      "learning_rate": 0.04849173194627675,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 38196032,
+      "step": 29465
+    },
+    {
+      "epoch": 1.439938435980749,
+      "grad_norm": 0.0014314927393570542,
+      "learning_rate": 0.04844837172712223,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 38202752,
+      "step": 29470
+    },
+    {
+      "epoch": 1.4401827376444434,
+      "grad_norm": 0.0016502897487953305,
+      "learning_rate": 0.04840502716850494,
+      "loss": 0.077,
+      "num_input_tokens_seen": 38209376,
+      "step": 29475
+    },
+    {
+      "epoch": 1.4404270393081378,
+      "grad_norm": 0.0015628064284101129,
+      "learning_rate": 0.04836169827710916,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 38215584,
+      "step": 29480
+    },
+    {
+      "epoch": 1.4406713409718321,
+      "grad_norm": 0.0016271424246951938,
+      "learning_rate": 0.04831838505961684,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 38222048,
+      "step": 29485
+    },
+    {
+      "epoch": 1.4409156426355263,
+      "grad_norm": 0.0009120592148974538,
+      "learning_rate": 0.048275087522707295,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 38228800,
+      "step": 29490
+    },
+    {
+      "epoch": 1.4411599442992207,
+      "grad_norm": 0.0008434168412350118,
+      "learning_rate": 0.04823180567305766,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 38235840,
+      "step": 29495
+    },
+    {
+      "epoch": 1.441404245962915,
+      "grad_norm": 0.00199145614169538,
+      "learning_rate": 0.04818853951734244,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 38242400,
+      "step": 29500
+    },
+    {
+      "epoch": 1.4416485476266092,
+      "grad_norm": 0.0017326996894553304,
+      "learning_rate": 0.04814528906223387,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 38248352,
+      "step": 29505
+    },
+    {
+      "epoch": 1.4418928492903036,
+      "grad_norm": 0.0012503588804975152,
+      "learning_rate": 0.04810205431440177,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 38254496,
+      "step": 29510
+    },
+    {
+      "epoch": 1.442137150953998,
+      "grad_norm": 0.000965778308454901,
+      "learning_rate": 0.04805883528051341,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 38260768,
+      "step": 29515
+    },
+    {
+      "epoch": 1.4423814526176924,
+      "grad_norm": 0.0007693669758737087,
+      "learning_rate": 0.048015631967233685,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 38267456,
+      "step": 29520
+    },
+    {
+      "epoch": 1.4426257542813867,
+      "grad_norm": 0.0015777373919263482,
+      "learning_rate": 0.04797244438122517,
+      "loss": 0.1203,
+      "num_input_tokens_seen": 38273856,
+      "step": 29525
+    },
+    {
+      "epoch": 1.442870055945081,
+      "grad_norm": 0.0011354215675964952,
+      "learning_rate": 0.04792927252914784,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 38280224,
+      "step": 29530
+    },
+    {
+      "epoch": 1.4431143576087753,
+      "grad_norm": 0.0013238011160865426,
+      "learning_rate": 0.04788611641765944,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 38286432,
+      "step": 29535
+    },
+    {
+      "epoch": 1.4433586592724696,
+      "grad_norm": 0.0010105998953804374,
+      "learning_rate": 0.04784297605341508,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 38293248,
+      "step": 29540
+    },
+    {
+      "epoch": 1.443602960936164,
+      "grad_norm": 0.001359340501949191,
+      "learning_rate": 0.04779985144306761,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 38299520,
+      "step": 29545
+    },
+    {
+      "epoch": 1.4438472625998582,
+      "grad_norm": 0.0009825152810662985,
+      "learning_rate": 0.047756742593267405,
+      "loss": 0.089,
+      "num_input_tokens_seen": 38305728,
+      "step": 29550
+    },
+    {
+      "epoch": 1.4440915642635526,
+      "grad_norm": 0.0011040950194001198,
+      "learning_rate": 0.047713649510662315,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 38312544,
+      "step": 29555
+    },
+    {
+      "epoch": 1.444335865927247,
+      "grad_norm": 0.0006762828561477363,
+      "learning_rate": 0.04767057220189789,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 38318432,
+      "step": 29560
+    },
+    {
+      "epoch": 1.4445801675909413,
+      "grad_norm": 0.0009768622694537044,
+      "learning_rate": 0.04762751067361722,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 38324896,
+      "step": 29565
+    },
+    {
+      "epoch": 1.4448244692546357,
+      "grad_norm": 0.0013375330017879605,
+      "learning_rate": 0.04758446493246086,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 38331360,
+      "step": 29570
+    },
+    {
+      "epoch": 1.44506877091833,
+      "grad_norm": 0.0019676857627928257,
+      "learning_rate": 0.047541434985067084,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 38337216,
+      "step": 29575
+    },
+    {
+      "epoch": 1.4453130725820242,
+      "grad_norm": 0.0011283357162028551,
+      "learning_rate": 0.047498420838071556,
+      "loss": 0.0499,
+      "num_input_tokens_seen": 38343680,
+      "step": 29580
+    },
+    {
+      "epoch": 1.4455573742457186,
+      "grad_norm": 0.001984336879104376,
+      "learning_rate": 0.04745542249810772,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 38350176,
+      "step": 29585
+    },
+    {
+      "epoch": 1.445801675909413,
+      "grad_norm": 0.0014612541999667883,
+      "learning_rate": 0.047412439971806324,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 38356512,
+      "step": 29590
+    },
+    {
+      "epoch": 1.4460459775731072,
+      "grad_norm": 0.0018713921308517456,
+      "learning_rate": 0.04736947326579592,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 38362944,
+      "step": 29595
+    },
+    {
+      "epoch": 1.4462902792368015,
+      "grad_norm": 0.001011454383842647,
+      "learning_rate": 0.04732652238670245,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 38370144,
+      "step": 29600
+    },
+    {
+      "epoch": 1.4462902792368015,
+      "eval_loss": 0.0867699384689331,
+      "eval_runtime": 402.3036,
+      "eval_samples_per_second": 90.442,
+      "eval_steps_per_second": 22.612,
+      "num_input_tokens_seen": 38370144,
+      "step": 29600
+    },
+    {
+      "epoch": 1.446534580900496,
+      "grad_norm": 0.0016825450584292412,
+      "learning_rate": 0.04728358734114952,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 38376416,
+      "step": 29605
+    },
+    {
+      "epoch": 1.4467788825641903,
+      "grad_norm": 0.0032600299455225468,
+      "learning_rate": 0.04724066813575821,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 38382976,
+      "step": 29610
+    },
+    {
+      "epoch": 1.4470231842278847,
+      "grad_norm": 0.0014635034603998065,
+      "learning_rate": 0.04719776477714729,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 38389472,
+      "step": 29615
+    },
+    {
+      "epoch": 1.447267485891579,
+      "grad_norm": 0.0005662399344146252,
+      "learning_rate": 0.047154877271932856,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 38396640,
+      "step": 29620
+    },
+    {
+      "epoch": 1.4475117875552732,
+      "grad_norm": 0.0020705279894173145,
+      "learning_rate": 0.0471120056267288,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 38403360,
+      "step": 29625
+    },
+    {
+      "epoch": 1.4477560892189676,
+      "grad_norm": 0.0017746041994541883,
+      "learning_rate": 0.047069149848146495,
+      "loss": 0.1483,
+      "num_input_tokens_seen": 38409504,
+      "step": 29630
+    },
+    {
+      "epoch": 1.448000390882662,
+      "grad_norm": 0.0006633977172896266,
+      "learning_rate": 0.04702630994279473,
+      "loss": 0.065,
+      "num_input_tokens_seen": 38415872,
+      "step": 29635
+    },
+    {
+      "epoch": 1.4482446925463561,
+      "grad_norm": 0.0014810521388426423,
+      "learning_rate": 0.046983485917280035,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 38422304,
+      "step": 29640
+    },
+    {
+      "epoch": 1.4484889942100505,
+      "grad_norm": 0.0010765662882477045,
+      "learning_rate": 0.04694067777820644,
+      "loss": 0.089,
+      "num_input_tokens_seen": 38428672,
+      "step": 29645
+    },
+    {
+      "epoch": 1.4487332958737449,
+      "grad_norm": 0.0012070094235241413,
+      "learning_rate": 0.046897885532175415,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 38434784,
+      "step": 29650
+    },
+    {
+      "epoch": 1.4489775975374393,
+      "grad_norm": 0.0016397691797465086,
+      "learning_rate": 0.04685510918578613,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 38441152,
+      "step": 29655
+    },
+    {
+      "epoch": 1.4492218992011336,
+      "grad_norm": 0.0014293675776571035,
+      "learning_rate": 0.04681234874563519,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 38447872,
+      "step": 29660
+    },
+    {
+      "epoch": 1.449466200864828,
+      "grad_norm": 0.0015556605067104101,
+      "learning_rate": 0.046769604218316836,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 38454208,
+      "step": 29665
+    },
+    {
+      "epoch": 1.4497105025285222,
+      "grad_norm": 0.0008524667355231941,
+      "learning_rate": 0.04672687561042279,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 38460640,
+      "step": 29670
+    },
+    {
+      "epoch": 1.4499548041922166,
+      "grad_norm": 0.0014398577623069286,
+      "learning_rate": 0.046684162928542286,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 38467136,
+      "step": 29675
+    },
+    {
+      "epoch": 1.450199105855911,
+      "grad_norm": 0.0012009660713374615,
+      "learning_rate": 0.04664146617926222,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 38473088,
+      "step": 29680
+    },
+    {
+      "epoch": 1.450443407519605,
+      "grad_norm": 0.0020474004559218884,
+      "learning_rate": 0.046598785369167,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 38479488,
+      "step": 29685
+    },
+    {
+      "epoch": 1.4506877091832995,
+      "grad_norm": 0.0006749614840373397,
+      "learning_rate": 0.046556120504838434,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 38485408,
+      "step": 29690
+    },
+    {
+      "epoch": 1.4509320108469939,
+      "grad_norm": 0.0008138761622831225,
+      "learning_rate": 0.04651347159285609,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 38491872,
+      "step": 29695
+    },
+    {
+      "epoch": 1.4511763125106882,
+      "grad_norm": 0.0012180559569969773,
+      "learning_rate": 0.04647083863979688,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 38498240,
+      "step": 29700
+    },
+    {
+      "epoch": 1.4514206141743826,
+      "grad_norm": 0.0014913418563082814,
+      "learning_rate": 0.04642822165223538,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 38504608,
+      "step": 29705
+    },
+    {
+      "epoch": 1.4516649158380768,
+      "grad_norm": 0.002043945947661996,
+      "learning_rate": 0.046385620636743716,
+      "loss": 0.068,
+      "num_input_tokens_seen": 38511424,
+      "step": 29710
+    },
+    {
+      "epoch": 1.4519092175017712,
+      "grad_norm": 0.0019441512413322926,
+      "learning_rate": 0.04634303559989141,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 38517984,
+      "step": 29715
+    },
+    {
+      "epoch": 1.4521535191654655,
+      "grad_norm": 0.0011486455332487822,
+      "learning_rate": 0.046300466548245635,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 38524736,
+      "step": 29720
+    },
+    {
+      "epoch": 1.45239782082916,
+      "grad_norm": 0.001974159851670265,
+      "learning_rate": 0.04625791348837114,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 38531104,
+      "step": 29725
+    },
+    {
+      "epoch": 1.452642122492854,
+      "grad_norm": 0.0010142559185624123,
+      "learning_rate": 0.046215376426830095,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 38538176,
+      "step": 29730
+    },
+    {
+      "epoch": 1.4528864241565485,
+      "grad_norm": 0.001384071889333427,
+      "learning_rate": 0.04617285537018219,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 38544800,
+      "step": 29735
+    },
+    {
+      "epoch": 1.4531307258202428,
+      "grad_norm": 0.0011309218825772405,
+      "learning_rate": 0.046130350324984803,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 38551104,
+      "step": 29740
+    },
+    {
+      "epoch": 1.4533750274839372,
+      "grad_norm": 0.001394416205585003,
+      "learning_rate": 0.046087861297792666,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 38557664,
+      "step": 29745
+    },
+    {
+      "epoch": 1.4536193291476316,
+      "grad_norm": 0.0015047957422211766,
+      "learning_rate": 0.0460453882951582,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 38564352,
+      "step": 29750
+    },
+    {
+      "epoch": 1.4538636308113257,
+      "grad_norm": 0.00047319341683760285,
+      "learning_rate": 0.04600293132363119,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 38570688,
+      "step": 29755
+    },
+    {
+      "epoch": 1.4541079324750201,
+      "grad_norm": 0.000869444222189486,
+      "learning_rate": 0.045960490389759086,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 38577152,
+      "step": 29760
+    },
+    {
+      "epoch": 1.4543522341387145,
+      "grad_norm": 0.0011641106102615595,
+      "learning_rate": 0.04591806550008685,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 38583520,
+      "step": 29765
+    },
+    {
+      "epoch": 1.4545965358024089,
+      "grad_norm": 0.0010404819622635841,
+      "learning_rate": 0.045875656661156825,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 38589664,
+      "step": 29770
+    },
+    {
+      "epoch": 1.454840837466103,
+      "grad_norm": 0.0010679586557671428,
+      "learning_rate": 0.04583326387950911,
+      "loss": 0.062,
+      "num_input_tokens_seen": 38596064,
+      "step": 29775
+    },
+    {
+      "epoch": 1.4550851391297974,
+      "grad_norm": 0.0010912488214671612,
+      "learning_rate": 0.0457908871616811,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 38602208,
+      "step": 29780
+    },
+    {
+      "epoch": 1.4553294407934918,
+      "grad_norm": 0.0009829581249505281,
+      "learning_rate": 0.04574852651420786,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 38609024,
+      "step": 29785
+    },
+    {
+      "epoch": 1.4555737424571862,
+      "grad_norm": 0.0009076777496375144,
+      "learning_rate": 0.045706181943621985,
+      "loss": 0.077,
+      "num_input_tokens_seen": 38615552,
+      "step": 29790
+    },
+    {
+      "epoch": 1.4558180441208806,
+      "grad_norm": 0.001412243815138936,
+      "learning_rate": 0.04566385345645344,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 38622016,
+      "step": 29795
+    },
+    {
+      "epoch": 1.4560623457845747,
+      "grad_norm": 0.0008106122259050608,
+      "learning_rate": 0.04562154105922993,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 38629280,
+      "step": 29800
+    },
+    {
+      "epoch": 1.4560623457845747,
+      "eval_loss": 0.08773259818553925,
+      "eval_runtime": 403.1738,
+      "eval_samples_per_second": 90.246,
+      "eval_steps_per_second": 22.563,
+      "num_input_tokens_seen": 38629280,
+      "step": 29800
+    },
+    {
+      "epoch": 1.456306647448269,
+      "grad_norm": 0.0010640136897563934,
+      "learning_rate": 0.04557924475847642,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 38635424,
+      "step": 29805
+    },
+    {
+      "epoch": 1.4565509491119635,
+      "grad_norm": 0.0011872017057612538,
+      "learning_rate": 0.04553696456071567,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 38642112,
+      "step": 29810
+    },
+    {
+      "epoch": 1.4567952507756579,
+      "grad_norm": 0.0014303760835900903,
+      "learning_rate": 0.045494700472467724,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 38648736,
+      "step": 29815
+    },
+    {
+      "epoch": 1.457039552439352,
+      "grad_norm": 0.0007820355240255594,
+      "learning_rate": 0.04545245250025024,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 38655104,
+      "step": 29820
+    },
+    {
+      "epoch": 1.4572838541030464,
+      "grad_norm": 0.001150690601207316,
+      "learning_rate": 0.045410220650578384,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 38661600,
+      "step": 29825
+    },
+    {
+      "epoch": 1.4575281557667408,
+      "grad_norm": 0.0024228913243860006,
+      "learning_rate": 0.04536800492996492,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 38668288,
+      "step": 29830
+    },
+    {
+      "epoch": 1.4577724574304352,
+      "grad_norm": 0.0012293003965169191,
+      "learning_rate": 0.04532580534491994,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 38674560,
+      "step": 29835
+    },
+    {
+      "epoch": 1.4580167590941295,
+      "grad_norm": 0.0004959730431437492,
+      "learning_rate": 0.045283621901951183,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 38680864,
+      "step": 29840
+    },
+    {
+      "epoch": 1.4582610607578237,
+      "grad_norm": 0.0009279833757318556,
+      "learning_rate": 0.04524145460756393,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 38687232,
+      "step": 29845
+    },
+    {
+      "epoch": 1.458505362421518,
+      "grad_norm": 0.000873971323017031,
+      "learning_rate": 0.045199303468260794,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 38693728,
+      "step": 29850
+    },
+    {
+      "epoch": 1.4587496640852124,
+      "grad_norm": 0.0014577812980860472,
+      "learning_rate": 0.04515716849054214,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 38700256,
+      "step": 29855
+    },
+    {
+      "epoch": 1.4589939657489068,
+      "grad_norm": 0.0014761548954993486,
+      "learning_rate": 0.04511504968090558,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 38707296,
+      "step": 29860
+    },
+    {
+      "epoch": 1.459238267412601,
+      "grad_norm": 0.0008834156324155629,
+      "learning_rate": 0.04507294704584644,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 38713696,
+      "step": 29865
+    },
+    {
+      "epoch": 1.4594825690762954,
+      "grad_norm": 0.001405772753059864,
+      "learning_rate": 0.04503086059185749,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 38720352,
+      "step": 29870
+    },
+    {
+      "epoch": 1.4597268707399897,
+      "grad_norm": 0.0009643799858167768,
+      "learning_rate": 0.04498879032542893,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 38727136,
+      "step": 29875
+    },
+    {
+      "epoch": 1.4599711724036841,
+      "grad_norm": 0.0027673363219946623,
+      "learning_rate": 0.0449467362530486,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 38733536,
+      "step": 29880
+    },
+    {
+      "epoch": 1.4602154740673785,
+      "grad_norm": 0.0013659677933901548,
+      "learning_rate": 0.04490469838120171,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 38740064,
+      "step": 29885
+    },
+    {
+      "epoch": 1.4604597757310727,
+      "grad_norm": 0.0013575275661423802,
+      "learning_rate": 0.04486267671637101,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 38746304,
+      "step": 29890
+    },
+    {
+      "epoch": 1.460704077394767,
+      "grad_norm": 0.0012671771692112088,
+      "learning_rate": 0.04482067126503683,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 38752992,
+      "step": 29895
+    },
+    {
+      "epoch": 1.4609483790584614,
+      "grad_norm": 0.0017992028733715415,
+      "learning_rate": 0.04477868203367687,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 38759520,
+      "step": 29900
+    },
+    {
+      "epoch": 1.4611926807221558,
+      "grad_norm": 0.0029919343069195747,
+      "learning_rate": 0.044736709028766426,
+      "loss": 0.094,
+      "num_input_tokens_seen": 38766336,
+      "step": 29905
+    },
+    {
+      "epoch": 1.46143698238585,
+      "grad_norm": 0.0025067850947380066,
+      "learning_rate": 0.04469475225677832,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 38772800,
+      "step": 29910
+    },
+    {
+      "epoch": 1.4616812840495443,
+      "grad_norm": 0.0009036737610585988,
+      "learning_rate": 0.04465281172418273,
+      "loss": 0.095,
+      "num_input_tokens_seen": 38779648,
+      "step": 29915
+    },
+    {
+      "epoch": 1.4619255857132387,
+      "grad_norm": 0.001298565766774118,
+      "learning_rate": 0.044610887437447476,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 38786112,
+      "step": 29920
+    },
+    {
+      "epoch": 1.462169887376933,
+      "grad_norm": 0.0014799418859183788,
+      "learning_rate": 0.044568979403037744,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 38792608,
+      "step": 29925
+    },
+    {
+      "epoch": 1.4624141890406275,
+      "grad_norm": 0.0015019318088889122,
+      "learning_rate": 0.04452708762741631,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 38799488,
+      "step": 29930
+    },
+    {
+      "epoch": 1.4626584907043216,
+      "grad_norm": 0.001097405795007944,
+      "learning_rate": 0.044485212117043475,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 38805792,
+      "step": 29935
+    },
+    {
+      "epoch": 1.462902792368016,
+      "grad_norm": 0.0012197400210425258,
+      "learning_rate": 0.04444335287837687,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 38811744,
+      "step": 29940
+    },
+    {
+      "epoch": 1.4631470940317104,
+      "grad_norm": 0.0008305628434754908,
+      "learning_rate": 0.04440150991787179,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 38818208,
+      "step": 29945
+    },
+    {
+      "epoch": 1.4633913956954046,
+      "grad_norm": 0.0011353034060448408,
+      "learning_rate": 0.04435968324198088,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 38824800,
+      "step": 29950
+    },
+    {
+      "epoch": 1.463635697359099,
+      "grad_norm": 0.0023928158916532993,
+      "learning_rate": 0.04431787285715442,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 38831392,
+      "step": 29955
+    },
+    {
+      "epoch": 1.4638799990227933,
+      "grad_norm": 0.0018212966388091445,
+      "learning_rate": 0.04427607876984004,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 38837696,
+      "step": 29960
+    },
+    {
+      "epoch": 1.4641243006864877,
+      "grad_norm": 0.0011102319695055485,
+      "learning_rate": 0.044234300986482886,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 38844256,
+      "step": 29965
+    },
+    {
+      "epoch": 1.464368602350182,
+      "grad_norm": 0.0008843948016874492,
+      "learning_rate": 0.04419253951352566,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 38850496,
+      "step": 29970
+    },
+    {
+      "epoch": 1.4646129040138764,
+      "grad_norm": 0.0009567891829647124,
+      "learning_rate": 0.044150794357408533,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 38856352,
+      "step": 29975
+    },
+    {
+      "epoch": 1.4648572056775706,
+      "grad_norm": 0.0014262922341004014,
+      "learning_rate": 0.044109065524569065,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 38862496,
+      "step": 29980
+    },
+    {
+      "epoch": 1.465101507341265,
+      "grad_norm": 0.0012162234634160995,
+      "learning_rate": 0.0440673530214424,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 38868512,
+      "step": 29985
+    },
+    {
+      "epoch": 1.4653458090049594,
+      "grad_norm": 0.0011331361019983888,
+      "learning_rate": 0.04402565685446117,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 38874912,
+      "step": 29990
+    },
+    {
+      "epoch": 1.4655901106686535,
+      "grad_norm": 0.001358303357847035,
+      "learning_rate": 0.04398397703005536,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 38881344,
+      "step": 29995
+    },
+    {
+      "epoch": 1.465834412332348,
+      "grad_norm": 0.0017413495806977153,
+      "learning_rate": 0.043942313554652626,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 38887744,
+      "step": 30000
+    },
+    {
+      "epoch": 1.465834412332348,
+      "eval_loss": 0.08719838410615921,
+      "eval_runtime": 402.5683,
+      "eval_samples_per_second": 90.382,
+      "eval_steps_per_second": 22.597,
+      "num_input_tokens_seen": 38887744,
+      "step": 30000
+    },
+    {
+      "epoch": 1.4660787139960423,
+      "grad_norm": 0.000860975356772542,
+      "learning_rate": 0.0439006664346779,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 38893952,
+      "step": 30005
+    },
+    {
+      "epoch": 1.4663230156597367,
+      "grad_norm": 0.0014302909839898348,
+      "learning_rate": 0.043859035676553755,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 38900064,
+      "step": 30010
+    },
+    {
+      "epoch": 1.466567317323431,
+      "grad_norm": 0.0008547783363610506,
+      "learning_rate": 0.043817421286700194,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 38906528,
+      "step": 30015
+    },
+    {
+      "epoch": 1.4668116189871254,
+      "grad_norm": 0.0011126301251351833,
+      "learning_rate": 0.043775823271534585,
+      "loss": 0.0613,
+      "num_input_tokens_seen": 38913248,
+      "step": 30020
+    },
+    {
+      "epoch": 1.4670559206508196,
+      "grad_norm": 0.0009443470044061542,
+      "learning_rate": 0.04373424163747197,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 38919904,
+      "step": 30025
+    },
+    {
+      "epoch": 1.467300222314514,
+      "grad_norm": 0.0010627723531797528,
+      "learning_rate": 0.04369267639092473,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 38926240,
+      "step": 30030
+    },
+    {
+      "epoch": 1.4675445239782083,
+      "grad_norm": 0.0011719027534127235,
+      "learning_rate": 0.04365112753830268,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 38932992,
+      "step": 30035
+    },
+    {
+      "epoch": 1.4677888256419025,
+      "grad_norm": 0.001359737478196621,
+      "learning_rate": 0.04360959508601327,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 38939328,
+      "step": 30040
+    },
+    {
+      "epoch": 1.4680331273055969,
+      "grad_norm": 0.0009778633248060942,
+      "learning_rate": 0.04356807904046123,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 38945664,
+      "step": 30045
+    },
+    {
+      "epoch": 1.4682774289692913,
+      "grad_norm": 0.0009895736584439874,
+      "learning_rate": 0.04352657940804892,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 38951840,
+      "step": 30050
+    },
+    {
+      "epoch": 1.4685217306329856,
+      "grad_norm": 0.0011931877816095948,
+      "learning_rate": 0.04348509619517613,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 38958400,
+      "step": 30055
+    },
+    {
+      "epoch": 1.46876603229668,
+      "grad_norm": 0.0007890687556937337,
+      "learning_rate": 0.04344362940824002,
+      "loss": 0.082,
+      "num_input_tokens_seen": 38965120,
+      "step": 30060
+    },
+    {
+      "epoch": 1.4690103339603744,
+      "grad_norm": 0.001210236456245184,
+      "learning_rate": 0.04340217905363533,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 38971488,
+      "step": 30065
+    },
+    {
+      "epoch": 1.4692546356240686,
+      "grad_norm": 0.0012781965779140592,
+      "learning_rate": 0.04336074513775425,
+      "loss": 0.092,
+      "num_input_tokens_seen": 38977536,
+      "step": 30070
+    },
+    {
+      "epoch": 1.469498937287763,
+      "grad_norm": 0.0013901720521971583,
+      "learning_rate": 0.04331932766698636,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 38984096,
+      "step": 30075
+    },
+    {
+      "epoch": 1.4697432389514573,
+      "grad_norm": 0.0015459171263501048,
+      "learning_rate": 0.0432779266477188,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 38990496,
+      "step": 30080
+    },
+    {
+      "epoch": 1.4699875406151515,
+      "grad_norm": 0.0008924960275180638,
+      "learning_rate": 0.04323654208633607,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 38997376,
+      "step": 30085
+    },
+    {
+      "epoch": 1.4702318422788458,
+      "grad_norm": 0.0009236216428689659,
+      "learning_rate": 0.04319517398922024,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 39003968,
+      "step": 30090
+    },
+    {
+      "epoch": 1.4704761439425402,
+      "grad_norm": 0.0014061733381822705,
+      "learning_rate": 0.04315382236275079,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 39010112,
+      "step": 30095
+    },
+    {
+      "epoch": 1.4707204456062346,
+      "grad_norm": 0.0014166332548484206,
+      "learning_rate": 0.043112487213304664,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 39016576,
+      "step": 30100
+    },
+    {
+      "epoch": 1.470964747269929,
+      "grad_norm": 0.0009528872324153781,
+      "learning_rate": 0.04307116854725618,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 39022880,
+      "step": 30105
+    },
+    {
+      "epoch": 1.4712090489336234,
+      "grad_norm": 0.0019150965381413698,
+      "learning_rate": 0.043029866370977325,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 39029312,
+      "step": 30110
+    },
+    {
+      "epoch": 1.4714533505973175,
+      "grad_norm": 0.001074412721209228,
+      "learning_rate": 0.04298858069083728,
+      "loss": 0.0651,
+      "num_input_tokens_seen": 39035488,
+      "step": 30115
+    },
+    {
+      "epoch": 1.471697652261012,
+      "grad_norm": 0.0010034114820882678,
+      "learning_rate": 0.04294731151320295,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 39042304,
+      "step": 30120
+    },
+    {
+      "epoch": 1.4719419539247063,
+      "grad_norm": 0.0021199346520006657,
+      "learning_rate": 0.04290605884443841,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 39048288,
+      "step": 30125
+    },
+    {
+      "epoch": 1.4721862555884004,
+      "grad_norm": 0.0007975016487762332,
+      "learning_rate": 0.04286482269090545,
+      "loss": 0.064,
+      "num_input_tokens_seen": 39054912,
+      "step": 30130
+    },
+    {
+      "epoch": 1.4724305572520948,
+      "grad_norm": 0.0012787265004590154,
+      "learning_rate": 0.04282360305896323,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 39061472,
+      "step": 30135
+    },
+    {
+      "epoch": 1.4726748589157892,
+      "grad_norm": 0.0009565718355588615,
+      "learning_rate": 0.04278239995496822,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 39067968,
+      "step": 30140
+    },
+    {
+      "epoch": 1.4729191605794836,
+      "grad_norm": 0.0013547184644266963,
+      "learning_rate": 0.042741213385274514,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 39074400,
+      "step": 30145
+    },
+    {
+      "epoch": 1.473163462243178,
+      "grad_norm": 0.0012855151435360312,
+      "learning_rate": 0.04270004335623366,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 39080320,
+      "step": 30150
+    },
+    {
+      "epoch": 1.4734077639068723,
+      "grad_norm": 0.0011306529631838202,
+      "learning_rate": 0.04265888987419448,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 39087456,
+      "step": 30155
+    },
+    {
+      "epoch": 1.4736520655705665,
+      "grad_norm": 0.0007709242054261267,
+      "learning_rate": 0.04261775294550346,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 39093952,
+      "step": 30160
+    },
+    {
+      "epoch": 1.4738963672342609,
+      "grad_norm": 0.0012883084127679467,
+      "learning_rate": 0.042576632576504354,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 39100416,
+      "step": 30165
+    },
+    {
+      "epoch": 1.4741406688979553,
+      "grad_norm": 0.00143773527815938,
+      "learning_rate": 0.0425355287735385,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 39107072,
+      "step": 30170
+    },
+    {
+      "epoch": 1.4743849705616494,
+      "grad_norm": 0.0014100450789555907,
+      "learning_rate": 0.0424944415429446,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 39113984,
+      "step": 30175
+    },
+    {
+      "epoch": 1.4746292722253438,
+      "grad_norm": 0.0015030073700472713,
+      "learning_rate": 0.04245337089105877,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 39120480,
+      "step": 30180
+    },
+    {
+      "epoch": 1.4748735738890382,
+      "grad_norm": 0.0013550296425819397,
+      "learning_rate": 0.04241231682421467,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 39126848,
+      "step": 30185
+    },
+    {
+      "epoch": 1.4751178755527325,
+      "grad_norm": 0.0010637324303388596,
+      "learning_rate": 0.04237127934874337,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 39133248,
+      "step": 30190
+    },
+    {
+      "epoch": 1.475362177216427,
+      "grad_norm": 0.0010429422836750746,
+      "learning_rate": 0.042330258470973305,
+      "loss": 0.091,
+      "num_input_tokens_seen": 39140224,
+      "step": 30195
+    },
+    {
+      "epoch": 1.4756064788801213,
+      "grad_norm": 0.0017082842532545328,
+      "learning_rate": 0.042289254197230515,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 39146016,
+      "step": 30200
+    },
+    {
+      "epoch": 1.4756064788801213,
+      "eval_loss": 0.08784938603639603,
+      "eval_runtime": 402.1854,
+      "eval_samples_per_second": 90.468,
+      "eval_steps_per_second": 22.619,
+      "num_input_tokens_seen": 39146016,
+      "step": 30200
+    },
+    {
+      "epoch": 1.4758507805438155,
+      "grad_norm": 0.001394055550917983,
+      "learning_rate": 0.04224826653383823,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 39152544,
+      "step": 30205
+    },
+    {
+      "epoch": 1.4760950822075098,
+      "grad_norm": 0.001235123840160668,
+      "learning_rate": 0.04220729548711735,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 39158976,
+      "step": 30210
+    },
+    {
+      "epoch": 1.4763393838712042,
+      "grad_norm": 0.0016353169921785593,
+      "learning_rate": 0.04216634106338616,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 39165440,
+      "step": 30215
+    },
+    {
+      "epoch": 1.4765836855348984,
+      "grad_norm": 0.0016508213011547923,
+      "learning_rate": 0.04212540326896025,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 39171872,
+      "step": 30220
+    },
+    {
+      "epoch": 1.4768279871985928,
+      "grad_norm": 0.0012317444197833538,
+      "learning_rate": 0.0420844821101528,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 39178240,
+      "step": 30225
+    },
+    {
+      "epoch": 1.4770722888622871,
+      "grad_norm": 0.0012051964877173305,
+      "learning_rate": 0.04204357759327441,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 39184768,
+      "step": 30230
+    },
+    {
+      "epoch": 1.4773165905259815,
+      "grad_norm": 0.0007868298562243581,
+      "learning_rate": 0.042002689724632954,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 39191136,
+      "step": 30235
+    },
+    {
+      "epoch": 1.477560892189676,
+      "grad_norm": 0.001545627135783434,
+      "learning_rate": 0.04196181851053398,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 39197312,
+      "step": 30240
+    },
+    {
+      "epoch": 1.47780519385337,
+      "grad_norm": 0.0014291825937107205,
+      "learning_rate": 0.041920963957280295,
+      "loss": 0.089,
+      "num_input_tokens_seen": 39203712,
+      "step": 30245
+    },
+    {
+      "epoch": 1.4780494955170644,
+      "grad_norm": 0.0008624944020994008,
+      "learning_rate": 0.04188012607117212,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 39210656,
+      "step": 30250
+    },
+    {
+      "epoch": 1.4782937971807588,
+      "grad_norm": 0.0026321872137486935,
+      "learning_rate": 0.04183930485850725,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 39217312,
+      "step": 30255
+    },
+    {
+      "epoch": 1.4785380988444532,
+      "grad_norm": 0.001373200910165906,
+      "learning_rate": 0.04179850032558078,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 39223904,
+      "step": 30260
+    },
+    {
+      "epoch": 1.4787824005081474,
+      "grad_norm": 0.0013499354245141149,
+      "learning_rate": 0.041757712478685295,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 39230368,
+      "step": 30265
+    },
+    {
+      "epoch": 1.4790267021718417,
+      "grad_norm": 0.0007618238450959325,
+      "learning_rate": 0.04171694132411085,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 39236832,
+      "step": 30270
+    },
+    {
+      "epoch": 1.4792710038355361,
+      "grad_norm": 0.0009204060770571232,
+      "learning_rate": 0.04167618686814479,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 39243008,
+      "step": 30275
+    },
+    {
+      "epoch": 1.4795153054992305,
+      "grad_norm": 0.0010284901363775134,
+      "learning_rate": 0.041635449117072024,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 39249408,
+      "step": 30280
+    },
+    {
+      "epoch": 1.4797596071629249,
+      "grad_norm": 0.0009718399378471076,
+      "learning_rate": 0.04159472807717477,
+      "loss": 0.08,
+      "num_input_tokens_seen": 39255712,
+      "step": 30285
+    },
+    {
+      "epoch": 1.480003908826619,
+      "grad_norm": 0.0008127853507176042,
+      "learning_rate": 0.041554023754732744,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 39262656,
+      "step": 30290
+    },
+    {
+      "epoch": 1.4802482104903134,
+      "grad_norm": 0.0015247021801769733,
+      "learning_rate": 0.04151333615602311,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 39269216,
+      "step": 30295
+    },
+    {
+      "epoch": 1.4804925121540078,
+      "grad_norm": 0.0016849032836034894,
+      "learning_rate": 0.04147266528732034,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 39275424,
+      "step": 30300
+    },
+    {
+      "epoch": 1.4807368138177022,
+      "grad_norm": 0.001398916239850223,
+      "learning_rate": 0.0414320111548964,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 39281856,
+      "step": 30305
+    },
+    {
+      "epoch": 1.4809811154813963,
+      "grad_norm": 0.0015133298002183437,
+      "learning_rate": 0.04139137376502076,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 39288288,
+      "step": 30310
+    },
+    {
+      "epoch": 1.4812254171450907,
+      "grad_norm": 0.0013996334746479988,
+      "learning_rate": 0.04135075312396014,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 39295424,
+      "step": 30315
+    },
+    {
+      "epoch": 1.481469718808785,
+      "grad_norm": 0.0012061846209689975,
+      "learning_rate": 0.04131014923797875,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 39301984,
+      "step": 30320
+    },
+    {
+      "epoch": 1.4817140204724795,
+      "grad_norm": 0.0008223839686252177,
+      "learning_rate": 0.04126956211333819,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 39308576,
+      "step": 30325
+    },
+    {
+      "epoch": 1.4819583221361738,
+      "grad_norm": 0.001903144526295364,
+      "learning_rate": 0.041228991756297545,
+      "loss": 0.0931,
+      "num_input_tokens_seen": 39314880,
+      "step": 30330
+    },
+    {
+      "epoch": 1.482202623799868,
+      "grad_norm": 0.0008123563602566719,
+      "learning_rate": 0.04118843817311332,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 39321600,
+      "step": 30335
+    },
+    {
+      "epoch": 1.4824469254635624,
+      "grad_norm": 0.0013042846694588661,
+      "learning_rate": 0.0411479013700393,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 39328416,
+      "step": 30340
+    },
+    {
+      "epoch": 1.4826912271272568,
+      "grad_norm": 0.001593786757439375,
+      "learning_rate": 0.0411073813533268,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 39334816,
+      "step": 30345
+    },
+    {
+      "epoch": 1.4829355287909511,
+      "grad_norm": 0.0012143461499363184,
+      "learning_rate": 0.04106687812922456,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 39341696,
+      "step": 30350
+    },
+    {
+      "epoch": 1.4831798304546453,
+      "grad_norm": 0.0010176803916692734,
+      "learning_rate": 0.041026391703978635,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 39348384,
+      "step": 30355
+    },
+    {
+      "epoch": 1.4834241321183397,
+      "grad_norm": 0.0014454069314524531,
+      "learning_rate": 0.04098592208383259,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 39354624,
+      "step": 30360
+    },
+    {
+      "epoch": 1.483668433782034,
+      "grad_norm": 0.0025879754684865475,
+      "learning_rate": 0.040945469275027256,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 39360928,
+      "step": 30365
+    },
+    {
+      "epoch": 1.4839127354457284,
+      "grad_norm": 0.0012251246953383088,
+      "learning_rate": 0.04090503328380104,
+      "loss": 0.083,
+      "num_input_tokens_seen": 39367296,
+      "step": 30370
+    },
+    {
+      "epoch": 1.4841570371094228,
+      "grad_norm": 0.0012763270642608404,
+      "learning_rate": 0.04086461411638971,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 39373888,
+      "step": 30375
+    },
+    {
+      "epoch": 1.484401338773117,
+      "grad_norm": 0.002294566249474883,
+      "learning_rate": 0.04082421177902631,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 39380512,
+      "step": 30380
+    },
+    {
+      "epoch": 1.4846456404368114,
+      "grad_norm": 0.001332295942120254,
+      "learning_rate": 0.04078382627794149,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 39386912,
+      "step": 30385
+    },
+    {
+      "epoch": 1.4848899421005057,
+      "grad_norm": 0.0006400382262654603,
+      "learning_rate": 0.04074345761936316,
+      "loss": 0.066,
+      "num_input_tokens_seen": 39393184,
+      "step": 30390
+    },
+    {
+      "epoch": 1.4851342437642001,
+      "grad_norm": 0.0012652203440666199,
+      "learning_rate": 0.04070310580951663,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 39399712,
+      "step": 30395
+    },
+    {
+      "epoch": 1.4853785454278943,
+      "grad_norm": 0.0008004737319424748,
+      "learning_rate": 0.040662770854624726,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 39406240,
+      "step": 30400
+    },
+    {
+      "epoch": 1.4853785454278943,
+      "eval_loss": 0.08705683052539825,
+      "eval_runtime": 402.9281,
+      "eval_samples_per_second": 90.301,
+      "eval_steps_per_second": 22.577,
+      "num_input_tokens_seen": 39406240,
+      "step": 30400
+    },
+    {
+      "epoch": 1.4856228470915886,
+      "grad_norm": 0.0009523361804895103,
+      "learning_rate": 0.040622452760907535,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 39412256,
+      "step": 30405
+    },
+    {
+      "epoch": 1.485867148755283,
+      "grad_norm": 0.0018916018307209015,
+      "learning_rate": 0.04058215153458265,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 39418592,
+      "step": 30410
+    },
+    {
+      "epoch": 1.4861114504189774,
+      "grad_norm": 0.001375040621496737,
+      "learning_rate": 0.04054186718186507,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 39425056,
+      "step": 30415
+    },
+    {
+      "epoch": 1.4863557520826718,
+      "grad_norm": 0.002031746320426464,
+      "learning_rate": 0.04050159970896708,
+      "loss": 0.11,
+      "num_input_tokens_seen": 39431232,
+      "step": 30420
+    },
+    {
+      "epoch": 1.486600053746366,
+      "grad_norm": 0.0012604667572304606,
+      "learning_rate": 0.04046134912209843,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 39437568,
+      "step": 30425
+    },
+    {
+      "epoch": 1.4868443554100603,
+      "grad_norm": 0.002456875052303076,
+      "learning_rate": 0.040421115427466354,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 39443648,
+      "step": 30430
+    },
+    {
+      "epoch": 1.4870886570737547,
+      "grad_norm": 0.001499665784649551,
+      "learning_rate": 0.04038089863127529,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 39450496,
+      "step": 30435
+    },
+    {
+      "epoch": 1.487332958737449,
+      "grad_norm": 0.001799926394596696,
+      "learning_rate": 0.04034069873972727,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 39457408,
+      "step": 30440
+    },
+    {
+      "epoch": 1.4875772604011432,
+      "grad_norm": 0.0010672216303646564,
+      "learning_rate": 0.040300515759021514,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 39463712,
+      "step": 30445
+    },
+    {
+      "epoch": 1.4878215620648376,
+      "grad_norm": 0.0013875728473067284,
+      "learning_rate": 0.04026034969535478,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 39470368,
+      "step": 30450
+    },
+    {
+      "epoch": 1.488065863728532,
+      "grad_norm": 0.0011007522698491812,
+      "learning_rate": 0.040220200554921266,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 39477184,
+      "step": 30455
+    },
+    {
+      "epoch": 1.4883101653922264,
+      "grad_norm": 0.0009358122479170561,
+      "learning_rate": 0.0401800683439124,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 39483424,
+      "step": 30460
+    },
+    {
+      "epoch": 1.4885544670559208,
+      "grad_norm": 0.0017209749203175306,
+      "learning_rate": 0.04013995306851704,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 39490368,
+      "step": 30465
+    },
+    {
+      "epoch": 1.488798768719615,
+      "grad_norm": 0.0007264286396093667,
+      "learning_rate": 0.040099854734921545,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 39497056,
+      "step": 30470
+    },
+    {
+      "epoch": 1.4890430703833093,
+      "grad_norm": 0.0011127465404570103,
+      "learning_rate": 0.0400597733493095,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 39503072,
+      "step": 30475
+    },
+    {
+      "epoch": 1.4892873720470037,
+      "grad_norm": 0.001151003409177065,
+      "learning_rate": 0.04001970891786203,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 39509856,
+      "step": 30480
+    },
+    {
+      "epoch": 1.4895316737106978,
+      "grad_norm": 0.0016762195155024529,
+      "learning_rate": 0.03997966144675752,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 39516544,
+      "step": 30485
+    },
+    {
+      "epoch": 1.4897759753743922,
+      "grad_norm": 0.0014914795756340027,
+      "learning_rate": 0.039939630942171796,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 39523200,
+      "step": 30490
+    },
+    {
+      "epoch": 1.4900202770380866,
+      "grad_norm": 0.0009818655671551824,
+      "learning_rate": 0.03989961741027815,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 39529728,
+      "step": 30495
+    },
+    {
+      "epoch": 1.490264578701781,
+      "grad_norm": 0.0014830502914264798,
+      "learning_rate": 0.03985962085724704,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 39536256,
+      "step": 30500
+    },
+    {
+      "epoch": 1.4905088803654754,
+      "grad_norm": 0.0018147911177948117,
+      "learning_rate": 0.03981964128924656,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 39542368,
+      "step": 30505
+    },
+    {
+      "epoch": 1.4907531820291697,
+      "grad_norm": 0.0012414460070431232,
+      "learning_rate": 0.03977967871244197,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 39548960,
+      "step": 30510
+    },
+    {
+      "epoch": 1.490997483692864,
+      "grad_norm": 0.0008633933612145483,
+      "learning_rate": 0.03973973313299602,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 39555328,
+      "step": 30515
+    },
+    {
+      "epoch": 1.4912417853565583,
+      "grad_norm": 0.002361691789701581,
+      "learning_rate": 0.0396998045570689,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 39561760,
+      "step": 30520
+    },
+    {
+      "epoch": 1.4914860870202526,
+      "grad_norm": 0.002626015804708004,
+      "learning_rate": 0.03965989299081798,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 39568352,
+      "step": 30525
+    },
+    {
+      "epoch": 1.4917303886839468,
+      "grad_norm": 0.0012915765400975943,
+      "learning_rate": 0.039619998440398235,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 39574496,
+      "step": 30530
+    },
+    {
+      "epoch": 1.4919746903476412,
+      "grad_norm": 0.0010782756144180894,
+      "learning_rate": 0.03958012091196184,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 39581152,
+      "step": 30535
+    },
+    {
+      "epoch": 1.4922189920113356,
+      "grad_norm": 0.0012324067065492272,
+      "learning_rate": 0.039540260411658396,
+      "loss": 0.083,
+      "num_input_tokens_seen": 39587552,
+      "step": 30540
+    },
+    {
+      "epoch": 1.49246329367503,
+      "grad_norm": 0.0007207982707768679,
+      "learning_rate": 0.03950041694563496,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 39593984,
+      "step": 30545
+    },
+    {
+      "epoch": 1.4927075953387243,
+      "grad_norm": 0.0012383671710267663,
+      "learning_rate": 0.0394605905200358,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 39600160,
+      "step": 30550
+    },
+    {
+      "epoch": 1.4929518970024187,
+      "grad_norm": 0.0009193563018925488,
+      "learning_rate": 0.03942078114100272,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 39606528,
+      "step": 30555
+    },
+    {
+      "epoch": 1.4931961986661129,
+      "grad_norm": 0.0030333076138049364,
+      "learning_rate": 0.03938098881467485,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 39613088,
+      "step": 30560
+    },
+    {
+      "epoch": 1.4934405003298072,
+      "grad_norm": 0.0007567111751995981,
+      "learning_rate": 0.039341213547188586,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 39620128,
+      "step": 30565
+    },
+    {
+      "epoch": 1.4936848019935016,
+      "grad_norm": 0.0008380998042412102,
+      "learning_rate": 0.03930145534467782,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 39626624,
+      "step": 30570
+    },
+    {
+      "epoch": 1.4939291036571958,
+      "grad_norm": 0.00201870477758348,
+      "learning_rate": 0.0392617142132738,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 39632704,
+      "step": 30575
+    },
+    {
+      "epoch": 1.4941734053208902,
+      "grad_norm": 0.0006166244274936616,
+      "learning_rate": 0.03922199015910504,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 39638720,
+      "step": 30580
+    },
+    {
+      "epoch": 1.4944177069845845,
+      "grad_norm": 0.0015325377462431788,
+      "learning_rate": 0.039182283188297556,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 39645440,
+      "step": 30585
+    },
+    {
+      "epoch": 1.494662008648279,
+      "grad_norm": 0.001002576551400125,
+      "learning_rate": 0.039142593306974595,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 39652128,
+      "step": 30590
+    },
+    {
+      "epoch": 1.4949063103119733,
+      "grad_norm": 0.002101271180436015,
+      "learning_rate": 0.039102920521256856,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 39658336,
+      "step": 30595
+    },
+    {
+      "epoch": 1.4951506119756677,
+      "grad_norm": 0.0019247295567765832,
+      "learning_rate": 0.03906326483726243,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 39664736,
+      "step": 30600
+    },
+    {
+      "epoch": 1.4951506119756677,
+      "eval_loss": 0.08708000928163528,
+      "eval_runtime": 402.7212,
+      "eval_samples_per_second": 90.348,
+      "eval_steps_per_second": 22.589,
+      "num_input_tokens_seen": 39664736,
+      "step": 30600
+    },
+    {
+      "epoch": 1.4953949136393618,
+      "grad_norm": 0.0009488352225162089,
+      "learning_rate": 0.039023626261106704,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 39671520,
+      "step": 30605
+    },
+    {
+      "epoch": 1.4956392153030562,
+      "grad_norm": 0.0007170360186137259,
+      "learning_rate": 0.03898400479890237,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 39678016,
+      "step": 30610
+    },
+    {
+      "epoch": 1.4958835169667506,
+      "grad_norm": 0.001961632864549756,
+      "learning_rate": 0.038944400456759655,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 39684512,
+      "step": 30615
+    },
+    {
+      "epoch": 1.4961278186304448,
+      "grad_norm": 0.0009080914896912873,
+      "learning_rate": 0.038904813240785964,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 39690912,
+      "step": 30620
+    },
+    {
+      "epoch": 1.4963721202941391,
+      "grad_norm": 0.001242755795828998,
+      "learning_rate": 0.03886524315708621,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 39697568,
+      "step": 30625
+    },
+    {
+      "epoch": 1.4966164219578335,
+      "grad_norm": 0.0014869585866108537,
+      "learning_rate": 0.03882569021176255,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 39704032,
+      "step": 30630
+    },
+    {
+      "epoch": 1.4968607236215279,
+      "grad_norm": 0.001722906599752605,
+      "learning_rate": 0.038786154410914535,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 39710336,
+      "step": 30635
+    },
+    {
+      "epoch": 1.4971050252852223,
+      "grad_norm": 0.001308867591433227,
+      "learning_rate": 0.03874663576063917,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 39716736,
+      "step": 30640
+    },
+    {
+      "epoch": 1.4973493269489166,
+      "grad_norm": 0.0017692578257992864,
+      "learning_rate": 0.038707134267030624,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 39723648,
+      "step": 30645
+    },
+    {
+      "epoch": 1.4975936286126108,
+      "grad_norm": 0.0012001435970887542,
+      "learning_rate": 0.038667649936180555,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 39730240,
+      "step": 30650
+    },
+    {
+      "epoch": 1.4978379302763052,
+      "grad_norm": 0.0016278987750411034,
+      "learning_rate": 0.038628182774178,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 39736480,
+      "step": 30655
+    },
+    {
+      "epoch": 1.4980822319399996,
+      "grad_norm": 0.001532418536953628,
+      "learning_rate": 0.038588732787109226,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 39742848,
+      "step": 30660
+    },
+    {
+      "epoch": 1.4983265336036937,
+      "grad_norm": 0.0012047896161675453,
+      "learning_rate": 0.03854929998105795,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 39749280,
+      "step": 30665
+    },
+    {
+      "epoch": 1.498570835267388,
+      "grad_norm": 0.0006294584600254893,
+      "learning_rate": 0.03850988436210518,
+      "loss": 0.048,
+      "num_input_tokens_seen": 39755808,
+      "step": 30670
+    },
+    {
+      "epoch": 1.4988151369310825,
+      "grad_norm": 0.0018565405625849962,
+      "learning_rate": 0.03847048593632933,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 39761920,
+      "step": 30675
+    },
+    {
+      "epoch": 1.4990594385947769,
+      "grad_norm": 0.001359442831017077,
+      "learning_rate": 0.038431104709806096,
+      "loss": 0.098,
+      "num_input_tokens_seen": 39768512,
+      "step": 30680
+    },
+    {
+      "epoch": 1.4993037402584712,
+      "grad_norm": 0.001193055184558034,
+      "learning_rate": 0.0383917406886086,
+      "loss": 0.0931,
+      "num_input_tokens_seen": 39774464,
+      "step": 30685
+    },
+    {
+      "epoch": 1.4995480419221656,
+      "grad_norm": 0.0018519886070862412,
+      "learning_rate": 0.03835239387880722,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 39780704,
+      "step": 30690
+    },
+    {
+      "epoch": 1.4997923435858598,
+      "grad_norm": 0.0009455799008719623,
+      "learning_rate": 0.03831306428646979,
+      "loss": 0.116,
+      "num_input_tokens_seen": 39787328,
+      "step": 30695
+    },
+    {
+      "epoch": 1.5000366452495542,
+      "grad_norm": 0.0010733954841271043,
+      "learning_rate": 0.03827375191766135,
+      "loss": 0.078,
+      "num_input_tokens_seen": 39793792,
+      "step": 30700
+    },
+    {
+      "epoch": 1.5002809469132483,
+      "grad_norm": 0.0012871656799688935,
+      "learning_rate": 0.03823445677844446,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 39799968,
+      "step": 30705
+    },
+    {
+      "epoch": 1.5005252485769427,
+      "grad_norm": 0.0022239182144403458,
+      "learning_rate": 0.03819517887487881,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 39806496,
+      "step": 30710
+    },
+    {
+      "epoch": 1.500769550240637,
+      "grad_norm": 0.0014834636822342873,
+      "learning_rate": 0.03815591821302161,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 39812704,
+      "step": 30715
+    },
+    {
+      "epoch": 1.5010138519043315,
+      "grad_norm": 0.0009011050569824874,
+      "learning_rate": 0.03811667479892739,
+      "loss": 0.066,
+      "num_input_tokens_seen": 39819136,
+      "step": 30720
+    },
+    {
+      "epoch": 1.5012581535680258,
+      "grad_norm": 0.0026168155018240213,
+      "learning_rate": 0.03807744863864788,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 39826272,
+      "step": 30725
+    },
+    {
+      "epoch": 1.5015024552317202,
+      "grad_norm": 0.0017069298774003983,
+      "learning_rate": 0.03803823973823229,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 39832672,
+      "step": 30730
+    },
+    {
+      "epoch": 1.5017467568954146,
+      "grad_norm": 0.001112868427298963,
+      "learning_rate": 0.03799904810372719,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 39839456,
+      "step": 30735
+    },
+    {
+      "epoch": 1.5019910585591087,
+      "grad_norm": 0.0013022735947743058,
+      "learning_rate": 0.03795987374117632,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 39845600,
+      "step": 30740
+    },
+    {
+      "epoch": 1.5022353602228031,
+      "grad_norm": 0.0014920339453965425,
+      "learning_rate": 0.03792071665662093,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 39851808,
+      "step": 30745
+    },
+    {
+      "epoch": 1.5024796618864973,
+      "grad_norm": 0.0007835807045921683,
+      "learning_rate": 0.03788157685609952,
+      "loss": 0.076,
+      "num_input_tokens_seen": 39857888,
+      "step": 30750
+    },
+    {
+      "epoch": 1.5027239635501917,
+      "grad_norm": 0.0007453282014466822,
+      "learning_rate": 0.037842454345647876,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 39864288,
+      "step": 30755
+    },
+    {
+      "epoch": 1.502968265213886,
+      "grad_norm": 0.001430520904250443,
+      "learning_rate": 0.03780334913129929,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 39870336,
+      "step": 30760
+    },
+    {
+      "epoch": 1.5032125668775804,
+      "grad_norm": 0.0012331637553870678,
+      "learning_rate": 0.037764261219084175,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 39876672,
+      "step": 30765
+    },
+    {
+      "epoch": 1.5034568685412748,
+      "grad_norm": 0.0013751628575846553,
+      "learning_rate": 0.037725190615030414,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 39883168,
+      "step": 30770
+    },
+    {
+      "epoch": 1.5037011702049692,
+      "grad_norm": 0.0013316039694473147,
+      "learning_rate": 0.037686137325163224,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 39889952,
+      "step": 30775
+    },
+    {
+      "epoch": 1.5039454718686636,
+      "grad_norm": 0.0014069508761167526,
+      "learning_rate": 0.037647101355505065,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 39896416,
+      "step": 30780
+    },
+    {
+      "epoch": 1.5041897735323577,
+      "grad_norm": 0.000899620761629194,
+      "learning_rate": 0.03760808271207581,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 39902624,
+      "step": 30785
+    },
+    {
+      "epoch": 1.504434075196052,
+      "grad_norm": 0.00096130307065323,
+      "learning_rate": 0.03756908140089258,
+      "loss": 0.0614,
+      "num_input_tokens_seen": 39909408,
+      "step": 30790
+    },
+    {
+      "epoch": 1.5046783768597463,
+      "grad_norm": 0.000945123378187418,
+      "learning_rate": 0.03753009742796989,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 39915584,
+      "step": 30795
+    },
+    {
+      "epoch": 1.5049226785234406,
+      "grad_norm": 0.00115196465048939,
+      "learning_rate": 0.037491130799319615,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 39922240,
+      "step": 30800
+    },
+    {
+      "epoch": 1.5049226785234406,
+      "eval_loss": 0.08693520724773407,
+      "eval_runtime": 402.2642,
+      "eval_samples_per_second": 90.451,
+      "eval_steps_per_second": 22.614,
+      "num_input_tokens_seen": 39922240,
+      "step": 30800
+    },
+    {
+      "epoch": 1.505166980187135,
+      "grad_norm": 0.0010042678331956267,
+      "learning_rate": 0.03745218152095079,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 39928864,
+      "step": 30805
+    },
+    {
+      "epoch": 1.5054112818508294,
+      "grad_norm": 0.0015617342432960868,
+      "learning_rate": 0.037413249598869935,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 39935584,
+      "step": 30810
+    },
+    {
+      "epoch": 1.5056555835145238,
+      "grad_norm": 0.0018322734395042062,
+      "learning_rate": 0.037374335039080886,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 39942304,
+      "step": 30815
+    },
+    {
+      "epoch": 1.5058998851782182,
+      "grad_norm": 0.0011079130927100778,
+      "learning_rate": 0.037335437847584724,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 39949152,
+      "step": 30820
+    },
+    {
+      "epoch": 1.5061441868419125,
+      "grad_norm": 0.001605542958714068,
+      "learning_rate": 0.03729655803037983,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 39955616,
+      "step": 30825
+    },
+    {
+      "epoch": 1.5063884885056067,
+      "grad_norm": 0.003004588419571519,
+      "learning_rate": 0.03725769559346207,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 39962144,
+      "step": 30830
+    },
+    {
+      "epoch": 1.506632790169301,
+      "grad_norm": 0.001199806109070778,
+      "learning_rate": 0.03721885054282439,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 39969024,
+      "step": 30835
+    },
+    {
+      "epoch": 1.5068770918329952,
+      "grad_norm": 0.002115659648552537,
+      "learning_rate": 0.03718002288445731,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 39975648,
+      "step": 30840
+    },
+    {
+      "epoch": 1.5071213934966896,
+      "grad_norm": 0.0006289199809543788,
+      "learning_rate": 0.03714121262434844,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 39981888,
+      "step": 30845
+    },
+    {
+      "epoch": 1.507365695160384,
+      "grad_norm": 0.0007012219866737723,
+      "learning_rate": 0.037102419768482844,
+      "loss": 0.087,
+      "num_input_tokens_seen": 39988320,
+      "step": 30850
+    },
+    {
+      "epoch": 1.5076099968240784,
+      "grad_norm": 0.002098178956657648,
+      "learning_rate": 0.03706364432284293,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 39994624,
+      "step": 30855
+    },
+    {
+      "epoch": 1.5078542984877727,
+      "grad_norm": 0.0009346086881123483,
+      "learning_rate": 0.03702488629340828,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 40000928,
+      "step": 30860
+    },
+    {
+      "epoch": 1.5080986001514671,
+      "grad_norm": 0.0019240471301600337,
+      "learning_rate": 0.036986145686155915,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 40006944,
+      "step": 30865
+    },
+    {
+      "epoch": 1.5083429018151615,
+      "grad_norm": 0.0010816697031259537,
+      "learning_rate": 0.036947422507060075,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 40013184,
+      "step": 30870
+    },
+    {
+      "epoch": 1.5085872034788557,
+      "grad_norm": 0.0013420362956821918,
+      "learning_rate": 0.0369087167620924,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 40019808,
+      "step": 30875
+    },
+    {
+      "epoch": 1.50883150514255,
+      "grad_norm": 0.0018077305285260081,
+      "learning_rate": 0.03687002845722183,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 40026560,
+      "step": 30880
+    },
+    {
+      "epoch": 1.5090758068062442,
+      "grad_norm": 0.001691638259217143,
+      "learning_rate": 0.03683135759841451,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 40033024,
+      "step": 30885
+    },
+    {
+      "epoch": 1.5093201084699386,
+      "grad_norm": 0.0015851381467655301,
+      "learning_rate": 0.03679270419163406,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 40039520,
+      "step": 30890
+    },
+    {
+      "epoch": 1.509564410133633,
+      "grad_norm": 0.0017961778212338686,
+      "learning_rate": 0.03675406824284127,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 40045568,
+      "step": 30895
+    },
+    {
+      "epoch": 1.5098087117973273,
+      "grad_norm": 0.0010057301260530949,
+      "learning_rate": 0.03671544975799425,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 40051648,
+      "step": 30900
+    },
+    {
+      "epoch": 1.5100530134610217,
+      "grad_norm": 0.001045412034727633,
+      "learning_rate": 0.03667684874304854,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 40058080,
+      "step": 30905
+    },
+    {
+      "epoch": 1.510297315124716,
+      "grad_norm": 0.0009362325654365122,
+      "learning_rate": 0.03663826520395683,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 40064096,
+      "step": 30910
+    },
+    {
+      "epoch": 1.5105416167884105,
+      "grad_norm": 0.001102737500332296,
+      "learning_rate": 0.03659969914666922,
+      "loss": 0.0553,
+      "num_input_tokens_seen": 40070592,
+      "step": 30915
+    },
+    {
+      "epoch": 1.5107859184521046,
+      "grad_norm": 0.0014338254695758224,
+      "learning_rate": 0.036561150577133106,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 40076672,
+      "step": 30920
+    },
+    {
+      "epoch": 1.511030220115799,
+      "grad_norm": 0.0012178861070424318,
+      "learning_rate": 0.036522619501293103,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 40083424,
+      "step": 30925
+    },
+    {
+      "epoch": 1.5112745217794932,
+      "grad_norm": 0.0010413900017738342,
+      "learning_rate": 0.03648410592509122,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 40089728,
+      "step": 30930
+    },
+    {
+      "epoch": 1.5115188234431876,
+      "grad_norm": 0.0013622365659102798,
+      "learning_rate": 0.03644560985446676,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 40096768,
+      "step": 30935
+    },
+    {
+      "epoch": 1.511763125106882,
+      "grad_norm": 0.0013868537498638034,
+      "learning_rate": 0.036407131295356256,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 40103648,
+      "step": 30940
+    },
+    {
+      "epoch": 1.5120074267705763,
+      "grad_norm": 0.0018356924410909414,
+      "learning_rate": 0.03636867025369362,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 40110144,
+      "step": 30945
+    },
+    {
+      "epoch": 1.5122517284342707,
+      "grad_norm": 0.0011341541539877653,
+      "learning_rate": 0.03633022673540999,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 40116160,
+      "step": 30950
+    },
+    {
+      "epoch": 1.512496030097965,
+      "grad_norm": 0.0015568218659609556,
+      "learning_rate": 0.03629180074643385,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 40122784,
+      "step": 30955
+    },
+    {
+      "epoch": 1.5127403317616595,
+      "grad_norm": 0.0008656425634399056,
+      "learning_rate": 0.03625339229269102,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 40129504,
+      "step": 30960
+    },
+    {
+      "epoch": 1.5129846334253536,
+      "grad_norm": 0.0011121139395982027,
+      "learning_rate": 0.036215001380104535,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 40136352,
+      "step": 30965
+    },
+    {
+      "epoch": 1.513228935089048,
+      "grad_norm": 0.0007484292727895081,
+      "learning_rate": 0.03617662801459471,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 40142848,
+      "step": 30970
+    },
+    {
+      "epoch": 1.5134732367527421,
+      "grad_norm": 0.0009054560796357691,
+      "learning_rate": 0.036138272202079276,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 40149376,
+      "step": 30975
+    },
+    {
+      "epoch": 1.5137175384164365,
+      "grad_norm": 0.0017505211289972067,
+      "learning_rate": 0.036099933948473106,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 40155872,
+      "step": 30980
+    },
+    {
+      "epoch": 1.513961840080131,
+      "grad_norm": 0.0010949871502816677,
+      "learning_rate": 0.03606161325968851,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 40162144,
+      "step": 30985
+    },
+    {
+      "epoch": 1.5142061417438253,
+      "grad_norm": 0.001668871147558093,
+      "learning_rate": 0.03602331014163496,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 40168800,
+      "step": 30990
+    },
+    {
+      "epoch": 1.5144504434075197,
+      "grad_norm": 0.0016826344653964043,
+      "learning_rate": 0.035985024600219295,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 40175264,
+      "step": 30995
+    },
+    {
+      "epoch": 1.514694745071214,
+      "grad_norm": 0.0008401534869335592,
+      "learning_rate": 0.03594675664134569,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 40181504,
+      "step": 31000
+    },
+    {
+      "epoch": 1.514694745071214,
+      "eval_loss": 0.08594069629907608,
+      "eval_runtime": 402.3246,
+      "eval_samples_per_second": 90.437,
+      "eval_steps_per_second": 22.611,
+      "num_input_tokens_seen": 40181504,
+      "step": 31000
+    },
+    {
+      "epoch": 1.5149390467349084,
+      "grad_norm": 0.0008410470909439027,
+      "learning_rate": 0.03590850627091545,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 40187968,
+      "step": 31005
+    },
+    {
+      "epoch": 1.5151833483986026,
+      "grad_norm": 0.001108837779611349,
+      "learning_rate": 0.03587027349482731,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 40195136,
+      "step": 31010
+    },
+    {
+      "epoch": 1.515427650062297,
+      "grad_norm": 0.0010861021000891924,
+      "learning_rate": 0.035832058318977275,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 40201312,
+      "step": 31015
+    },
+    {
+      "epoch": 1.5156719517259911,
+      "grad_norm": 0.0011724577052518725,
+      "learning_rate": 0.03579386074925853,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 40207520,
+      "step": 31020
+    },
+    {
+      "epoch": 1.5159162533896855,
+      "grad_norm": 0.0011912262998521328,
+      "learning_rate": 0.035755680791561696,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 40214016,
+      "step": 31025
+    },
+    {
+      "epoch": 1.5161605550533799,
+      "grad_norm": 0.0005656147841364145,
+      "learning_rate": 0.03571751845177454,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 40220352,
+      "step": 31030
+    },
+    {
+      "epoch": 1.5164048567170743,
+      "grad_norm": 0.001004135818220675,
+      "learning_rate": 0.03567937373578225,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 40226976,
+      "step": 31035
+    },
+    {
+      "epoch": 1.5166491583807686,
+      "grad_norm": 0.0014074642676860094,
+      "learning_rate": 0.03564124664946711,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 40233952,
+      "step": 31040
+    },
+    {
+      "epoch": 1.516893460044463,
+      "grad_norm": 0.0015981984324753284,
+      "learning_rate": 0.035603137198708924,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 40240736,
+      "step": 31045
+    },
+    {
+      "epoch": 1.5171377617081574,
+      "grad_norm": 0.001112818019464612,
+      "learning_rate": 0.035565045389384514,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 40247232,
+      "step": 31050
+    },
+    {
+      "epoch": 1.5173820633718516,
+      "grad_norm": 0.0012580535840243101,
+      "learning_rate": 0.03552697122736823,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 40253920,
+      "step": 31055
+    },
+    {
+      "epoch": 1.517626365035546,
+      "grad_norm": 0.001554334769025445,
+      "learning_rate": 0.03548891471853153,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 40260064,
+      "step": 31060
+    },
+    {
+      "epoch": 1.51787066669924,
+      "grad_norm": 0.0012639887863770127,
+      "learning_rate": 0.03545087586874322,
+      "loss": 0.071,
+      "num_input_tokens_seen": 40266464,
+      "step": 31065
+    },
+    {
+      "epoch": 1.5181149683629345,
+      "grad_norm": 0.0015302980318665504,
+      "learning_rate": 0.03541285468386935,
+      "loss": 0.097,
+      "num_input_tokens_seen": 40272928,
+      "step": 31070
+    },
+    {
+      "epoch": 1.5183592700266288,
+      "grad_norm": 0.0009121674229390919,
+      "learning_rate": 0.03537485116977327,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 40279136,
+      "step": 31075
+    },
+    {
+      "epoch": 1.5186035716903232,
+      "grad_norm": 0.0013629380846396089,
+      "learning_rate": 0.03533686533231565,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 40285760,
+      "step": 31080
+    },
+    {
+      "epoch": 1.5188478733540176,
+      "grad_norm": 0.001183652668260038,
+      "learning_rate": 0.0352988971773543,
+      "loss": 0.1294,
+      "num_input_tokens_seen": 40291904,
+      "step": 31085
+    },
+    {
+      "epoch": 1.519092175017712,
+      "grad_norm": 0.0035529809538275003,
+      "learning_rate": 0.03526094671074443,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 40298272,
+      "step": 31090
+    },
+    {
+      "epoch": 1.5193364766814061,
+      "grad_norm": 0.0010364663321524858,
+      "learning_rate": 0.03522301393833852,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 40304576,
+      "step": 31095
+    },
+    {
+      "epoch": 1.5195807783451005,
+      "grad_norm": 0.0015204488299787045,
+      "learning_rate": 0.035185098865986204,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 40310944,
+      "step": 31100
+    },
+    {
+      "epoch": 1.519825080008795,
+      "grad_norm": 0.001029456965625286,
+      "learning_rate": 0.03514720149953453,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 40317152,
+      "step": 31105
+    },
+    {
+      "epoch": 1.520069381672489,
+      "grad_norm": 0.0008465711725875735,
+      "learning_rate": 0.03510932184482773,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 40323296,
+      "step": 31110
+    },
+    {
+      "epoch": 1.5203136833361834,
+      "grad_norm": 0.0007476642495021224,
+      "learning_rate": 0.03507145990770724,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 40329792,
+      "step": 31115
+    },
+    {
+      "epoch": 1.5205579849998778,
+      "grad_norm": 0.0009389373590238392,
+      "learning_rate": 0.035033615694011984,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 40336288,
+      "step": 31120
+    },
+    {
+      "epoch": 1.5208022866635722,
+      "grad_norm": 0.001865740050561726,
+      "learning_rate": 0.03499578920957788,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 40342880,
+      "step": 31125
+    },
+    {
+      "epoch": 1.5210465883272666,
+      "grad_norm": 0.0011327676475048065,
+      "learning_rate": 0.034957980460238375,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 40349152,
+      "step": 31130
+    },
+    {
+      "epoch": 1.521290889990961,
+      "grad_norm": 0.0011177904671058059,
+      "learning_rate": 0.03492018945182393,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 40355424,
+      "step": 31135
+    },
+    {
+      "epoch": 1.5215351916546551,
+      "grad_norm": 0.0008354930905625224,
+      "learning_rate": 0.03488241619016247,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 40362304,
+      "step": 31140
+    },
+    {
+      "epoch": 1.5217794933183495,
+      "grad_norm": 0.0015529717784374952,
+      "learning_rate": 0.03484466068107913,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 40369088,
+      "step": 31145
+    },
+    {
+      "epoch": 1.5220237949820439,
+      "grad_norm": 0.0007790831732563674,
+      "learning_rate": 0.034806922930396195,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 40375808,
+      "step": 31150
+    },
+    {
+      "epoch": 1.522268096645738,
+      "grad_norm": 0.0010161303216591477,
+      "learning_rate": 0.03476920294393337,
+      "loss": 0.084,
+      "num_input_tokens_seen": 40382400,
+      "step": 31155
+    },
+    {
+      "epoch": 1.5225123983094324,
+      "grad_norm": 0.0019672366324812174,
+      "learning_rate": 0.03473150072750755,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 40388928,
+      "step": 31160
+    },
+    {
+      "epoch": 1.5227566999731268,
+      "grad_norm": 0.0013188289012759924,
+      "learning_rate": 0.03469381628693284,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 40395808,
+      "step": 31165
+    },
+    {
+      "epoch": 1.5230010016368212,
+      "grad_norm": 0.0013061200734227896,
+      "learning_rate": 0.03465614962802072,
+      "loss": 0.075,
+      "num_input_tokens_seen": 40402016,
+      "step": 31170
+    },
+    {
+      "epoch": 1.5232453033005156,
+      "grad_norm": 0.0018879679264500737,
+      "learning_rate": 0.0346185007565798,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 40408224,
+      "step": 31175
+    },
+    {
+      "epoch": 1.52348960496421,
+      "grad_norm": 0.001015312853269279,
+      "learning_rate": 0.03458086967841609,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 40414368,
+      "step": 31180
+    },
+    {
+      "epoch": 1.523733906627904,
+      "grad_norm": 0.0012130577815696597,
+      "learning_rate": 0.03454325639933266,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 40421152,
+      "step": 31185
+    },
+    {
+      "epoch": 1.5239782082915985,
+      "grad_norm": 0.001738836755976081,
+      "learning_rate": 0.03450566092513007,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 40427072,
+      "step": 31190
+    },
+    {
+      "epoch": 1.5242225099552928,
+      "grad_norm": 0.0021388994064182043,
+      "learning_rate": 0.034468083261605914,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 40433376,
+      "step": 31195
+    },
+    {
+      "epoch": 1.524466811618987,
+      "grad_norm": 0.0013015330769121647,
+      "learning_rate": 0.03443052341455522,
+      "loss": 0.083,
+      "num_input_tokens_seen": 40439712,
+      "step": 31200
+    },
+    {
+      "epoch": 1.524466811618987,
+      "eval_loss": 0.08627531677484512,
+      "eval_runtime": 402.311,
+      "eval_samples_per_second": 90.44,
+      "eval_steps_per_second": 22.612,
+      "num_input_tokens_seen": 40439712,
+      "step": 31200
+    },
+    {
+      "epoch": 1.5247111132826814,
+      "grad_norm": 0.0016315794782713056,
+      "learning_rate": 0.0343929813897701,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 40445856,
+      "step": 31205
+    },
+    {
+      "epoch": 1.5249554149463758,
+      "grad_norm": 0.001072322716936469,
+      "learning_rate": 0.034355457193040125,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 40452576,
+      "step": 31210
+    },
+    {
+      "epoch": 1.5251997166100701,
+      "grad_norm": 0.0013790144585072994,
+      "learning_rate": 0.03431795083015186,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 40459296,
+      "step": 31215
+    },
+    {
+      "epoch": 1.5254440182737645,
+      "grad_norm": 0.001780350343324244,
+      "learning_rate": 0.03428046230688936,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 40465536,
+      "step": 31220
+    },
+    {
+      "epoch": 1.525688319937459,
+      "grad_norm": 0.0009371057967655361,
+      "learning_rate": 0.034242991629033805,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 40472096,
+      "step": 31225
+    },
+    {
+      "epoch": 1.525932621601153,
+      "grad_norm": 0.0007145963609218597,
+      "learning_rate": 0.03420553880236362,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 40478528,
+      "step": 31230
+    },
+    {
+      "epoch": 1.5261769232648474,
+      "grad_norm": 0.001391104538924992,
+      "learning_rate": 0.03416810383265449,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 40484512,
+      "step": 31235
+    },
+    {
+      "epoch": 1.5264212249285416,
+      "grad_norm": 0.0010480763157829642,
+      "learning_rate": 0.03413068672567944,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 40491424,
+      "step": 31240
+    },
+    {
+      "epoch": 1.526665526592236,
+      "grad_norm": 0.0012331707403063774,
+      "learning_rate": 0.034093287487208565,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 40497696,
+      "step": 31245
+    },
+    {
+      "epoch": 1.5269098282559304,
+      "grad_norm": 0.0017005964182317257,
+      "learning_rate": 0.03405590612300937,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 40503872,
+      "step": 31250
+    },
+    {
+      "epoch": 1.5271541299196247,
+      "grad_norm": 0.0009671308216638863,
+      "learning_rate": 0.03401854263884646,
+      "loss": 0.08,
+      "num_input_tokens_seen": 40510176,
+      "step": 31255
+    },
+    {
+      "epoch": 1.5273984315833191,
+      "grad_norm": 0.0012122626649215817,
+      "learning_rate": 0.033981197040481824,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 40516832,
+      "step": 31260
+    },
+    {
+      "epoch": 1.5276427332470135,
+      "grad_norm": 0.000955727300606668,
+      "learning_rate": 0.03394386933367459,
+      "loss": 0.063,
+      "num_input_tokens_seen": 40523104,
+      "step": 31265
+    },
+    {
+      "epoch": 1.5278870349107079,
+      "grad_norm": 0.0016708021285012364,
+      "learning_rate": 0.033906559524181104,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 40529056,
+      "step": 31270
+    },
+    {
+      "epoch": 1.528131336574402,
+      "grad_norm": 0.0011528360191732645,
+      "learning_rate": 0.033869267617755085,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 40535136,
+      "step": 31275
+    },
+    {
+      "epoch": 1.5283756382380964,
+      "grad_norm": 0.00123376096598804,
+      "learning_rate": 0.0338319936201474,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 40542016,
+      "step": 31280
+    },
+    {
+      "epoch": 1.5286199399017906,
+      "grad_norm": 0.0015562777407467365,
+      "learning_rate": 0.033794737537106136,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 40548448,
+      "step": 31285
+    },
+    {
+      "epoch": 1.528864241565485,
+      "grad_norm": 0.0010340482695028186,
+      "learning_rate": 0.03375749937437671,
+      "loss": 0.0583,
+      "num_input_tokens_seen": 40555008,
+      "step": 31290
+    },
+    {
+      "epoch": 1.5291085432291793,
+      "grad_norm": 0.0015529629308730364,
+      "learning_rate": 0.033720279137701634,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 40561472,
+      "step": 31295
+    },
+    {
+      "epoch": 1.5293528448928737,
+      "grad_norm": 0.0015751280589029193,
+      "learning_rate": 0.03368307683282078,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 40567936,
+      "step": 31300
+    },
+    {
+      "epoch": 1.529597146556568,
+      "grad_norm": 0.001714590354822576,
+      "learning_rate": 0.033645892465471235,
+      "loss": 0.081,
+      "num_input_tokens_seen": 40574912,
+      "step": 31305
+    },
+    {
+      "epoch": 1.5298414482202625,
+      "grad_norm": 0.0019970473367720842,
+      "learning_rate": 0.03360872604138724,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 40581216,
+      "step": 31310
+    },
+    {
+      "epoch": 1.5300857498839568,
+      "grad_norm": 0.0013904586667194963,
+      "learning_rate": 0.03357157756630034,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 40588032,
+      "step": 31315
+    },
+    {
+      "epoch": 1.530330051547651,
+      "grad_norm": 0.0018694453174248338,
+      "learning_rate": 0.033534447045939365,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 40594432,
+      "step": 31320
+    },
+    {
+      "epoch": 1.5305743532113454,
+      "grad_norm": 0.0016862985212355852,
+      "learning_rate": 0.03349733448603026,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 40600832,
+      "step": 31325
+    },
+    {
+      "epoch": 1.5308186548750395,
+      "grad_norm": 0.0012312072794884443,
+      "learning_rate": 0.03346023989229619,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 40607488,
+      "step": 31330
+    },
+    {
+      "epoch": 1.531062956538734,
+      "grad_norm": 0.001723647117614746,
+      "learning_rate": 0.03342316327045769,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 40614432,
+      "step": 31335
+    },
+    {
+      "epoch": 1.5313072582024283,
+      "grad_norm": 0.0014547505415976048,
+      "learning_rate": 0.033386104626232385,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 40621504,
+      "step": 31340
+    },
+    {
+      "epoch": 1.5315515598661227,
+      "grad_norm": 0.0011854602489620447,
+      "learning_rate": 0.03334906396533525,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 40627872,
+      "step": 31345
+    },
+    {
+      "epoch": 1.531795861529817,
+      "grad_norm": 0.0014828111743554473,
+      "learning_rate": 0.033312041293478326,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 40634048,
+      "step": 31350
+    },
+    {
+      "epoch": 1.5320401631935114,
+      "grad_norm": 0.0011130647035315633,
+      "learning_rate": 0.03327503661637103,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 40640640,
+      "step": 31355
+    },
+    {
+      "epoch": 1.5322844648572058,
+      "grad_norm": 0.0012118811719119549,
+      "learning_rate": 0.03323804993971998,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 40646944,
+      "step": 31360
+    },
+    {
+      "epoch": 1.5325287665209,
+      "grad_norm": 0.001425315742380917,
+      "learning_rate": 0.033201081269228924,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 40652992,
+      "step": 31365
+    },
+    {
+      "epoch": 1.5327730681845944,
+      "grad_norm": 0.0009520589956082404,
+      "learning_rate": 0.03316413061059895,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 40659584,
+      "step": 31370
+    },
+    {
+      "epoch": 1.5330173698482885,
+      "grad_norm": 0.001066393218934536,
+      "learning_rate": 0.03312719796952827,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 40666272,
+      "step": 31375
+    },
+    {
+      "epoch": 1.533261671511983,
+      "grad_norm": 0.0007689775666221976,
+      "learning_rate": 0.03309028335171236,
+      "loss": 0.073,
+      "num_input_tokens_seen": 40673088,
+      "step": 31380
+    },
+    {
+      "epoch": 1.5335059731756773,
+      "grad_norm": 0.0015451309736818075,
+      "learning_rate": 0.03305338676284398,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 40680864,
+      "step": 31385
+    },
+    {
+      "epoch": 1.5337502748393717,
+      "grad_norm": 0.0008467303705401719,
+      "learning_rate": 0.03301650820861296,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 40687072,
+      "step": 31390
+    },
+    {
+      "epoch": 1.533994576503066,
+      "grad_norm": 0.001834424096159637,
+      "learning_rate": 0.03297964769470652,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 40693632,
+      "step": 31395
+    },
+    {
+      "epoch": 1.5342388781667604,
+      "grad_norm": 0.0014379300409927964,
+      "learning_rate": 0.032942805226808945,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 40700736,
+      "step": 31400
+    },
+    {
+      "epoch": 1.5342388781667604,
+      "eval_loss": 0.0860108733177185,
+      "eval_runtime": 402.0752,
+      "eval_samples_per_second": 90.493,
+      "eval_steps_per_second": 22.625,
+      "num_input_tokens_seen": 40700736,
+      "step": 31400
+    },
+    {
+      "epoch": 1.5344831798304548,
+      "grad_norm": 0.0019913222640752792,
+      "learning_rate": 0.03290598081060187,
+      "loss": 0.071,
+      "num_input_tokens_seen": 40707424,
+      "step": 31405
+    },
+    {
+      "epoch": 1.534727481494149,
+      "grad_norm": 0.0014107811730355024,
+      "learning_rate": 0.03286917445176407,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 40714400,
+      "step": 31410
+    },
+    {
+      "epoch": 1.5349717831578433,
+      "grad_norm": 0.0010952134616672993,
+      "learning_rate": 0.032832386155971456,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 40720928,
+      "step": 31415
+    },
+    {
+      "epoch": 1.5352160848215375,
+      "grad_norm": 0.000923281186260283,
+      "learning_rate": 0.032795615928897334,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 40727680,
+      "step": 31420
+    },
+    {
+      "epoch": 1.5354603864852319,
+      "grad_norm": 0.001117575797252357,
+      "learning_rate": 0.03275886377621215,
+      "loss": 0.077,
+      "num_input_tokens_seen": 40733888,
+      "step": 31425
+    },
+    {
+      "epoch": 1.5357046881489262,
+      "grad_norm": 0.0011854249751195312,
+      "learning_rate": 0.03272212970358348,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 40740928,
+      "step": 31430
+    },
+    {
+      "epoch": 1.5359489898126206,
+      "grad_norm": 0.0016306600300595164,
+      "learning_rate": 0.032685413716676215,
+      "loss": 0.091,
+      "num_input_tokens_seen": 40747584,
+      "step": 31435
+    },
+    {
+      "epoch": 1.536193291476315,
+      "grad_norm": 0.0014444198459386826,
+      "learning_rate": 0.032648715821152474,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 40753888,
+      "step": 31440
+    },
+    {
+      "epoch": 1.5364375931400094,
+      "grad_norm": 0.003391338512301445,
+      "learning_rate": 0.03261203602267143,
+      "loss": 0.089,
+      "num_input_tokens_seen": 40760192,
+      "step": 31445
+    },
+    {
+      "epoch": 1.5366818948037038,
+      "grad_norm": 0.0029305440839380026,
+      "learning_rate": 0.03257537432688966,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 40766880,
+      "step": 31450
+    },
+    {
+      "epoch": 1.536926196467398,
+      "grad_norm": 0.001161741092801094,
+      "learning_rate": 0.03253873073946077,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 40773056,
+      "step": 31455
+    },
+    {
+      "epoch": 1.5371704981310923,
+      "grad_norm": 0.0020205082837492228,
+      "learning_rate": 0.03250210526603572,
+      "loss": 0.092,
+      "num_input_tokens_seen": 40779136,
+      "step": 31460
+    },
+    {
+      "epoch": 1.5374147997947865,
+      "grad_norm": 0.001132558798417449,
+      "learning_rate": 0.03246549791226266,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 40785792,
+      "step": 31465
+    },
+    {
+      "epoch": 1.5376591014584808,
+      "grad_norm": 0.0009813824435696006,
+      "learning_rate": 0.03242890868378679,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 40792032,
+      "step": 31470
+    },
+    {
+      "epoch": 1.5379034031221752,
+      "grad_norm": 0.0014007706195116043,
+      "learning_rate": 0.03239233758625074,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 40798688,
+      "step": 31475
+    },
+    {
+      "epoch": 1.5381477047858696,
+      "grad_norm": 0.0015446997713297606,
+      "learning_rate": 0.032355784625294204,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 40805504,
+      "step": 31480
+    },
+    {
+      "epoch": 1.538392006449564,
+      "grad_norm": 0.001349360914900899,
+      "learning_rate": 0.03231924980655402,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 40813312,
+      "step": 31485
+    },
+    {
+      "epoch": 1.5386363081132584,
+      "grad_norm": 0.0015588082605972886,
+      "learning_rate": 0.032282733135664446,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 40819840,
+      "step": 31490
+    },
+    {
+      "epoch": 1.5388806097769527,
+      "grad_norm": 0.0016140613006427884,
+      "learning_rate": 0.03224623461825669,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 40826432,
+      "step": 31495
+    },
+    {
+      "epoch": 1.539124911440647,
+      "grad_norm": 0.0012375491205602884,
+      "learning_rate": 0.03220975425995937,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 40832992,
+      "step": 31500
+    },
+    {
+      "epoch": 1.5393692131043413,
+      "grad_norm": 0.0016187666915357113,
+      "learning_rate": 0.032173292066398206,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 40839232,
+      "step": 31505
+    },
+    {
+      "epoch": 1.5396135147680354,
+      "grad_norm": 0.0012790015898644924,
+      "learning_rate": 0.03213684804319606,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 40845696,
+      "step": 31510
+    },
+    {
+      "epoch": 1.5398578164317298,
+      "grad_norm": 0.0010548102436587214,
+      "learning_rate": 0.03210042219597312,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 40852096,
+      "step": 31515
+    },
+    {
+      "epoch": 1.5401021180954242,
+      "grad_norm": 0.000873851589858532,
+      "learning_rate": 0.03206401453034675,
+      "loss": 0.075,
+      "num_input_tokens_seen": 40858592,
+      "step": 31520
+    },
+    {
+      "epoch": 1.5403464197591186,
+      "grad_norm": 0.0009736496722325683,
+      "learning_rate": 0.03202762505193136,
+      "loss": 0.069,
+      "num_input_tokens_seen": 40865696,
+      "step": 31525
+    },
+    {
+      "epoch": 1.540590721422813,
+      "grad_norm": 0.0016256208764389157,
+      "learning_rate": 0.031991253766338754,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 40872288,
+      "step": 31530
+    },
+    {
+      "epoch": 1.5408350230865073,
+      "grad_norm": 0.000849608622957021,
+      "learning_rate": 0.03195490067917778,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 40878560,
+      "step": 31535
+    },
+    {
+      "epoch": 1.5410793247502017,
+      "grad_norm": 0.0009934492409229279,
+      "learning_rate": 0.03191856579605461,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 40884800,
+      "step": 31540
+    },
+    {
+      "epoch": 1.5413236264138959,
+      "grad_norm": 0.002510929247364402,
+      "learning_rate": 0.031882249122572454,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 40891552,
+      "step": 31545
+    },
+    {
+      "epoch": 1.5415679280775902,
+      "grad_norm": 0.0018928381614387035,
+      "learning_rate": 0.03184595066433188,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 40897952,
+      "step": 31550
+    },
+    {
+      "epoch": 1.5418122297412844,
+      "grad_norm": 0.0020937940571457148,
+      "learning_rate": 0.03180967042693049,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 40905088,
+      "step": 31555
+    },
+    {
+      "epoch": 1.5420565314049788,
+      "grad_norm": 0.0014344300143420696,
+      "learning_rate": 0.03177340841596323,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 40911584,
+      "step": 31560
+    },
+    {
+      "epoch": 1.5423008330686732,
+      "grad_norm": 0.0009064124315045774,
+      "learning_rate": 0.03173716463702209,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 40917920,
+      "step": 31565
+    },
+    {
+      "epoch": 1.5425451347323675,
+      "grad_norm": 0.001400108216330409,
+      "learning_rate": 0.03170093909569638,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 40924288,
+      "step": 31570
+    },
+    {
+      "epoch": 1.542789436396062,
+      "grad_norm": 0.0015809773467481136,
+      "learning_rate": 0.03166473179757246,
+      "loss": 0.09,
+      "num_input_tokens_seen": 40930464,
+      "step": 31575
+    },
+    {
+      "epoch": 1.5430337380597563,
+      "grad_norm": 0.0010238632094115019,
+      "learning_rate": 0.031628542748234005,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 40936960,
+      "step": 31580
+    },
+    {
+      "epoch": 1.5432780397234507,
+      "grad_norm": 0.000699669704772532,
+      "learning_rate": 0.03159237195326184,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 40943392,
+      "step": 31585
+    },
+    {
+      "epoch": 1.5435223413871448,
+      "grad_norm": 0.0011328537948429585,
+      "learning_rate": 0.031556219418233875,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 40950176,
+      "step": 31590
+    },
+    {
+      "epoch": 1.5437666430508392,
+      "grad_norm": 0.0011483525158837438,
+      "learning_rate": 0.03152008514872533,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 40956736,
+      "step": 31595
+    },
+    {
+      "epoch": 1.5440109447145334,
+      "grad_norm": 0.0017075254581868649,
+      "learning_rate": 0.03148396915030862,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 40963072,
+      "step": 31600
+    },
+    {
+      "epoch": 1.5440109447145334,
+      "eval_loss": 0.0859449952840805,
+      "eval_runtime": 402.2386,
+      "eval_samples_per_second": 90.456,
+      "eval_steps_per_second": 22.616,
+      "num_input_tokens_seen": 40963072,
+      "step": 31600
+    },
+    {
+      "epoch": 1.5442552463782278,
+      "grad_norm": 0.0006992496200837195,
+      "learning_rate": 0.03144787142855318,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 40969952,
+      "step": 31605
+    },
+    {
+      "epoch": 1.5444995480419221,
+      "grad_norm": 0.0014832502929493785,
+      "learning_rate": 0.031411791989025835,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 40976704,
+      "step": 31610
+    },
+    {
+      "epoch": 1.5447438497056165,
+      "grad_norm": 0.001176374265924096,
+      "learning_rate": 0.031375730837290394,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 40982528,
+      "step": 31615
+    },
+    {
+      "epoch": 1.544988151369311,
+      "grad_norm": 0.0006842592265456915,
+      "learning_rate": 0.031339687978908015,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 40989568,
+      "step": 31620
+    },
+    {
+      "epoch": 1.5452324530330053,
+      "grad_norm": 0.0010248692706227303,
+      "learning_rate": 0.03130366341943694,
+      "loss": 0.071,
+      "num_input_tokens_seen": 40996192,
+      "step": 31625
+    },
+    {
+      "epoch": 1.5454767546966997,
+      "grad_norm": 0.001311065279878676,
+      "learning_rate": 0.031267657164432555,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 41002784,
+      "step": 31630
+    },
+    {
+      "epoch": 1.5457210563603938,
+      "grad_norm": 0.0011017449432983994,
+      "learning_rate": 0.03123166921944752,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 41009440,
+      "step": 31635
+    },
+    {
+      "epoch": 1.5459653580240882,
+      "grad_norm": 0.002200518501922488,
+      "learning_rate": 0.031195699590031666,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 41015456,
+      "step": 31640
+    },
+    {
+      "epoch": 1.5462096596877823,
+      "grad_norm": 0.0008245795615948737,
+      "learning_rate": 0.031159748281731885,
+      "loss": 0.076,
+      "num_input_tokens_seen": 41021664,
+      "step": 31645
+    },
+    {
+      "epoch": 1.5464539613514767,
+      "grad_norm": 0.0014699295861646533,
+      "learning_rate": 0.031123815300092394,
+      "loss": 0.118,
+      "num_input_tokens_seen": 41027776,
+      "step": 31650
+    },
+    {
+      "epoch": 1.546698263015171,
+      "grad_norm": 0.0012113997945562005,
+      "learning_rate": 0.031087900650654424,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 41034880,
+      "step": 31655
+    },
+    {
+      "epoch": 1.5469425646788655,
+      "grad_norm": 0.0017599508864805102,
+      "learning_rate": 0.031052004338956534,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 41041568,
+      "step": 31660
+    },
+    {
+      "epoch": 1.5471868663425599,
+      "grad_norm": 0.001137303770519793,
+      "learning_rate": 0.031016126370534407,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 41047904,
+      "step": 31665
+    },
+    {
+      "epoch": 1.5474311680062542,
+      "grad_norm": 0.0011287075467407703,
+      "learning_rate": 0.030980266750920804,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 41054240,
+      "step": 31670
+    },
+    {
+      "epoch": 1.5476754696699484,
+      "grad_norm": 0.0008394119213335216,
+      "learning_rate": 0.030944425485645747,
+      "loss": 0.075,
+      "num_input_tokens_seen": 41060640,
+      "step": 31675
+    },
+    {
+      "epoch": 1.5479197713336428,
+      "grad_norm": 0.002142243552953005,
+      "learning_rate": 0.03090860258023647,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 41067040,
+      "step": 31680
+    },
+    {
+      "epoch": 1.5481640729973372,
+      "grad_norm": 0.0011274119606241584,
+      "learning_rate": 0.030872798040217236,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 41073472,
+      "step": 31685
+    },
+    {
+      "epoch": 1.5484083746610313,
+      "grad_norm": 0.0011601822916418314,
+      "learning_rate": 0.03083701187110964,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 41080288,
+      "step": 31690
+    },
+    {
+      "epoch": 1.5486526763247257,
+      "grad_norm": 0.001167501206509769,
+      "learning_rate": 0.030801244078432294,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 41086528,
+      "step": 31695
+    },
+    {
+      "epoch": 1.54889697798842,
+      "grad_norm": 0.0022017606534063816,
+      "learning_rate": 0.030765494667701024,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 41092768,
+      "step": 31700
+    },
+    {
+      "epoch": 1.5491412796521145,
+      "grad_norm": 0.0014142879517748952,
+      "learning_rate": 0.030729763644428913,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 41099360,
+      "step": 31705
+    },
+    {
+      "epoch": 1.5493855813158088,
+      "grad_norm": 0.001682609785348177,
+      "learning_rate": 0.030694051014126048,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 41106592,
+      "step": 31710
+    },
+    {
+      "epoch": 1.5496298829795032,
+      "grad_norm": 0.0012364663416519761,
+      "learning_rate": 0.030658356782299792,
+      "loss": 0.079,
+      "num_input_tokens_seen": 41113376,
+      "step": 31715
+    },
+    {
+      "epoch": 1.5498741846431974,
+      "grad_norm": 0.0009877107804641128,
+      "learning_rate": 0.030622680954454726,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 41119776,
+      "step": 31720
+    },
+    {
+      "epoch": 1.5501184863068918,
+      "grad_norm": 0.0009009384084492922,
+      "learning_rate": 0.030587023536092398,
+      "loss": 0.086,
+      "num_input_tokens_seen": 41126208,
+      "step": 31725
+    },
+    {
+      "epoch": 1.5503627879705861,
+      "grad_norm": 0.0012380011612549424,
+      "learning_rate": 0.03055138453271171,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 41132512,
+      "step": 31730
+    },
+    {
+      "epoch": 1.5506070896342803,
+      "grad_norm": 0.0010081485379487276,
+      "learning_rate": 0.03051576394980858,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 41139136,
+      "step": 31735
+    },
+    {
+      "epoch": 1.5508513912979747,
+      "grad_norm": 0.0007478652987629175,
+      "learning_rate": 0.030480161792876187,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 41146016,
+      "step": 31740
+    },
+    {
+      "epoch": 1.551095692961669,
+      "grad_norm": 0.0014048555167391896,
+      "learning_rate": 0.030444578067404846,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 41152224,
+      "step": 31745
+    },
+    {
+      "epoch": 1.5513399946253634,
+      "grad_norm": 0.001758594298735261,
+      "learning_rate": 0.030409012778881975,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 41158976,
+      "step": 31750
+    },
+    {
+      "epoch": 1.5515842962890578,
+      "grad_norm": 0.0018606478115543723,
+      "learning_rate": 0.030373465932792235,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 41165376,
+      "step": 31755
+    },
+    {
+      "epoch": 1.5518285979527522,
+      "grad_norm": 0.001325175166130066,
+      "learning_rate": 0.030337937534617342,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 41172320,
+      "step": 31760
+    },
+    {
+      "epoch": 1.5520728996164463,
+      "grad_norm": 0.0014310163678601384,
+      "learning_rate": 0.030302427589836277,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 41178752,
+      "step": 31765
+    },
+    {
+      "epoch": 1.5523172012801407,
+      "grad_norm": 0.0014626123011112213,
+      "learning_rate": 0.030266936103925095,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 41185312,
+      "step": 31770
+    },
+    {
+      "epoch": 1.5525615029438349,
+      "grad_norm": 0.0013165645068511367,
+      "learning_rate": 0.030231463082356982,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 41191840,
+      "step": 31775
+    },
+    {
+      "epoch": 1.5528058046075293,
+      "grad_norm": 0.0012475675903260708,
+      "learning_rate": 0.030196008530602367,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 41198208,
+      "step": 31780
+    },
+    {
+      "epoch": 1.5530501062712236,
+      "grad_norm": 0.0016105725662782788,
+      "learning_rate": 0.030160572454128842,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 41204832,
+      "step": 31785
+    },
+    {
+      "epoch": 1.553294407934918,
+      "grad_norm": 0.0008651247480884194,
+      "learning_rate": 0.03012515485840098,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 41211584,
+      "step": 31790
+    },
+    {
+      "epoch": 1.5535387095986124,
+      "grad_norm": 0.001485613640397787,
+      "learning_rate": 0.030089755748880734,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 41218080,
+      "step": 31795
+    },
+    {
+      "epoch": 1.5537830112623068,
+      "grad_norm": 0.0013103652745485306,
+      "learning_rate": 0.030054375131027003,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 41224800,
+      "step": 31800
+    },
+    {
+      "epoch": 1.5537830112623068,
+      "eval_loss": 0.0856202244758606,
+      "eval_runtime": 402.041,
+      "eval_samples_per_second": 90.501,
+      "eval_steps_per_second": 22.627,
+      "num_input_tokens_seen": 41224800,
+      "step": 31800
+    },
+    {
+      "epoch": 1.5540273129260012,
+      "grad_norm": 0.0008422939572483301,
+      "learning_rate": 0.030019013010295942,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 41231680,
+      "step": 31805
+    },
+    {
+      "epoch": 1.5542716145896953,
+      "grad_norm": 0.001130976714193821,
+      "learning_rate": 0.029983669392140897,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 41238784,
+      "step": 31810
+    },
+    {
+      "epoch": 1.5545159162533897,
+      "grad_norm": 0.001298298710025847,
+      "learning_rate": 0.029948344282012217,
+      "loss": 0.094,
+      "num_input_tokens_seen": 41245088,
+      "step": 31815
+    },
+    {
+      "epoch": 1.5547602179170839,
+      "grad_norm": 0.0008517098613083363,
+      "learning_rate": 0.029913037685357507,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 41251520,
+      "step": 31820
+    },
+    {
+      "epoch": 1.5550045195807782,
+      "grad_norm": 0.0008914362988434732,
+      "learning_rate": 0.029877749607621528,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 41258016,
+      "step": 31825
+    },
+    {
+      "epoch": 1.5552488212444726,
+      "grad_norm": 0.0016569097060710192,
+      "learning_rate": 0.029842480054246077,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 41264768,
+      "step": 31830
+    },
+    {
+      "epoch": 1.555493122908167,
+      "grad_norm": 0.0008859600638970733,
+      "learning_rate": 0.02980722903067022,
+      "loss": 0.0698,
+      "num_input_tokens_seen": 41271264,
+      "step": 31835
+    },
+    {
+      "epoch": 1.5557374245718614,
+      "grad_norm": 0.0004616097721736878,
+      "learning_rate": 0.029771996542330113,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 41277568,
+      "step": 31840
+    },
+    {
+      "epoch": 1.5559817262355558,
+      "grad_norm": 0.001467327238060534,
+      "learning_rate": 0.029736782594658954,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 41283680,
+      "step": 31845
+    },
+    {
+      "epoch": 1.5562260278992501,
+      "grad_norm": 0.0011392578016966581,
+      "learning_rate": 0.029701587193087284,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 41290720,
+      "step": 31850
+    },
+    {
+      "epoch": 1.5564703295629443,
+      "grad_norm": 0.0005372367450036108,
+      "learning_rate": 0.0296664103430426,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 41297664,
+      "step": 31855
+    },
+    {
+      "epoch": 1.5567146312266387,
+      "grad_norm": 0.0010983450338244438,
+      "learning_rate": 0.029631252049949652,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 41304032,
+      "step": 31860
+    },
+    {
+      "epoch": 1.5569589328903328,
+      "grad_norm": 0.0016239688266068697,
+      "learning_rate": 0.02959611231923031,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 41310368,
+      "step": 31865
+    },
+    {
+      "epoch": 1.5572032345540272,
+      "grad_norm": 0.0017201268346980214,
+      "learning_rate": 0.029560991156303507,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 41316736,
+      "step": 31870
+    },
+    {
+      "epoch": 1.5574475362177216,
+      "grad_norm": 0.0018439724808558822,
+      "learning_rate": 0.02952588856658544,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 41323552,
+      "step": 31875
+    },
+    {
+      "epoch": 1.557691837881416,
+      "grad_norm": 0.0015436536632478237,
+      "learning_rate": 0.029490804555489296,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 41330560,
+      "step": 31880
+    },
+    {
+      "epoch": 1.5579361395451103,
+      "grad_norm": 0.001722603803500533,
+      "learning_rate": 0.029455739128425484,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 41336832,
+      "step": 31885
+    },
+    {
+      "epoch": 1.5581804412088047,
+      "grad_norm": 0.0018876707181334496,
+      "learning_rate": 0.029420692290801607,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 41343360,
+      "step": 31890
+    },
+    {
+      "epoch": 1.558424742872499,
+      "grad_norm": 0.0008632439421489835,
+      "learning_rate": 0.02938566404802223,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 41349856,
+      "step": 31895
+    },
+    {
+      "epoch": 1.5586690445361933,
+      "grad_norm": 0.001313221757300198,
+      "learning_rate": 0.029350654405489195,
+      "loss": 0.075,
+      "num_input_tokens_seen": 41356736,
+      "step": 31900
+    },
+    {
+      "epoch": 1.5589133461998876,
+      "grad_norm": 0.0011836355552077293,
+      "learning_rate": 0.02931566336860145,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 41363488,
+      "step": 31905
+    },
+    {
+      "epoch": 1.5591576478635818,
+      "grad_norm": 0.0014057550579309464,
+      "learning_rate": 0.02928069094275505,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 41370112,
+      "step": 31910
+    },
+    {
+      "epoch": 1.5594019495272762,
+      "grad_norm": 0.0012933145044371486,
+      "learning_rate": 0.02924573713334314,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 41376736,
+      "step": 31915
+    },
+    {
+      "epoch": 1.5596462511909706,
+      "grad_norm": 0.0024407017044723034,
+      "learning_rate": 0.02921080194575603,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 41383040,
+      "step": 31920
+    },
+    {
+      "epoch": 1.559890552854665,
+      "grad_norm": 0.0009123545605689287,
+      "learning_rate": 0.029175885385381177,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 41389376,
+      "step": 31925
+    },
+    {
+      "epoch": 1.5601348545183593,
+      "grad_norm": 0.0016189637826755643,
+      "learning_rate": 0.029140987457603223,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 41396000,
+      "step": 31930
+    },
+    {
+      "epoch": 1.5603791561820537,
+      "grad_norm": 0.0009108100202865899,
+      "learning_rate": 0.029106108167803763,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 41402432,
+      "step": 31935
+    },
+    {
+      "epoch": 1.560623457845748,
+      "grad_norm": 0.0011964512523263693,
+      "learning_rate": 0.029071247521361674,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 41408928,
+      "step": 31940
+    },
+    {
+      "epoch": 1.5608677595094422,
+      "grad_norm": 0.0016180846141651273,
+      "learning_rate": 0.029036405523652945,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 41415296,
+      "step": 31945
+    },
+    {
+      "epoch": 1.5611120611731366,
+      "grad_norm": 0.0009567724773660302,
+      "learning_rate": 0.029001582180050577,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 41421920,
+      "step": 31950
+    },
+    {
+      "epoch": 1.5613563628368308,
+      "grad_norm": 0.0015378230018541217,
+      "learning_rate": 0.02896677749592482,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 41428160,
+      "step": 31955
+    },
+    {
+      "epoch": 1.5616006645005251,
+      "grad_norm": 0.0019625192508101463,
+      "learning_rate": 0.028931991476642938,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 41434880,
+      "step": 31960
+    },
+    {
+      "epoch": 1.5618449661642195,
+      "grad_norm": 0.0019219251116737723,
+      "learning_rate": 0.028897224127569412,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 41441632,
+      "step": 31965
+    },
+    {
+      "epoch": 1.562089267827914,
+      "grad_norm": 0.0015400007832795382,
+      "learning_rate": 0.028862475454065832,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 41448256,
+      "step": 31970
+    },
+    {
+      "epoch": 1.5623335694916083,
+      "grad_norm": 0.0013142499374225736,
+      "learning_rate": 0.028827745461490806,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 41454528,
+      "step": 31975
+    },
+    {
+      "epoch": 1.5625778711553027,
+      "grad_norm": 0.001049310085363686,
+      "learning_rate": 0.028793034155200212,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 41460960,
+      "step": 31980
+    },
+    {
+      "epoch": 1.562822172818997,
+      "grad_norm": 0.0011428137077018619,
+      "learning_rate": 0.028758341540546944,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 41467072,
+      "step": 31985
+    },
+    {
+      "epoch": 1.5630664744826912,
+      "grad_norm": 0.0012339507229626179,
+      "learning_rate": 0.02872366762288098,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 41473440,
+      "step": 31990
+    },
+    {
+      "epoch": 1.5633107761463856,
+      "grad_norm": 0.0009935081470757723,
+      "learning_rate": 0.028689012407549567,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 41479520,
+      "step": 31995
+    },
+    {
+      "epoch": 1.5635550778100797,
+      "grad_norm": 0.0009321215329691768,
+      "learning_rate": 0.028654375899896892,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 41485536,
+      "step": 32000
+    },
+    {
+      "epoch": 1.5635550778100797,
+      "eval_loss": 0.08558771759271622,
+      "eval_runtime": 403.1932,
+      "eval_samples_per_second": 90.242,
+      "eval_steps_per_second": 22.562,
+      "num_input_tokens_seen": 41485536,
+      "step": 32000
+    },
+    {
+      "epoch": 1.5637993794737741,
+      "grad_norm": 0.001122487592510879,
+      "learning_rate": 0.02861975810526437,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 41492256,
+      "step": 32005
+    },
+    {
+      "epoch": 1.5640436811374685,
+      "grad_norm": 0.0015100190648809075,
+      "learning_rate": 0.02858515902899056,
+      "loss": 0.096,
+      "num_input_tokens_seen": 41498624,
+      "step": 32010
+    },
+    {
+      "epoch": 1.5642879828011629,
+      "grad_norm": 0.0010824560886248946,
+      "learning_rate": 0.028550578676410976,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 41505888,
+      "step": 32015
+    },
+    {
+      "epoch": 1.5645322844648573,
+      "grad_norm": 0.000935180636588484,
+      "learning_rate": 0.02851601705285837,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 41512128,
+      "step": 32020
+    },
+    {
+      "epoch": 1.5647765861285516,
+      "grad_norm": 0.0017366297543048859,
+      "learning_rate": 0.028481474163662666,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 41518112,
+      "step": 32025
+    },
+    {
+      "epoch": 1.565020887792246,
+      "grad_norm": 0.0012541661271825433,
+      "learning_rate": 0.028446950014150683,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 41524800,
+      "step": 32030
+    },
+    {
+      "epoch": 1.5652651894559402,
+      "grad_norm": 0.002178124152123928,
+      "learning_rate": 0.028412444609646596,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 41531392,
+      "step": 32035
+    },
+    {
+      "epoch": 1.5655094911196346,
+      "grad_norm": 0.001922656549140811,
+      "learning_rate": 0.028377957955471465,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 41537600,
+      "step": 32040
+    },
+    {
+      "epoch": 1.5657537927833287,
+      "grad_norm": 0.002788633806630969,
+      "learning_rate": 0.0283434900569436,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 41543968,
+      "step": 32045
+    },
+    {
+      "epoch": 1.565998094447023,
+      "grad_norm": 0.0015519579173997045,
+      "learning_rate": 0.028309040919378456,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 41550240,
+      "step": 32050
+    },
+    {
+      "epoch": 1.5662423961107175,
+      "grad_norm": 0.0013232880737632513,
+      "learning_rate": 0.02827461054808848,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 41556448,
+      "step": 32055
+    },
+    {
+      "epoch": 1.5664866977744119,
+      "grad_norm": 0.0017695948481559753,
+      "learning_rate": 0.028240198948383186,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 41562624,
+      "step": 32060
+    },
+    {
+      "epoch": 1.5667309994381062,
+      "grad_norm": 0.0012816559756174684,
+      "learning_rate": 0.028205806125569402,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 41568512,
+      "step": 32065
+    },
+    {
+      "epoch": 1.5669753011018006,
+      "grad_norm": 0.001132130273617804,
+      "learning_rate": 0.028171432084950834,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 41574784,
+      "step": 32070
+    },
+    {
+      "epoch": 1.567219602765495,
+      "grad_norm": 0.001182669191621244,
+      "learning_rate": 0.028137076831828478,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 41580896,
+      "step": 32075
+    },
+    {
+      "epoch": 1.5674639044291891,
+      "grad_norm": 0.0007922311197035015,
+      "learning_rate": 0.028102740371500238,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 41587232,
+      "step": 32080
+    },
+    {
+      "epoch": 1.5677082060928835,
+      "grad_norm": 0.0014122853754088283,
+      "learning_rate": 0.0280684227092613,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 41593824,
+      "step": 32085
+    },
+    {
+      "epoch": 1.5679525077565777,
+      "grad_norm": 0.0016782439779490232,
+      "learning_rate": 0.02803412385040392,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 41600128,
+      "step": 32090
+    },
+    {
+      "epoch": 1.568196809420272,
+      "grad_norm": 0.0013157492503523827,
+      "learning_rate": 0.027999843800217306,
+      "loss": 0.063,
+      "num_input_tokens_seen": 41607136,
+      "step": 32095
+    },
+    {
+      "epoch": 1.5684411110839664,
+      "grad_norm": 0.0011971151689067483,
+      "learning_rate": 0.027965582563987932,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 41613408,
+      "step": 32100
+    },
+    {
+      "epoch": 1.5686854127476608,
+      "grad_norm": 0.0013745055766776204,
+      "learning_rate": 0.027931340146999346,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 41620064,
+      "step": 32105
+    },
+    {
+      "epoch": 1.5689297144113552,
+      "grad_norm": 0.000981685472652316,
+      "learning_rate": 0.02789711655453208,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 41626976,
+      "step": 32110
+    },
+    {
+      "epoch": 1.5691740160750496,
+      "grad_norm": 0.00121452403254807,
+      "learning_rate": 0.02786291179186392,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 41633024,
+      "step": 32115
+    },
+    {
+      "epoch": 1.569418317738744,
+      "grad_norm": 0.0016504451632499695,
+      "learning_rate": 0.02782872586426961,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 41639584,
+      "step": 32120
+    },
+    {
+      "epoch": 1.5696626194024381,
+      "grad_norm": 0.0013658548705279827,
+      "learning_rate": 0.027794558777021083,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 41646880,
+      "step": 32125
+    },
+    {
+      "epoch": 1.5699069210661325,
+      "grad_norm": 0.0011544708395376801,
+      "learning_rate": 0.02776041053538734,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 41653088,
+      "step": 32130
+    },
+    {
+      "epoch": 1.5701512227298267,
+      "grad_norm": 0.0015571173280477524,
+      "learning_rate": 0.027726281144634407,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 41659520,
+      "step": 32135
+    },
+    {
+      "epoch": 1.570395524393521,
+      "grad_norm": 0.0016943515511229634,
+      "learning_rate": 0.02769217061002552,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 41666144,
+      "step": 32140
+    },
+    {
+      "epoch": 1.5706398260572154,
+      "grad_norm": 0.0013099872739985585,
+      "learning_rate": 0.027658078936820967,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 41671904,
+      "step": 32145
+    },
+    {
+      "epoch": 1.5708841277209098,
+      "grad_norm": 0.001203359803184867,
+      "learning_rate": 0.02762400613027805,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 41678560,
+      "step": 32150
+    },
+    {
+      "epoch": 1.5711284293846042,
+      "grad_norm": 0.0017147830221801996,
+      "learning_rate": 0.027589952195651295,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 41685280,
+      "step": 32155
+    },
+    {
+      "epoch": 1.5713727310482986,
+      "grad_norm": 0.0015930572990328074,
+      "learning_rate": 0.027555917138192186,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 41691616,
+      "step": 32160
+    },
+    {
+      "epoch": 1.571617032711993,
+      "grad_norm": 0.0012526147766038775,
+      "learning_rate": 0.027521900963149375,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 41697984,
+      "step": 32165
+    },
+    {
+      "epoch": 1.571861334375687,
+      "grad_norm": 0.0007742740563116968,
+      "learning_rate": 0.027487903675768633,
+      "loss": 0.068,
+      "num_input_tokens_seen": 41704352,
+      "step": 32170
+    },
+    {
+      "epoch": 1.5721056360393815,
+      "grad_norm": 0.0010318130953237414,
+      "learning_rate": 0.027453925281292677,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 41711008,
+      "step": 32175
+    },
+    {
+      "epoch": 1.5723499377030756,
+      "grad_norm": 0.0016685385489836335,
+      "learning_rate": 0.027419965784961475,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 41717760,
+      "step": 32180
+    },
+    {
+      "epoch": 1.57259423936677,
+      "grad_norm": 0.0010541274677962065,
+      "learning_rate": 0.027386025192012015,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 41723904,
+      "step": 32185
+    },
+    {
+      "epoch": 1.5728385410304644,
+      "grad_norm": 0.0008494790527038276,
+      "learning_rate": 0.027352103507678277,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 41730592,
+      "step": 32190
+    },
+    {
+      "epoch": 1.5730828426941588,
+      "grad_norm": 0.0013996184570714831,
+      "learning_rate": 0.027318200737191527,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 41737184,
+      "step": 32195
+    },
+    {
+      "epoch": 1.5733271443578531,
+      "grad_norm": 0.0011767800897359848,
+      "learning_rate": 0.027284316885779935,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 41743456,
+      "step": 32200
+    },
+    {
+      "epoch": 1.5733271443578531,
+      "eval_loss": 0.08534189313650131,
+      "eval_runtime": 402.6765,
+      "eval_samples_per_second": 90.358,
+      "eval_steps_per_second": 22.591,
+      "num_input_tokens_seen": 41743456,
+      "step": 32200
+    },
+    {
+      "epoch": 1.5735714460215475,
+      "grad_norm": 0.0007911674911156297,
+      "learning_rate": 0.027250451958668785,
+      "loss": 0.072,
+      "num_input_tokens_seen": 41750208,
+      "step": 32205
+    },
+    {
+      "epoch": 1.5738157476852417,
+      "grad_norm": 0.00131585996132344,
+      "learning_rate": 0.027216605961080536,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 41757312,
+      "step": 32210
+    },
+    {
+      "epoch": 1.574060049348936,
+      "grad_norm": 0.0011394135653972626,
+      "learning_rate": 0.02718277889823461,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 41763936,
+      "step": 32215
+    },
+    {
+      "epoch": 1.5743043510126304,
+      "grad_norm": 0.0013419546885415912,
+      "learning_rate": 0.027148970775347604,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 41770592,
+      "step": 32220
+    },
+    {
+      "epoch": 1.5745486526763246,
+      "grad_norm": 0.0015604918589815497,
+      "learning_rate": 0.027115181597633174,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 41776832,
+      "step": 32225
+    },
+    {
+      "epoch": 1.574792954340019,
+      "grad_norm": 0.0010329909855499864,
+      "learning_rate": 0.027081411370301976,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 41782816,
+      "step": 32230
+    },
+    {
+      "epoch": 1.5750372560037134,
+      "grad_norm": 0.0013295281678438187,
+      "learning_rate": 0.027047660098561875,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 41789248,
+      "step": 32235
+    },
+    {
+      "epoch": 1.5752815576674077,
+      "grad_norm": 0.0010297410190105438,
+      "learning_rate": 0.02701392778761766,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 41795936,
+      "step": 32240
+    },
+    {
+      "epoch": 1.5755258593311021,
+      "grad_norm": 0.001699823304079473,
+      "learning_rate": 0.02698021444267133,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 41802560,
+      "step": 32245
+    },
+    {
+      "epoch": 1.5757701609947965,
+      "grad_norm": 0.0010998089564964175,
+      "learning_rate": 0.026946520068921915,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 41809248,
+      "step": 32250
+    },
+    {
+      "epoch": 1.5760144626584907,
+      "grad_norm": 0.001534226699732244,
+      "learning_rate": 0.02691284467156547,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 41815936,
+      "step": 32255
+    },
+    {
+      "epoch": 1.576258764322185,
+      "grad_norm": 0.0009541672770865262,
+      "learning_rate": 0.026879188255795182,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 41822624,
+      "step": 32260
+    },
+    {
+      "epoch": 1.5765030659858794,
+      "grad_norm": 0.0009810308692976832,
+      "learning_rate": 0.026845550826801328,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 41829152,
+      "step": 32265
+    },
+    {
+      "epoch": 1.5767473676495736,
+      "grad_norm": 0.0029303664341568947,
+      "learning_rate": 0.02681193238977121,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 41835424,
+      "step": 32270
+    },
+    {
+      "epoch": 1.576991669313268,
+      "grad_norm": 0.0009851530194282532,
+      "learning_rate": 0.026778332949889145,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 41842272,
+      "step": 32275
+    },
+    {
+      "epoch": 1.5772359709769623,
+      "grad_norm": 0.0019462605705484748,
+      "learning_rate": 0.026744752512336673,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 41848768,
+      "step": 32280
+    },
+    {
+      "epoch": 1.5774802726406567,
+      "grad_norm": 0.0010842586634680629,
+      "learning_rate": 0.02671119108229225,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 41854912,
+      "step": 32285
+    },
+    {
+      "epoch": 1.577724574304351,
+      "grad_norm": 0.0009705163538455963,
+      "learning_rate": 0.026677648664931556,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 41861344,
+      "step": 32290
+    },
+    {
+      "epoch": 1.5779688759680455,
+      "grad_norm": 0.0014006574638187885,
+      "learning_rate": 0.026644125265427154,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 41867520,
+      "step": 32295
+    },
+    {
+      "epoch": 1.5782131776317396,
+      "grad_norm": 0.001182827283628285,
+      "learning_rate": 0.026610620888948822,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 41874656,
+      "step": 32300
+    },
+    {
+      "epoch": 1.578457479295434,
+      "grad_norm": 0.0029884029645472765,
+      "learning_rate": 0.026577135540663408,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 41881248,
+      "step": 32305
+    },
+    {
+      "epoch": 1.5787017809591284,
+      "grad_norm": 0.0012842625146731734,
+      "learning_rate": 0.026543669225734673,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 41888608,
+      "step": 32310
+    },
+    {
+      "epoch": 1.5789460826228225,
+      "grad_norm": 0.0008483583224005997,
+      "learning_rate": 0.02651022194932363,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 41895232,
+      "step": 32315
+    },
+    {
+      "epoch": 1.579190384286517,
+      "grad_norm": 0.001281282282434404,
+      "learning_rate": 0.026476793716588194,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 41902368,
+      "step": 32320
+    },
+    {
+      "epoch": 1.5794346859502113,
+      "grad_norm": 0.0010972722666338086,
+      "learning_rate": 0.026443384532683467,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 41909152,
+      "step": 32325
+    },
+    {
+      "epoch": 1.5796789876139057,
+      "grad_norm": 0.0012304509291425347,
+      "learning_rate": 0.026409994402761584,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 41915904,
+      "step": 32330
+    },
+    {
+      "epoch": 1.5799232892776,
+      "grad_norm": 0.001906454679556191,
+      "learning_rate": 0.026376623331971653,
+      "loss": 0.094,
+      "num_input_tokens_seen": 41922240,
+      "step": 32335
+    },
+    {
+      "epoch": 1.5801675909412944,
+      "grad_norm": 0.0010781461605802178,
+      "learning_rate": 0.026343271325459997,
+      "loss": 0.069,
+      "num_input_tokens_seen": 41928512,
+      "step": 32340
+    },
+    {
+      "epoch": 1.5804118926049886,
+      "grad_norm": 0.0009410715429112315,
+      "learning_rate": 0.02630993838836987,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 41935104,
+      "step": 32345
+    },
+    {
+      "epoch": 1.580656194268683,
+      "grad_norm": 0.001639701658859849,
+      "learning_rate": 0.026276624525841584,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 41941856,
+      "step": 32350
+    },
+    {
+      "epoch": 1.5809004959323771,
+      "grad_norm": 0.0019958962220698595,
+      "learning_rate": 0.026243329743012637,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 41948672,
+      "step": 32355
+    },
+    {
+      "epoch": 1.5811447975960715,
+      "grad_norm": 0.0007587409345433116,
+      "learning_rate": 0.026210054045017438,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 41955232,
+      "step": 32360
+    },
+    {
+      "epoch": 1.581389099259766,
+      "grad_norm": 0.001278779236599803,
+      "learning_rate": 0.02617679743698755,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 41961472,
+      "step": 32365
+    },
+    {
+      "epoch": 1.5816334009234603,
+      "grad_norm": 0.0009250518050976098,
+      "learning_rate": 0.02614355992405158,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 41967424,
+      "step": 32370
+    },
+    {
+      "epoch": 1.5818777025871547,
+      "grad_norm": 0.0009360617841593921,
+      "learning_rate": 0.026110341511335115,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 41974048,
+      "step": 32375
+    },
+    {
+      "epoch": 1.582122004250849,
+      "grad_norm": 0.0010192274348810315,
+      "learning_rate": 0.02607714220396093,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 41980096,
+      "step": 32380
+    },
+    {
+      "epoch": 1.5823663059145434,
+      "grad_norm": 0.001103901886381209,
+      "learning_rate": 0.02604396200704869,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 41986624,
+      "step": 32385
+    },
+    {
+      "epoch": 1.5826106075782376,
+      "grad_norm": 0.0012859405251219869,
+      "learning_rate": 0.02601080092571523,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 41992832,
+      "step": 32390
+    },
+    {
+      "epoch": 1.582854909241932,
+      "grad_norm": 0.0010985780972987413,
+      "learning_rate": 0.025977658965074455,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 41999328,
+      "step": 32395
+    },
+    {
+      "epoch": 1.583099210905626,
+      "grad_norm": 0.0010960969375446439,
+      "learning_rate": 0.02594453613023719,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 42005696,
+      "step": 32400
+    },
+    {
+      "epoch": 1.583099210905626,
+      "eval_loss": 0.08598441630601883,
+      "eval_runtime": 402.4956,
+      "eval_samples_per_second": 90.398,
+      "eval_steps_per_second": 22.601,
+      "num_input_tokens_seen": 42005696,
+      "step": 32400
+    },
+    {
+      "epoch": 1.5833435125693205,
+      "grad_norm": 0.0015112695982679725,
+      "learning_rate": 0.025911432426311443,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 42011808,
+      "step": 32405
+    },
+    {
+      "epoch": 1.5835878142330149,
+      "grad_norm": 0.0022349690552800894,
+      "learning_rate": 0.025878347858402234,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 42018240,
+      "step": 32410
+    },
+    {
+      "epoch": 1.5838321158967092,
+      "grad_norm": 0.0016553864115849137,
+      "learning_rate": 0.025845282431611598,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 42024800,
+      "step": 32415
+    },
+    {
+      "epoch": 1.5840764175604036,
+      "grad_norm": 0.0010850204853340983,
+      "learning_rate": 0.025812236151038608,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 42031232,
+      "step": 32420
+    },
+    {
+      "epoch": 1.584320719224098,
+      "grad_norm": 0.0007904147496446967,
+      "learning_rate": 0.025779209021779468,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 42037568,
+      "step": 32425
+    },
+    {
+      "epoch": 1.5845650208877924,
+      "grad_norm": 0.0008839526562951505,
+      "learning_rate": 0.025746201048927324,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 42043872,
+      "step": 32430
+    },
+    {
+      "epoch": 1.5848093225514865,
+      "grad_norm": 0.0014206117484718561,
+      "learning_rate": 0.025713212237572485,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 42050368,
+      "step": 32435
+    },
+    {
+      "epoch": 1.585053624215181,
+      "grad_norm": 0.0008773656445555389,
+      "learning_rate": 0.025680242592802164,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 42056896,
+      "step": 32440
+    },
+    {
+      "epoch": 1.585297925878875,
+      "grad_norm": 0.0016514149028807878,
+      "learning_rate": 0.02564729211970073,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 42063392,
+      "step": 32445
+    },
+    {
+      "epoch": 1.5855422275425695,
+      "grad_norm": 0.0016027624951675534,
+      "learning_rate": 0.025614360823349617,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 42069824,
+      "step": 32450
+    },
+    {
+      "epoch": 1.5857865292062638,
+      "grad_norm": 0.0018984038615599275,
+      "learning_rate": 0.025581448708827146,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 42076064,
+      "step": 32455
+    },
+    {
+      "epoch": 1.5860308308699582,
+      "grad_norm": 0.0013337020063772798,
+      "learning_rate": 0.025548555781208876,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 42082784,
+      "step": 32460
+    },
+    {
+      "epoch": 1.5862751325336526,
+      "grad_norm": 0.000999462092295289,
+      "learning_rate": 0.02551568204556721,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 42089248,
+      "step": 32465
+    },
+    {
+      "epoch": 1.586519434197347,
+      "grad_norm": 0.002073810435831547,
+      "learning_rate": 0.02548282750697173,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 42095904,
+      "step": 32470
+    },
+    {
+      "epoch": 1.5867637358610414,
+      "grad_norm": 0.001604895107448101,
+      "learning_rate": 0.02544999217048909,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 42102688,
+      "step": 32475
+    },
+    {
+      "epoch": 1.5870080375247355,
+      "grad_norm": 0.001007910119369626,
+      "learning_rate": 0.025417176041182793,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 42108640,
+      "step": 32480
+    },
+    {
+      "epoch": 1.58725233918843,
+      "grad_norm": 0.001882205717265606,
+      "learning_rate": 0.025384379124113596,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 42114720,
+      "step": 32485
+    },
+    {
+      "epoch": 1.587496640852124,
+      "grad_norm": 0.001891360036097467,
+      "learning_rate": 0.025351601424339124,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 42121632,
+      "step": 32490
+    },
+    {
+      "epoch": 1.5877409425158184,
+      "grad_norm": 0.0010158636141568422,
+      "learning_rate": 0.025318842946914184,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 42128320,
+      "step": 32495
+    },
+    {
+      "epoch": 1.5879852441795128,
+      "grad_norm": 0.0014928329037502408,
+      "learning_rate": 0.025286103696890494,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 42134720,
+      "step": 32500
+    },
+    {
+      "epoch": 1.5882295458432072,
+      "grad_norm": 0.002266793278977275,
+      "learning_rate": 0.025253383679316836,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 42141536,
+      "step": 32505
+    },
+    {
+      "epoch": 1.5884738475069016,
+      "grad_norm": 0.0018523283069953322,
+      "learning_rate": 0.025220682899239077,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 42147584,
+      "step": 32510
+    },
+    {
+      "epoch": 1.588718149170596,
+      "grad_norm": 0.0012401459971442819,
+      "learning_rate": 0.02518800136170013,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 42154080,
+      "step": 32515
+    },
+    {
+      "epoch": 1.5889624508342903,
+      "grad_norm": 0.0014921320835128427,
+      "learning_rate": 0.02515533907173981,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 42161056,
+      "step": 32520
+    },
+    {
+      "epoch": 1.5892067524979845,
+      "grad_norm": 0.003225719090551138,
+      "learning_rate": 0.025122696034395115,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 42167200,
+      "step": 32525
+    },
+    {
+      "epoch": 1.5894510541616789,
+      "grad_norm": 0.001268618507310748,
+      "learning_rate": 0.025090072254700023,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 42174048,
+      "step": 32530
+    },
+    {
+      "epoch": 1.589695355825373,
+      "grad_norm": 0.001468090107664466,
+      "learning_rate": 0.025057467737685468,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 42180320,
+      "step": 32535
+    },
+    {
+      "epoch": 1.5899396574890674,
+      "grad_norm": 0.0012067221105098724,
+      "learning_rate": 0.025024882488379557,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 42187168,
+      "step": 32540
+    },
+    {
+      "epoch": 1.5901839591527618,
+      "grad_norm": 0.0009755706414580345,
+      "learning_rate": 0.02499231651180727,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 42193952,
+      "step": 32545
+    },
+    {
+      "epoch": 1.5904282608164562,
+      "grad_norm": 0.0014490527100861073,
+      "learning_rate": 0.024959769812990713,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 42200256,
+      "step": 32550
+    },
+    {
+      "epoch": 1.5906725624801505,
+      "grad_norm": 0.0008108124020509422,
+      "learning_rate": 0.024927242396949045,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 42206528,
+      "step": 32555
+    },
+    {
+      "epoch": 1.590916864143845,
+      "grad_norm": 0.0011537218233570457,
+      "learning_rate": 0.02489473426869836,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 42213280,
+      "step": 32560
+    },
+    {
+      "epoch": 1.5911611658075393,
+      "grad_norm": 0.001959435408934951,
+      "learning_rate": 0.024862245433251776,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 42220128,
+      "step": 32565
+    },
+    {
+      "epoch": 1.5914054674712335,
+      "grad_norm": 0.002017243066802621,
+      "learning_rate": 0.024829775895619577,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 42227104,
+      "step": 32570
+    },
+    {
+      "epoch": 1.5916497691349278,
+      "grad_norm": 0.0015124541241675615,
+      "learning_rate": 0.024797325660808882,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 42233984,
+      "step": 32575
+    },
+    {
+      "epoch": 1.591894070798622,
+      "grad_norm": 0.0014151635114103556,
+      "learning_rate": 0.02476489473382401,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 42240768,
+      "step": 32580
+    },
+    {
+      "epoch": 1.5921383724623164,
+      "grad_norm": 0.0014892774634063244,
+      "learning_rate": 0.024732483119666127,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 42247712,
+      "step": 32585
+    },
+    {
+      "epoch": 1.5923826741260108,
+      "grad_norm": 0.0012443209998309612,
+      "learning_rate": 0.024700090823333548,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 42254688,
+      "step": 32590
+    },
+    {
+      "epoch": 1.5926269757897051,
+      "grad_norm": 0.0008792077424004674,
+      "learning_rate": 0.02466771784982163,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 42261120,
+      "step": 32595
+    },
+    {
+      "epoch": 1.5928712774533995,
+      "grad_norm": 0.0021307538263499737,
+      "learning_rate": 0.024635364204122594,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 42267520,
+      "step": 32600
+    },
+    {
+      "epoch": 1.5928712774533995,
+      "eval_loss": 0.08523634076118469,
+      "eval_runtime": 402.6782,
+      "eval_samples_per_second": 90.358,
+      "eval_steps_per_second": 22.591,
+      "num_input_tokens_seen": 42267520,
+      "step": 32600
+    },
+    {
+      "epoch": 1.593115579117094,
+      "grad_norm": 0.0010123375104740262,
+      "learning_rate": 0.024603029891225852,
+      "loss": 0.07,
+      "num_input_tokens_seen": 42273952,
+      "step": 32605
+    },
+    {
+      "epoch": 1.5933598807807883,
+      "grad_norm": 0.0013731977669522166,
+      "learning_rate": 0.024570714916117748,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 42280352,
+      "step": 32610
+    },
+    {
+      "epoch": 1.5936041824444824,
+      "grad_norm": 0.000929559872020036,
+      "learning_rate": 0.024538419283781625,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 42286848,
+      "step": 32615
+    },
+    {
+      "epoch": 1.5938484841081768,
+      "grad_norm": 0.001125834882259369,
+      "learning_rate": 0.024506142999197938,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 42293472,
+      "step": 32620
+    },
+    {
+      "epoch": 1.594092785771871,
+      "grad_norm": 0.0012323579285293818,
+      "learning_rate": 0.024473886067344002,
+      "loss": 0.08,
+      "num_input_tokens_seen": 42299552,
+      "step": 32625
+    },
+    {
+      "epoch": 1.5943370874355653,
+      "grad_norm": 0.001498354016803205,
+      "learning_rate": 0.02444164849319434,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 42306432,
+      "step": 32630
+    },
+    {
+      "epoch": 1.5945813890992597,
+      "grad_norm": 0.0007634013891220093,
+      "learning_rate": 0.024409430281720306,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 42313440,
+      "step": 32635
+    },
+    {
+      "epoch": 1.594825690762954,
+      "grad_norm": 0.0010932795703411102,
+      "learning_rate": 0.024377231437890428,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 42319904,
+      "step": 32640
+    },
+    {
+      "epoch": 1.5950699924266485,
+      "grad_norm": 0.0014274305431172252,
+      "learning_rate": 0.024345051966670115,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 42326272,
+      "step": 32645
+    },
+    {
+      "epoch": 1.5953142940903429,
+      "grad_norm": 0.0011182352900505066,
+      "learning_rate": 0.024312891873021884,
+      "loss": 0.096,
+      "num_input_tokens_seen": 42332384,
+      "step": 32650
+    },
+    {
+      "epoch": 1.5955585957540372,
+      "grad_norm": 0.0009002924198284745,
+      "learning_rate": 0.024280751161905183,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 42338784,
+      "step": 32655
+    },
+    {
+      "epoch": 1.5958028974177314,
+      "grad_norm": 0.001220921752974391,
+      "learning_rate": 0.02424862983827658,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 42345408,
+      "step": 32660
+    },
+    {
+      "epoch": 1.5960471990814258,
+      "grad_norm": 0.00158484757412225,
+      "learning_rate": 0.024216527907089495,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 42351936,
+      "step": 32665
+    },
+    {
+      "epoch": 1.59629150074512,
+      "grad_norm": 0.0014037333894520998,
+      "learning_rate": 0.024184445373294505,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 42358400,
+      "step": 32670
+    },
+    {
+      "epoch": 1.5965358024088143,
+      "grad_norm": 0.0015399408293887973,
+      "learning_rate": 0.02415238224183918,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 42364224,
+      "step": 32675
+    },
+    {
+      "epoch": 1.5967801040725087,
+      "grad_norm": 0.00077469227835536,
+      "learning_rate": 0.024120338517667973,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 42370816,
+      "step": 32680
+    },
+    {
+      "epoch": 1.597024405736203,
+      "grad_norm": 0.0013742136070504785,
+      "learning_rate": 0.02408831420572247,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 42377440,
+      "step": 32685
+    },
+    {
+      "epoch": 1.5972687073998975,
+      "grad_norm": 0.001076096436008811,
+      "learning_rate": 0.024056309310941264,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 42384128,
+      "step": 32690
+    },
+    {
+      "epoch": 1.5975130090635918,
+      "grad_norm": 0.0022730936761945486,
+      "learning_rate": 0.02402432383825982,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 42390496,
+      "step": 32695
+    },
+    {
+      "epoch": 1.5977573107272862,
+      "grad_norm": 0.0014081299304962158,
+      "learning_rate": 0.023992357792610792,
+      "loss": 0.092,
+      "num_input_tokens_seen": 42397248,
+      "step": 32700
+    },
+    {
+      "epoch": 1.5980016123909804,
+      "grad_norm": 0.0010311590740457177,
+      "learning_rate": 0.0239604111789237,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 42403520,
+      "step": 32705
+    },
+    {
+      "epoch": 1.5982459140546748,
+      "grad_norm": 0.0015301391249522567,
+      "learning_rate": 0.023928484002125095,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 42410208,
+      "step": 32710
+    },
+    {
+      "epoch": 1.598490215718369,
+      "grad_norm": 0.0013139498187229037,
+      "learning_rate": 0.023896576267138595,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 42416416,
+      "step": 32715
+    },
+    {
+      "epoch": 1.5987345173820633,
+      "grad_norm": 0.0011737875174731016,
+      "learning_rate": 0.02386468797888471,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 42422528,
+      "step": 32720
+    },
+    {
+      "epoch": 1.5989788190457577,
+      "grad_norm": 0.0012521268799901009,
+      "learning_rate": 0.023832819142281057,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 42428768,
+      "step": 32725
+    },
+    {
+      "epoch": 1.599223120709452,
+      "grad_norm": 0.0018440893618389964,
+      "learning_rate": 0.02380096976224225,
+      "loss": 0.086,
+      "num_input_tokens_seen": 42435552,
+      "step": 32730
+    },
+    {
+      "epoch": 1.5994674223731464,
+      "grad_norm": 0.0008585979812778533,
+      "learning_rate": 0.023769139843679777,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 42442208,
+      "step": 32735
+    },
+    {
+      "epoch": 1.5997117240368408,
+      "grad_norm": 0.0013437046436592937,
+      "learning_rate": 0.023737329391502287,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 42448960,
+      "step": 32740
+    },
+    {
+      "epoch": 1.599956025700535,
+      "grad_norm": 0.002041637198999524,
+      "learning_rate": 0.023705538410615293,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 42455936,
+      "step": 32745
+    },
+    {
+      "epoch": 1.6002003273642293,
+      "grad_norm": 0.0010401641484349966,
+      "learning_rate": 0.023673766905921396,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 42462528,
+      "step": 32750
+    },
+    {
+      "epoch": 1.6004446290279237,
+      "grad_norm": 0.0017249276861548424,
+      "learning_rate": 0.0236420148823202,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 42469344,
+      "step": 32755
+    },
+    {
+      "epoch": 1.6006889306916179,
+      "grad_norm": 0.001553808804601431,
+      "learning_rate": 0.02361028234470816,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 42475776,
+      "step": 32760
+    },
+    {
+      "epoch": 1.6009332323553123,
+      "grad_norm": 0.0026414792519062757,
+      "learning_rate": 0.023578569297978913,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 42482112,
+      "step": 32765
+    },
+    {
+      "epoch": 1.6011775340190066,
+      "grad_norm": 0.0011370216961950064,
+      "learning_rate": 0.023546875747023025,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 42488864,
+      "step": 32770
+    },
+    {
+      "epoch": 1.601421835682701,
+      "grad_norm": 0.001101392786949873,
+      "learning_rate": 0.02351520169672801,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 42495232,
+      "step": 32775
+    },
+    {
+      "epoch": 1.6016661373463954,
+      "grad_norm": 0.0009562580962665379,
+      "learning_rate": 0.023483547151978357,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 42501568,
+      "step": 32780
+    },
+    {
+      "epoch": 1.6019104390100898,
+      "grad_norm": 0.0014947887975722551,
+      "learning_rate": 0.023451912117655675,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 42508032,
+      "step": 32785
+    },
+    {
+      "epoch": 1.602154740673784,
+      "grad_norm": 0.0011359038762748241,
+      "learning_rate": 0.023420296598638417,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 42515360,
+      "step": 32790
+    },
+    {
+      "epoch": 1.6023990423374783,
+      "grad_norm": 0.0010764675680547953,
+      "learning_rate": 0.023388700599802165,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 42522048,
+      "step": 32795
+    },
+    {
+      "epoch": 1.6026433440011727,
+      "grad_norm": 0.001500419806689024,
+      "learning_rate": 0.023357124126019334,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 42528896,
+      "step": 32800
+    },
+    {
+      "epoch": 1.6026433440011727,
+      "eval_loss": 0.08678247779607773,
+      "eval_runtime": 402.9823,
+      "eval_samples_per_second": 90.289,
+      "eval_steps_per_second": 22.574,
+      "num_input_tokens_seen": 42528896,
+      "step": 32800
+    },
+    {
+      "epoch": 1.6028876456648669,
+      "grad_norm": 0.0008788650156930089,
+      "learning_rate": 0.02332556718215945,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 42535008,
+      "step": 32805
+    },
+    {
+      "epoch": 1.6031319473285612,
+      "grad_norm": 0.0010586304124444723,
+      "learning_rate": 0.023294029773089035,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 42541472,
+      "step": 32810
+    },
+    {
+      "epoch": 1.6033762489922556,
+      "grad_norm": 0.0007700303103774786,
+      "learning_rate": 0.023262511903671484,
+      "loss": 0.0514,
+      "num_input_tokens_seen": 42548096,
+      "step": 32815
+    },
+    {
+      "epoch": 1.60362055065595,
+      "grad_norm": 0.0019789261277765036,
+      "learning_rate": 0.023231013578767324,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 42554688,
+      "step": 32820
+    },
+    {
+      "epoch": 1.6038648523196444,
+      "grad_norm": 0.0009556523291394114,
+      "learning_rate": 0.0231995348032339,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 42561120,
+      "step": 32825
+    },
+    {
+      "epoch": 1.6041091539833388,
+      "grad_norm": 0.0012467378983274102,
+      "learning_rate": 0.023168075581925685,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 42567744,
+      "step": 32830
+    },
+    {
+      "epoch": 1.604353455647033,
+      "grad_norm": 0.0018227691762149334,
+      "learning_rate": 0.023136635919694126,
+      "loss": 0.066,
+      "num_input_tokens_seen": 42574272,
+      "step": 32835
+    },
+    {
+      "epoch": 1.6045977573107273,
+      "grad_norm": 0.001391729572787881,
+      "learning_rate": 0.02310521582138753,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 42581216,
+      "step": 32840
+    },
+    {
+      "epoch": 1.6048420589744217,
+      "grad_norm": 0.0009549366659484804,
+      "learning_rate": 0.023073815291851357,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 42587200,
+      "step": 32845
+    },
+    {
+      "epoch": 1.6050863606381158,
+      "grad_norm": 0.0013245611917227507,
+      "learning_rate": 0.02304243433592788,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 42593536,
+      "step": 32850
+    },
+    {
+      "epoch": 1.6053306623018102,
+      "grad_norm": 0.0015035680262371898,
+      "learning_rate": 0.023011072958456513,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 42599904,
+      "step": 32855
+    },
+    {
+      "epoch": 1.6055749639655046,
+      "grad_norm": 0.0020564759615808725,
+      "learning_rate": 0.022979731164273536,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 42606592,
+      "step": 32860
+    },
+    {
+      "epoch": 1.605819265629199,
+      "grad_norm": 0.0006792102358303964,
+      "learning_rate": 0.022948408958212218,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 42612704,
+      "step": 32865
+    },
+    {
+      "epoch": 1.6060635672928933,
+      "grad_norm": 0.0012273831525817513,
+      "learning_rate": 0.022917106345102876,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 42618816,
+      "step": 32870
+    },
+    {
+      "epoch": 1.6063078689565877,
+      "grad_norm": 0.0015480731381103396,
+      "learning_rate": 0.022885823329772785,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 42625248,
+      "step": 32875
+    },
+    {
+      "epoch": 1.6065521706202819,
+      "grad_norm": 0.0013822570908814669,
+      "learning_rate": 0.02285455991704612,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 42631488,
+      "step": 32880
+    },
+    {
+      "epoch": 1.6067964722839763,
+      "grad_norm": 0.0012002293951809406,
+      "learning_rate": 0.022823316111744117,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 42637568,
+      "step": 32885
+    },
+    {
+      "epoch": 1.6070407739476704,
+      "grad_norm": 0.0012714724289253354,
+      "learning_rate": 0.022792091918685014,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 42643936,
+      "step": 32890
+    },
+    {
+      "epoch": 1.6072850756113648,
+      "grad_norm": 0.00166858930606395,
+      "learning_rate": 0.022760887342683906,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 42650432,
+      "step": 32895
+    },
+    {
+      "epoch": 1.6075293772750592,
+      "grad_norm": 0.0018929268699139357,
+      "learning_rate": 0.022729702388552975,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 42657088,
+      "step": 32900
+    },
+    {
+      "epoch": 1.6077736789387536,
+      "grad_norm": 0.0010769619839265943,
+      "learning_rate": 0.022698537061101292,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 42663840,
+      "step": 32905
+    },
+    {
+      "epoch": 1.608017980602448,
+      "grad_norm": 0.00112566736061126,
+      "learning_rate": 0.022667391365134962,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 42670240,
+      "step": 32910
+    },
+    {
+      "epoch": 1.6082622822661423,
+      "grad_norm": 0.001174312550574541,
+      "learning_rate": 0.022636265305457065,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 42676832,
+      "step": 32915
+    },
+    {
+      "epoch": 1.6085065839298367,
+      "grad_norm": 0.0009959266753867269,
+      "learning_rate": 0.02260515888686764,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 42683232,
+      "step": 32920
+    },
+    {
+      "epoch": 1.6087508855935309,
+      "grad_norm": 0.001123466296121478,
+      "learning_rate": 0.022574072114163596,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 42689920,
+      "step": 32925
+    },
+    {
+      "epoch": 1.6089951872572252,
+      "grad_norm": 0.001207459717988968,
+      "learning_rate": 0.022543004992139005,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 42696416,
+      "step": 32930
+    },
+    {
+      "epoch": 1.6092394889209194,
+      "grad_norm": 0.001999286003410816,
+      "learning_rate": 0.022511957525584745,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 42702656,
+      "step": 32935
+    },
+    {
+      "epoch": 1.6094837905846138,
+      "grad_norm": 0.0018538918811827898,
+      "learning_rate": 0.022480929719288778,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 42708992,
+      "step": 32940
+    },
+    {
+      "epoch": 1.6097280922483082,
+      "grad_norm": 0.0013025462394580245,
+      "learning_rate": 0.02244992157803592,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 42715168,
+      "step": 32945
+    },
+    {
+      "epoch": 1.6099723939120025,
+      "grad_norm": 0.0011379220522940159,
+      "learning_rate": 0.022418933106608047,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 42721952,
+      "step": 32950
+    },
+    {
+      "epoch": 1.610216695575697,
+      "grad_norm": 0.0012237123446539044,
+      "learning_rate": 0.022387964309784018,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 42728416,
+      "step": 32955
+    },
+    {
+      "epoch": 1.6104609972393913,
+      "grad_norm": 0.0013179947854951024,
+      "learning_rate": 0.022357015192339517,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 42734848,
+      "step": 32960
+    },
+    {
+      "epoch": 1.6107052989030857,
+      "grad_norm": 0.0012192812282592058,
+      "learning_rate": 0.02232608575904734,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 42741408,
+      "step": 32965
+    },
+    {
+      "epoch": 1.6109496005667798,
+      "grad_norm": 0.0014909112360328436,
+      "learning_rate": 0.022295176014677225,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 42747616,
+      "step": 32970
+    },
+    {
+      "epoch": 1.6111939022304742,
+      "grad_norm": 0.0028550203423947096,
+      "learning_rate": 0.02226428596399577,
+      "loss": 0.11,
+      "num_input_tokens_seen": 42754144,
+      "step": 32975
+    },
+    {
+      "epoch": 1.6114382038941684,
+      "grad_norm": 0.001281941425986588,
+      "learning_rate": 0.02223341561176669,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 42760448,
+      "step": 32980
+    },
+    {
+      "epoch": 1.6116825055578627,
+      "grad_norm": 0.0026859974022954702,
+      "learning_rate": 0.0222025649627505,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 42766944,
+      "step": 32985
+    },
+    {
+      "epoch": 1.6119268072215571,
+      "grad_norm": 0.0009680322255007923,
+      "learning_rate": 0.022171734021704814,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 42773376,
+      "step": 32990
+    },
+    {
+      "epoch": 1.6121711088852515,
+      "grad_norm": 0.0013759472640231252,
+      "learning_rate": 0.022140922793384116,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 42780032,
+      "step": 32995
+    },
+    {
+      "epoch": 1.6124154105489459,
+      "grad_norm": 0.0018673575250431895,
+      "learning_rate": 0.022110131282539934,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 42786240,
+      "step": 33000
+    },
+    {
+      "epoch": 1.6124154105489459,
+      "eval_loss": 0.08577519655227661,
+      "eval_runtime": 402.3989,
+      "eval_samples_per_second": 90.42,
+      "eval_steps_per_second": 22.607,
+      "num_input_tokens_seen": 42786240,
+      "step": 33000
+    },
+    {
+      "epoch": 1.6126597122126403,
+      "grad_norm": 0.001644924283027649,
+      "learning_rate": 0.022079359493920675,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 42793216,
+      "step": 33005
+    },
+    {
+      "epoch": 1.6129040138763346,
+      "grad_norm": 0.0016620606184005737,
+      "learning_rate": 0.02204860743227169,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 42799200,
+      "step": 33010
+    },
+    {
+      "epoch": 1.6131483155400288,
+      "grad_norm": 0.000985988648608327,
+      "learning_rate": 0.022017875102335365,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 42805632,
+      "step": 33015
+    },
+    {
+      "epoch": 1.6133926172037232,
+      "grad_norm": 0.0015778786037117243,
+      "learning_rate": 0.02198716250885108,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 42812160,
+      "step": 33020
+    },
+    {
+      "epoch": 1.6136369188674173,
+      "grad_norm": 0.0014078750973567367,
+      "learning_rate": 0.021956469656555,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 42818848,
+      "step": 33025
+    },
+    {
+      "epoch": 1.6138812205311117,
+      "grad_norm": 0.001165946596302092,
+      "learning_rate": 0.0219257965501804,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 42825024,
+      "step": 33030
+    },
+    {
+      "epoch": 1.614125522194806,
+      "grad_norm": 0.0017026803689077497,
+      "learning_rate": 0.021895143194457494,
+      "loss": 0.099,
+      "num_input_tokens_seen": 42831712,
+      "step": 33035
+    },
+    {
+      "epoch": 1.6143698238585005,
+      "grad_norm": 0.0014239627635106444,
+      "learning_rate": 0.021864509594113322,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 42838176,
+      "step": 33040
+    },
+    {
+      "epoch": 1.6146141255221949,
+      "grad_norm": 0.0016438610618934035,
+      "learning_rate": 0.02183389575387207,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 42845056,
+      "step": 33045
+    },
+    {
+      "epoch": 1.6148584271858892,
+      "grad_norm": 0.0012383876601234078,
+      "learning_rate": 0.021803301678454682,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 42851456,
+      "step": 33050
+    },
+    {
+      "epoch": 1.6151027288495836,
+      "grad_norm": 0.0023073034826666117,
+      "learning_rate": 0.021772727372579213,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 42857632,
+      "step": 33055
+    },
+    {
+      "epoch": 1.6153470305132778,
+      "grad_norm": 0.0014492328045889735,
+      "learning_rate": 0.02174217284096061,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 42864320,
+      "step": 33060
+    },
+    {
+      "epoch": 1.6155913321769722,
+      "grad_norm": 0.00105315912514925,
+      "learning_rate": 0.0217116380883107,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 42870720,
+      "step": 33065
+    },
+    {
+      "epoch": 1.6158356338406663,
+      "grad_norm": 0.0008671648683957756,
+      "learning_rate": 0.021681123119338425,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 42876960,
+      "step": 33070
+    },
+    {
+      "epoch": 1.6160799355043607,
+      "grad_norm": 0.0011134914821013808,
+      "learning_rate": 0.02165062793874951,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 42882976,
+      "step": 33075
+    },
+    {
+      "epoch": 1.616324237168055,
+      "grad_norm": 0.002059350488707423,
+      "learning_rate": 0.021620152551246666,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 42889664,
+      "step": 33080
+    },
+    {
+      "epoch": 1.6165685388317494,
+      "grad_norm": 0.0008793145534582436,
+      "learning_rate": 0.02158969696152967,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 42896192,
+      "step": 33085
+    },
+    {
+      "epoch": 1.6168128404954438,
+      "grad_norm": 0.0014247293584048748,
+      "learning_rate": 0.021559261174295057,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 42902336,
+      "step": 33090
+    },
+    {
+      "epoch": 1.6170571421591382,
+      "grad_norm": 0.000771373335737735,
+      "learning_rate": 0.02152884519423646,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 42909088,
+      "step": 33095
+    },
+    {
+      "epoch": 1.6173014438228326,
+      "grad_norm": 0.001376334112137556,
+      "learning_rate": 0.021498449026044447,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 42916032,
+      "step": 33100
+    },
+    {
+      "epoch": 1.6175457454865267,
+      "grad_norm": 0.0009784310823306441,
+      "learning_rate": 0.021468072674406414,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 42922272,
+      "step": 33105
+    },
+    {
+      "epoch": 1.6177900471502211,
+      "grad_norm": 0.001746227964758873,
+      "learning_rate": 0.021437716144006795,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 42929056,
+      "step": 33110
+    },
+    {
+      "epoch": 1.6180343488139153,
+      "grad_norm": 0.0012062237365171313,
+      "learning_rate": 0.021407379439527002,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 42935264,
+      "step": 33115
+    },
+    {
+      "epoch": 1.6182786504776097,
+      "grad_norm": 0.0009381069685332477,
+      "learning_rate": 0.021377062565645255,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 42941920,
+      "step": 33120
+    },
+    {
+      "epoch": 1.618522952141304,
+      "grad_norm": 0.0022140436340123415,
+      "learning_rate": 0.02134676552703688,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 42948352,
+      "step": 33125
+    },
+    {
+      "epoch": 1.6187672538049984,
+      "grad_norm": 0.00051040732068941,
+      "learning_rate": 0.02131648832837398,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 42954336,
+      "step": 33130
+    },
+    {
+      "epoch": 1.6190115554686928,
+      "grad_norm": 0.0013705405872315168,
+      "learning_rate": 0.02128623097432574,
+      "loss": 0.0553,
+      "num_input_tokens_seen": 42960800,
+      "step": 33135
+    },
+    {
+      "epoch": 1.6192558571323872,
+      "grad_norm": 0.0015613092109560966,
+      "learning_rate": 0.021255993469558192,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 42967392,
+      "step": 33140
+    },
+    {
+      "epoch": 1.6195001587960816,
+      "grad_norm": 0.0009908979991450906,
+      "learning_rate": 0.021225775818734364,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 42973536,
+      "step": 33145
+    },
+    {
+      "epoch": 1.6197444604597757,
+      "grad_norm": 0.0012954124249517918,
+      "learning_rate": 0.021195578026514166,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 42979808,
+      "step": 33150
+    },
+    {
+      "epoch": 1.61998876212347,
+      "grad_norm": 0.0008343150839209557,
+      "learning_rate": 0.02116540009755452,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 42986368,
+      "step": 33155
+    },
+    {
+      "epoch": 1.6202330637871643,
+      "grad_norm": 0.0014934369828552008,
+      "learning_rate": 0.021135242036509173,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 42993024,
+      "step": 33160
+    },
+    {
+      "epoch": 1.6204773654508586,
+      "grad_norm": 0.0018358161905780435,
+      "learning_rate": 0.021105103848028967,
+      "loss": 0.08,
+      "num_input_tokens_seen": 42999264,
+      "step": 33165
+    },
+    {
+      "epoch": 1.620721667114553,
+      "grad_norm": 0.0013662164565175772,
+      "learning_rate": 0.021074985536761504,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 43005344,
+      "step": 33170
+    },
+    {
+      "epoch": 1.6209659687782474,
+      "grad_norm": 0.0016067902324721217,
+      "learning_rate": 0.021044887107351435,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 43011680,
+      "step": 33175
+    },
+    {
+      "epoch": 1.6212102704419418,
+      "grad_norm": 0.0022051928099244833,
+      "learning_rate": 0.021014808564440362,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 43017920,
+      "step": 33180
+    },
+    {
+      "epoch": 1.6214545721056361,
+      "grad_norm": 0.0016388407675549388,
+      "learning_rate": 0.02098474991266671,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 43024512,
+      "step": 33185
+    },
+    {
+      "epoch": 1.6216988737693305,
+      "grad_norm": 0.0009871486108750105,
+      "learning_rate": 0.02095471115666592,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 43030784,
+      "step": 33190
+    },
+    {
+      "epoch": 1.6219431754330247,
+      "grad_norm": 0.0016494861338287592,
+      "learning_rate": 0.020924692301070406,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 43037184,
+      "step": 33195
+    },
+    {
+      "epoch": 1.622187477096719,
+      "grad_norm": 0.0009949073428288102,
+      "learning_rate": 0.020894693350509346,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 43043616,
+      "step": 33200
+    },
+    {
+      "epoch": 1.622187477096719,
+      "eval_loss": 0.08585377037525177,
+      "eval_runtime": 402.3175,
+      "eval_samples_per_second": 90.439,
+      "eval_steps_per_second": 22.611,
+      "num_input_tokens_seen": 43043616,
+      "step": 33200
+    },
+    {
+      "epoch": 1.6224317787604132,
+      "grad_norm": 0.0006513723637908697,
+      "learning_rate": 0.020864714309609057,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 43049824,
+      "step": 33205
+    },
+    {
+      "epoch": 1.6226760804241076,
+      "grad_norm": 0.001400183537043631,
+      "learning_rate": 0.020834755182992604,
+      "loss": 0.105,
+      "num_input_tokens_seen": 43056096,
+      "step": 33210
+    },
+    {
+      "epoch": 1.622920382087802,
+      "grad_norm": 0.0017605427419766784,
+      "learning_rate": 0.02080481597528011,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 43062496,
+      "step": 33215
+    },
+    {
+      "epoch": 1.6231646837514964,
+      "grad_norm": 0.0009855934185907245,
+      "learning_rate": 0.020774896691088583,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 43069216,
+      "step": 33220
+    },
+    {
+      "epoch": 1.6234089854151907,
+      "grad_norm": 0.0010030935518443584,
+      "learning_rate": 0.020744997335031882,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 43075776,
+      "step": 33225
+    },
+    {
+      "epoch": 1.6236532870788851,
+      "grad_norm": 0.0013496197061613202,
+      "learning_rate": 0.02071511791172092,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 43082496,
+      "step": 33230
+    },
+    {
+      "epoch": 1.6238975887425795,
+      "grad_norm": 0.001185797736980021,
+      "learning_rate": 0.02068525842576351,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 43088608,
+      "step": 33235
+    },
+    {
+      "epoch": 1.6241418904062737,
+      "grad_norm": 0.0012045890325680375,
+      "learning_rate": 0.020655418881764264,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 43095040,
+      "step": 33240
+    },
+    {
+      "epoch": 1.624386192069968,
+      "grad_norm": 0.0017967215972021222,
+      "learning_rate": 0.020625599284324923,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 43101216,
+      "step": 33245
+    },
+    {
+      "epoch": 1.6246304937336622,
+      "grad_norm": 0.0004480066418182105,
+      "learning_rate": 0.02059579963804396,
+      "loss": 0.0454,
+      "num_input_tokens_seen": 43107840,
+      "step": 33250
+    },
+    {
+      "epoch": 1.6248747953973566,
+      "grad_norm": 0.0018007586477324367,
+      "learning_rate": 0.02056601994751688,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 43114176,
+      "step": 33255
+    },
+    {
+      "epoch": 1.625119097061051,
+      "grad_norm": 0.0012802055571228266,
+      "learning_rate": 0.02053626021733614,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 43120512,
+      "step": 33260
+    },
+    {
+      "epoch": 1.6253633987247453,
+      "grad_norm": 0.0014071835903450847,
+      "learning_rate": 0.02050652045209097,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 43126688,
+      "step": 33265
+    },
+    {
+      "epoch": 1.6256077003884397,
+      "grad_norm": 0.0007258341065607965,
+      "learning_rate": 0.020476800656367672,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 43132928,
+      "step": 33270
+    },
+    {
+      "epoch": 1.625852002052134,
+      "grad_norm": 0.0010987990535795689,
+      "learning_rate": 0.020447100834749425,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 43138880,
+      "step": 33275
+    },
+    {
+      "epoch": 1.6260963037158283,
+      "grad_norm": 0.001995709026232362,
+      "learning_rate": 0.02041742099181627,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 43145568,
+      "step": 33280
+    },
+    {
+      "epoch": 1.6263406053795226,
+      "grad_norm": 0.0012915136758238077,
+      "learning_rate": 0.02038776113214526,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 43152160,
+      "step": 33285
+    },
+    {
+      "epoch": 1.626584907043217,
+      "grad_norm": 0.0021295377518981695,
+      "learning_rate": 0.0203581212603103,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 43158880,
+      "step": 33290
+    },
+    {
+      "epoch": 1.6268292087069112,
+      "grad_norm": 0.001211784197948873,
+      "learning_rate": 0.02032850138088219,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 43165440,
+      "step": 33295
+    },
+    {
+      "epoch": 1.6270735103706055,
+      "grad_norm": 0.0008618126739747822,
+      "learning_rate": 0.020298901498428754,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 43171872,
+      "step": 33300
+    },
+    {
+      "epoch": 1.6273178120343,
+      "grad_norm": 0.0015580639010295272,
+      "learning_rate": 0.020269321617514595,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 43178304,
+      "step": 33305
+    },
+    {
+      "epoch": 1.6275621136979943,
+      "grad_norm": 0.0021859128028154373,
+      "learning_rate": 0.020239761742701343,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 43184320,
+      "step": 33310
+    },
+    {
+      "epoch": 1.6278064153616887,
+      "grad_norm": 0.0011176185216754675,
+      "learning_rate": 0.02021022187854754,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 43190656,
+      "step": 33315
+    },
+    {
+      "epoch": 1.628050717025383,
+      "grad_norm": 0.0010279647540301085,
+      "learning_rate": 0.020180702029608522,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 43197440,
+      "step": 33320
+    },
+    {
+      "epoch": 1.6282950186890772,
+      "grad_norm": 0.0008801005315035582,
+      "learning_rate": 0.020151202200436695,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 43203712,
+      "step": 33325
+    },
+    {
+      "epoch": 1.6285393203527716,
+      "grad_norm": 0.0024007679894566536,
+      "learning_rate": 0.020121722395581226,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 43210656,
+      "step": 33330
+    },
+    {
+      "epoch": 1.628783622016466,
+      "grad_norm": 0.0012218777555972338,
+      "learning_rate": 0.020092262619588342,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 43217088,
+      "step": 33335
+    },
+    {
+      "epoch": 1.6290279236801601,
+      "grad_norm": 0.0007413559360429645,
+      "learning_rate": 0.02006282287700109,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 43223712,
+      "step": 33340
+    },
+    {
+      "epoch": 1.6292722253438545,
+      "grad_norm": 0.001125496462918818,
+      "learning_rate": 0.020033403172359427,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 43230432,
+      "step": 33345
+    },
+    {
+      "epoch": 1.629516527007549,
+      "grad_norm": 0.0010525438701733947,
+      "learning_rate": 0.020004003510200284,
+      "loss": 0.101,
+      "num_input_tokens_seen": 43236992,
+      "step": 33350
+    },
+    {
+      "epoch": 1.6297608286712433,
+      "grad_norm": 0.001461912994273007,
+      "learning_rate": 0.019974623895057407,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 43243264,
+      "step": 33355
+    },
+    {
+      "epoch": 1.6300051303349377,
+      "grad_norm": 0.002836428117007017,
+      "learning_rate": 0.019945264331461553,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 43249536,
+      "step": 33360
+    },
+    {
+      "epoch": 1.630249431998632,
+      "grad_norm": 0.0011474934872239828,
+      "learning_rate": 0.019915924823940317,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 43256288,
+      "step": 33365
+    },
+    {
+      "epoch": 1.6304937336623262,
+      "grad_norm": 0.0012928448850288987,
+      "learning_rate": 0.01988660537701816,
+      "loss": 0.087,
+      "num_input_tokens_seen": 43263104,
+      "step": 33370
+    },
+    {
+      "epoch": 1.6307380353260206,
+      "grad_norm": 0.0013961032964289188,
+      "learning_rate": 0.01985730599521659,
+      "loss": 0.0521,
+      "num_input_tokens_seen": 43269408,
+      "step": 33375
+    },
+    {
+      "epoch": 1.630982336989715,
+      "grad_norm": 0.0015643546357750893,
+      "learning_rate": 0.019828026683053918,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 43275936,
+      "step": 33380
+    },
+    {
+      "epoch": 1.6312266386534091,
+      "grad_norm": 0.0011630739318206906,
+      "learning_rate": 0.01979876744504535,
+      "loss": 0.081,
+      "num_input_tokens_seen": 43282208,
+      "step": 33385
+    },
+    {
+      "epoch": 1.6314709403171035,
+      "grad_norm": 0.0016958605265244842,
+      "learning_rate": 0.019769528285703046,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 43288288,
+      "step": 33390
+    },
+    {
+      "epoch": 1.6317152419807979,
+      "grad_norm": 0.0017396204639226198,
+      "learning_rate": 0.019740309209536098,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 43294400,
+      "step": 33395
+    },
+    {
+      "epoch": 1.6319595436444922,
+      "grad_norm": 0.0013015029253438115,
+      "learning_rate": 0.019711110221050387,
+      "loss": 0.085,
+      "num_input_tokens_seen": 43300896,
+      "step": 33400
+    },
+    {
+      "epoch": 1.6319595436444922,
+      "eval_loss": 0.08452259004116058,
+      "eval_runtime": 402.5956,
+      "eval_samples_per_second": 90.376,
+      "eval_steps_per_second": 22.596,
+      "num_input_tokens_seen": 43300896,
+      "step": 33400
+    },
+    {
+      "epoch": 1.6322038453081866,
+      "grad_norm": 0.0012868352932855487,
+      "learning_rate": 0.019681931324748825,
+      "loss": 0.079,
+      "num_input_tokens_seen": 43307520,
+      "step": 33405
+    },
+    {
+      "epoch": 1.632448146971881,
+      "grad_norm": 0.0011037400690838695,
+      "learning_rate": 0.019652772525131094,
+      "loss": 0.092,
+      "num_input_tokens_seen": 43313600,
+      "step": 33410
+    },
+    {
+      "epoch": 1.6326924486355752,
+      "grad_norm": 0.0011844569817185402,
+      "learning_rate": 0.019623633826693885,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 43320160,
+      "step": 33415
+    },
+    {
+      "epoch": 1.6329367502992695,
+      "grad_norm": 0.000985751743428409,
+      "learning_rate": 0.019594515233930788,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 43326560,
+      "step": 33420
+    },
+    {
+      "epoch": 1.6331810519629637,
+      "grad_norm": 0.0007357394206337631,
+      "learning_rate": 0.019565416751332186,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 43332672,
+      "step": 33425
+    },
+    {
+      "epoch": 1.633425353626658,
+      "grad_norm": 0.001185859553515911,
+      "learning_rate": 0.019536338383385497,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 43338880,
+      "step": 33430
+    },
+    {
+      "epoch": 1.6336696552903525,
+      "grad_norm": 0.0010740869911387563,
+      "learning_rate": 0.019507280134574933,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 43345440,
+      "step": 33435
+    },
+    {
+      "epoch": 1.6339139569540468,
+      "grad_norm": 0.0013164934935048223,
+      "learning_rate": 0.019478242009381624,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 43351936,
+      "step": 33440
+    },
+    {
+      "epoch": 1.6341582586177412,
+      "grad_norm": 0.0012434071395546198,
+      "learning_rate": 0.01944922401228367,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 43358176,
+      "step": 33445
+    },
+    {
+      "epoch": 1.6344025602814356,
+      "grad_norm": 0.0013684541918337345,
+      "learning_rate": 0.01942022614775593,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 43364544,
+      "step": 33450
+    },
+    {
+      "epoch": 1.63464686194513,
+      "grad_norm": 0.0014281062176451087,
+      "learning_rate": 0.01939124842027029,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 43370912,
+      "step": 33455
+    },
+    {
+      "epoch": 1.6348911636088241,
+      "grad_norm": 0.0011501666158437729,
+      "learning_rate": 0.01936229083429551,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 43377024,
+      "step": 33460
+    },
+    {
+      "epoch": 1.6351354652725185,
+      "grad_norm": 0.0014865434495732188,
+      "learning_rate": 0.019333353394297148,
+      "loss": 0.086,
+      "num_input_tokens_seen": 43383968,
+      "step": 33465
+    },
+    {
+      "epoch": 1.6353797669362127,
+      "grad_norm": 0.0011833782773464918,
+      "learning_rate": 0.019304436104737754,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 43390528,
+      "step": 33470
+    },
+    {
+      "epoch": 1.635624068599907,
+      "grad_norm": 0.0010611076140776277,
+      "learning_rate": 0.019275538970076778,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 43397184,
+      "step": 33475
+    },
+    {
+      "epoch": 1.6358683702636014,
+      "grad_norm": 0.0006797212990932167,
+      "learning_rate": 0.019246661994770434,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 43403456,
+      "step": 33480
+    },
+    {
+      "epoch": 1.6361126719272958,
+      "grad_norm": 0.0009869454661384225,
+      "learning_rate": 0.019217805183271985,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 43409760,
+      "step": 33485
+    },
+    {
+      "epoch": 1.6363569735909902,
+      "grad_norm": 0.001516828779131174,
+      "learning_rate": 0.019188968540031465,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 43416800,
+      "step": 33490
+    },
+    {
+      "epoch": 1.6366012752546846,
+      "grad_norm": 0.001487785135395825,
+      "learning_rate": 0.019160152069495867,
+      "loss": 0.093,
+      "num_input_tokens_seen": 43423648,
+      "step": 33495
+    },
+    {
+      "epoch": 1.636845576918379,
+      "grad_norm": 0.001400655135512352,
+      "learning_rate": 0.019131355776109103,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 43430240,
+      "step": 33500
+    },
+    {
+      "epoch": 1.637089878582073,
+      "grad_norm": 0.0013877853052690625,
+      "learning_rate": 0.019102579664311857,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 43436832,
+      "step": 33505
+    },
+    {
+      "epoch": 1.6373341802457675,
+      "grad_norm": 0.0014536266680806875,
+      "learning_rate": 0.019073823738541763,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 43442912,
+      "step": 33510
+    },
+    {
+      "epoch": 1.6375784819094616,
+      "grad_norm": 0.0011234376579523087,
+      "learning_rate": 0.0190450880032334,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 43449408,
+      "step": 33515
+    },
+    {
+      "epoch": 1.637822783573156,
+      "grad_norm": 0.0008436717325821519,
+      "learning_rate": 0.019016372462818114,
+      "loss": 0.073,
+      "num_input_tokens_seen": 43456096,
+      "step": 33520
+    },
+    {
+      "epoch": 1.6380670852368504,
+      "grad_norm": 0.0013449689140543342,
+      "learning_rate": 0.018987677121724278,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 43462528,
+      "step": 33525
+    },
+    {
+      "epoch": 1.6383113869005448,
+      "grad_norm": 0.001485709217377007,
+      "learning_rate": 0.018959001984377,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 43469280,
+      "step": 33530
+    },
+    {
+      "epoch": 1.6385556885642392,
+      "grad_norm": 0.0011799648636952043,
+      "learning_rate": 0.018930347055198377,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 43475616,
+      "step": 33535
+    },
+    {
+      "epoch": 1.6387999902279335,
+      "grad_norm": 0.0008549883496016264,
+      "learning_rate": 0.01890171233860739,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 43482048,
+      "step": 33540
+    },
+    {
+      "epoch": 1.639044291891628,
+      "grad_norm": 0.0011961604468524456,
+      "learning_rate": 0.018873097839019807,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 43488416,
+      "step": 33545
+    },
+    {
+      "epoch": 1.639288593555322,
+      "grad_norm": 0.0008709739777259529,
+      "learning_rate": 0.0188445035608484,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 43495136,
+      "step": 33550
+    },
+    {
+      "epoch": 1.6395328952190165,
+      "grad_norm": 0.0019069879781454802,
+      "learning_rate": 0.018815929508502777,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 43501472,
+      "step": 33555
+    },
+    {
+      "epoch": 1.6397771968827106,
+      "grad_norm": 0.0010383616900071502,
+      "learning_rate": 0.01878737568638934,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 43508032,
+      "step": 33560
+    },
+    {
+      "epoch": 1.640021498546405,
+      "grad_norm": 0.0020060702227056026,
+      "learning_rate": 0.01875884209891152,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 43514304,
+      "step": 33565
+    },
+    {
+      "epoch": 1.6402658002100994,
+      "grad_norm": 0.001086603500880301,
+      "learning_rate": 0.018730328750469514,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 43520960,
+      "step": 33570
+    },
+    {
+      "epoch": 1.6405101018737938,
+      "grad_norm": 0.0017491549951955676,
+      "learning_rate": 0.018701835645460473,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 43527040,
+      "step": 33575
+    },
+    {
+      "epoch": 1.6407544035374881,
+      "grad_norm": 0.0016593564068898559,
+      "learning_rate": 0.01867336278827838,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 43533536,
+      "step": 33580
+    },
+    {
+      "epoch": 1.6409987052011825,
+      "grad_norm": 0.0008592510712333024,
+      "learning_rate": 0.018644910183314056,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 43540288,
+      "step": 33585
+    },
+    {
+      "epoch": 1.641243006864877,
+      "grad_norm": 0.001065752119757235,
+      "learning_rate": 0.01861647783495531,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 43546720,
+      "step": 33590
+    },
+    {
+      "epoch": 1.641487308528571,
+      "grad_norm": 0.0007352904067374766,
+      "learning_rate": 0.01858806574758676,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 43552832,
+      "step": 33595
+    },
+    {
+      "epoch": 1.6417316101922654,
+      "grad_norm": 0.0006078292499296367,
+      "learning_rate": 0.01855967392558988,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 43559424,
+      "step": 33600
+    },
+    {
+      "epoch": 1.6417316101922654,
+      "eval_loss": 0.08458495140075684,
+      "eval_runtime": 402.66,
+      "eval_samples_per_second": 90.362,
+      "eval_steps_per_second": 22.592,
+      "num_input_tokens_seen": 43559424,
+      "step": 33600
+    },
+    {
+      "epoch": 1.6419759118559596,
+      "grad_norm": 0.000772194005548954,
+      "learning_rate": 0.018531302373343096,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 43565664,
+      "step": 33605
+    },
+    {
+      "epoch": 1.642220213519654,
+      "grad_norm": 0.001914251479320228,
+      "learning_rate": 0.018502951095221588,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 43572000,
+      "step": 33610
+    },
+    {
+      "epoch": 1.6424645151833484,
+      "grad_norm": 0.0009725795825943351,
+      "learning_rate": 0.01847462009559751,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 43578304,
+      "step": 33615
+    },
+    {
+      "epoch": 1.6427088168470427,
+      "grad_norm": 0.0019437171285972,
+      "learning_rate": 0.01844630937883992,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 43584672,
+      "step": 33620
+    },
+    {
+      "epoch": 1.642953118510737,
+      "grad_norm": 0.0014477000804618,
+      "learning_rate": 0.018418018949314573,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 43591072,
+      "step": 33625
+    },
+    {
+      "epoch": 1.6431974201744315,
+      "grad_norm": 0.0014823646051809192,
+      "learning_rate": 0.018389748811384315,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 43597056,
+      "step": 33630
+    },
+    {
+      "epoch": 1.6434417218381259,
+      "grad_norm": 0.0018611765699461102,
+      "learning_rate": 0.018361498969408658,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 43603584,
+      "step": 33635
+    },
+    {
+      "epoch": 1.64368602350182,
+      "grad_norm": 0.0026257061399519444,
+      "learning_rate": 0.01833326942774415,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 43609984,
+      "step": 33640
+    },
+    {
+      "epoch": 1.6439303251655144,
+      "grad_norm": 0.0009715115884318948,
+      "learning_rate": 0.018305060190744155,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 43616544,
+      "step": 33645
+    },
+    {
+      "epoch": 1.6441746268292086,
+      "grad_norm": 0.00227921805344522,
+      "learning_rate": 0.018276871262758846,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 43622912,
+      "step": 33650
+    },
+    {
+      "epoch": 1.644418928492903,
+      "grad_norm": 0.0015480491565540433,
+      "learning_rate": 0.0182487026481353,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 43629984,
+      "step": 33655
+    },
+    {
+      "epoch": 1.6446632301565973,
+      "grad_norm": 0.0011392373126000166,
+      "learning_rate": 0.018220554351217538,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 43636480,
+      "step": 33660
+    },
+    {
+      "epoch": 1.6449075318202917,
+      "grad_norm": 0.0012763686245307326,
+      "learning_rate": 0.01819242637634629,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 43643008,
+      "step": 33665
+    },
+    {
+      "epoch": 1.645151833483986,
+      "grad_norm": 0.001832621986977756,
+      "learning_rate": 0.01816431872785933,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 43648928,
+      "step": 33670
+    },
+    {
+      "epoch": 1.6453961351476805,
+      "grad_norm": 0.0008994376403279603,
+      "learning_rate": 0.018136231410091148,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 43655328,
+      "step": 33675
+    },
+    {
+      "epoch": 1.6456404368113748,
+      "grad_norm": 0.0013344077160581946,
+      "learning_rate": 0.018108164427373175,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 43661664,
+      "step": 33680
+    },
+    {
+      "epoch": 1.645884738475069,
+      "grad_norm": 0.0011157143162563443,
+      "learning_rate": 0.01808011778403375,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 43667712,
+      "step": 33685
+    },
+    {
+      "epoch": 1.6461290401387634,
+      "grad_norm": 0.0009473928948864341,
+      "learning_rate": 0.01805209148439793,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 43674112,
+      "step": 33690
+    },
+    {
+      "epoch": 1.6463733418024575,
+      "grad_norm": 0.0012860220158472657,
+      "learning_rate": 0.018024085532787757,
+      "loss": 0.066,
+      "num_input_tokens_seen": 43680256,
+      "step": 33695
+    },
+    {
+      "epoch": 1.646617643466152,
+      "grad_norm": 0.001022863551042974,
+      "learning_rate": 0.017996099933522164,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 43686432,
+      "step": 33700
+    },
+    {
+      "epoch": 1.6468619451298463,
+      "grad_norm": 0.0016788210486993194,
+      "learning_rate": 0.017968134690916775,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 43692800,
+      "step": 33705
+    },
+    {
+      "epoch": 1.6471062467935407,
+      "grad_norm": 0.001108501572161913,
+      "learning_rate": 0.017940189809284263,
+      "loss": 0.092,
+      "num_input_tokens_seen": 43699392,
+      "step": 33710
+    },
+    {
+      "epoch": 1.647350548457235,
+      "grad_norm": 0.0018016460817307234,
+      "learning_rate": 0.017912265292934024,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 43705792,
+      "step": 33715
+    },
+    {
+      "epoch": 1.6475948501209294,
+      "grad_norm": 0.0012622094945982099,
+      "learning_rate": 0.017884361146172423,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 43712256,
+      "step": 33720
+    },
+    {
+      "epoch": 1.6478391517846238,
+      "grad_norm": 0.0012911942321807146,
+      "learning_rate": 0.01785647737330261,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 43718912,
+      "step": 33725
+    },
+    {
+      "epoch": 1.648083453448318,
+      "grad_norm": 0.0007314875838346779,
+      "learning_rate": 0.017828613978624563,
+      "loss": 0.0614,
+      "num_input_tokens_seen": 43725248,
+      "step": 33730
+    },
+    {
+      "epoch": 1.6483277551120123,
+      "grad_norm": 0.001527767744846642,
+      "learning_rate": 0.01780077096643523,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 43731936,
+      "step": 33735
+    },
+    {
+      "epoch": 1.6485720567757065,
+      "grad_norm": 0.001490639871917665,
+      "learning_rate": 0.017772948341028345,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 43738208,
+      "step": 33740
+    },
+    {
+      "epoch": 1.6488163584394009,
+      "grad_norm": 0.002082864288240671,
+      "learning_rate": 0.01774514610669447,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 43744608,
+      "step": 33745
+    },
+    {
+      "epoch": 1.6490606601030953,
+      "grad_norm": 0.0018811977934092283,
+      "learning_rate": 0.017717364267721112,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 43751072,
+      "step": 33750
+    },
+    {
+      "epoch": 1.6493049617667896,
+      "grad_norm": 0.0008309705299325287,
+      "learning_rate": 0.017689602828392513,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 43757312,
+      "step": 33755
+    },
+    {
+      "epoch": 1.649549263430484,
+      "grad_norm": 0.0015664588427171111,
+      "learning_rate": 0.017661861792989897,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 43763616,
+      "step": 33760
+    },
+    {
+      "epoch": 1.6497935650941784,
+      "grad_norm": 0.001292176079005003,
+      "learning_rate": 0.017634141165791272,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 43770240,
+      "step": 33765
+    },
+    {
+      "epoch": 1.6500378667578728,
+      "grad_norm": 0.0009437963017262518,
+      "learning_rate": 0.017606440951071455,
+      "loss": 0.0552,
+      "num_input_tokens_seen": 43776672,
+      "step": 33770
+    },
+    {
+      "epoch": 1.650282168421567,
+      "grad_norm": 0.0018028086051344872,
+      "learning_rate": 0.017578761153102213,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 43782848,
+      "step": 33775
+    },
+    {
+      "epoch": 1.6505264700852613,
+      "grad_norm": 0.0018503512255847454,
+      "learning_rate": 0.017551101776152146,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 43789376,
+      "step": 33780
+    },
+    {
+      "epoch": 1.6507707717489555,
+      "grad_norm": 0.0011144017335027456,
+      "learning_rate": 0.017523462824486608,
+      "loss": 0.068,
+      "num_input_tokens_seen": 43795872,
+      "step": 33785
+    },
+    {
+      "epoch": 1.6510150734126499,
+      "grad_norm": 0.0009535767021588981,
+      "learning_rate": 0.01749584430236794,
+      "loss": 0.057,
+      "num_input_tokens_seen": 43802688,
+      "step": 33790
+    },
+    {
+      "epoch": 1.6512593750763442,
+      "grad_norm": 0.0018027505138888955,
+      "learning_rate": 0.01746824621405524,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 43809024,
+      "step": 33795
+    },
+    {
+      "epoch": 1.6515036767400386,
+      "grad_norm": 0.001564512960612774,
+      "learning_rate": 0.017440668563804412,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 43815424,
+      "step": 33800
+    },
+    {
+      "epoch": 1.6515036767400386,
+      "eval_loss": 0.08438260108232498,
+      "eval_runtime": 401.9819,
+      "eval_samples_per_second": 90.514,
+      "eval_steps_per_second": 22.63,
+      "num_input_tokens_seen": 43815424,
+      "step": 33800
+    },
+    {
+      "epoch": 1.651747978403733,
+      "grad_norm": 0.0015999736497178674,
+      "learning_rate": 0.017413111355868392,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 43822720,
+      "step": 33805
+    },
+    {
+      "epoch": 1.6519922800674274,
+      "grad_norm": 0.0013757452834397554,
+      "learning_rate": 0.017385574594496748,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 43829088,
+      "step": 33810
+    },
+    {
+      "epoch": 1.6522365817311215,
+      "grad_norm": 0.0016809707740321755,
+      "learning_rate": 0.01735805828393605,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 43835392,
+      "step": 33815
+    },
+    {
+      "epoch": 1.652480883394816,
+      "grad_norm": 0.0015359153039753437,
+      "learning_rate": 0.017330562428429667,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 43841600,
+      "step": 33820
+    },
+    {
+      "epoch": 1.6527251850585103,
+      "grad_norm": 0.0016043869545683265,
+      "learning_rate": 0.01730308703221776,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 43848096,
+      "step": 33825
+    },
+    {
+      "epoch": 1.6529694867222045,
+      "grad_norm": 0.0008392132585868239,
+      "learning_rate": 0.01727563209953744,
+      "loss": 0.072,
+      "num_input_tokens_seen": 43854752,
+      "step": 33830
+    },
+    {
+      "epoch": 1.6532137883858988,
+      "grad_norm": 0.0008138305856846273,
+      "learning_rate": 0.017248197634622535,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 43861408,
+      "step": 33835
+    },
+    {
+      "epoch": 1.6534580900495932,
+      "grad_norm": 0.0011241837637498975,
+      "learning_rate": 0.01722078364170383,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 43867936,
+      "step": 33840
+    },
+    {
+      "epoch": 1.6537023917132876,
+      "grad_norm": 0.001242264756001532,
+      "learning_rate": 0.017193390125008905,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 43874592,
+      "step": 33845
+    },
+    {
+      "epoch": 1.653946693376982,
+      "grad_norm": 0.0013523829402402043,
+      "learning_rate": 0.017166017088762153,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 43881024,
+      "step": 33850
+    },
+    {
+      "epoch": 1.6541909950406763,
+      "grad_norm": 0.0012978485319763422,
+      "learning_rate": 0.017138664537184878,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 43887328,
+      "step": 33855
+    },
+    {
+      "epoch": 1.6544352967043705,
+      "grad_norm": 0.0014269102830439806,
+      "learning_rate": 0.017111332474495172,
+      "loss": 0.086,
+      "num_input_tokens_seen": 43893856,
+      "step": 33860
+    },
+    {
+      "epoch": 1.6546795983680649,
+      "grad_norm": 0.0019337126286700368,
+      "learning_rate": 0.017084020904907998,
+      "loss": 0.083,
+      "num_input_tokens_seen": 43900352,
+      "step": 33865
+    },
+    {
+      "epoch": 1.6549239000317593,
+      "grad_norm": 0.0014712372794747353,
+      "learning_rate": 0.017056729832635103,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 43906656,
+      "step": 33870
+    },
+    {
+      "epoch": 1.6551682016954534,
+      "grad_norm": 0.001298548188060522,
+      "learning_rate": 0.017029459261885153,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 43912960,
+      "step": 33875
+    },
+    {
+      "epoch": 1.6554125033591478,
+      "grad_norm": 0.0015342364786192775,
+      "learning_rate": 0.01700220919686359,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 43919360,
+      "step": 33880
+    },
+    {
+      "epoch": 1.6556568050228422,
+      "grad_norm": 0.001532789203338325,
+      "learning_rate": 0.016974979641772723,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 43925696,
+      "step": 33885
+    },
+    {
+      "epoch": 1.6559011066865366,
+      "grad_norm": 0.0016659105895087123,
+      "learning_rate": 0.01694777060081169,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 43932128,
+      "step": 33890
+    },
+    {
+      "epoch": 1.656145408350231,
+      "grad_norm": 0.0015579222235828638,
+      "learning_rate": 0.016920582078176444,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 43938368,
+      "step": 33895
+    },
+    {
+      "epoch": 1.6563897100139253,
+      "grad_norm": 0.0008545920136384666,
+      "learning_rate": 0.016893414078059863,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 43944768,
+      "step": 33900
+    },
+    {
+      "epoch": 1.6566340116776195,
+      "grad_norm": 0.0012990828836336732,
+      "learning_rate": 0.016866266604651535,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 43951296,
+      "step": 33905
+    },
+    {
+      "epoch": 1.6568783133413139,
+      "grad_norm": 0.0017465815180912614,
+      "learning_rate": 0.016839139662137976,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 43957952,
+      "step": 33910
+    },
+    {
+      "epoch": 1.6571226150050082,
+      "grad_norm": 0.0008923541172407568,
+      "learning_rate": 0.01681203325470245,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 43964320,
+      "step": 33915
+    },
+    {
+      "epoch": 1.6573669166687024,
+      "grad_norm": 0.0017752957064658403,
+      "learning_rate": 0.016784947386525157,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 43970976,
+      "step": 33920
+    },
+    {
+      "epoch": 1.6576112183323968,
+      "grad_norm": 0.0016428445233032107,
+      "learning_rate": 0.01675788206178308,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 43977472,
+      "step": 33925
+    },
+    {
+      "epoch": 1.6578555199960912,
+      "grad_norm": 0.0009432046208530664,
+      "learning_rate": 0.016730837284649986,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 43983808,
+      "step": 33930
+    },
+    {
+      "epoch": 1.6580998216597855,
+      "grad_norm": 0.0016246832674369216,
+      "learning_rate": 0.016703813059296583,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 43989920,
+      "step": 33935
+    },
+    {
+      "epoch": 1.65834412332348,
+      "grad_norm": 0.0009308931767009199,
+      "learning_rate": 0.016676809389890294,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 43996192,
+      "step": 33940
+    },
+    {
+      "epoch": 1.6585884249871743,
+      "grad_norm": 0.0014274093555286527,
+      "learning_rate": 0.016649826280595435,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 44002656,
+      "step": 33945
+    },
+    {
+      "epoch": 1.6588327266508684,
+      "grad_norm": 0.001993870362639427,
+      "learning_rate": 0.016622863735573163,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 44008960,
+      "step": 33950
+    },
+    {
+      "epoch": 1.6590770283145628,
+      "grad_norm": 0.0014253462431952357,
+      "learning_rate": 0.016595921758981395,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 44015616,
+      "step": 33955
+    },
+    {
+      "epoch": 1.659321329978257,
+      "grad_norm": 0.0011703235795721412,
+      "learning_rate": 0.01656900035497495,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 44022816,
+      "step": 33960
+    },
+    {
+      "epoch": 1.6595656316419514,
+      "grad_norm": 0.0013022253988310695,
+      "learning_rate": 0.016542099527705485,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 44029344,
+      "step": 33965
+    },
+    {
+      "epoch": 1.6598099333056457,
+      "grad_norm": 0.00170897098723799,
+      "learning_rate": 0.01651521928132138,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 44035776,
+      "step": 33970
+    },
+    {
+      "epoch": 1.6600542349693401,
+      "grad_norm": 0.0008473880589008331,
+      "learning_rate": 0.01648835961996794,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 44041984,
+      "step": 33975
+    },
+    {
+      "epoch": 1.6602985366330345,
+      "grad_norm": 0.000890266674105078,
+      "learning_rate": 0.016461520547787285,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 44048576,
+      "step": 33980
+    },
+    {
+      "epoch": 1.6605428382967289,
+      "grad_norm": 0.0012677825288847089,
+      "learning_rate": 0.016434702068918266,
+      "loss": 0.0514,
+      "num_input_tokens_seen": 44054976,
+      "step": 33985
+    },
+    {
+      "epoch": 1.6607871399604233,
+      "grad_norm": 0.0010115645127370954,
+      "learning_rate": 0.01640790418749673,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 44061280,
+      "step": 33990
+    },
+    {
+      "epoch": 1.6610314416241174,
+      "grad_norm": 0.002088771667331457,
+      "learning_rate": 0.016381126907655134,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 44067936,
+      "step": 33995
+    },
+    {
+      "epoch": 1.6612757432878118,
+      "grad_norm": 0.0019760639406740665,
+      "learning_rate": 0.016354370233522948,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 44074432,
+      "step": 34000
+    },
+    {
+      "epoch": 1.6612757432878118,
+      "eval_loss": 0.08622909337282181,
+      "eval_runtime": 402.9095,
+      "eval_samples_per_second": 90.306,
+      "eval_steps_per_second": 22.578,
+      "num_input_tokens_seen": 44074432,
+      "step": 34000
+    },
+    {
+      "epoch": 1.661520044951506,
+      "grad_norm": 0.0011583591112866998,
+      "learning_rate": 0.016327634169226394,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 44081120,
+      "step": 34005
+    },
+    {
+      "epoch": 1.6617643466152003,
+      "grad_norm": 0.0008779179188422859,
+      "learning_rate": 0.016300918718888485,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 44087424,
+      "step": 34010
+    },
+    {
+      "epoch": 1.6620086482788947,
+      "grad_norm": 0.0009801653213799,
+      "learning_rate": 0.016274223886629052,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 44093856,
+      "step": 34015
+    },
+    {
+      "epoch": 1.662252949942589,
+      "grad_norm": 0.0008228968945331872,
+      "learning_rate": 0.01624754967656482,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 44100384,
+      "step": 34020
+    },
+    {
+      "epoch": 1.6624972516062835,
+      "grad_norm": 0.0015383823774755,
+      "learning_rate": 0.016220896092809235,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 44106752,
+      "step": 34025
+    },
+    {
+      "epoch": 1.6627415532699779,
+      "grad_norm": 0.0019026939989998937,
+      "learning_rate": 0.01619426313947267,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 44113632,
+      "step": 34030
+    },
+    {
+      "epoch": 1.6629858549336722,
+      "grad_norm": 0.003004231723025441,
+      "learning_rate": 0.016167650820662228,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 44120096,
+      "step": 34035
+    },
+    {
+      "epoch": 1.6632301565973664,
+      "grad_norm": 0.0012010844657197595,
+      "learning_rate": 0.016141059140481855,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 44126656,
+      "step": 34040
+    },
+    {
+      "epoch": 1.6634744582610608,
+      "grad_norm": 0.0014277173904702067,
+      "learning_rate": 0.016114488103032374,
+      "loss": 0.067,
+      "num_input_tokens_seen": 44132896,
+      "step": 34045
+    },
+    {
+      "epoch": 1.663718759924755,
+      "grad_norm": 0.0016876354347914457,
+      "learning_rate": 0.016087937712411293,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 44139008,
+      "step": 34050
+    },
+    {
+      "epoch": 1.6639630615884493,
+      "grad_norm": 0.0016164849512279034,
+      "learning_rate": 0.01606140797271308,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 44145728,
+      "step": 34055
+    },
+    {
+      "epoch": 1.6642073632521437,
+      "grad_norm": 0.0013359084259718657,
+      "learning_rate": 0.01603489888802897,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 44152896,
+      "step": 34060
+    },
+    {
+      "epoch": 1.664451664915838,
+      "grad_norm": 0.0011403022799640894,
+      "learning_rate": 0.016008410462446918,
+      "loss": 0.066,
+      "num_input_tokens_seen": 44159520,
+      "step": 34065
+    },
+    {
+      "epoch": 1.6646959665795324,
+      "grad_norm": 0.00164665631018579,
+      "learning_rate": 0.01598194270005185,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 44166048,
+      "step": 34070
+    },
+    {
+      "epoch": 1.6649402682432268,
+      "grad_norm": 0.0014350088313221931,
+      "learning_rate": 0.015955495604925356,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 44172288,
+      "step": 34075
+    },
+    {
+      "epoch": 1.6651845699069212,
+      "grad_norm": 0.0009129217942245305,
+      "learning_rate": 0.01592906918114598,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 44178464,
+      "step": 34080
+    },
+    {
+      "epoch": 1.6654288715706154,
+      "grad_norm": 0.001490610302425921,
+      "learning_rate": 0.015902663432788965,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 44184928,
+      "step": 34085
+    },
+    {
+      "epoch": 1.6656731732343097,
+      "grad_norm": 0.0012604092480614781,
+      "learning_rate": 0.01587627836392643,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 44191456,
+      "step": 34090
+    },
+    {
+      "epoch": 1.665917474898004,
+      "grad_norm": 0.001390933757647872,
+      "learning_rate": 0.01584991397862726,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 44198080,
+      "step": 34095
+    },
+    {
+      "epoch": 1.6661617765616983,
+      "grad_norm": 0.0016692880308255553,
+      "learning_rate": 0.015823570280957214,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 44204672,
+      "step": 34100
+    },
+    {
+      "epoch": 1.6664060782253927,
+      "grad_norm": 0.0008936035446822643,
+      "learning_rate": 0.015797247274978766,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 44211040,
+      "step": 34105
+    },
+    {
+      "epoch": 1.666650379889087,
+      "grad_norm": 0.0007895657909102738,
+      "learning_rate": 0.015770944964751326,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 44217728,
+      "step": 34110
+    },
+    {
+      "epoch": 1.6668946815527814,
+      "grad_norm": 0.001619074959307909,
+      "learning_rate": 0.015744663354330956,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 44224000,
+      "step": 34115
+    },
+    {
+      "epoch": 1.6671389832164758,
+      "grad_norm": 0.0016335368854925036,
+      "learning_rate": 0.015718402447770664,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 44230752,
+      "step": 34120
+    },
+    {
+      "epoch": 1.6673832848801702,
+      "grad_norm": 0.001725290436297655,
+      "learning_rate": 0.015692162249120224,
+      "loss": 0.076,
+      "num_input_tokens_seen": 44237312,
+      "step": 34125
+    },
+    {
+      "epoch": 1.6676275865438643,
+      "grad_norm": 0.0017251316457986832,
+      "learning_rate": 0.01566594276242615,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 44243712,
+      "step": 34130
+    },
+    {
+      "epoch": 1.6678718882075587,
+      "grad_norm": 0.0013886078959330916,
+      "learning_rate": 0.015639743991731857,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 44249856,
+      "step": 34135
+    },
+    {
+      "epoch": 1.6681161898712529,
+      "grad_norm": 0.0009203300578519702,
+      "learning_rate": 0.01561356594107755,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 44256160,
+      "step": 34140
+    },
+    {
+      "epoch": 1.6683604915349473,
+      "grad_norm": 0.0019175385823473334,
+      "learning_rate": 0.015587408614500147,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 44262400,
+      "step": 34145
+    },
+    {
+      "epoch": 1.6686047931986416,
+      "grad_norm": 0.001960858004167676,
+      "learning_rate": 0.015561272016033505,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 44268800,
+      "step": 34150
+    },
+    {
+      "epoch": 1.668849094862336,
+      "grad_norm": 0.0011985511519014835,
+      "learning_rate": 0.015535156149708167,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 44274784,
+      "step": 34155
+    },
+    {
+      "epoch": 1.6690933965260304,
+      "grad_norm": 0.0013256918173283339,
+      "learning_rate": 0.015509061019551528,
+      "loss": 0.1,
+      "num_input_tokens_seen": 44281152,
+      "step": 34160
+    },
+    {
+      "epoch": 1.6693376981897248,
+      "grad_norm": 0.0015113485278561711,
+      "learning_rate": 0.015482986629587818,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 44287904,
+      "step": 34165
+    },
+    {
+      "epoch": 1.6695819998534192,
+      "grad_norm": 0.0010203178972005844,
+      "learning_rate": 0.01545693298383799,
+      "loss": 0.0692,
+      "num_input_tokens_seen": 44294496,
+      "step": 34170
+    },
+    {
+      "epoch": 1.6698263015171133,
+      "grad_norm": 0.0018505214247852564,
+      "learning_rate": 0.015430900086319858,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 44301120,
+      "step": 34175
+    },
+    {
+      "epoch": 1.6700706031808077,
+      "grad_norm": 0.0016169368755072355,
+      "learning_rate": 0.015404887941048084,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 44308096,
+      "step": 34180
+    },
+    {
+      "epoch": 1.6703149048445018,
+      "grad_norm": 0.001687323790974915,
+      "learning_rate": 0.01537889655203397,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 44314592,
+      "step": 34185
+    },
+    {
+      "epoch": 1.6705592065081962,
+      "grad_norm": 0.0012427830370143056,
+      "learning_rate": 0.015352925923285798,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 44321152,
+      "step": 34190
+    },
+    {
+      "epoch": 1.6708035081718906,
+      "grad_norm": 0.0008485346334055066,
+      "learning_rate": 0.015326976058808511,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 44327584,
+      "step": 34195
+    },
+    {
+      "epoch": 1.671047809835585,
+      "grad_norm": 0.0016917820321395993,
+      "learning_rate": 0.015301046962603908,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 44334304,
+      "step": 34200
+    },
+    {
+      "epoch": 1.671047809835585,
+      "eval_loss": 0.08467563986778259,
+      "eval_runtime": 403.0608,
+      "eval_samples_per_second": 90.272,
+      "eval_steps_per_second": 22.57,
+      "num_input_tokens_seen": 44334304,
+      "step": 34200
+    },
+    {
+      "epoch": 1.6712921114992794,
+      "grad_norm": 0.0011667495127767324,
+      "learning_rate": 0.015275138638670626,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 44340928,
+      "step": 34205
+    },
+    {
+      "epoch": 1.6715364131629737,
+      "grad_norm": 0.0008867579163052142,
+      "learning_rate": 0.015249251091004001,
+      "loss": 0.078,
+      "num_input_tokens_seen": 44347616,
+      "step": 34210
+    },
+    {
+      "epoch": 1.6717807148266681,
+      "grad_norm": 0.0018558554584160447,
+      "learning_rate": 0.01522338432359624,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 44354240,
+      "step": 34215
+    },
+    {
+      "epoch": 1.6720250164903623,
+      "grad_norm": 0.0012947374489158392,
+      "learning_rate": 0.01519753834043635,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 44361024,
+      "step": 34220
+    },
+    {
+      "epoch": 1.6722693181540567,
+      "grad_norm": 0.0009625963866710663,
+      "learning_rate": 0.015171713145510095,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 44367232,
+      "step": 34225
+    },
+    {
+      "epoch": 1.6725136198177508,
+      "grad_norm": 0.0013031007256358862,
+      "learning_rate": 0.01514590874279999,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 44374176,
+      "step": 34230
+    },
+    {
+      "epoch": 1.6727579214814452,
+      "grad_norm": 0.0008098417893052101,
+      "learning_rate": 0.015120125136285467,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 44380416,
+      "step": 34235
+    },
+    {
+      "epoch": 1.6730022231451396,
+      "grad_norm": 0.0011778941843658686,
+      "learning_rate": 0.015094362329942629,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 44386720,
+      "step": 34240
+    },
+    {
+      "epoch": 1.673246524808834,
+      "grad_norm": 0.0011738208122551441,
+      "learning_rate": 0.01506862032774448,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 44393152,
+      "step": 34245
+    },
+    {
+      "epoch": 1.6734908264725283,
+      "grad_norm": 0.0011392877204343677,
+      "learning_rate": 0.015042899133660697,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 44399808,
+      "step": 34250
+    },
+    {
+      "epoch": 1.6737351281362227,
+      "grad_norm": 0.0009648574632592499,
+      "learning_rate": 0.01501719875165789,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 44406336,
+      "step": 34255
+    },
+    {
+      "epoch": 1.673979429799917,
+      "grad_norm": 0.0011823943350464106,
+      "learning_rate": 0.014991519185699286,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 44413312,
+      "step": 34260
+    },
+    {
+      "epoch": 1.6742237314636113,
+      "grad_norm": 0.0012287880526855588,
+      "learning_rate": 0.014965860439745054,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 44419488,
+      "step": 34265
+    },
+    {
+      "epoch": 1.6744680331273056,
+      "grad_norm": 0.0015620924532413483,
+      "learning_rate": 0.01494022251775211,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 44426048,
+      "step": 34270
+    },
+    {
+      "epoch": 1.6747123347909998,
+      "grad_norm": 0.0018094762926921248,
+      "learning_rate": 0.014914605423674109,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 44432576,
+      "step": 34275
+    },
+    {
+      "epoch": 1.6749566364546942,
+      "grad_norm": 0.0023779638577252626,
+      "learning_rate": 0.014889009161461525,
+      "loss": 0.071,
+      "num_input_tokens_seen": 44439296,
+      "step": 34280
+    },
+    {
+      "epoch": 1.6752009381183885,
+      "grad_norm": 0.001127955736592412,
+      "learning_rate": 0.014863433735061665,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 44445568,
+      "step": 34285
+    },
+    {
+      "epoch": 1.675445239782083,
+      "grad_norm": 0.0011044185375794768,
+      "learning_rate": 0.014837879148418541,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 44452288,
+      "step": 34290
+    },
+    {
+      "epoch": 1.6756895414457773,
+      "grad_norm": 0.0011114644585177302,
+      "learning_rate": 0.01481234540547302,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 44458848,
+      "step": 34295
+    },
+    {
+      "epoch": 1.6759338431094717,
+      "grad_norm": 0.001520649646408856,
+      "learning_rate": 0.014786832510162717,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 44465472,
+      "step": 34300
+    },
+    {
+      "epoch": 1.676178144773166,
+      "grad_norm": 0.002225398551672697,
+      "learning_rate": 0.014761340466422017,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 44471840,
+      "step": 34305
+    },
+    {
+      "epoch": 1.6764224464368602,
+      "grad_norm": 0.0014719241298735142,
+      "learning_rate": 0.014735869278182144,
+      "loss": 0.088,
+      "num_input_tokens_seen": 44478112,
+      "step": 34310
+    },
+    {
+      "epoch": 1.6766667481005546,
+      "grad_norm": 0.0013066122774034739,
+      "learning_rate": 0.014710418949371057,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 44484832,
+      "step": 34315
+    },
+    {
+      "epoch": 1.6769110497642488,
+      "grad_norm": 0.0009315394563600421,
+      "learning_rate": 0.014684989483913495,
+      "loss": 0.068,
+      "num_input_tokens_seen": 44491744,
+      "step": 34320
+    },
+    {
+      "epoch": 1.6771553514279431,
+      "grad_norm": 0.0008475275244563818,
+      "learning_rate": 0.014659580885731077,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 44498336,
+      "step": 34325
+    },
+    {
+      "epoch": 1.6773996530916375,
+      "grad_norm": 0.0008577378466725349,
+      "learning_rate": 0.014634193158742047,
+      "loss": 0.081,
+      "num_input_tokens_seen": 44504672,
+      "step": 34330
+    },
+    {
+      "epoch": 1.677643954755332,
+      "grad_norm": 0.0013777506537735462,
+      "learning_rate": 0.014608826306861576,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 44511488,
+      "step": 34335
+    },
+    {
+      "epoch": 1.6778882564190263,
+      "grad_norm": 0.0016444643260911107,
+      "learning_rate": 0.014583480334001486,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 44517760,
+      "step": 34340
+    },
+    {
+      "epoch": 1.6781325580827207,
+      "grad_norm": 0.0014593895757570863,
+      "learning_rate": 0.014558155244070496,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 44524512,
+      "step": 34345
+    },
+    {
+      "epoch": 1.678376859746415,
+      "grad_norm": 0.0019293330842629075,
+      "learning_rate": 0.014532851040974036,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 44530560,
+      "step": 34350
+    },
+    {
+      "epoch": 1.6786211614101092,
+      "grad_norm": 0.0013863217318430543,
+      "learning_rate": 0.014507567728614335,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 44536864,
+      "step": 34355
+    },
+    {
+      "epoch": 1.6788654630738036,
+      "grad_norm": 0.0016199360834434628,
+      "learning_rate": 0.01448230531089037,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 44543136,
+      "step": 34360
+    },
+    {
+      "epoch": 1.6791097647374977,
+      "grad_norm": 0.0009989379905164242,
+      "learning_rate": 0.014457063791697993,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 44549984,
+      "step": 34365
+    },
+    {
+      "epoch": 1.6793540664011921,
+      "grad_norm": 0.0009956822032108903,
+      "learning_rate": 0.01443184317492971,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 44556768,
+      "step": 34370
+    },
+    {
+      "epoch": 1.6795983680648865,
+      "grad_norm": 0.0006649269489571452,
+      "learning_rate": 0.014406643464474822,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 44562848,
+      "step": 34375
+    },
+    {
+      "epoch": 1.6798426697285809,
+      "grad_norm": 0.001714316662400961,
+      "learning_rate": 0.014381464664219539,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 44569504,
+      "step": 34380
+    },
+    {
+      "epoch": 1.6800869713922753,
+      "grad_norm": 0.0009884354658424854,
+      "learning_rate": 0.014356306778046656,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 44575552,
+      "step": 34385
+    },
+    {
+      "epoch": 1.6803312730559696,
+      "grad_norm": 0.0021651778370141983,
+      "learning_rate": 0.014331169809835885,
+      "loss": 0.0698,
+      "num_input_tokens_seen": 44581856,
+      "step": 34390
+    },
+    {
+      "epoch": 1.6805755747196638,
+      "grad_norm": 0.0013064637314528227,
+      "learning_rate": 0.014306053763463644,
+      "loss": 0.075,
+      "num_input_tokens_seen": 44588128,
+      "step": 34395
+    },
+    {
+      "epoch": 1.6808198763833582,
+      "grad_norm": 0.001855981769040227,
+      "learning_rate": 0.014280958642803147,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 44594368,
+      "step": 34400
+    },
+    {
+      "epoch": 1.6808198763833582,
+      "eval_loss": 0.08430863171815872,
+      "eval_runtime": 402.2809,
+      "eval_samples_per_second": 90.447,
+      "eval_steps_per_second": 22.614,
+      "num_input_tokens_seen": 44594368,
+      "step": 34400
+    },
+    {
+      "epoch": 1.6810641780470525,
+      "grad_norm": 0.0022943324875086546,
+      "learning_rate": 0.014255884451724404,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 44600704,
+      "step": 34405
+    },
+    {
+      "epoch": 1.6813084797107467,
+      "grad_norm": 0.0011047907173633575,
+      "learning_rate": 0.014230831194094101,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 44607392,
+      "step": 34410
+    },
+    {
+      "epoch": 1.681552781374441,
+      "grad_norm": 0.0010603908449411392,
+      "learning_rate": 0.014205798873775865,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 44613472,
+      "step": 34415
+    },
+    {
+      "epoch": 1.6817970830381355,
+      "grad_norm": 0.0007527807028964162,
+      "learning_rate": 0.014180787494629893,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 44620096,
+      "step": 34420
+    },
+    {
+      "epoch": 1.6820413847018298,
+      "grad_norm": 0.0008245244389399886,
+      "learning_rate": 0.014155797060513314,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 44626656,
+      "step": 34425
+    },
+    {
+      "epoch": 1.6822856863655242,
+      "grad_norm": 0.000877891608979553,
+      "learning_rate": 0.014130827575279963,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 44633152,
+      "step": 34430
+    },
+    {
+      "epoch": 1.6825299880292186,
+      "grad_norm": 0.0014597749104723334,
+      "learning_rate": 0.014105879042780427,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 44639584,
+      "step": 34435
+    },
+    {
+      "epoch": 1.6827742896929128,
+      "grad_norm": 0.0009559053578414023,
+      "learning_rate": 0.014080951466862113,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 44645952,
+      "step": 34440
+    },
+    {
+      "epoch": 1.6830185913566071,
+      "grad_norm": 0.0019458195893093944,
+      "learning_rate": 0.014056044851369126,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 44652288,
+      "step": 34445
+    },
+    {
+      "epoch": 1.6832628930203015,
+      "grad_norm": 0.0015818976098671556,
+      "learning_rate": 0.014031159200142428,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 44658528,
+      "step": 34450
+    },
+    {
+      "epoch": 1.6835071946839957,
+      "grad_norm": 0.0016094687161967158,
+      "learning_rate": 0.014006294517019667,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 44665440,
+      "step": 34455
+    },
+    {
+      "epoch": 1.68375149634769,
+      "grad_norm": 0.001310624647885561,
+      "learning_rate": 0.013981450805835276,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 44672480,
+      "step": 34460
+    },
+    {
+      "epoch": 1.6839957980113844,
+      "grad_norm": 0.0006974919815547764,
+      "learning_rate": 0.01395662807042049,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 44679008,
+      "step": 34465
+    },
+    {
+      "epoch": 1.6842400996750788,
+      "grad_norm": 0.0009151027770712972,
+      "learning_rate": 0.013931826314603296,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 44685440,
+      "step": 34470
+    },
+    {
+      "epoch": 1.6844844013387732,
+      "grad_norm": 0.0023344988003373146,
+      "learning_rate": 0.013907045542208401,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 44691904,
+      "step": 34475
+    },
+    {
+      "epoch": 1.6847287030024676,
+      "grad_norm": 0.001656251261010766,
+      "learning_rate": 0.013882285757057333,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 44698080,
+      "step": 34480
+    },
+    {
+      "epoch": 1.6849730046661617,
+      "grad_norm": 0.0013921428471803665,
+      "learning_rate": 0.013857546962968403,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 44704384,
+      "step": 34485
+    },
+    {
+      "epoch": 1.6852173063298561,
+      "grad_norm": 0.0012170823756605387,
+      "learning_rate": 0.013832829163756577,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 44710688,
+      "step": 34490
+    },
+    {
+      "epoch": 1.6854616079935503,
+      "grad_norm": 0.0013441360788419843,
+      "learning_rate": 0.013808132363233689,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 44716992,
+      "step": 34495
+    },
+    {
+      "epoch": 1.6857059096572446,
+      "grad_norm": 0.0019031859701499343,
+      "learning_rate": 0.013783456565208256,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 44723584,
+      "step": 34500
+    },
+    {
+      "epoch": 1.685950211320939,
+      "grad_norm": 0.0013695730594918132,
+      "learning_rate": 0.01375880177348564,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 44730176,
+      "step": 34505
+    },
+    {
+      "epoch": 1.6861945129846334,
+      "grad_norm": 0.0036094444803893566,
+      "learning_rate": 0.013734167991867928,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 44736704,
+      "step": 34510
+    },
+    {
+      "epoch": 1.6864388146483278,
+      "grad_norm": 0.0010957795893773437,
+      "learning_rate": 0.013709555224153935,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 44743136,
+      "step": 34515
+    },
+    {
+      "epoch": 1.6866831163120222,
+      "grad_norm": 0.0008779058116488159,
+      "learning_rate": 0.013684963474139222,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 44749568,
+      "step": 34520
+    },
+    {
+      "epoch": 1.6869274179757165,
+      "grad_norm": 0.0013801208697259426,
+      "learning_rate": 0.013660392745616224,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 44756320,
+      "step": 34525
+    },
+    {
+      "epoch": 1.6871717196394107,
+      "grad_norm": 0.0015360829420387745,
+      "learning_rate": 0.013635843042373974,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 44762208,
+      "step": 34530
+    },
+    {
+      "epoch": 1.687416021303105,
+      "grad_norm": 0.001395246828906238,
+      "learning_rate": 0.01361131436819843,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 44768192,
+      "step": 34535
+    },
+    {
+      "epoch": 1.6876603229667992,
+      "grad_norm": 0.0019073780858889222,
+      "learning_rate": 0.013586806726872147,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 44774240,
+      "step": 34540
+    },
+    {
+      "epoch": 1.6879046246304936,
+      "grad_norm": 0.0014680830063298345,
+      "learning_rate": 0.013562320122174537,
+      "loss": 0.068,
+      "num_input_tokens_seen": 44780672,
+      "step": 34545
+    },
+    {
+      "epoch": 1.688148926294188,
+      "grad_norm": 0.001403955277055502,
+      "learning_rate": 0.013537854557881762,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 44787104,
+      "step": 34550
+    },
+    {
+      "epoch": 1.6883932279578824,
+      "grad_norm": 0.0010610767640173435,
+      "learning_rate": 0.013513410037766687,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 44793568,
+      "step": 34555
+    },
+    {
+      "epoch": 1.6886375296215768,
+      "grad_norm": 0.0012857853434979916,
+      "learning_rate": 0.013488986565598998,
+      "loss": 0.106,
+      "num_input_tokens_seen": 44800224,
+      "step": 34560
+    },
+    {
+      "epoch": 1.6888818312852711,
+      "grad_norm": 0.0020971307530999184,
+      "learning_rate": 0.013464584145145097,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 44806688,
+      "step": 34565
+    },
+    {
+      "epoch": 1.6891261329489655,
+      "grad_norm": 0.0008613663958385587,
+      "learning_rate": 0.013440202780168109,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 44813888,
+      "step": 34570
+    },
+    {
+      "epoch": 1.6893704346126597,
+      "grad_norm": 0.0019344855099916458,
+      "learning_rate": 0.01341584247442799,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 44820832,
+      "step": 34575
+    },
+    {
+      "epoch": 1.689614736276354,
+      "grad_norm": 0.0014505860162898898,
+      "learning_rate": 0.013391503231681355,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 44826848,
+      "step": 34580
+    },
+    {
+      "epoch": 1.6898590379400482,
+      "grad_norm": 0.001301547046750784,
+      "learning_rate": 0.013367185055681685,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 44833152,
+      "step": 34585
+    },
+    {
+      "epoch": 1.6901033396037426,
+      "grad_norm": 0.0013284786837175488,
+      "learning_rate": 0.013342887950179095,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 44839808,
+      "step": 34590
+    },
+    {
+      "epoch": 1.690347641267437,
+      "grad_norm": 0.00188105134293437,
+      "learning_rate": 0.013318611918920554,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 44846048,
+      "step": 34595
+    },
+    {
+      "epoch": 1.6905919429311314,
+      "grad_norm": 0.0013822474284097552,
+      "learning_rate": 0.01329435696564965,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 44852576,
+      "step": 34600
+    },
+    {
+      "epoch": 1.6905919429311314,
+      "eval_loss": 0.08404368907213211,
+      "eval_runtime": 401.8699,
+      "eval_samples_per_second": 90.539,
+      "eval_steps_per_second": 22.637,
+      "num_input_tokens_seen": 44852576,
+      "step": 34600
+    },
+    {
+      "epoch": 1.6908362445948257,
+      "grad_norm": 0.0015092737739905715,
+      "learning_rate": 0.013270123094106894,
+      "loss": 0.084,
+      "num_input_tokens_seen": 44858912,
+      "step": 34605
+    },
+    {
+      "epoch": 1.6910805462585201,
+      "grad_norm": 0.0016053388826549053,
+      "learning_rate": 0.013245910308029395,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 44865248,
+      "step": 34610
+    },
+    {
+      "epoch": 1.6913248479222145,
+      "grad_norm": 0.0014029907761141658,
+      "learning_rate": 0.0132217186111511,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 44871616,
+      "step": 34615
+    },
+    {
+      "epoch": 1.6915691495859086,
+      "grad_norm": 0.0018644756637513638,
+      "learning_rate": 0.013197548007202626,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 44878176,
+      "step": 34620
+    },
+    {
+      "epoch": 1.691813451249603,
+      "grad_norm": 0.0016358280554413795,
+      "learning_rate": 0.01317339849991142,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 44884320,
+      "step": 34625
+    },
+    {
+      "epoch": 1.6920577529132972,
+      "grad_norm": 0.001214281772263348,
+      "learning_rate": 0.013149270093001675,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 44890464,
+      "step": 34630
+    },
+    {
+      "epoch": 1.6923020545769916,
+      "grad_norm": 0.0024755552876740694,
+      "learning_rate": 0.013125162790194227,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 44897216,
+      "step": 34635
+    },
+    {
+      "epoch": 1.692546356240686,
+      "grad_norm": 0.0012353661004453897,
+      "learning_rate": 0.01310107659520674,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 44903744,
+      "step": 34640
+    },
+    {
+      "epoch": 1.6927906579043803,
+      "grad_norm": 0.0009557275334373116,
+      "learning_rate": 0.013077011511753655,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 44910272,
+      "step": 34645
+    },
+    {
+      "epoch": 1.6930349595680747,
+      "grad_norm": 0.0010017210152000189,
+      "learning_rate": 0.013052967543546056,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 44916224,
+      "step": 34650
+    },
+    {
+      "epoch": 1.693279261231769,
+      "grad_norm": 0.0017036956269294024,
+      "learning_rate": 0.01302894469429186,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 44922752,
+      "step": 34655
+    },
+    {
+      "epoch": 1.6935235628954635,
+      "grad_norm": 0.002642898354679346,
+      "learning_rate": 0.013004942967695653,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 44929568,
+      "step": 34660
+    },
+    {
+      "epoch": 1.6937678645591576,
+      "grad_norm": 0.0020693400874733925,
+      "learning_rate": 0.012980962367458859,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 44935776,
+      "step": 34665
+    },
+    {
+      "epoch": 1.694012166222852,
+      "grad_norm": 0.0013064080849289894,
+      "learning_rate": 0.012957002897279567,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 44941632,
+      "step": 34670
+    },
+    {
+      "epoch": 1.6942564678865462,
+      "grad_norm": 0.0010295406682416797,
+      "learning_rate": 0.012933064560852576,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 44947904,
+      "step": 34675
+    },
+    {
+      "epoch": 1.6945007695502405,
+      "grad_norm": 0.0009841583669185638,
+      "learning_rate": 0.012909147361869527,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 44953984,
+      "step": 34680
+    },
+    {
+      "epoch": 1.694745071213935,
+      "grad_norm": 0.0011063116835430264,
+      "learning_rate": 0.012885251304018774,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 44960640,
+      "step": 34685
+    },
+    {
+      "epoch": 1.6949893728776293,
+      "grad_norm": 0.0015052843373268843,
+      "learning_rate": 0.012861376390985335,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 44967296,
+      "step": 34690
+    },
+    {
+      "epoch": 1.6952336745413237,
+      "grad_norm": 0.0019084070809185505,
+      "learning_rate": 0.012837522626451063,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 44973728,
+      "step": 34695
+    },
+    {
+      "epoch": 1.695477976205018,
+      "grad_norm": 0.0008494087378494442,
+      "learning_rate": 0.01281369001409447,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 44980160,
+      "step": 34700
+    },
+    {
+      "epoch": 1.6957222778687124,
+      "grad_norm": 0.0009649499552324414,
+      "learning_rate": 0.012789878557590877,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 44986560,
+      "step": 34705
+    },
+    {
+      "epoch": 1.6959665795324066,
+      "grad_norm": 0.0007385750650428236,
+      "learning_rate": 0.012766088260612334,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 44993152,
+      "step": 34710
+    },
+    {
+      "epoch": 1.696210881196101,
+      "grad_norm": 0.0016481464263051748,
+      "learning_rate": 0.012742319126827523,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 44999328,
+      "step": 34715
+    },
+    {
+      "epoch": 1.6964551828597951,
+      "grad_norm": 0.0013939343625679612,
+      "learning_rate": 0.012718571159902008,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 45005952,
+      "step": 34720
+    },
+    {
+      "epoch": 1.6966994845234895,
+      "grad_norm": 0.0015881964936852455,
+      "learning_rate": 0.01269484436349803,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 45012480,
+      "step": 34725
+    },
+    {
+      "epoch": 1.696943786187184,
+      "grad_norm": 0.0011431104503571987,
+      "learning_rate": 0.012671138741274528,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 45019104,
+      "step": 34730
+    },
+    {
+      "epoch": 1.6971880878508783,
+      "grad_norm": 0.0010865081567317247,
+      "learning_rate": 0.012647454296887194,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 45025952,
+      "step": 34735
+    },
+    {
+      "epoch": 1.6974323895145726,
+      "grad_norm": 0.0014602761948481202,
+      "learning_rate": 0.012623791033988507,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 45032448,
+      "step": 34740
+    },
+    {
+      "epoch": 1.697676691178267,
+      "grad_norm": 0.0015041828155517578,
+      "learning_rate": 0.012600148956227597,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 45038720,
+      "step": 34745
+    },
+    {
+      "epoch": 1.6979209928419614,
+      "grad_norm": 0.0008823435055091977,
+      "learning_rate": 0.012576528067250414,
+      "loss": 0.064,
+      "num_input_tokens_seen": 45044736,
+      "step": 34750
+    },
+    {
+      "epoch": 1.6981652945056556,
+      "grad_norm": 0.0010417216690257192,
+      "learning_rate": 0.012552928370699561,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 45051008,
+      "step": 34755
+    },
+    {
+      "epoch": 1.69840959616935,
+      "grad_norm": 0.0015781373949721456,
+      "learning_rate": 0.012529349870214411,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 45057728,
+      "step": 34760
+    },
+    {
+      "epoch": 1.698653897833044,
+      "grad_norm": 0.0008539354894310236,
+      "learning_rate": 0.012505792569431106,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 45064160,
+      "step": 34765
+    },
+    {
+      "epoch": 1.6988981994967385,
+      "grad_norm": 0.001744526787661016,
+      "learning_rate": 0.012482256471982422,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 45070592,
+      "step": 34770
+    },
+    {
+      "epoch": 1.6991425011604329,
+      "grad_norm": 0.0012079813750460744,
+      "learning_rate": 0.012458741581497956,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 45076864,
+      "step": 34775
+    },
+    {
+      "epoch": 1.6993868028241272,
+      "grad_norm": 0.0019888661336153746,
+      "learning_rate": 0.012435247901603974,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 45083232,
+      "step": 34780
+    },
+    {
+      "epoch": 1.6996311044878216,
+      "grad_norm": 0.0015195327578112483,
+      "learning_rate": 0.012411775435923528,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 45089760,
+      "step": 34785
+    },
+    {
+      "epoch": 1.699875406151516,
+      "grad_norm": 0.0011516864178702235,
+      "learning_rate": 0.012388324188076354,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 45095744,
+      "step": 34790
+    },
+    {
+      "epoch": 1.7001197078152104,
+      "grad_norm": 0.0012049805372953415,
+      "learning_rate": 0.012364894161678913,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 45102240,
+      "step": 34795
+    },
+    {
+      "epoch": 1.7003640094789045,
+      "grad_norm": 0.0008802792872302234,
+      "learning_rate": 0.012341485360344445,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 45109056,
+      "step": 34800
+    },
+    {
+      "epoch": 1.7003640094789045,
+      "eval_loss": 0.08427605777978897,
+      "eval_runtime": 402.4322,
+      "eval_samples_per_second": 90.413,
+      "eval_steps_per_second": 22.605,
+      "num_input_tokens_seen": 45109056,
+      "step": 34800
+    },
+    {
+      "epoch": 1.700608311142599,
+      "grad_norm": 0.0006050647352822125,
+      "learning_rate": 0.01231809778768283,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 45115680,
+      "step": 34805
+    },
+    {
+      "epoch": 1.700852612806293,
+      "grad_norm": 0.0013631823239848018,
+      "learning_rate": 0.012294731447300799,
+      "loss": 0.089,
+      "num_input_tokens_seen": 45122016,
+      "step": 34810
+    },
+    {
+      "epoch": 1.7010969144699875,
+      "grad_norm": 0.0014477098593488336,
+      "learning_rate": 0.012271386342801671,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 45128512,
+      "step": 34815
+    },
+    {
+      "epoch": 1.7013412161336818,
+      "grad_norm": 0.0012733289040625095,
+      "learning_rate": 0.012248062477785565,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 45134720,
+      "step": 34820
+    },
+    {
+      "epoch": 1.7015855177973762,
+      "grad_norm": 0.0017015761695802212,
+      "learning_rate": 0.012224759855849305,
+      "loss": 0.101,
+      "num_input_tokens_seen": 45141120,
+      "step": 34825
+    },
+    {
+      "epoch": 1.7018298194610706,
+      "grad_norm": 0.0014136123936623335,
+      "learning_rate": 0.012201478480586513,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 45147424,
+      "step": 34830
+    },
+    {
+      "epoch": 1.702074121124765,
+      "grad_norm": 0.001518469536677003,
+      "learning_rate": 0.012178218355587389,
+      "loss": 0.0698,
+      "num_input_tokens_seen": 45154432,
+      "step": 34835
+    },
+    {
+      "epoch": 1.7023184227884594,
+      "grad_norm": 0.001282695448026061,
+      "learning_rate": 0.01215497948443896,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 45160800,
+      "step": 34840
+    },
+    {
+      "epoch": 1.7025627244521535,
+      "grad_norm": 0.000876336416695267,
+      "learning_rate": 0.012131761870724993,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 45167744,
+      "step": 34845
+    },
+    {
+      "epoch": 1.7028070261158479,
+      "grad_norm": 0.0014577367110177875,
+      "learning_rate": 0.012108565518025893,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 45174656,
+      "step": 34850
+    },
+    {
+      "epoch": 1.703051327779542,
+      "grad_norm": 0.0011425638804212213,
+      "learning_rate": 0.012085390429918862,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 45181184,
+      "step": 34855
+    },
+    {
+      "epoch": 1.7032956294432364,
+      "grad_norm": 0.0017205625772476196,
+      "learning_rate": 0.012062236609977744,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 45187936,
+      "step": 34860
+    },
+    {
+      "epoch": 1.7035399311069308,
+      "grad_norm": 0.0011964964214712381,
+      "learning_rate": 0.01203910406177318,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 45194560,
+      "step": 34865
+    },
+    {
+      "epoch": 1.7037842327706252,
+      "grad_norm": 0.0009201011853292584,
+      "learning_rate": 0.01201599278887252,
+      "loss": 0.0601,
+      "num_input_tokens_seen": 45200800,
+      "step": 34870
+    },
+    {
+      "epoch": 1.7040285344343196,
+      "grad_norm": 0.0009048745268955827,
+      "learning_rate": 0.011992902794839744,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 45207296,
+      "step": 34875
+    },
+    {
+      "epoch": 1.704272836098014,
+      "grad_norm": 0.0012901979498565197,
+      "learning_rate": 0.011969834083235703,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 45213632,
+      "step": 34880
+    },
+    {
+      "epoch": 1.7045171377617083,
+      "grad_norm": 0.0026926547288894653,
+      "learning_rate": 0.011946786657617836,
+      "loss": 0.088,
+      "num_input_tokens_seen": 45220096,
+      "step": 34885
+    },
+    {
+      "epoch": 1.7047614394254025,
+      "grad_norm": 0.0017604152671992779,
+      "learning_rate": 0.011923760521540332,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 45226560,
+      "step": 34890
+    },
+    {
+      "epoch": 1.7050057410890969,
+      "grad_norm": 0.0014257975853979588,
+      "learning_rate": 0.011900755678554153,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 45232736,
+      "step": 34895
+    },
+    {
+      "epoch": 1.705250042752791,
+      "grad_norm": 0.0012757687363773584,
+      "learning_rate": 0.011877772132206893,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 45239424,
+      "step": 34900
+    },
+    {
+      "epoch": 1.7054943444164854,
+      "grad_norm": 0.0013003140920773149,
+      "learning_rate": 0.011854809886042915,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 45245504,
+      "step": 34905
+    },
+    {
+      "epoch": 1.7057386460801798,
+      "grad_norm": 0.0009462984744459391,
+      "learning_rate": 0.011831868943603325,
+      "loss": 0.063,
+      "num_input_tokens_seen": 45252256,
+      "step": 34910
+    },
+    {
+      "epoch": 1.7059829477438742,
+      "grad_norm": 0.001185135799460113,
+      "learning_rate": 0.011808949308425836,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 45258208,
+      "step": 34915
+    },
+    {
+      "epoch": 1.7062272494075685,
+      "grad_norm": 0.0014795538736507297,
+      "learning_rate": 0.01178605098404501,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 45264768,
+      "step": 34920
+    },
+    {
+      "epoch": 1.706471551071263,
+      "grad_norm": 0.001537772943265736,
+      "learning_rate": 0.011763173973992002,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 45271520,
+      "step": 34925
+    },
+    {
+      "epoch": 1.706715852734957,
+      "grad_norm": 0.0008575518149882555,
+      "learning_rate": 0.011740318281794776,
+      "loss": 0.085,
+      "num_input_tokens_seen": 45277664,
+      "step": 34930
+    },
+    {
+      "epoch": 1.7069601543986515,
+      "grad_norm": 0.0017052239272743464,
+      "learning_rate": 0.01171748391097796,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 45284192,
+      "step": 34935
+    },
+    {
+      "epoch": 1.7072044560623458,
+      "grad_norm": 0.0012216801987960935,
+      "learning_rate": 0.011694670865062873,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 45290528,
+      "step": 34940
+    },
+    {
+      "epoch": 1.70744875772604,
+      "grad_norm": 0.001166549394838512,
+      "learning_rate": 0.011671879147567616,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 45297024,
+      "step": 34945
+    },
+    {
+      "epoch": 1.7076930593897344,
+      "grad_norm": 0.001855909009464085,
+      "learning_rate": 0.011649108762006893,
+      "loss": 0.106,
+      "num_input_tokens_seen": 45303328,
+      "step": 34950
+    },
+    {
+      "epoch": 1.7079373610534287,
+      "grad_norm": 0.0010288192424923182,
+      "learning_rate": 0.011626359711892265,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 45309696,
+      "step": 34955
+    },
+    {
+      "epoch": 1.7081816627171231,
+      "grad_norm": 0.00153722008690238,
+      "learning_rate": 0.01160363200073189,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 45316224,
+      "step": 34960
+    },
+    {
+      "epoch": 1.7084259643808175,
+      "grad_norm": 0.0014934004284441471,
+      "learning_rate": 0.011580925632030614,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 45322368,
+      "step": 34965
+    },
+    {
+      "epoch": 1.7086702660445119,
+      "grad_norm": 0.0010520222131162882,
+      "learning_rate": 0.011558240609290104,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 45328704,
+      "step": 34970
+    },
+    {
+      "epoch": 1.708914567708206,
+      "grad_norm": 0.0016160978702828288,
+      "learning_rate": 0.011535576936008679,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 45335328,
+      "step": 34975
+    },
+    {
+      "epoch": 1.7091588693719004,
+      "grad_norm": 0.0013447378296405077,
+      "learning_rate": 0.011512934615681309,
+      "loss": 0.088,
+      "num_input_tokens_seen": 45341696,
+      "step": 34980
+    },
+    {
+      "epoch": 1.7094031710355948,
+      "grad_norm": 0.0012808599276468158,
+      "learning_rate": 0.011490313651799765,
+      "loss": 0.0589,
+      "num_input_tokens_seen": 45348224,
+      "step": 34985
+    },
+    {
+      "epoch": 1.709647472699289,
+      "grad_norm": 0.0019280846463516355,
+      "learning_rate": 0.011467714047852512,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 45354592,
+      "step": 34990
+    },
+    {
+      "epoch": 1.7098917743629833,
+      "grad_norm": 0.0014258805895224214,
+      "learning_rate": 0.011445135807324624,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 45361152,
+      "step": 34995
+    },
+    {
+      "epoch": 1.7101360760266777,
+      "grad_norm": 0.0013722556177526712,
+      "learning_rate": 0.011422578933698002,
+      "loss": 0.076,
+      "num_input_tokens_seen": 45367936,
+      "step": 35000
+    },
+    {
+      "epoch": 1.7101360760266777,
+      "eval_loss": 0.08391347527503967,
+      "eval_runtime": 402.5655,
+      "eval_samples_per_second": 90.383,
+      "eval_steps_per_second": 22.598,
+      "num_input_tokens_seen": 45367936,
+      "step": 35000
+    },
+    {
+      "epoch": 1.710380377690372,
+      "grad_norm": 0.0018406867748126388,
+      "learning_rate": 0.011400043430451161,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 45374048,
+      "step": 35005
+    },
+    {
+      "epoch": 1.7106246793540665,
+      "grad_norm": 0.0015916001284494996,
+      "learning_rate": 0.011377529301059392,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 45380480,
+      "step": 35010
+    },
+    {
+      "epoch": 1.7108689810177609,
+      "grad_norm": 0.0022779095452278852,
+      "learning_rate": 0.011355036548994646,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 45386912,
+      "step": 35015
+    },
+    {
+      "epoch": 1.711113282681455,
+      "grad_norm": 0.0012821053387597203,
+      "learning_rate": 0.011332565177725584,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 45393344,
+      "step": 35020
+    },
+    {
+      "epoch": 1.7113575843451494,
+      "grad_norm": 0.0009763175039552152,
+      "learning_rate": 0.011310115190717585,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 45399936,
+      "step": 35025
+    },
+    {
+      "epoch": 1.7116018860088436,
+      "grad_norm": 0.0008144594612531364,
+      "learning_rate": 0.01128768659143271,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 45406368,
+      "step": 35030
+    },
+    {
+      "epoch": 1.711846187672538,
+      "grad_norm": 0.0009560482576489449,
+      "learning_rate": 0.011265279383329713,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 45412608,
+      "step": 35035
+    },
+    {
+      "epoch": 1.7120904893362323,
+      "grad_norm": 0.0013823346234858036,
+      "learning_rate": 0.01124289356986411,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 45419712,
+      "step": 35040
+    },
+    {
+      "epoch": 1.7123347909999267,
+      "grad_norm": 0.0012305593118071556,
+      "learning_rate": 0.011220529154488023,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 45425952,
+      "step": 35045
+    },
+    {
+      "epoch": 1.712579092663621,
+      "grad_norm": 0.0012969761155545712,
+      "learning_rate": 0.011198186140650346,
+      "loss": 0.105,
+      "num_input_tokens_seen": 45432416,
+      "step": 35050
+    },
+    {
+      "epoch": 1.7128233943273155,
+      "grad_norm": 0.001119730295613408,
+      "learning_rate": 0.011175864531796685,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 45439520,
+      "step": 35055
+    },
+    {
+      "epoch": 1.7130676959910098,
+      "grad_norm": 0.0020651621744036674,
+      "learning_rate": 0.011153564331369258,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 45446112,
+      "step": 35060
+    },
+    {
+      "epoch": 1.713311997654704,
+      "grad_norm": 0.0011975087691098452,
+      "learning_rate": 0.011131285542807078,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 45452736,
+      "step": 35065
+    },
+    {
+      "epoch": 1.7135562993183984,
+      "grad_norm": 0.0007124995463527739,
+      "learning_rate": 0.011109028169545815,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 45459712,
+      "step": 35070
+    },
+    {
+      "epoch": 1.7138006009820925,
+      "grad_norm": 0.0020661239977926016,
+      "learning_rate": 0.011086792215017804,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 45466496,
+      "step": 35075
+    },
+    {
+      "epoch": 1.714044902645787,
+      "grad_norm": 0.0018463021842762828,
+      "learning_rate": 0.011064577682652137,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 45472768,
+      "step": 35080
+    },
+    {
+      "epoch": 1.7142892043094813,
+      "grad_norm": 0.00301506370306015,
+      "learning_rate": 0.011042384575874559,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 45478912,
+      "step": 35085
+    },
+    {
+      "epoch": 1.7145335059731757,
+      "grad_norm": 0.0012282808311283588,
+      "learning_rate": 0.011020212898107512,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 45485568,
+      "step": 35090
+    },
+    {
+      "epoch": 1.71477780763687,
+      "grad_norm": 0.0019491080893203616,
+      "learning_rate": 0.010998062652770197,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 45491968,
+      "step": 35095
+    },
+    {
+      "epoch": 1.7150221093005644,
+      "grad_norm": 0.0012209564447402954,
+      "learning_rate": 0.010975933843278428,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 45498240,
+      "step": 35100
+    },
+    {
+      "epoch": 1.7152664109642588,
+      "grad_norm": 0.0007464216905646026,
+      "learning_rate": 0.010953826473044714,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 45504768,
+      "step": 35105
+    },
+    {
+      "epoch": 1.715510712627953,
+      "grad_norm": 0.0007407630328088999,
+      "learning_rate": 0.010931740545478357,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 45511008,
+      "step": 35110
+    },
+    {
+      "epoch": 1.7157550142916473,
+      "grad_norm": 0.001019757124595344,
+      "learning_rate": 0.010909676063985218,
+      "loss": 0.064,
+      "num_input_tokens_seen": 45517696,
+      "step": 35115
+    },
+    {
+      "epoch": 1.7159993159553415,
+      "grad_norm": 0.0010635664220899343,
+      "learning_rate": 0.010887633031967974,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 45524224,
+      "step": 35120
+    },
+    {
+      "epoch": 1.7162436176190359,
+      "grad_norm": 0.0016556333284825087,
+      "learning_rate": 0.01086561145282589,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 45530944,
+      "step": 35125
+    },
+    {
+      "epoch": 1.7164879192827303,
+      "grad_norm": 0.0011274394346401095,
+      "learning_rate": 0.010843611329954983,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 45537600,
+      "step": 35130
+    },
+    {
+      "epoch": 1.7167322209464246,
+      "grad_norm": 0.0013892611023038626,
+      "learning_rate": 0.010821632666747988,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 45544064,
+      "step": 35135
+    },
+    {
+      "epoch": 1.716976522610119,
+      "grad_norm": 0.001074198866263032,
+      "learning_rate": 0.010799675466594244,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 45550624,
+      "step": 35140
+    },
+    {
+      "epoch": 1.7172208242738134,
+      "grad_norm": 0.0020507851149886847,
+      "learning_rate": 0.010777739732879826,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 45557280,
+      "step": 35145
+    },
+    {
+      "epoch": 1.7174651259375078,
+      "grad_norm": 0.0015218022745102644,
+      "learning_rate": 0.010755825468987562,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 45563136,
+      "step": 35150
+    },
+    {
+      "epoch": 1.717709427601202,
+      "grad_norm": 0.0016525281826034188,
+      "learning_rate": 0.010733932678296814,
+      "loss": 0.081,
+      "num_input_tokens_seen": 45569440,
+      "step": 35155
+    },
+    {
+      "epoch": 1.7179537292648963,
+      "grad_norm": 0.00146756402682513,
+      "learning_rate": 0.010712061364183817,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 45575552,
+      "step": 35160
+    },
+    {
+      "epoch": 1.7181980309285905,
+      "grad_norm": 0.0013646676670759916,
+      "learning_rate": 0.010690211530021337,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 45581760,
+      "step": 35165
+    },
+    {
+      "epoch": 1.7184423325922848,
+      "grad_norm": 0.0014010875020176172,
+      "learning_rate": 0.01066838317917893,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 45588128,
+      "step": 35170
+    },
+    {
+      "epoch": 1.7186866342559792,
+      "grad_norm": 0.0015158734750002623,
+      "learning_rate": 0.010646576315022787,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 45594752,
+      "step": 35175
+    },
+    {
+      "epoch": 1.7189309359196736,
+      "grad_norm": 0.001699213171377778,
+      "learning_rate": 0.010624790940915785,
+      "loss": 0.099,
+      "num_input_tokens_seen": 45601152,
+      "step": 35180
+    },
+    {
+      "epoch": 1.719175237583368,
+      "grad_norm": 0.0014908502344042063,
+      "learning_rate": 0.0106030270602175,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 45607616,
+      "step": 35185
+    },
+    {
+      "epoch": 1.7194195392470624,
+      "grad_norm": 0.0005800547078251839,
+      "learning_rate": 0.010581284676284252,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 45614240,
+      "step": 35190
+    },
+    {
+      "epoch": 1.7196638409107567,
+      "grad_norm": 0.0011018238728865981,
+      "learning_rate": 0.010559563792468923,
+      "loss": 0.063,
+      "num_input_tokens_seen": 45620576,
+      "step": 35195
+    },
+    {
+      "epoch": 1.719908142574451,
+      "grad_norm": 0.0008528809994459152,
+      "learning_rate": 0.010537864412121217,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 45627104,
+      "step": 35200
+    },
+    {
+      "epoch": 1.719908142574451,
+      "eval_loss": 0.08412104845046997,
+      "eval_runtime": 402.3055,
+      "eval_samples_per_second": 90.441,
+      "eval_steps_per_second": 22.612,
+      "num_input_tokens_seen": 45627104,
+      "step": 35200
+    },
+    {
+      "epoch": 1.7201524442381453,
+      "grad_norm": 0.0014780090423300862,
+      "learning_rate": 0.010516186538587357,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 45633408,
+      "step": 35205
+    },
+    {
+      "epoch": 1.7203967459018394,
+      "grad_norm": 0.0009122187620960176,
+      "learning_rate": 0.01049453017521042,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 45639552,
+      "step": 35210
+    },
+    {
+      "epoch": 1.7206410475655338,
+      "grad_norm": 0.00289192795753479,
+      "learning_rate": 0.010472895325330083,
+      "loss": 0.092,
+      "num_input_tokens_seen": 45646432,
+      "step": 35215
+    },
+    {
+      "epoch": 1.7208853492292282,
+      "grad_norm": 0.0016199011588469148,
+      "learning_rate": 0.010451281992282662,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 45652928,
+      "step": 35220
+    },
+    {
+      "epoch": 1.7211296508929226,
+      "grad_norm": 0.002079498255625367,
+      "learning_rate": 0.01042969017940124,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 45659072,
+      "step": 35225
+    },
+    {
+      "epoch": 1.721373952556617,
+      "grad_norm": 0.0023277837317436934,
+      "learning_rate": 0.01040811989001557,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 45665408,
+      "step": 35230
+    },
+    {
+      "epoch": 1.7216182542203113,
+      "grad_norm": 0.0010268694022670388,
+      "learning_rate": 0.010386571127451992,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 45671584,
+      "step": 35235
+    },
+    {
+      "epoch": 1.7218625558840057,
+      "grad_norm": 0.0011801713844761252,
+      "learning_rate": 0.010365043895033682,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 45677920,
+      "step": 35240
+    },
+    {
+      "epoch": 1.7221068575476999,
+      "grad_norm": 0.0015021548606455326,
+      "learning_rate": 0.010343538196080365,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 45684512,
+      "step": 35245
+    },
+    {
+      "epoch": 1.7223511592113943,
+      "grad_norm": 0.001615706947632134,
+      "learning_rate": 0.010322054033908457,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 45690816,
+      "step": 35250
+    },
+    {
+      "epoch": 1.7225954608750884,
+      "grad_norm": 0.002637833822518587,
+      "learning_rate": 0.010300591411831156,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 45697504,
+      "step": 35255
+    },
+    {
+      "epoch": 1.7228397625387828,
+      "grad_norm": 0.001132380566559732,
+      "learning_rate": 0.010279150333158198,
+      "loss": 0.092,
+      "num_input_tokens_seen": 45703744,
+      "step": 35260
+    },
+    {
+      "epoch": 1.7230840642024772,
+      "grad_norm": 0.0028297072276473045,
+      "learning_rate": 0.010257730801196107,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 45711008,
+      "step": 35265
+    },
+    {
+      "epoch": 1.7233283658661716,
+      "grad_norm": 0.0013911889400333166,
+      "learning_rate": 0.010236332819248056,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 45717760,
+      "step": 35270
+    },
+    {
+      "epoch": 1.723572667529866,
+      "grad_norm": 0.0011898305965587497,
+      "learning_rate": 0.010214956390613854,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 45724032,
+      "step": 35275
+    },
+    {
+      "epoch": 1.7238169691935603,
+      "grad_norm": 0.0012647039256989956,
+      "learning_rate": 0.010193601518590034,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 45730144,
+      "step": 35280
+    },
+    {
+      "epoch": 1.7240612708572547,
+      "grad_norm": 0.0012395471567288041,
+      "learning_rate": 0.010172268206469758,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 45736128,
+      "step": 35285
+    },
+    {
+      "epoch": 1.7243055725209488,
+      "grad_norm": 0.0011586908949539065,
+      "learning_rate": 0.010150956457542897,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 45742368,
+      "step": 35290
+    },
+    {
+      "epoch": 1.7245498741846432,
+      "grad_norm": 0.0011439700610935688,
+      "learning_rate": 0.010129666275096054,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 45748896,
+      "step": 35295
+    },
+    {
+      "epoch": 1.7247941758483374,
+      "grad_norm": 0.000804560782853514,
+      "learning_rate": 0.010108397662412338,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 45755360,
+      "step": 35300
+    },
+    {
+      "epoch": 1.7250384775120318,
+      "grad_norm": 0.001886901562102139,
+      "learning_rate": 0.010087150622771707,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 45762112,
+      "step": 35305
+    },
+    {
+      "epoch": 1.7252827791757261,
+      "grad_norm": 0.0008513766806572676,
+      "learning_rate": 0.010065925159450739,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 45768480,
+      "step": 35310
+    },
+    {
+      "epoch": 1.7255270808394205,
+      "grad_norm": 0.0007233843789435923,
+      "learning_rate": 0.010044721275722618,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 45775264,
+      "step": 35315
+    },
+    {
+      "epoch": 1.725771382503115,
+      "grad_norm": 0.0005638026050291955,
+      "learning_rate": 0.01002353897485726,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 45781760,
+      "step": 35320
+    },
+    {
+      "epoch": 1.7260156841668093,
+      "grad_norm": 0.0006096758297644556,
+      "learning_rate": 0.010002378260121236,
+      "loss": 0.0591,
+      "num_input_tokens_seen": 45788256,
+      "step": 35325
+    },
+    {
+      "epoch": 1.7262599858305037,
+      "grad_norm": 0.0016877492889761925,
+      "learning_rate": 0.009981239134777786,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 45794816,
+      "step": 35330
+    },
+    {
+      "epoch": 1.7265042874941978,
+      "grad_norm": 0.002083060098811984,
+      "learning_rate": 0.009960121602086884,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 45801088,
+      "step": 35335
+    },
+    {
+      "epoch": 1.7267485891578922,
+      "grad_norm": 0.0010364012559875846,
+      "learning_rate": 0.009939025665305062,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 45807648,
+      "step": 35340
+    },
+    {
+      "epoch": 1.7269928908215864,
+      "grad_norm": 0.0013264797162264585,
+      "learning_rate": 0.009917951327685597,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 45813760,
+      "step": 35345
+    },
+    {
+      "epoch": 1.7272371924852807,
+      "grad_norm": 0.0012034856481477618,
+      "learning_rate": 0.009896898592478425,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 45820608,
+      "step": 35350
+    },
+    {
+      "epoch": 1.7274814941489751,
+      "grad_norm": 0.0009372577187605202,
+      "learning_rate": 0.009875867462930132,
+      "loss": 0.081,
+      "num_input_tokens_seen": 45826816,
+      "step": 35355
+    },
+    {
+      "epoch": 1.7277257958126695,
+      "grad_norm": 0.0019965232349932194,
+      "learning_rate": 0.009854857942284006,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 45833216,
+      "step": 35360
+    },
+    {
+      "epoch": 1.7279700974763639,
+      "grad_norm": 0.001757569843903184,
+      "learning_rate": 0.009833870033779923,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 45839712,
+      "step": 35365
+    },
+    {
+      "epoch": 1.7282143991400583,
+      "grad_norm": 0.0013563822722062469,
+      "learning_rate": 0.009812903740654527,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 45846208,
+      "step": 35370
+    },
+    {
+      "epoch": 1.7284587008037526,
+      "grad_norm": 0.0014223260805010796,
+      "learning_rate": 0.009791959066141097,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 45852512,
+      "step": 35375
+    },
+    {
+      "epoch": 1.7287030024674468,
+      "grad_norm": 0.0018812059424817562,
+      "learning_rate": 0.009771036013469537,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 45859104,
+      "step": 35380
+    },
+    {
+      "epoch": 1.7289473041311412,
+      "grad_norm": 0.0013910079142078757,
+      "learning_rate": 0.00975013458586646,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 45865568,
+      "step": 35385
+    },
+    {
+      "epoch": 1.7291916057948353,
+      "grad_norm": 0.0011515849037095904,
+      "learning_rate": 0.009729254786555107,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 45872224,
+      "step": 35390
+    },
+    {
+      "epoch": 1.7294359074585297,
+      "grad_norm": 0.002680201083421707,
+      "learning_rate": 0.009708396618755421,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 45878752,
+      "step": 35395
+    },
+    {
+      "epoch": 1.729680209122224,
+      "grad_norm": 0.001171499490737915,
+      "learning_rate": 0.009687560085683994,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 45885312,
+      "step": 35400
+    },
+    {
+      "epoch": 1.729680209122224,
+      "eval_loss": 0.08384579420089722,
+      "eval_runtime": 401.9629,
+      "eval_samples_per_second": 90.518,
+      "eval_steps_per_second": 22.631,
+      "num_input_tokens_seen": 45885312,
+      "step": 35400
+    },
+    {
+      "epoch": 1.7299245107859185,
+      "grad_norm": 0.0015026816399767995,
+      "learning_rate": 0.009666745190554054,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 45891872,
+      "step": 35405
+    },
+    {
+      "epoch": 1.7301688124496128,
+      "grad_norm": 0.001532172434963286,
+      "learning_rate": 0.009645951936575553,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 45898240,
+      "step": 35410
+    },
+    {
+      "epoch": 1.7304131141133072,
+      "grad_norm": 0.0014860235387459397,
+      "learning_rate": 0.00962518032695509,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 45904544,
+      "step": 35415
+    },
+    {
+      "epoch": 1.7306574157770016,
+      "grad_norm": 0.0010537131456658244,
+      "learning_rate": 0.009604430364895855,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 45910848,
+      "step": 35420
+    },
+    {
+      "epoch": 1.7309017174406958,
+      "grad_norm": 0.0012164368527010083,
+      "learning_rate": 0.00958370205359777,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 45917600,
+      "step": 35425
+    },
+    {
+      "epoch": 1.7311460191043901,
+      "grad_norm": 0.001758026541210711,
+      "learning_rate": 0.009562995396257445,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 45924160,
+      "step": 35430
+    },
+    {
+      "epoch": 1.7313903207680843,
+      "grad_norm": 0.0008391918381676078,
+      "learning_rate": 0.009542310396068026,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 45930880,
+      "step": 35435
+    },
+    {
+      "epoch": 1.7316346224317787,
+      "grad_norm": 0.002937317593023181,
+      "learning_rate": 0.009521647056219495,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 45937280,
+      "step": 35440
+    },
+    {
+      "epoch": 1.731878924095473,
+      "grad_norm": 0.002063825959339738,
+      "learning_rate": 0.00950100537989832,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 45943872,
+      "step": 35445
+    },
+    {
+      "epoch": 1.7321232257591674,
+      "grad_norm": 0.001692155608907342,
+      "learning_rate": 0.00948038537028772,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 45950112,
+      "step": 35450
+    },
+    {
+      "epoch": 1.7323675274228618,
+      "grad_norm": 0.0009563821367919445,
+      "learning_rate": 0.009459787030567617,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 45956896,
+      "step": 35455
+    },
+    {
+      "epoch": 1.7326118290865562,
+      "grad_norm": 0.0014286597725003958,
+      "learning_rate": 0.00943921036391449,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 45963296,
+      "step": 35460
+    },
+    {
+      "epoch": 1.7328561307502504,
+      "grad_norm": 0.0018598936730995774,
+      "learning_rate": 0.009418655373501483,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 45970016,
+      "step": 35465
+    },
+    {
+      "epoch": 1.7331004324139447,
+      "grad_norm": 0.0017558166291564703,
+      "learning_rate": 0.00939812206249851,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 45976416,
+      "step": 35470
+    },
+    {
+      "epoch": 1.7333447340776391,
+      "grad_norm": 0.0010708929039537907,
+      "learning_rate": 0.009377610434072004,
+      "loss": 0.067,
+      "num_input_tokens_seen": 45982848,
+      "step": 35475
+    },
+    {
+      "epoch": 1.7335890357413333,
+      "grad_norm": 0.0010590238962322474,
+      "learning_rate": 0.009357120491385167,
+      "loss": 0.065,
+      "num_input_tokens_seen": 45989536,
+      "step": 35480
+    },
+    {
+      "epoch": 1.7338333374050277,
+      "grad_norm": 0.0022553761955350637,
+      "learning_rate": 0.009336652237597743,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 45995968,
+      "step": 35485
+    },
+    {
+      "epoch": 1.734077639068722,
+      "grad_norm": 0.0022920058108866215,
+      "learning_rate": 0.009316205675866251,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 46002208,
+      "step": 35490
+    },
+    {
+      "epoch": 1.7343219407324164,
+      "grad_norm": 0.001498801400884986,
+      "learning_rate": 0.00929578080934379,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 46008896,
+      "step": 35495
+    },
+    {
+      "epoch": 1.7345662423961108,
+      "grad_norm": 0.0016018160386011004,
+      "learning_rate": 0.00927537764118012,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 46015392,
+      "step": 35500
+    },
+    {
+      "epoch": 1.7348105440598052,
+      "grad_norm": 0.0008559554116800427,
+      "learning_rate": 0.009254996174521678,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 46021856,
+      "step": 35505
+    },
+    {
+      "epoch": 1.7350548457234993,
+      "grad_norm": 0.001222031656652689,
+      "learning_rate": 0.009234636412511531,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 46028416,
+      "step": 35510
+    },
+    {
+      "epoch": 1.7352991473871937,
+      "grad_norm": 0.000876223377417773,
+      "learning_rate": 0.009214298358289418,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 46035072,
+      "step": 35515
+    },
+    {
+      "epoch": 1.735543449050888,
+      "grad_norm": 0.0017351371934637427,
+      "learning_rate": 0.00919398201499173,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 46041344,
+      "step": 35520
+    },
+    {
+      "epoch": 1.7357877507145822,
+      "grad_norm": 0.0010547611163929105,
+      "learning_rate": 0.009173687385751495,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 46047552,
+      "step": 35525
+    },
+    {
+      "epoch": 1.7360320523782766,
+      "grad_norm": 0.0010680605191737413,
+      "learning_rate": 0.009153414473698407,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 46054432,
+      "step": 35530
+    },
+    {
+      "epoch": 1.736276354041971,
+      "grad_norm": 0.0015947475330904126,
+      "learning_rate": 0.009133163281958784,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 46061056,
+      "step": 35535
+    },
+    {
+      "epoch": 1.7365206557056654,
+      "grad_norm": 0.0015367965679615736,
+      "learning_rate": 0.009112933813655627,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 46067776,
+      "step": 35540
+    },
+    {
+      "epoch": 1.7367649573693598,
+      "grad_norm": 0.0018777980003505945,
+      "learning_rate": 0.009092726071908573,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 46074144,
+      "step": 35545
+    },
+    {
+      "epoch": 1.7370092590330541,
+      "grad_norm": 0.002015543868765235,
+      "learning_rate": 0.0090725400598339,
+      "loss": 0.0698,
+      "num_input_tokens_seen": 46080480,
+      "step": 35550
+    },
+    {
+      "epoch": 1.7372535606967483,
+      "grad_norm": 0.0014131757197901607,
+      "learning_rate": 0.009052375780544563,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 46086880,
+      "step": 35555
+    },
+    {
+      "epoch": 1.7374978623604427,
+      "grad_norm": 0.001138562336564064,
+      "learning_rate": 0.009032233237150144,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 46093408,
+      "step": 35560
+    },
+    {
+      "epoch": 1.737742164024137,
+      "grad_norm": 0.0011837418423965573,
+      "learning_rate": 0.009012112432756875,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 46099776,
+      "step": 35565
+    },
+    {
+      "epoch": 1.7379864656878312,
+      "grad_norm": 0.001744271838106215,
+      "learning_rate": 0.008992013370467605,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 46106240,
+      "step": 35570
+    },
+    {
+      "epoch": 1.7382307673515256,
+      "grad_norm": 0.0009435852989554405,
+      "learning_rate": 0.008971936053381924,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 46112736,
+      "step": 35575
+    },
+    {
+      "epoch": 1.73847506901522,
+      "grad_norm": 0.001070657977834344,
+      "learning_rate": 0.008951880484595953,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 46119200,
+      "step": 35580
+    },
+    {
+      "epoch": 1.7387193706789144,
+      "grad_norm": 0.001443561282940209,
+      "learning_rate": 0.008931846667202552,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 46125824,
+      "step": 35585
+    },
+    {
+      "epoch": 1.7389636723426087,
+      "grad_norm": 0.0011702593183144927,
+      "learning_rate": 0.008911834604291152,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 46132384,
+      "step": 35590
+    },
+    {
+      "epoch": 1.7392079740063031,
+      "grad_norm": 0.0014862708048895001,
+      "learning_rate": 0.008891844298947882,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 46138880,
+      "step": 35595
+    },
+    {
+      "epoch": 1.7394522756699973,
+      "grad_norm": 0.0017970436019822955,
+      "learning_rate": 0.008871875754255508,
+      "loss": 0.069,
+      "num_input_tokens_seen": 46145568,
+      "step": 35600
+    },
+    {
+      "epoch": 1.7394522756699973,
+      "eval_loss": 0.0841720774769783,
+      "eval_runtime": 402.4607,
+      "eval_samples_per_second": 90.406,
+      "eval_steps_per_second": 22.603,
+      "num_input_tokens_seen": 46145568,
+      "step": 35600
+    },
+    {
+      "epoch": 1.7396965773336917,
+      "grad_norm": 0.00217668735422194,
+      "learning_rate": 0.008851928973293422,
+      "loss": 0.071,
+      "num_input_tokens_seen": 46152448,
+      "step": 35605
+    },
+    {
+      "epoch": 1.7399408789973858,
+      "grad_norm": 0.0010959503706544638,
+      "learning_rate": 0.00883200395913764,
+      "loss": 0.092,
+      "num_input_tokens_seen": 46158880,
+      "step": 35610
+    },
+    {
+      "epoch": 1.7401851806610802,
+      "grad_norm": 0.0009396210662089288,
+      "learning_rate": 0.00881210071486091,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 46165664,
+      "step": 35615
+    },
+    {
+      "epoch": 1.7404294823247746,
+      "grad_norm": 0.0010263427393510938,
+      "learning_rate": 0.008792219243532505,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 46172384,
+      "step": 35620
+    },
+    {
+      "epoch": 1.740673783988469,
+      "grad_norm": 0.0022283531725406647,
+      "learning_rate": 0.008772359548218428,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 46179104,
+      "step": 35625
+    },
+    {
+      "epoch": 1.7409180856521633,
+      "grad_norm": 0.0015292185125872493,
+      "learning_rate": 0.008752521631981274,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 46185728,
+      "step": 35630
+    },
+    {
+      "epoch": 1.7411623873158577,
+      "grad_norm": 0.00122721993830055,
+      "learning_rate": 0.008732705497880315,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 46192192,
+      "step": 35635
+    },
+    {
+      "epoch": 1.741406688979552,
+      "grad_norm": 0.0010112345917150378,
+      "learning_rate": 0.008712911148971459,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 46198656,
+      "step": 35640
+    },
+    {
+      "epoch": 1.7416509906432462,
+      "grad_norm": 0.0017946050502359867,
+      "learning_rate": 0.008693138588307208,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 46204928,
+      "step": 35645
+    },
+    {
+      "epoch": 1.7418952923069406,
+      "grad_norm": 0.0009994895663112402,
+      "learning_rate": 0.008673387818936762,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 46211136,
+      "step": 35650
+    },
+    {
+      "epoch": 1.7421395939706348,
+      "grad_norm": 0.001482008839957416,
+      "learning_rate": 0.008653658843905948,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 46217728,
+      "step": 35655
+    },
+    {
+      "epoch": 1.7423838956343292,
+      "grad_norm": 0.0013500809436663985,
+      "learning_rate": 0.0086339516662572,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 46224256,
+      "step": 35660
+    },
+    {
+      "epoch": 1.7426281972980235,
+      "grad_norm": 0.0012570901308208704,
+      "learning_rate": 0.008614266289029638,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 46230816,
+      "step": 35665
+    },
+    {
+      "epoch": 1.742872498961718,
+      "grad_norm": 0.0016506962710991502,
+      "learning_rate": 0.008594602715258965,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 46237248,
+      "step": 35670
+    },
+    {
+      "epoch": 1.7431168006254123,
+      "grad_norm": 0.0010252740466967225,
+      "learning_rate": 0.008574960947977573,
+      "loss": 0.078,
+      "num_input_tokens_seen": 46244352,
+      "step": 35675
+    },
+    {
+      "epoch": 1.7433611022891067,
+      "grad_norm": 0.0012585383374243975,
+      "learning_rate": 0.008555340990214438,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 46251040,
+      "step": 35680
+    },
+    {
+      "epoch": 1.743605403952801,
+      "grad_norm": 0.001618091482669115,
+      "learning_rate": 0.008535742844995258,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 46257920,
+      "step": 35685
+    },
+    {
+      "epoch": 1.7438497056164952,
+      "grad_norm": 0.0015631035203114152,
+      "learning_rate": 0.008516166515342266,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 46264512,
+      "step": 35690
+    },
+    {
+      "epoch": 1.7440940072801896,
+      "grad_norm": 0.001904514734633267,
+      "learning_rate": 0.008496612004274411,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 46270976,
+      "step": 35695
+    },
+    {
+      "epoch": 1.7443383089438838,
+      "grad_norm": 0.002117785392329097,
+      "learning_rate": 0.008477079314807201,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 46277696,
+      "step": 35700
+    },
+    {
+      "epoch": 1.7445826106075781,
+      "grad_norm": 0.0008722046623006463,
+      "learning_rate": 0.008457568449952874,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 46283968,
+      "step": 35705
+    },
+    {
+      "epoch": 1.7448269122712725,
+      "grad_norm": 0.001417159684933722,
+      "learning_rate": 0.008438079412720189,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 46290624,
+      "step": 35710
+    },
+    {
+      "epoch": 1.745071213934967,
+      "grad_norm": 0.0014709942042827606,
+      "learning_rate": 0.00841861220611466,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 46297472,
+      "step": 35715
+    },
+    {
+      "epoch": 1.7453155155986613,
+      "grad_norm": 0.001670663245022297,
+      "learning_rate": 0.008399166833138355,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 46303936,
+      "step": 35720
+    },
+    {
+      "epoch": 1.7455598172623557,
+      "grad_norm": 0.001772728399373591,
+      "learning_rate": 0.008379743296789987,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 46310144,
+      "step": 35725
+    },
+    {
+      "epoch": 1.74580411892605,
+      "grad_norm": 0.0012480865698307753,
+      "learning_rate": 0.008360341600064896,
+      "loss": 0.094,
+      "num_input_tokens_seen": 46317216,
+      "step": 35730
+    },
+    {
+      "epoch": 1.7460484205897442,
+      "grad_norm": 0.0013591385213658214,
+      "learning_rate": 0.008340961745955121,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 46323712,
+      "step": 35735
+    },
+    {
+      "epoch": 1.7462927222534386,
+      "grad_norm": 0.001528942841105163,
+      "learning_rate": 0.008321603737449224,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 46330592,
+      "step": 35740
+    },
+    {
+      "epoch": 1.7465370239171327,
+      "grad_norm": 0.0015212433645501733,
+      "learning_rate": 0.008302267577532479,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 46336832,
+      "step": 35745
+    },
+    {
+      "epoch": 1.746781325580827,
+      "grad_norm": 0.0014953040517866611,
+      "learning_rate": 0.008282953269186771,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 46343424,
+      "step": 35750
+    },
+    {
+      "epoch": 1.7470256272445215,
+      "grad_norm": 0.0013409927487373352,
+      "learning_rate": 0.008263660815390567,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 46349760,
+      "step": 35755
+    },
+    {
+      "epoch": 1.7472699289082159,
+      "grad_norm": 0.0009070130181498826,
+      "learning_rate": 0.008244390219119069,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 46356704,
+      "step": 35760
+    },
+    {
+      "epoch": 1.7475142305719102,
+      "grad_norm": 0.0017160861752927303,
+      "learning_rate": 0.008225141483343967,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 46362912,
+      "step": 35765
+    },
+    {
+      "epoch": 1.7477585322356046,
+      "grad_norm": 0.001523882383480668,
+      "learning_rate": 0.00820591461103372,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 46369376,
+      "step": 35770
+    },
+    {
+      "epoch": 1.748002833899299,
+      "grad_norm": 0.0012044035829603672,
+      "learning_rate": 0.008186709605153358,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 46375872,
+      "step": 35775
+    },
+    {
+      "epoch": 1.7482471355629932,
+      "grad_norm": 0.0034429761581122875,
+      "learning_rate": 0.008167526468664492,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 46382688,
+      "step": 35780
+    },
+    {
+      "epoch": 1.7484914372266875,
+      "grad_norm": 0.0011300368933007121,
+      "learning_rate": 0.008148365204525443,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 46389344,
+      "step": 35785
+    },
+    {
+      "epoch": 1.7487357388903817,
+      "grad_norm": 0.0005213282420299947,
+      "learning_rate": 0.00812922581569106,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 46396480,
+      "step": 35790
+    },
+    {
+      "epoch": 1.748980040554076,
+      "grad_norm": 0.0014429041184484959,
+      "learning_rate": 0.008110108305112934,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 46403040,
+      "step": 35795
+    },
+    {
+      "epoch": 1.7492243422177705,
+      "grad_norm": 0.0013050915440544486,
+      "learning_rate": 0.008091012675739223,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 46409504,
+      "step": 35800
+    },
+    {
+      "epoch": 1.7492243422177705,
+      "eval_loss": 0.08384208381175995,
+      "eval_runtime": 402.1506,
+      "eval_samples_per_second": 90.476,
+      "eval_steps_per_second": 22.621,
+      "num_input_tokens_seen": 46409504,
+      "step": 35800
+    },
+    {
+      "epoch": 1.7494686438814648,
+      "grad_norm": 0.0015843694563955069,
+      "learning_rate": 0.008071938930514671,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 46416160,
+      "step": 35805
+    },
+    {
+      "epoch": 1.7497129455451592,
+      "grad_norm": 0.0010498407064005733,
+      "learning_rate": 0.008052887072380726,
+      "loss": 0.0548,
+      "num_input_tokens_seen": 46422656,
+      "step": 35810
+    },
+    {
+      "epoch": 1.7499572472088536,
+      "grad_norm": 0.0009820351842790842,
+      "learning_rate": 0.008033857104275437,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 46429152,
+      "step": 35815
+    },
+    {
+      "epoch": 1.750201548872548,
+      "grad_norm": 0.0015653979498893023,
+      "learning_rate": 0.008014849029133424,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 46435136,
+      "step": 35820
+    },
+    {
+      "epoch": 1.7504458505362421,
+      "grad_norm": 0.0010624080896377563,
+      "learning_rate": 0.007995862849885975,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 46441760,
+      "step": 35825
+    },
+    {
+      "epoch": 1.7506901521999365,
+      "grad_norm": 0.0017882823012769222,
+      "learning_rate": 0.007976898569461032,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 46447936,
+      "step": 35830
+    },
+    {
+      "epoch": 1.7509344538636307,
+      "grad_norm": 0.0013126898556947708,
+      "learning_rate": 0.007957956190783088,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 46454304,
+      "step": 35835
+    },
+    {
+      "epoch": 1.751178755527325,
+      "grad_norm": 0.0015986233483999968,
+      "learning_rate": 0.007939035716773324,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 46460832,
+      "step": 35840
+    },
+    {
+      "epoch": 1.7514230571910194,
+      "grad_norm": 0.0012254557805135846,
+      "learning_rate": 0.007920137150349487,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 46467200,
+      "step": 35845
+    },
+    {
+      "epoch": 1.7516673588547138,
+      "grad_norm": 0.001495607546530664,
+      "learning_rate": 0.007901260494425981,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 46473824,
+      "step": 35850
+    },
+    {
+      "epoch": 1.7519116605184082,
+      "grad_norm": 0.0014342815848067403,
+      "learning_rate": 0.007882405751913861,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 46480352,
+      "step": 35855
+    },
+    {
+      "epoch": 1.7521559621821026,
+      "grad_norm": 0.000883500964846462,
+      "learning_rate": 0.007863572925720702,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 46486656,
+      "step": 35860
+    },
+    {
+      "epoch": 1.752400263845797,
+      "grad_norm": 0.0015212730504572392,
+      "learning_rate": 0.007844762018750827,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 46492736,
+      "step": 35865
+    },
+    {
+      "epoch": 1.752644565509491,
+      "grad_norm": 0.0007547753630205989,
+      "learning_rate": 0.007825973033905054,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 46499168,
+      "step": 35870
+    },
+    {
+      "epoch": 1.7528888671731855,
+      "grad_norm": 0.0012346981093287468,
+      "learning_rate": 0.007807205974080927,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 46505952,
+      "step": 35875
+    },
+    {
+      "epoch": 1.7531331688368796,
+      "grad_norm": 0.001034785294905305,
+      "learning_rate": 0.007788460842172551,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 46512640,
+      "step": 35880
+    },
+    {
+      "epoch": 1.753377470500574,
+      "grad_norm": 0.0013360428856685758,
+      "learning_rate": 0.0077697376410706285,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 46519296,
+      "step": 35885
+    },
+    {
+      "epoch": 1.7536217721642684,
+      "grad_norm": 0.0014471880858764052,
+      "learning_rate": 0.007751036373662567,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 46525664,
+      "step": 35890
+    },
+    {
+      "epoch": 1.7538660738279628,
+      "grad_norm": 0.0015391232445836067,
+      "learning_rate": 0.00773235704283231,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 46531968,
+      "step": 35895
+    },
+    {
+      "epoch": 1.7541103754916572,
+      "grad_norm": 0.0016289615305140615,
+      "learning_rate": 0.007713699651460437,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 46538816,
+      "step": 35900
+    },
+    {
+      "epoch": 1.7543546771553515,
+      "grad_norm": 0.001153434976004064,
+      "learning_rate": 0.007695064202424162,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 46545152,
+      "step": 35905
+    },
+    {
+      "epoch": 1.754598978819046,
+      "grad_norm": 0.0008419528021477163,
+      "learning_rate": 0.007676450698597286,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 46551712,
+      "step": 35910
+    },
+    {
+      "epoch": 1.75484328048274,
+      "grad_norm": 0.0007018366595730186,
+      "learning_rate": 0.007657859142850265,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 46558048,
+      "step": 35915
+    },
+    {
+      "epoch": 1.7550875821464345,
+      "grad_norm": 0.0015667134430259466,
+      "learning_rate": 0.0076392895380501535,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 46564704,
+      "step": 35920
+    },
+    {
+      "epoch": 1.7553318838101286,
+      "grad_norm": 0.0014706762740388513,
+      "learning_rate": 0.007620741887060611,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 46571232,
+      "step": 35925
+    },
+    {
+      "epoch": 1.755576185473823,
+      "grad_norm": 0.002881458029150963,
+      "learning_rate": 0.007602216192741901,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 46577728,
+      "step": 35930
+    },
+    {
+      "epoch": 1.7558204871375174,
+      "grad_norm": 0.0007711853832006454,
+      "learning_rate": 0.007583712457950969,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 46584096,
+      "step": 35935
+    },
+    {
+      "epoch": 1.7560647888012118,
+      "grad_norm": 0.0013780402950942516,
+      "learning_rate": 0.007565230685541269,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 46590272,
+      "step": 35940
+    },
+    {
+      "epoch": 1.7563090904649061,
+      "grad_norm": 0.0009740476962178946,
+      "learning_rate": 0.007546770878362968,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 46596320,
+      "step": 35945
+    },
+    {
+      "epoch": 1.7565533921286005,
+      "grad_norm": 0.001045404584147036,
+      "learning_rate": 0.0075283330392627405,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 46603072,
+      "step": 35950
+    },
+    {
+      "epoch": 1.756797693792295,
+      "grad_norm": 0.0017572174547240138,
+      "learning_rate": 0.007509917171083979,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 46610336,
+      "step": 35955
+    },
+    {
+      "epoch": 1.757041995455989,
+      "grad_norm": 0.0007804268971085548,
+      "learning_rate": 0.007491523276666662,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 46616640,
+      "step": 35960
+    },
+    {
+      "epoch": 1.7572862971196834,
+      "grad_norm": 0.0010552761377766728,
+      "learning_rate": 0.007473151358847318,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 46623232,
+      "step": 35965
+    },
+    {
+      "epoch": 1.7575305987833776,
+      "grad_norm": 0.001322745461948216,
+      "learning_rate": 0.007454801420459117,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 46630112,
+      "step": 35970
+    },
+    {
+      "epoch": 1.757774900447072,
+      "grad_norm": 0.000732654589228332,
+      "learning_rate": 0.0074364734643319105,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 46636800,
+      "step": 35975
+    },
+    {
+      "epoch": 1.7580192021107663,
+      "grad_norm": 0.0009708061115816236,
+      "learning_rate": 0.007418167493292022,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 46643648,
+      "step": 35980
+    },
+    {
+      "epoch": 1.7582635037744607,
+      "grad_norm": 0.0016378203872591257,
+      "learning_rate": 0.0073998835101625245,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 46649888,
+      "step": 35985
+    },
+    {
+      "epoch": 1.758507805438155,
+      "grad_norm": 0.0016375089762732387,
+      "learning_rate": 0.007381621517762998,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 46656192,
+      "step": 35990
+    },
+    {
+      "epoch": 1.7587521071018495,
+      "grad_norm": 0.0011584263993427157,
+      "learning_rate": 0.007363381518909689,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 46662784,
+      "step": 35995
+    },
+    {
+      "epoch": 1.7589964087655436,
+      "grad_norm": 0.0020841024816036224,
+      "learning_rate": 0.007345163516415448,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 46669472,
+      "step": 36000
+    },
+    {
+      "epoch": 1.7589964087655436,
+      "eval_loss": 0.08395419269800186,
+      "eval_runtime": 402.221,
+      "eval_samples_per_second": 90.46,
+      "eval_steps_per_second": 22.617,
+      "num_input_tokens_seen": 46669472,
+      "step": 36000
+    },
+    {
+      "epoch": 1.759240710429238,
+      "grad_norm": 0.0012769944733008742,
+      "learning_rate": 0.007326967513089693,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 46675936,
+      "step": 36005
+    },
+    {
+      "epoch": 1.7594850120929324,
+      "grad_norm": 0.0016073031583800912,
+      "learning_rate": 0.0073087935117384815,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 46682272,
+      "step": 36010
+    },
+    {
+      "epoch": 1.7597293137566266,
+      "grad_norm": 0.0017044221749529243,
+      "learning_rate": 0.007290641515164503,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 46688768,
+      "step": 36015
+    },
+    {
+      "epoch": 1.759973615420321,
+      "grad_norm": 0.0018006445607170463,
+      "learning_rate": 0.007272511526166986,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 46695584,
+      "step": 36020
+    },
+    {
+      "epoch": 1.7602179170840153,
+      "grad_norm": 0.002102518454194069,
+      "learning_rate": 0.0072544035475418265,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 46702144,
+      "step": 36025
+    },
+    {
+      "epoch": 1.7604622187477097,
+      "grad_norm": 0.0010804481571540236,
+      "learning_rate": 0.007236317582081475,
+      "loss": 0.062,
+      "num_input_tokens_seen": 46708672,
+      "step": 36030
+    },
+    {
+      "epoch": 1.760706520411404,
+      "grad_norm": 0.0012835422530770302,
+      "learning_rate": 0.007218253632575066,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 46715008,
+      "step": 36035
+    },
+    {
+      "epoch": 1.7609508220750985,
+      "grad_norm": 0.0019867888186126947,
+      "learning_rate": 0.007200211701808223,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 46721312,
+      "step": 36040
+    },
+    {
+      "epoch": 1.7611951237387926,
+      "grad_norm": 0.0013905307278037071,
+      "learning_rate": 0.007182191792563286,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 46728224,
+      "step": 36045
+    },
+    {
+      "epoch": 1.761439425402487,
+      "grad_norm": 0.001450864365324378,
+      "learning_rate": 0.0071641939076191145,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 46734400,
+      "step": 36050
+    },
+    {
+      "epoch": 1.7616837270661814,
+      "grad_norm": 0.0012206535320729017,
+      "learning_rate": 0.007146218049751257,
+      "loss": 0.0535,
+      "num_input_tokens_seen": 46741088,
+      "step": 36055
+    },
+    {
+      "epoch": 1.7619280287298755,
+      "grad_norm": 0.0016782128950580955,
+      "learning_rate": 0.0071282642217317775,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 46747488,
+      "step": 36060
+    },
+    {
+      "epoch": 1.76217233039357,
+      "grad_norm": 0.0019031146075576544,
+      "learning_rate": 0.007110332426329396,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 46753664,
+      "step": 36065
+    },
+    {
+      "epoch": 1.7624166320572643,
+      "grad_norm": 0.001260171877220273,
+      "learning_rate": 0.007092422666309417,
+      "loss": 0.073,
+      "num_input_tokens_seen": 46760544,
+      "step": 36070
+    },
+    {
+      "epoch": 1.7626609337209587,
+      "grad_norm": 0.0017408007988706231,
+      "learning_rate": 0.0070745349444337295,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 46766880,
+      "step": 36075
+    },
+    {
+      "epoch": 1.762905235384653,
+      "grad_norm": 0.001176239107735455,
+      "learning_rate": 0.007056669263460913,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 46773024,
+      "step": 36080
+    },
+    {
+      "epoch": 1.7631495370483474,
+      "grad_norm": 0.0005001295357942581,
+      "learning_rate": 0.007038825626145995,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 46779744,
+      "step": 36085
+    },
+    {
+      "epoch": 1.7633938387120416,
+      "grad_norm": 0.0017883733380585909,
+      "learning_rate": 0.007021004035240724,
+      "loss": 0.083,
+      "num_input_tokens_seen": 46786304,
+      "step": 36090
+    },
+    {
+      "epoch": 1.763638140375736,
+      "grad_norm": 0.0012796991504728794,
+      "learning_rate": 0.007003204493493453,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 46792896,
+      "step": 36095
+    },
+    {
+      "epoch": 1.7638824420394303,
+      "grad_norm": 0.0010613021440804005,
+      "learning_rate": 0.006985427003649036,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 46799232,
+      "step": 36100
+    },
+    {
+      "epoch": 1.7641267437031245,
+      "grad_norm": 0.0007555551128461957,
+      "learning_rate": 0.006967671568449013,
+      "loss": 0.077,
+      "num_input_tokens_seen": 46805856,
+      "step": 36105
+    },
+    {
+      "epoch": 1.7643710453668189,
+      "grad_norm": 0.0010948276612907648,
+      "learning_rate": 0.006949938190631511,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 46812512,
+      "step": 36110
+    },
+    {
+      "epoch": 1.7646153470305133,
+      "grad_norm": 0.0019063956569880247,
+      "learning_rate": 0.0069322268729311905,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 46819968,
+      "step": 36115
+    },
+    {
+      "epoch": 1.7648596486942076,
+      "grad_norm": 0.001835654373280704,
+      "learning_rate": 0.006914537618079403,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 46826080,
+      "step": 36120
+    },
+    {
+      "epoch": 1.765103950357902,
+      "grad_norm": 0.0031655202619731426,
+      "learning_rate": 0.006896870428804031,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 46832896,
+      "step": 36125
+    },
+    {
+      "epoch": 1.7653482520215964,
+      "grad_norm": 0.0009861462749540806,
+      "learning_rate": 0.006879225307829595,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 46839552,
+      "step": 36130
+    },
+    {
+      "epoch": 1.7655925536852906,
+      "grad_norm": 0.0011173608945682645,
+      "learning_rate": 0.00686160225787717,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 46845568,
+      "step": 36135
+    },
+    {
+      "epoch": 1.765836855348985,
+      "grad_norm": 0.0007200298132374883,
+      "learning_rate": 0.006844001281664463,
+      "loss": 0.0467,
+      "num_input_tokens_seen": 46852416,
+      "step": 36140
+    },
+    {
+      "epoch": 1.766081157012679,
+      "grad_norm": 0.001096520689316094,
+      "learning_rate": 0.006826422381905789,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 46859008,
+      "step": 36145
+    },
+    {
+      "epoch": 1.7663254586763735,
+      "grad_norm": 0.0013321596197783947,
+      "learning_rate": 0.006808865561311994,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 46865248,
+      "step": 36150
+    },
+    {
+      "epoch": 1.7665697603400679,
+      "grad_norm": 0.002596938516944647,
+      "learning_rate": 0.00679133082259058,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 46871872,
+      "step": 36155
+    },
+    {
+      "epoch": 1.7668140620037622,
+      "grad_norm": 0.002128775930032134,
+      "learning_rate": 0.00677381816844565,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 46878208,
+      "step": 36160
+    },
+    {
+      "epoch": 1.7670583636674566,
+      "grad_norm": 0.0016743146115913987,
+      "learning_rate": 0.0067563276015778434,
+      "loss": 0.08,
+      "num_input_tokens_seen": 46884864,
+      "step": 36165
+    },
+    {
+      "epoch": 1.767302665331151,
+      "grad_norm": 0.0016406795475631952,
+      "learning_rate": 0.006738859124684437,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 46891360,
+      "step": 36170
+    },
+    {
+      "epoch": 1.7675469669948454,
+      "grad_norm": 0.002097462071105838,
+      "learning_rate": 0.006721412740459259,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 46897344,
+      "step": 36175
+    },
+    {
+      "epoch": 1.7677912686585395,
+      "grad_norm": 0.0027752756141126156,
+      "learning_rate": 0.006703988451592824,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 46903488,
+      "step": 36180
+    },
+    {
+      "epoch": 1.768035570322234,
+      "grad_norm": 0.0011213211109861732,
+      "learning_rate": 0.006686586260772114,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 46909984,
+      "step": 36185
+    },
+    {
+      "epoch": 1.768279871985928,
+      "grad_norm": 0.0008743772050365806,
+      "learning_rate": 0.006669206170680819,
+      "loss": 0.09,
+      "num_input_tokens_seen": 46916736,
+      "step": 36190
+    },
+    {
+      "epoch": 1.7685241736496224,
+      "grad_norm": 0.0011327799875289202,
+      "learning_rate": 0.0066518481839991095,
+      "loss": 0.08,
+      "num_input_tokens_seen": 46923072,
+      "step": 36195
+    },
+    {
+      "epoch": 1.7687684753133168,
+      "grad_norm": 0.0011758811306208372,
+      "learning_rate": 0.006634512303403861,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 46929280,
+      "step": 36200
+    },
+    {
+      "epoch": 1.7687684753133168,
+      "eval_loss": 0.08395708352327347,
+      "eval_runtime": 402.1654,
+      "eval_samples_per_second": 90.473,
+      "eval_steps_per_second": 22.62,
+      "num_input_tokens_seen": 46929280,
+      "step": 36200
+    },
+    {
+      "epoch": 1.7690127769770112,
+      "grad_norm": 0.0014215223491191864,
+      "learning_rate": 0.0066171985315684355,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 46935392,
+      "step": 36205
+    },
+    {
+      "epoch": 1.7692570786407056,
+      "grad_norm": 0.00178151682484895,
+      "learning_rate": 0.0065999068711628806,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 46942176,
+      "step": 36210
+    },
+    {
+      "epoch": 1.7695013803044,
+      "grad_norm": 0.0012473227689042687,
+      "learning_rate": 0.0065826373248537295,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 46948960,
+      "step": 36215
+    },
+    {
+      "epoch": 1.7697456819680943,
+      "grad_norm": 0.000970689405221492,
+      "learning_rate": 0.006565389895304218,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 46955712,
+      "step": 36220
+    },
+    {
+      "epoch": 1.7699899836317885,
+      "grad_norm": 0.001678053173236549,
+      "learning_rate": 0.006548164585174104,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 46962208,
+      "step": 36225
+    },
+    {
+      "epoch": 1.7702342852954829,
+      "grad_norm": 0.0009457849082536995,
+      "learning_rate": 0.006530961397119728,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 46968672,
+      "step": 36230
+    },
+    {
+      "epoch": 1.770478586959177,
+      "grad_norm": 0.001334735774435103,
+      "learning_rate": 0.00651378033379405,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 46975264,
+      "step": 36235
+    },
+    {
+      "epoch": 1.7707228886228714,
+      "grad_norm": 0.0008355446043424308,
+      "learning_rate": 0.006496621397846619,
+      "loss": 0.0502,
+      "num_input_tokens_seen": 46981728,
+      "step": 36240
+    },
+    {
+      "epoch": 1.7709671902865658,
+      "grad_norm": 0.00172431580722332,
+      "learning_rate": 0.006479484591923518,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 46988288,
+      "step": 36245
+    },
+    {
+      "epoch": 1.7712114919502602,
+      "grad_norm": 0.0016464685322716832,
+      "learning_rate": 0.006462369918667515,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 46995296,
+      "step": 36250
+    },
+    {
+      "epoch": 1.7714557936139546,
+      "grad_norm": 0.0018083214526996017,
+      "learning_rate": 0.006445277380717851,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 47001664,
+      "step": 36255
+    },
+    {
+      "epoch": 1.771700095277649,
+      "grad_norm": 0.0011571487411856651,
+      "learning_rate": 0.006428206980710466,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 47007904,
+      "step": 36260
+    },
+    {
+      "epoch": 1.7719443969413433,
+      "grad_norm": 0.0016499857883900404,
+      "learning_rate": 0.006411158721277788,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 47013696,
+      "step": 36265
+    },
+    {
+      "epoch": 1.7721886986050375,
+      "grad_norm": 0.00257277674973011,
+      "learning_rate": 0.00639413260504888,
+      "loss": 0.097,
+      "num_input_tokens_seen": 47020352,
+      "step": 36270
+    },
+    {
+      "epoch": 1.7724330002687319,
+      "grad_norm": 0.0007466040551662445,
+      "learning_rate": 0.006377128634649376,
+      "loss": 0.065,
+      "num_input_tokens_seen": 47026592,
+      "step": 36275
+    },
+    {
+      "epoch": 1.772677301932426,
+      "grad_norm": 0.001176884863525629,
+      "learning_rate": 0.006360146812701528,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 47032896,
+      "step": 36280
+    },
+    {
+      "epoch": 1.7729216035961204,
+      "grad_norm": 0.0010602507973089814,
+      "learning_rate": 0.006343187141824125,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 47040192,
+      "step": 36285
+    },
+    {
+      "epoch": 1.7731659052598148,
+      "grad_norm": 0.001362764509394765,
+      "learning_rate": 0.00632624962463259,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 47046752,
+      "step": 36290
+    },
+    {
+      "epoch": 1.7734102069235091,
+      "grad_norm": 0.0013637141091749072,
+      "learning_rate": 0.006309334263738853,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 47053472,
+      "step": 36295
+    },
+    {
+      "epoch": 1.7736545085872035,
+      "grad_norm": 0.0016276014503091574,
+      "learning_rate": 0.006292441061751508,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 47059776,
+      "step": 36300
+    },
+    {
+      "epoch": 1.773898810250898,
+      "grad_norm": 0.001249409862793982,
+      "learning_rate": 0.0062755700212757054,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 47066048,
+      "step": 36305
+    },
+    {
+      "epoch": 1.7741431119145923,
+      "grad_norm": 0.001362260547466576,
+      "learning_rate": 0.006258721144913148,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 47072512,
+      "step": 36310
+    },
+    {
+      "epoch": 1.7743874135782864,
+      "grad_norm": 0.002001541666686535,
+      "learning_rate": 0.0062418944352621575,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 47078816,
+      "step": 36315
+    },
+    {
+      "epoch": 1.7746317152419808,
+      "grad_norm": 0.0017799480119720101,
+      "learning_rate": 0.0062250898949176405,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 47085216,
+      "step": 36320
+    },
+    {
+      "epoch": 1.774876016905675,
+      "grad_norm": 0.0017213402315974236,
+      "learning_rate": 0.006208307526471041,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 47091488,
+      "step": 36325
+    },
+    {
+      "epoch": 1.7751203185693694,
+      "grad_norm": 0.0019346224144101143,
+      "learning_rate": 0.006191547332510405,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 47097920,
+      "step": 36330
+    },
+    {
+      "epoch": 1.7753646202330637,
+      "grad_norm": 0.0012710614828392863,
+      "learning_rate": 0.006174809315620416,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 47104288,
+      "step": 36335
+    },
+    {
+      "epoch": 1.7756089218967581,
+      "grad_norm": 0.001268469961360097,
+      "learning_rate": 0.00615809347838221,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 47110976,
+      "step": 36340
+    },
+    {
+      "epoch": 1.7758532235604525,
+      "grad_norm": 0.001128287985920906,
+      "learning_rate": 0.006141399823373655,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 47117568,
+      "step": 36345
+    },
+    {
+      "epoch": 1.7760975252241469,
+      "grad_norm": 0.0019609450828284025,
+      "learning_rate": 0.0061247283531690455,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 47123712,
+      "step": 36350
+    },
+    {
+      "epoch": 1.7763418268878413,
+      "grad_norm": 0.0016167059075087309,
+      "learning_rate": 0.0061080790703393895,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 47130208,
+      "step": 36355
+    },
+    {
+      "epoch": 1.7765861285515354,
+      "grad_norm": 0.0017174076056107879,
+      "learning_rate": 0.006091451977452217,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 47136992,
+      "step": 36360
+    },
+    {
+      "epoch": 1.7768304302152298,
+      "grad_norm": 0.0020616105757653713,
+      "learning_rate": 0.00607484707707161,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 47143712,
+      "step": 36365
+    },
+    {
+      "epoch": 1.777074731878924,
+      "grad_norm": 0.0013858586316928267,
+      "learning_rate": 0.006058264371758254,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 47150144,
+      "step": 36370
+    },
+    {
+      "epoch": 1.7773190335426183,
+      "grad_norm": 0.0012409210903570056,
+      "learning_rate": 0.00604170386406942,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 47156192,
+      "step": 36375
+    },
+    {
+      "epoch": 1.7775633352063127,
+      "grad_norm": 0.0015198991168290377,
+      "learning_rate": 0.006025165556558931,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 47162560,
+      "step": 36380
+    },
+    {
+      "epoch": 1.777807636870007,
+      "grad_norm": 0.0017000283114612103,
+      "learning_rate": 0.006008649451777248,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 47168544,
+      "step": 36385
+    },
+    {
+      "epoch": 1.7780519385337015,
+      "grad_norm": 0.002553916536271572,
+      "learning_rate": 0.005992155552271283,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 47174848,
+      "step": 36390
+    },
+    {
+      "epoch": 1.7782962401973958,
+      "grad_norm": 0.0018588491948321462,
+      "learning_rate": 0.005975683860584685,
+      "loss": 0.1232,
+      "num_input_tokens_seen": 47181536,
+      "step": 36395
+    },
+    {
+      "epoch": 1.7785405418610902,
+      "grad_norm": 0.0012795397778972983,
+      "learning_rate": 0.0059592343792575385,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 47188416,
+      "step": 36400
+    },
+    {
+      "epoch": 1.7785405418610902,
+      "eval_loss": 0.08354517817497253,
+      "eval_runtime": 402.2437,
+      "eval_samples_per_second": 90.455,
+      "eval_steps_per_second": 22.616,
+      "num_input_tokens_seen": 47188416,
+      "step": 36400
+    },
+    {
+      "epoch": 1.7787848435247844,
+      "grad_norm": 0.0015459326095879078,
+      "learning_rate": 0.0059428071108265975,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 47194688,
+      "step": 36405
+    },
+    {
+      "epoch": 1.7790291451884788,
+      "grad_norm": 0.0016670970944687724,
+      "learning_rate": 0.005926402057825136,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 47201216,
+      "step": 36410
+    },
+    {
+      "epoch": 1.779273446852173,
+      "grad_norm": 0.0015203492948785424,
+      "learning_rate": 0.005910019222782997,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 47207744,
+      "step": 36415
+    },
+    {
+      "epoch": 1.7795177485158673,
+      "grad_norm": 0.0012730122543871403,
+      "learning_rate": 0.005893658608226643,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 47213984,
+      "step": 36420
+    },
+    {
+      "epoch": 1.7797620501795617,
+      "grad_norm": 0.0009145904914475977,
+      "learning_rate": 0.0058773202166791045,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 47220320,
+      "step": 36425
+    },
+    {
+      "epoch": 1.780006351843256,
+      "grad_norm": 0.0014221048913896084,
+      "learning_rate": 0.005861004050659918,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 47226592,
+      "step": 36430
+    },
+    {
+      "epoch": 1.7802506535069504,
+      "grad_norm": 0.0012850328348577023,
+      "learning_rate": 0.005844710112685286,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 47233056,
+      "step": 36435
+    },
+    {
+      "epoch": 1.7804949551706448,
+      "grad_norm": 0.001905736862681806,
+      "learning_rate": 0.005828438405267933,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 47239776,
+      "step": 36440
+    },
+    {
+      "epoch": 1.7807392568343392,
+      "grad_norm": 0.0007037604227662086,
+      "learning_rate": 0.00581218893091715,
+      "loss": 0.073,
+      "num_input_tokens_seen": 47246080,
+      "step": 36445
+    },
+    {
+      "epoch": 1.7809835584980334,
+      "grad_norm": 0.0014800102217122912,
+      "learning_rate": 0.005795961692138801,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 47252512,
+      "step": 36450
+    },
+    {
+      "epoch": 1.7812278601617277,
+      "grad_norm": 0.0010102033847942948,
+      "learning_rate": 0.00577975669143535,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 47259136,
+      "step": 36455
+    },
+    {
+      "epoch": 1.781472161825422,
+      "grad_norm": 0.0010939744533970952,
+      "learning_rate": 0.005763573931305782,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 47265632,
+      "step": 36460
+    },
+    {
+      "epoch": 1.7817164634891163,
+      "grad_norm": 0.0018313798354938626,
+      "learning_rate": 0.005747413414245733,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 47272000,
+      "step": 36465
+    },
+    {
+      "epoch": 1.7819607651528107,
+      "grad_norm": 0.0008164487662725151,
+      "learning_rate": 0.005731275142747294,
+      "loss": 0.066,
+      "num_input_tokens_seen": 47278272,
+      "step": 36470
+    },
+    {
+      "epoch": 1.782205066816505,
+      "grad_norm": 0.0007896117167547345,
+      "learning_rate": 0.005715159119299256,
+      "loss": 0.0552,
+      "num_input_tokens_seen": 47284928,
+      "step": 36475
+    },
+    {
+      "epoch": 1.7824493684801994,
+      "grad_norm": 0.0012635414022952318,
+      "learning_rate": 0.005699065346386867,
+      "loss": 0.0553,
+      "num_input_tokens_seen": 47291328,
+      "step": 36480
+    },
+    {
+      "epoch": 1.7826936701438938,
+      "grad_norm": 0.0016963215311989188,
+      "learning_rate": 0.0056829938264919885,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 47298272,
+      "step": 36485
+    },
+    {
+      "epoch": 1.7829379718075882,
+      "grad_norm": 0.0011983716394752264,
+      "learning_rate": 0.005666944562093074,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 47304736,
+      "step": 36490
+    },
+    {
+      "epoch": 1.7831822734712823,
+      "grad_norm": 0.0013005806831642985,
+      "learning_rate": 0.005650917555665108,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 47310976,
+      "step": 36495
+    },
+    {
+      "epoch": 1.7834265751349767,
+      "grad_norm": 0.0019359763246029615,
+      "learning_rate": 0.005634912809679632,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 47317696,
+      "step": 36500
+    },
+    {
+      "epoch": 1.7836708767986709,
+      "grad_norm": 0.0016266792081296444,
+      "learning_rate": 0.005618930326604854,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 47323552,
+      "step": 36505
+    },
+    {
+      "epoch": 1.7839151784623652,
+      "grad_norm": 0.0013981560477986932,
+      "learning_rate": 0.005602970108905386,
+      "loss": 0.099,
+      "num_input_tokens_seen": 47330208,
+      "step": 36510
+    },
+    {
+      "epoch": 1.7841594801260596,
+      "grad_norm": 0.0015954438131302595,
+      "learning_rate": 0.005587032159042543,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 47337088,
+      "step": 36515
+    },
+    {
+      "epoch": 1.784403781789754,
+      "grad_norm": 0.0013201572000980377,
+      "learning_rate": 0.005571116479474158,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 47343712,
+      "step": 36520
+    },
+    {
+      "epoch": 1.7846480834534484,
+      "grad_norm": 0.001112280529923737,
+      "learning_rate": 0.005555223072654619,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 47350240,
+      "step": 36525
+    },
+    {
+      "epoch": 1.7848923851171428,
+      "grad_norm": 0.0008494507637806237,
+      "learning_rate": 0.005539351941034881,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 47357248,
+      "step": 36530
+    },
+    {
+      "epoch": 1.785136686780837,
+      "grad_norm": 0.0011150408536195755,
+      "learning_rate": 0.0055235030870624865,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 47363712,
+      "step": 36535
+    },
+    {
+      "epoch": 1.7853809884445313,
+      "grad_norm": 0.0009130594553425908,
+      "learning_rate": 0.005507676513181514,
+      "loss": 0.068,
+      "num_input_tokens_seen": 47370336,
+      "step": 36540
+    },
+    {
+      "epoch": 1.7856252901082257,
+      "grad_norm": 0.0010137163335457444,
+      "learning_rate": 0.005491872221832628,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 47376800,
+      "step": 36545
+    },
+    {
+      "epoch": 1.7858695917719198,
+      "grad_norm": 0.000970973982475698,
+      "learning_rate": 0.005476090215453061,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 47383360,
+      "step": 36550
+    },
+    {
+      "epoch": 1.7861138934356142,
+      "grad_norm": 0.0008891918114386499,
+      "learning_rate": 0.0054603304964765675,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 47389696,
+      "step": 36555
+    },
+    {
+      "epoch": 1.7863581950993086,
+      "grad_norm": 0.0013394871493801475,
+      "learning_rate": 0.005444593067333519,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 47396128,
+      "step": 36560
+    },
+    {
+      "epoch": 1.786602496763003,
+      "grad_norm": 0.0009942421456798911,
+      "learning_rate": 0.00542887793045081,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 47402880,
+      "step": 36565
+    },
+    {
+      "epoch": 1.7868467984266974,
+      "grad_norm": 0.0016244301805272698,
+      "learning_rate": 0.005413185088251932,
+      "loss": 0.082,
+      "num_input_tokens_seen": 47409376,
+      "step": 36570
+    },
+    {
+      "epoch": 1.7870911000903917,
+      "grad_norm": 0.0014899030793458223,
+      "learning_rate": 0.005397514543156884,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 47415520,
+      "step": 36575
+    },
+    {
+      "epoch": 1.787335401754086,
+      "grad_norm": 0.0013459959300234914,
+      "learning_rate": 0.0053818662975822825,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 47421984,
+      "step": 36580
+    },
+    {
+      "epoch": 1.7875797034177803,
+      "grad_norm": 0.0024221723433583975,
+      "learning_rate": 0.005366240353941315,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 47428480,
+      "step": 36585
+    },
+    {
+      "epoch": 1.7878240050814747,
+      "grad_norm": 0.001613355241715908,
+      "learning_rate": 0.005350636714643636,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 47434944,
+      "step": 36590
+    },
+    {
+      "epoch": 1.7880683067451688,
+      "grad_norm": 0.0016721680294722319,
+      "learning_rate": 0.005335055382095555,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 47441088,
+      "step": 36595
+    },
+    {
+      "epoch": 1.7883126084088632,
+      "grad_norm": 0.00182488898281008,
+      "learning_rate": 0.005319496358699915,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 47447328,
+      "step": 36600
+    },
+    {
+      "epoch": 1.7883126084088632,
+      "eval_loss": 0.08366671204566956,
+      "eval_runtime": 402.2391,
+      "eval_samples_per_second": 90.456,
+      "eval_steps_per_second": 22.616,
+      "num_input_tokens_seen": 47447328,
+      "step": 36600
+    },
+    {
+      "epoch": 1.7885569100725576,
+      "grad_norm": 0.0012292176252231002,
+      "learning_rate": 0.005303959646856099,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 47454016,
+      "step": 36605
+    },
+    {
+      "epoch": 1.788801211736252,
+      "grad_norm": 0.0017138496041297913,
+      "learning_rate": 0.005288445248960089,
+      "loss": 0.075,
+      "num_input_tokens_seen": 47460576,
+      "step": 36610
+    },
+    {
+      "epoch": 1.7890455133999463,
+      "grad_norm": 0.0012183758663013577,
+      "learning_rate": 0.005272953167404354,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 47467040,
+      "step": 36615
+    },
+    {
+      "epoch": 1.7892898150636407,
+      "grad_norm": 0.001916942186653614,
+      "learning_rate": 0.005257483404578017,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 47473408,
+      "step": 36620
+    },
+    {
+      "epoch": 1.7895341167273349,
+      "grad_norm": 0.0011407637502998114,
+      "learning_rate": 0.0052420359628666865,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 47479872,
+      "step": 36625
+    },
+    {
+      "epoch": 1.7897784183910292,
+      "grad_norm": 0.001800475176423788,
+      "learning_rate": 0.00522661084465254,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 47486368,
+      "step": 36630
+    },
+    {
+      "epoch": 1.7900227200547236,
+      "grad_norm": 0.001238205237314105,
+      "learning_rate": 0.005211208052314326,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 47492832,
+      "step": 36635
+    },
+    {
+      "epoch": 1.7902670217184178,
+      "grad_norm": 0.0014189665671437979,
+      "learning_rate": 0.005195827588227391,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 47499360,
+      "step": 36640
+    },
+    {
+      "epoch": 1.7905113233821122,
+      "grad_norm": 0.001257703872397542,
+      "learning_rate": 0.0051804694547635255,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 47506016,
+      "step": 36645
+    },
+    {
+      "epoch": 1.7907556250458065,
+      "grad_norm": 0.001807679422199726,
+      "learning_rate": 0.005165133654291232,
+      "loss": 0.076,
+      "num_input_tokens_seen": 47512160,
+      "step": 36650
+    },
+    {
+      "epoch": 1.790999926709501,
+      "grad_norm": 0.0007054567686282098,
+      "learning_rate": 0.005149820189175402,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 47519072,
+      "step": 36655
+    },
+    {
+      "epoch": 1.7912442283731953,
+      "grad_norm": 0.0017423543613404036,
+      "learning_rate": 0.005134529061777598,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 47525632,
+      "step": 36660
+    },
+    {
+      "epoch": 1.7914885300368897,
+      "grad_norm": 0.0010766396299004555,
+      "learning_rate": 0.005119260274455933,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 47531520,
+      "step": 36665
+    },
+    {
+      "epoch": 1.7917328317005838,
+      "grad_norm": 0.0021267500706017017,
+      "learning_rate": 0.005104013829565007,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 47537760,
+      "step": 36670
+    },
+    {
+      "epoch": 1.7919771333642782,
+      "grad_norm": 0.0006279356894083321,
+      "learning_rate": 0.005088789729456006,
+      "loss": 0.0527,
+      "num_input_tokens_seen": 47544448,
+      "step": 36675
+    },
+    {
+      "epoch": 1.7922214350279724,
+      "grad_norm": 0.0025097664911299944,
+      "learning_rate": 0.005073587976476735,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 47550944,
+      "step": 36680
+    },
+    {
+      "epoch": 1.7924657366916668,
+      "grad_norm": 0.001554017886519432,
+      "learning_rate": 0.005058408572971418,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 47556864,
+      "step": 36685
+    },
+    {
+      "epoch": 1.7927100383553611,
+      "grad_norm": 0.0013238782994449139,
+      "learning_rate": 0.005043251521280983,
+      "loss": 0.0651,
+      "num_input_tokens_seen": 47563616,
+      "step": 36690
+    },
+    {
+      "epoch": 1.7929543400190555,
+      "grad_norm": 0.0015538616571575403,
+      "learning_rate": 0.005028116823742795,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 47570304,
+      "step": 36695
+    },
+    {
+      "epoch": 1.79319864168275,
+      "grad_norm": 0.0010407809168100357,
+      "learning_rate": 0.005013004482690819,
+      "loss": 0.0582,
+      "num_input_tokens_seen": 47576896,
+      "step": 36700
+    },
+    {
+      "epoch": 1.7934429433464443,
+      "grad_norm": 0.0013279292033985257,
+      "learning_rate": 0.0049979145004555746,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 47583680,
+      "step": 36705
+    },
+    {
+      "epoch": 1.7936872450101387,
+      "grad_norm": 0.000890987750608474,
+      "learning_rate": 0.004982846879364116,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 47590368,
+      "step": 36710
+    },
+    {
+      "epoch": 1.7939315466738328,
+      "grad_norm": 0.0010336264967918396,
+      "learning_rate": 0.0049678016217400535,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 47596512,
+      "step": 36715
+    },
+    {
+      "epoch": 1.7941758483375272,
+      "grad_norm": 0.0013811668613925576,
+      "learning_rate": 0.004952778729903595,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 47602784,
+      "step": 36720
+    },
+    {
+      "epoch": 1.7944201500012213,
+      "grad_norm": 0.0012859581038355827,
+      "learning_rate": 0.004937778206171422,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 47608960,
+      "step": 36725
+    },
+    {
+      "epoch": 1.7946644516649157,
+      "grad_norm": 0.0011467199074104428,
+      "learning_rate": 0.004922800052856835,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 47615456,
+      "step": 36730
+    },
+    {
+      "epoch": 1.79490875332861,
+      "grad_norm": 0.0006828680052421987,
+      "learning_rate": 0.004907844272269602,
+      "loss": 0.072,
+      "num_input_tokens_seen": 47621856,
+      "step": 36735
+    },
+    {
+      "epoch": 1.7951530549923045,
+      "grad_norm": 0.0010589630110189319,
+      "learning_rate": 0.004892910866716144,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 47627904,
+      "step": 36740
+    },
+    {
+      "epoch": 1.7953973566559989,
+      "grad_norm": 0.0009505319758318365,
+      "learning_rate": 0.004877999838499369,
+      "loss": 0.0621,
+      "num_input_tokens_seen": 47635008,
+      "step": 36745
+    },
+    {
+      "epoch": 1.7956416583196932,
+      "grad_norm": 0.0011341844219714403,
+      "learning_rate": 0.0048631111899187065,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 47641344,
+      "step": 36750
+    },
+    {
+      "epoch": 1.7958859599833876,
+      "grad_norm": 0.0013535887701436877,
+      "learning_rate": 0.0048482449232702335,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 47648064,
+      "step": 36755
+    },
+    {
+      "epoch": 1.7961302616470818,
+      "grad_norm": 0.001723959343507886,
+      "learning_rate": 0.004833401040846469,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 47654816,
+      "step": 36760
+    },
+    {
+      "epoch": 1.7963745633107762,
+      "grad_norm": 0.0024823681451380253,
+      "learning_rate": 0.004818579544936546,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 47661440,
+      "step": 36765
+    },
+    {
+      "epoch": 1.7966188649744703,
+      "grad_norm": 0.0012037154519930482,
+      "learning_rate": 0.004803780437826121,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 47667776,
+      "step": 36770
+    },
+    {
+      "epoch": 1.7968631666381647,
+      "grad_norm": 0.0007028841646388173,
+      "learning_rate": 0.004789003721797402,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 47674080,
+      "step": 36775
+    },
+    {
+      "epoch": 1.797107468301859,
+      "grad_norm": 0.0010387094225734472,
+      "learning_rate": 0.004774249399129132,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 47680416,
+      "step": 36780
+    },
+    {
+      "epoch": 1.7973517699655535,
+      "grad_norm": 0.0019055560696870089,
+      "learning_rate": 0.004759517472096642,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 47687328,
+      "step": 36785
+    },
+    {
+      "epoch": 1.7975960716292478,
+      "grad_norm": 0.001041870447807014,
+      "learning_rate": 0.004744807942971746,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 47693696,
+      "step": 36790
+    },
+    {
+      "epoch": 1.7978403732929422,
+      "grad_norm": 0.0009920793818309903,
+      "learning_rate": 0.004730120814022881,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 47700128,
+      "step": 36795
+    },
+    {
+      "epoch": 1.7980846749566366,
+      "grad_norm": 0.001157553750090301,
+      "learning_rate": 0.004715456087514935,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 47707040,
+      "step": 36800
+    },
+    {
+      "epoch": 1.7980846749566366,
+      "eval_loss": 0.08350171893835068,
+      "eval_runtime": 402.5287,
+      "eval_samples_per_second": 90.391,
+      "eval_steps_per_second": 22.6,
+      "num_input_tokens_seen": 47707040,
+      "step": 36800
+    },
+    {
+      "epoch": 1.7983289766203308,
+      "grad_norm": 0.0027302305679768324,
+      "learning_rate": 0.004700813765709432,
+      "loss": 0.083,
+      "num_input_tokens_seen": 47713664,
+      "step": 36805
+    },
+    {
+      "epoch": 1.7985732782840251,
+      "grad_norm": 0.0008788372506387532,
+      "learning_rate": 0.004686193850864401,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 47720416,
+      "step": 36810
+    },
+    {
+      "epoch": 1.7988175799477193,
+      "grad_norm": 0.0012569454265758395,
+      "learning_rate": 0.004671596345234385,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 47727040,
+      "step": 36815
+    },
+    {
+      "epoch": 1.7990618816114137,
+      "grad_norm": 0.0020337793976068497,
+      "learning_rate": 0.00465702125107052,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 47733952,
+      "step": 36820
+    },
+    {
+      "epoch": 1.799306183275108,
+      "grad_norm": 0.0007955830078572035,
+      "learning_rate": 0.004642468570620506,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 47740512,
+      "step": 36825
+    },
+    {
+      "epoch": 1.7995504849388024,
+      "grad_norm": 0.0014713736018165946,
+      "learning_rate": 0.004627938306128482,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 47747008,
+      "step": 36830
+    },
+    {
+      "epoch": 1.7997947866024968,
+      "grad_norm": 0.000737716443836689,
+      "learning_rate": 0.004613430459835255,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 47753856,
+      "step": 36835
+    },
+    {
+      "epoch": 1.8000390882661912,
+      "grad_norm": 0.0017120889388024807,
+      "learning_rate": 0.004598945033978085,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 47760192,
+      "step": 36840
+    },
+    {
+      "epoch": 1.8002833899298856,
+      "grad_norm": 0.0012573780259117484,
+      "learning_rate": 0.004584482030790804,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 47766976,
+      "step": 36845
+    },
+    {
+      "epoch": 1.8005276915935797,
+      "grad_norm": 0.0012021228903904557,
+      "learning_rate": 0.004570041452503826,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 47773824,
+      "step": 36850
+    },
+    {
+      "epoch": 1.800771993257274,
+      "grad_norm": 0.000961262034252286,
+      "learning_rate": 0.004555623301344003,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 47780448,
+      "step": 36855
+    },
+    {
+      "epoch": 1.8010162949209683,
+      "grad_norm": 0.0006132288253866136,
+      "learning_rate": 0.004541227579534857,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 47786944,
+      "step": 36860
+    },
+    {
+      "epoch": 1.8012605965846626,
+      "grad_norm": 0.0011022869730368257,
+      "learning_rate": 0.004526854289296378,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 47793344,
+      "step": 36865
+    },
+    {
+      "epoch": 1.801504898248357,
+      "grad_norm": 0.0009821447310969234,
+      "learning_rate": 0.004512503432845078,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 47799904,
+      "step": 36870
+    },
+    {
+      "epoch": 1.8017491999120514,
+      "grad_norm": 0.0010867133969441056,
+      "learning_rate": 0.004498175012394068,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 47806752,
+      "step": 36875
+    },
+    {
+      "epoch": 1.8019935015757458,
+      "grad_norm": 0.003040730021893978,
+      "learning_rate": 0.004483869030152965,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 47813056,
+      "step": 36880
+    },
+    {
+      "epoch": 1.8022378032394402,
+      "grad_norm": 0.0007588575826957822,
+      "learning_rate": 0.004469585488327904,
+      "loss": 0.081,
+      "num_input_tokens_seen": 47819616,
+      "step": 36885
+    },
+    {
+      "epoch": 1.8024821049031345,
+      "grad_norm": 0.0014682268956676126,
+      "learning_rate": 0.0044553243891216395,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 47825888,
+      "step": 36890
+    },
+    {
+      "epoch": 1.8027264065668287,
+      "grad_norm": 0.0009682468371465802,
+      "learning_rate": 0.004441085734733363,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 47832544,
+      "step": 36895
+    },
+    {
+      "epoch": 1.802970708230523,
+      "grad_norm": 0.0011357032926753163,
+      "learning_rate": 0.004426869527358884,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 47839200,
+      "step": 36900
+    },
+    {
+      "epoch": 1.8032150098942172,
+      "grad_norm": 0.0010906190145760775,
+      "learning_rate": 0.0044126757691905156,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 47845664,
+      "step": 36905
+    },
+    {
+      "epoch": 1.8034593115579116,
+      "grad_norm": 0.001432662713341415,
+      "learning_rate": 0.004398504462417107,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 47852000,
+      "step": 36910
+    },
+    {
+      "epoch": 1.803703613221606,
+      "grad_norm": 0.0014820838114246726,
+      "learning_rate": 0.0043843556092240605,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 47858272,
+      "step": 36915
+    },
+    {
+      "epoch": 1.8039479148853004,
+      "grad_norm": 0.001142985885962844,
+      "learning_rate": 0.004370229211793281,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 47864576,
+      "step": 36920
+    },
+    {
+      "epoch": 1.8041922165489948,
+      "grad_norm": 0.0010109510039910674,
+      "learning_rate": 0.0043561252723032405,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 47870720,
+      "step": 36925
+    },
+    {
+      "epoch": 1.8044365182126891,
+      "grad_norm": 0.0014687908114865422,
+      "learning_rate": 0.004342043792929001,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 47876800,
+      "step": 36930
+    },
+    {
+      "epoch": 1.8046808198763835,
+      "grad_norm": 0.0023686103522777557,
+      "learning_rate": 0.004327984775842025,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 47882976,
+      "step": 36935
+    },
+    {
+      "epoch": 1.8049251215400777,
+      "grad_norm": 0.0015600724145770073,
+      "learning_rate": 0.004313948223210428,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 47889440,
+      "step": 36940
+    },
+    {
+      "epoch": 1.805169423203772,
+      "grad_norm": 0.0014266434591263533,
+      "learning_rate": 0.004299934137198846,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 47895584,
+      "step": 36945
+    },
+    {
+      "epoch": 1.8054137248674662,
+      "grad_norm": 0.0012375949881970882,
+      "learning_rate": 0.004285942519968383,
+      "loss": 0.083,
+      "num_input_tokens_seen": 47902240,
+      "step": 36950
+    },
+    {
+      "epoch": 1.8056580265311606,
+      "grad_norm": 0.0008491519256494939,
+      "learning_rate": 0.004271973373676746,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 47908544,
+      "step": 36955
+    },
+    {
+      "epoch": 1.805902328194855,
+      "grad_norm": 0.0011123595759272575,
+      "learning_rate": 0.004258026700478146,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 47914816,
+      "step": 36960
+    },
+    {
+      "epoch": 1.8061466298585493,
+      "grad_norm": 0.0014600037829950452,
+      "learning_rate": 0.004244102502523328,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 47921248,
+      "step": 36965
+    },
+    {
+      "epoch": 1.8063909315222437,
+      "grad_norm": 0.0015467163175344467,
+      "learning_rate": 0.004230200781959592,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 47927104,
+      "step": 36970
+    },
+    {
+      "epoch": 1.806635233185938,
+      "grad_norm": 0.0014562854776158929,
+      "learning_rate": 0.004216321540930756,
+      "loss": 0.074,
+      "num_input_tokens_seen": 47933696,
+      "step": 36975
+    },
+    {
+      "epoch": 1.8068795348496325,
+      "grad_norm": 0.0011827538255602121,
+      "learning_rate": 0.004202464781577175,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 47940224,
+      "step": 36980
+    },
+    {
+      "epoch": 1.8071238365133266,
+      "grad_norm": 0.0018735200865194201,
+      "learning_rate": 0.00418863050603574,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 47946272,
+      "step": 36985
+    },
+    {
+      "epoch": 1.807368138177021,
+      "grad_norm": 0.0010980179067701101,
+      "learning_rate": 0.004174818716439843,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 47952896,
+      "step": 36990
+    },
+    {
+      "epoch": 1.8076124398407152,
+      "grad_norm": 0.0017246123170480132,
+      "learning_rate": 0.004161029414919464,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 47959840,
+      "step": 36995
+    },
+    {
+      "epoch": 1.8078567415044096,
+      "grad_norm": 0.0009341640397906303,
+      "learning_rate": 0.004147262603601071,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 47966176,
+      "step": 37000
+    },
+    {
+      "epoch": 1.8078567415044096,
+      "eval_loss": 0.08418054133653641,
+      "eval_runtime": 402.7014,
+      "eval_samples_per_second": 90.352,
+      "eval_steps_per_second": 22.59,
+      "num_input_tokens_seen": 47966176,
+      "step": 37000
+    },
+    {
+      "epoch": 1.808101043168104,
+      "grad_norm": 0.0014173737727105618,
+      "learning_rate": 0.004133518284607679,
+      "loss": 0.071,
+      "num_input_tokens_seen": 47972704,
+      "step": 37005
+    },
+    {
+      "epoch": 1.8083453448317983,
+      "grad_norm": 0.0023533354979008436,
+      "learning_rate": 0.004119796460058861,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 47979104,
+      "step": 37010
+    },
+    {
+      "epoch": 1.8085896464954927,
+      "grad_norm": 0.00132992141880095,
+      "learning_rate": 0.00410609713207064,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 47985760,
+      "step": 37015
+    },
+    {
+      "epoch": 1.808833948159187,
+      "grad_norm": 0.0006186366081237793,
+      "learning_rate": 0.004092420302755678,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 47992832,
+      "step": 37020
+    },
+    {
+      "epoch": 1.8090782498228815,
+      "grad_norm": 0.0010775492992252111,
+      "learning_rate": 0.004078765974223103,
+      "loss": 0.0525,
+      "num_input_tokens_seen": 47998720,
+      "step": 37025
+    },
+    {
+      "epoch": 1.8093225514865756,
+      "grad_norm": 0.0010820245370268822,
+      "learning_rate": 0.004065134148578564,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 48004864,
+      "step": 37030
+    },
+    {
+      "epoch": 1.80956685315027,
+      "grad_norm": 0.0010411362163722515,
+      "learning_rate": 0.004051524827924279,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 48011424,
+      "step": 37035
+    },
+    {
+      "epoch": 1.8098111548139642,
+      "grad_norm": 0.0015403198776766658,
+      "learning_rate": 0.004037938014358955,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 48017696,
+      "step": 37040
+    },
+    {
+      "epoch": 1.8100554564776585,
+      "grad_norm": 0.0010873832507058978,
+      "learning_rate": 0.004024373709977863,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 48024512,
+      "step": 37045
+    },
+    {
+      "epoch": 1.810299758141353,
+      "grad_norm": 0.0014822253724560142,
+      "learning_rate": 0.004010831916872814,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 48031392,
+      "step": 37050
+    },
+    {
+      "epoch": 1.8105440598050473,
+      "grad_norm": 0.001120224827900529,
+      "learning_rate": 0.003997312637132089,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 48037888,
+      "step": 37055
+    },
+    {
+      "epoch": 1.8107883614687417,
+      "grad_norm": 0.001441140309907496,
+      "learning_rate": 0.003983815872840535,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 48044160,
+      "step": 37060
+    },
+    {
+      "epoch": 1.811032663132436,
+      "grad_norm": 0.001679253880865872,
+      "learning_rate": 0.003970341626079521,
+      "loss": 0.09,
+      "num_input_tokens_seen": 48050592,
+      "step": 37065
+    },
+    {
+      "epoch": 1.8112769647961302,
+      "grad_norm": 0.0015953710535541177,
+      "learning_rate": 0.003956889898926952,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 48056800,
+      "step": 37070
+    },
+    {
+      "epoch": 1.8115212664598246,
+      "grad_norm": 0.0020031528547406197,
+      "learning_rate": 0.0039434606934572675,
+      "loss": 0.086,
+      "num_input_tokens_seen": 48063424,
+      "step": 37075
+    },
+    {
+      "epoch": 1.811765568123519,
+      "grad_norm": 0.0009619435877539217,
+      "learning_rate": 0.003930054011741396,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 48069984,
+      "step": 37080
+    },
+    {
+      "epoch": 1.8120098697872131,
+      "grad_norm": 0.0017621676670387387,
+      "learning_rate": 0.0039166698558468155,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 48076608,
+      "step": 37085
+    },
+    {
+      "epoch": 1.8122541714509075,
+      "grad_norm": 0.0015572239644825459,
+      "learning_rate": 0.0039033082278375594,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 48083360,
+      "step": 37090
+    },
+    {
+      "epoch": 1.8124984731146019,
+      "grad_norm": 0.0012503809994086623,
+      "learning_rate": 0.003889969129774112,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 48089440,
+      "step": 37095
+    },
+    {
+      "epoch": 1.8127427747782963,
+      "grad_norm": 0.000468697544420138,
+      "learning_rate": 0.0038766525637135784,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 48096000,
+      "step": 37100
+    },
+    {
+      "epoch": 1.8129870764419906,
+      "grad_norm": 0.0007359639857895672,
+      "learning_rate": 0.0038633585317095318,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 48102752,
+      "step": 37105
+    },
+    {
+      "epoch": 1.813231378105685,
+      "grad_norm": 0.001051852130331099,
+      "learning_rate": 0.00385008703581205,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 48109152,
+      "step": 37110
+    },
+    {
+      "epoch": 1.8134756797693792,
+      "grad_norm": 0.0011142693692818284,
+      "learning_rate": 0.0038368380780677944,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 48115360,
+      "step": 37115
+    },
+    {
+      "epoch": 1.8137199814330736,
+      "grad_norm": 0.0009514515986666083,
+      "learning_rate": 0.003823611660519882,
+      "loss": 0.056,
+      "num_input_tokens_seen": 48121856,
+      "step": 37120
+    },
+    {
+      "epoch": 1.813964283096768,
+      "grad_norm": 0.0011967828031629324,
+      "learning_rate": 0.0038104077852080475,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 48128064,
+      "step": 37125
+    },
+    {
+      "epoch": 1.814208584760462,
+      "grad_norm": 0.0010423845378682017,
+      "learning_rate": 0.003797226454168462,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 48134752,
+      "step": 37130
+    },
+    {
+      "epoch": 1.8144528864241565,
+      "grad_norm": 0.0011526737362146378,
+      "learning_rate": 0.003784067669433849,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 48141472,
+      "step": 37135
+    },
+    {
+      "epoch": 1.8146971880878509,
+      "grad_norm": 0.0019530962454155087,
+      "learning_rate": 0.0037709314330334528,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 48147808,
+      "step": 37140
+    },
+    {
+      "epoch": 1.8149414897515452,
+      "grad_norm": 0.001136021688580513,
+      "learning_rate": 0.003757817746993086,
+      "loss": 0.077,
+      "num_input_tokens_seen": 48154432,
+      "step": 37145
+    },
+    {
+      "epoch": 1.8151857914152396,
+      "grad_norm": 0.0018289118306711316,
+      "learning_rate": 0.0037447266133349977,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 48160736,
+      "step": 37150
+    },
+    {
+      "epoch": 1.815430093078934,
+      "grad_norm": 0.002001103013753891,
+      "learning_rate": 0.003731658034078039,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 48167392,
+      "step": 37155
+    },
+    {
+      "epoch": 1.8156743947426282,
+      "grad_norm": 0.0007952868472784758,
+      "learning_rate": 0.0037186120112375153,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 48174048,
+      "step": 37160
+    },
+    {
+      "epoch": 1.8159186964063225,
+      "grad_norm": 0.0015973318368196487,
+      "learning_rate": 0.003705588546825317,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 48180928,
+      "step": 37165
+    },
+    {
+      "epoch": 1.816162998070017,
+      "grad_norm": 0.0012942341854795814,
+      "learning_rate": 0.0036925876428498205,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 48187264,
+      "step": 37170
+    },
+    {
+      "epoch": 1.816407299733711,
+      "grad_norm": 0.0009273190516978502,
+      "learning_rate": 0.0036796093013159057,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 48193408,
+      "step": 37175
+    },
+    {
+      "epoch": 1.8166516013974054,
+      "grad_norm": 0.0020604629535228014,
+      "learning_rate": 0.0036666535242250217,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 48200128,
+      "step": 37180
+    },
+    {
+      "epoch": 1.8168959030610998,
+      "grad_norm": 0.000795457512140274,
+      "learning_rate": 0.003653720313575104,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 48206816,
+      "step": 37185
+    },
+    {
+      "epoch": 1.8171402047247942,
+      "grad_norm": 0.0013278432888910174,
+      "learning_rate": 0.003640809671360623,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 48213312,
+      "step": 37190
+    },
+    {
+      "epoch": 1.8173845063884886,
+      "grad_norm": 0.001866507576778531,
+      "learning_rate": 0.003627921599572553,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 48220800,
+      "step": 37195
+    },
+    {
+      "epoch": 1.817628808052183,
+      "grad_norm": 0.0010675728553906083,
+      "learning_rate": 0.003615056100198405,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 48227328,
+      "step": 37200
+    },
+    {
+      "epoch": 1.817628808052183,
+      "eval_loss": 0.08353738486766815,
+      "eval_runtime": 402.1971,
+      "eval_samples_per_second": 90.466,
+      "eval_steps_per_second": 22.618,
+      "num_input_tokens_seen": 48227328,
+      "step": 37200
+    },
+    {
+      "epoch": 1.8178731097158771,
+      "grad_norm": 0.0010341460583731532,
+      "learning_rate": 0.003602213175222174,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 48233984,
+      "step": 37205
+    },
+    {
+      "epoch": 1.8181174113795715,
+      "grad_norm": 0.0016262144781649113,
+      "learning_rate": 0.0035893928266244432,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 48240416,
+      "step": 37210
+    },
+    {
+      "epoch": 1.8183617130432657,
+      "grad_norm": 0.001545254490338266,
+      "learning_rate": 0.003576595056382248,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 48246624,
+      "step": 37215
+    },
+    {
+      "epoch": 1.81860601470696,
+      "grad_norm": 0.0007502130465582013,
+      "learning_rate": 0.0035638198664691423,
+      "loss": 0.0586,
+      "num_input_tokens_seen": 48253824,
+      "step": 37220
+    },
+    {
+      "epoch": 1.8188503163706544,
+      "grad_norm": 0.0017530926270410419,
+      "learning_rate": 0.003551067258855267,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 48260256,
+      "step": 37225
+    },
+    {
+      "epoch": 1.8190946180343488,
+      "grad_norm": 0.0018382598645985126,
+      "learning_rate": 0.0035383372355071996,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 48266912,
+      "step": 37230
+    },
+    {
+      "epoch": 1.8193389196980432,
+      "grad_norm": 0.001145727001130581,
+      "learning_rate": 0.0035256297983881023,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 48273024,
+      "step": 37235
+    },
+    {
+      "epoch": 1.8195832213617376,
+      "grad_norm": 0.001369217410683632,
+      "learning_rate": 0.0035129449494575747,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 48279584,
+      "step": 37240
+    },
+    {
+      "epoch": 1.819827523025432,
+      "grad_norm": 0.0018467794870957732,
+      "learning_rate": 0.0035002826906718187,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 48285632,
+      "step": 37245
+    },
+    {
+      "epoch": 1.820071824689126,
+      "grad_norm": 0.0011584404855966568,
+      "learning_rate": 0.003487643023983522,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 48292096,
+      "step": 37250
+    },
+    {
+      "epoch": 1.8203161263528205,
+      "grad_norm": 0.0011987106408923864,
+      "learning_rate": 0.003475025951341842,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 48298528,
+      "step": 37255
+    },
+    {
+      "epoch": 1.8205604280165146,
+      "grad_norm": 0.001295343623496592,
+      "learning_rate": 0.00346243147469249,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 48304928,
+      "step": 37260
+    },
+    {
+      "epoch": 1.820804729680209,
+      "grad_norm": 0.0011851555900648236,
+      "learning_rate": 0.0034498595959777446,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 48311424,
+      "step": 37265
+    },
+    {
+      "epoch": 1.8210490313439034,
+      "grad_norm": 0.0013249441981315613,
+      "learning_rate": 0.003437310317136305,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 48317792,
+      "step": 37270
+    },
+    {
+      "epoch": 1.8212933330075978,
+      "grad_norm": 0.0011302989441901445,
+      "learning_rate": 0.0034247836401034236,
+      "loss": 0.099,
+      "num_input_tokens_seen": 48324160,
+      "step": 37275
+    },
+    {
+      "epoch": 1.8215376346712921,
+      "grad_norm": 0.0010580412345007062,
+      "learning_rate": 0.003412279566810905,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 48330624,
+      "step": 37280
+    },
+    {
+      "epoch": 1.8217819363349865,
+      "grad_norm": 0.0010574000189080834,
+      "learning_rate": 0.00339979809918699,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 48337376,
+      "step": 37285
+    },
+    {
+      "epoch": 1.822026237998681,
+      "grad_norm": 0.0011168959317728877,
+      "learning_rate": 0.0033873392391565228,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 48343424,
+      "step": 37290
+    },
+    {
+      "epoch": 1.822270539662375,
+      "grad_norm": 0.0013071574503555894,
+      "learning_rate": 0.003374902988640782,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 48350112,
+      "step": 37295
+    },
+    {
+      "epoch": 1.8225148413260694,
+      "grad_norm": 0.0016852106200531125,
+      "learning_rate": 0.0033624893495576014,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 48356416,
+      "step": 37300
+    },
+    {
+      "epoch": 1.8227591429897636,
+      "grad_norm": 0.001959822839125991,
+      "learning_rate": 0.0033500983238213323,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 48363136,
+      "step": 37305
+    },
+    {
+      "epoch": 1.823003444653458,
+      "grad_norm": 0.0013464662479236722,
+      "learning_rate": 0.0033377299133428126,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 48369696,
+      "step": 37310
+    },
+    {
+      "epoch": 1.8232477463171524,
+      "grad_norm": 0.0010192171903327107,
+      "learning_rate": 0.003325384120029434,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 48376320,
+      "step": 37315
+    },
+    {
+      "epoch": 1.8234920479808467,
+      "grad_norm": 0.0009927006904035807,
+      "learning_rate": 0.0033130609457850233,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 48382496,
+      "step": 37320
+    },
+    {
+      "epoch": 1.8237363496445411,
+      "grad_norm": 0.0016513204900547862,
+      "learning_rate": 0.0033007603925100104,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 48389504,
+      "step": 37325
+    },
+    {
+      "epoch": 1.8239806513082355,
+      "grad_norm": 0.001636513159610331,
+      "learning_rate": 0.003288482462101294,
+      "loss": 0.083,
+      "num_input_tokens_seen": 48396000,
+      "step": 37330
+    },
+    {
+      "epoch": 1.8242249529719299,
+      "grad_norm": 0.0017273086123168468,
+      "learning_rate": 0.0032762271564522605,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 48402496,
+      "step": 37335
+    },
+    {
+      "epoch": 1.824469254635624,
+      "grad_norm": 0.0018288959981873631,
+      "learning_rate": 0.003263994477452864,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 48409344,
+      "step": 37340
+    },
+    {
+      "epoch": 1.8247135562993184,
+      "grad_norm": 0.0020622711163014174,
+      "learning_rate": 0.0032517844269895125,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 48416384,
+      "step": 37345
+    },
+    {
+      "epoch": 1.8249578579630126,
+      "grad_norm": 0.002552326302975416,
+      "learning_rate": 0.0032395970069451496,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 48423008,
+      "step": 37350
+    },
+    {
+      "epoch": 1.825202159626707,
+      "grad_norm": 0.0024663235526531935,
+      "learning_rate": 0.0032274322191992388,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 48429056,
+      "step": 37355
+    },
+    {
+      "epoch": 1.8254464612904013,
+      "grad_norm": 0.0015793760539963841,
+      "learning_rate": 0.0032152900656277294,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 48435392,
+      "step": 37360
+    },
+    {
+      "epoch": 1.8256907629540957,
+      "grad_norm": 0.0009412110666744411,
+      "learning_rate": 0.0032031705481030902,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 48441536,
+      "step": 37365
+    },
+    {
+      "epoch": 1.82593506461779,
+      "grad_norm": 0.001691531972028315,
+      "learning_rate": 0.0031910736684943428,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 48448064,
+      "step": 37370
+    },
+    {
+      "epoch": 1.8261793662814845,
+      "grad_norm": 0.0008612447418272495,
+      "learning_rate": 0.0031789994286669453,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 48453920,
+      "step": 37375
+    },
+    {
+      "epoch": 1.8264236679451789,
+      "grad_norm": 0.001393828890286386,
+      "learning_rate": 0.003166947830482908,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 48460000,
+      "step": 37380
+    },
+    {
+      "epoch": 1.826667969608873,
+      "grad_norm": 0.0018660466885194182,
+      "learning_rate": 0.003154918875800727,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 48466784,
+      "step": 37385
+    },
+    {
+      "epoch": 1.8269122712725674,
+      "grad_norm": 0.0013537879567593336,
+      "learning_rate": 0.00314291256647542,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 48472800,
+      "step": 37390
+    },
+    {
+      "epoch": 1.8271565729362615,
+      "grad_norm": 0.0019149596337229013,
+      "learning_rate": 0.0031309289043585375,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 48479040,
+      "step": 37395
+    },
+    {
+      "epoch": 1.827400874599956,
+      "grad_norm": 0.0017431918531656265,
+      "learning_rate": 0.003118967891298069,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 48485632,
+      "step": 37400
+    },
+    {
+      "epoch": 1.827400874599956,
+      "eval_loss": 0.08353451639413834,
+      "eval_runtime": 402.301,
+      "eval_samples_per_second": 90.442,
+      "eval_steps_per_second": 22.612,
+      "num_input_tokens_seen": 48485632,
+      "step": 37400
+    },
+    {
+      "epoch": 1.8276451762636503,
+      "grad_norm": 0.0018287822604179382,
+      "learning_rate": 0.003107029529138572,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 48492032,
+      "step": 37405
+    },
+    {
+      "epoch": 1.8278894779273447,
+      "grad_norm": 0.0008201120654121041,
+      "learning_rate": 0.0030951138197211235,
+      "loss": 0.087,
+      "num_input_tokens_seen": 48498752,
+      "step": 37410
+    },
+    {
+      "epoch": 1.828133779591039,
+      "grad_norm": 0.0012955744750797749,
+      "learning_rate": 0.0030832207648832377,
+      "loss": 0.092,
+      "num_input_tokens_seen": 48505312,
+      "step": 37415
+    },
+    {
+      "epoch": 1.8283780812547334,
+      "grad_norm": 0.0007369329687207937,
+      "learning_rate": 0.0030713503664589635,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 48511776,
+      "step": 37420
+    },
+    {
+      "epoch": 1.8286223829184278,
+      "grad_norm": 0.0017562313005328178,
+      "learning_rate": 0.0030595026262788872,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 48518272,
+      "step": 37425
+    },
+    {
+      "epoch": 1.828866684582122,
+      "grad_norm": 0.0019045755034312606,
+      "learning_rate": 0.00304767754617008,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 48524448,
+      "step": 37430
+    },
+    {
+      "epoch": 1.8291109862458164,
+      "grad_norm": 0.002598862862214446,
+      "learning_rate": 0.003035875127956117,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 48530560,
+      "step": 37435
+    },
+    {
+      "epoch": 1.8293552879095105,
+      "grad_norm": 0.0012649450218304992,
+      "learning_rate": 0.0030240953734570752,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 48537376,
+      "step": 37440
+    },
+    {
+      "epoch": 1.829599589573205,
+      "grad_norm": 0.0011773357400670648,
+      "learning_rate": 0.003012338284489535,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 48543904,
+      "step": 37445
+    },
+    {
+      "epoch": 1.8298438912368993,
+      "grad_norm": 0.00109123345464468,
+      "learning_rate": 0.0030006038628665964,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 48550848,
+      "step": 37450
+    },
+    {
+      "epoch": 1.8300881929005937,
+      "grad_norm": 0.0012116336729377508,
+      "learning_rate": 0.002988892110397845,
+      "loss": 0.079,
+      "num_input_tokens_seen": 48557024,
+      "step": 37455
+    },
+    {
+      "epoch": 1.830332494564288,
+      "grad_norm": 0.0017197419656440616,
+      "learning_rate": 0.0029772030288894025,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 48563136,
+      "step": 37460
+    },
+    {
+      "epoch": 1.8305767962279824,
+      "grad_norm": 0.0008352402946911752,
+      "learning_rate": 0.0029655366201438438,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 48569824,
+      "step": 37465
+    },
+    {
+      "epoch": 1.8308210978916768,
+      "grad_norm": 0.0015222460497170687,
+      "learning_rate": 0.0029538928859602965,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 48575968,
+      "step": 37470
+    },
+    {
+      "epoch": 1.831065399555371,
+      "grad_norm": 0.0012349736643955112,
+      "learning_rate": 0.002942271828134374,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 48582560,
+      "step": 37475
+    },
+    {
+      "epoch": 1.8313097012190653,
+      "grad_norm": 0.0008193748653866351,
+      "learning_rate": 0.00293067344845816,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 48589376,
+      "step": 37480
+    },
+    {
+      "epoch": 1.8315540028827595,
+      "grad_norm": 0.0008042271947488189,
+      "learning_rate": 0.0029190977487202896,
+      "loss": 0.0504,
+      "num_input_tokens_seen": 48595712,
+      "step": 37485
+    },
+    {
+      "epoch": 1.8317983045464539,
+      "grad_norm": 0.001165915746241808,
+      "learning_rate": 0.0029075447307058853,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 48602176,
+      "step": 37490
+    },
+    {
+      "epoch": 1.8320426062101483,
+      "grad_norm": 0.0011153790401294827,
+      "learning_rate": 0.0028960143961965722,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 48608640,
+      "step": 37495
+    },
+    {
+      "epoch": 1.8322869078738426,
+      "grad_norm": 0.001260282821021974,
+      "learning_rate": 0.002884506746970461,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 48614944,
+      "step": 37500
+    },
+    {
+      "epoch": 1.832531209537537,
+      "grad_norm": 0.001829613815061748,
+      "learning_rate": 0.0028730217848021654,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 48621664,
+      "step": 37505
+    },
+    {
+      "epoch": 1.8327755112012314,
+      "grad_norm": 0.0013398312730714679,
+      "learning_rate": 0.0028615595114628188,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 48628192,
+      "step": 37510
+    },
+    {
+      "epoch": 1.8330198128649258,
+      "grad_norm": 0.0014067365555092692,
+      "learning_rate": 0.002850119928720074,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 48634368,
+      "step": 37515
+    },
+    {
+      "epoch": 1.83326411452862,
+      "grad_norm": 0.0011682199547067285,
+      "learning_rate": 0.0028387030383380195,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 48641248,
+      "step": 37520
+    },
+    {
+      "epoch": 1.8335084161923143,
+      "grad_norm": 0.0008021810790523887,
+      "learning_rate": 0.0028273088420772974,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 48647680,
+      "step": 37525
+    },
+    {
+      "epoch": 1.8337527178560085,
+      "grad_norm": 0.001999689731746912,
+      "learning_rate": 0.002815937341695068,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 48653920,
+      "step": 37530
+    },
+    {
+      "epoch": 1.8339970195197028,
+      "grad_norm": 0.0017586550675332546,
+      "learning_rate": 0.0028045885389448963,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 48660256,
+      "step": 37535
+    },
+    {
+      "epoch": 1.8342413211833972,
+      "grad_norm": 0.0010357069550082088,
+      "learning_rate": 0.002793262435576965,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 48666976,
+      "step": 37540
+    },
+    {
+      "epoch": 1.8344856228470916,
+      "grad_norm": 0.0017430359730497003,
+      "learning_rate": 0.0027819590333378772,
+      "loss": 0.074,
+      "num_input_tokens_seen": 48673280,
+      "step": 37545
+    },
+    {
+      "epoch": 1.834729924510786,
+      "grad_norm": 0.001053321291692555,
+      "learning_rate": 0.002770678333970755,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 48679904,
+      "step": 37550
+    },
+    {
+      "epoch": 1.8349742261744804,
+      "grad_norm": 0.0009871566435322165,
+      "learning_rate": 0.0027594203392152573,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 48686272,
+      "step": 37555
+    },
+    {
+      "epoch": 1.8352185278381747,
+      "grad_norm": 0.0008603817550465465,
+      "learning_rate": 0.002748185050807478,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 48692384,
+      "step": 37560
+    },
+    {
+      "epoch": 1.835462829501869,
+      "grad_norm": 0.0016051350394263864,
+      "learning_rate": 0.002736972470480031,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 48699104,
+      "step": 37565
+    },
+    {
+      "epoch": 1.8357071311655633,
+      "grad_norm": 0.0016163127729669213,
+      "learning_rate": 0.002725782599962068,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 48706016,
+      "step": 37570
+    },
+    {
+      "epoch": 1.8359514328292574,
+      "grad_norm": 0.0006502077449113131,
+      "learning_rate": 0.0027146154409791734,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 48712992,
+      "step": 37575
+    },
+    {
+      "epoch": 1.8361957344929518,
+      "grad_norm": 0.0011676240246742964,
+      "learning_rate": 0.002703470995253504,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 48719072,
+      "step": 37580
+    },
+    {
+      "epoch": 1.8364400361566462,
+      "grad_norm": 0.0008516762172803283,
+      "learning_rate": 0.0026923492645036184,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 48725632,
+      "step": 37585
+    },
+    {
+      "epoch": 1.8366843378203406,
+      "grad_norm": 0.0010326928459107876,
+      "learning_rate": 0.0026812502504446776,
+      "loss": 0.065,
+      "num_input_tokens_seen": 48732000,
+      "step": 37590
+    },
+    {
+      "epoch": 1.836928639484035,
+      "grad_norm": 0.0016208275919780135,
+      "learning_rate": 0.0026701739547882798,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 48738272,
+      "step": 37595
+    },
+    {
+      "epoch": 1.8371729411477293,
+      "grad_norm": 0.0007013199501670897,
+      "learning_rate": 0.0026591203792425077,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 48744768,
+      "step": 37600
+    },
+    {
+      "epoch": 1.8371729411477293,
+      "eval_loss": 0.0835486650466919,
+      "eval_runtime": 402.6305,
+      "eval_samples_per_second": 90.368,
+      "eval_steps_per_second": 22.594,
+      "num_input_tokens_seen": 48744768,
+      "step": 37600
+    },
+    {
+      "epoch": 1.8374172428114237,
+      "grad_norm": 0.0036647762171924114,
+      "learning_rate": 0.0026480895255119818,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 48750912,
+      "step": 37605
+    },
+    {
+      "epoch": 1.8376615444751179,
+      "grad_norm": 0.0012667940463870764,
+      "learning_rate": 0.002637081395297791,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 48757472,
+      "step": 37610
+    },
+    {
+      "epoch": 1.8379058461388122,
+      "grad_norm": 0.0008520680130459368,
+      "learning_rate": 0.0026260959902975113,
+      "loss": 0.068,
+      "num_input_tokens_seen": 48764000,
+      "step": 37615
+    },
+    {
+      "epoch": 1.8381501478025064,
+      "grad_norm": 0.0008208427461795509,
+      "learning_rate": 0.00261513331220527,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 48770784,
+      "step": 37620
+    },
+    {
+      "epoch": 1.8383944494662008,
+      "grad_norm": 0.001128622330725193,
+      "learning_rate": 0.0026041933627116154,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 48776960,
+      "step": 37625
+    },
+    {
+      "epoch": 1.8386387511298952,
+      "grad_norm": 0.001748298411257565,
+      "learning_rate": 0.0025932761435036476,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 48783776,
+      "step": 37630
+    },
+    {
+      "epoch": 1.8388830527935895,
+      "grad_norm": 0.00149906100705266,
+      "learning_rate": 0.002582381656264904,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 48790112,
+      "step": 37635
+    },
+    {
+      "epoch": 1.839127354457284,
+      "grad_norm": 0.0021265242248773575,
+      "learning_rate": 0.0025715099026754895,
+      "loss": 0.116,
+      "num_input_tokens_seen": 48796512,
+      "step": 37640
+    },
+    {
+      "epoch": 1.8393716561209783,
+      "grad_norm": 0.0024541516322642565,
+      "learning_rate": 0.002560660884411947,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 48802688,
+      "step": 37645
+    },
+    {
+      "epoch": 1.8396159577846725,
+      "grad_norm": 0.0016540053766220808,
+      "learning_rate": 0.0025498346031473385,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 48809600,
+      "step": 37650
+    },
+    {
+      "epoch": 1.8398602594483668,
+      "grad_norm": 0.0013929131673648953,
+      "learning_rate": 0.0025390310605511945,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 48815904,
+      "step": 37655
+    },
+    {
+      "epoch": 1.8401045611120612,
+      "grad_norm": 0.0016911699203774333,
+      "learning_rate": 0.0025282502582895995,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 48822272,
+      "step": 37660
+    },
+    {
+      "epoch": 1.8403488627757554,
+      "grad_norm": 0.001503700390458107,
+      "learning_rate": 0.002517492198025023,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 48828832,
+      "step": 37665
+    },
+    {
+      "epoch": 1.8405931644394498,
+      "grad_norm": 0.001121738227084279,
+      "learning_rate": 0.0025067568814165554,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 48835200,
+      "step": 37670
+    },
+    {
+      "epoch": 1.8408374661031441,
+      "grad_norm": 0.0014181106816977262,
+      "learning_rate": 0.0024960443101196884,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 48841376,
+      "step": 37675
+    },
+    {
+      "epoch": 1.8410817677668385,
+      "grad_norm": 0.0013371383538469672,
+      "learning_rate": 0.002485354485786434,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 48847584,
+      "step": 37680
+    },
+    {
+      "epoch": 1.841326069430533,
+      "grad_norm": 0.0013555475743487477,
+      "learning_rate": 0.002474687410065307,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 48854048,
+      "step": 37685
+    },
+    {
+      "epoch": 1.8415703710942273,
+      "grad_norm": 0.0012967863585799932,
+      "learning_rate": 0.002464043084601308,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 48860672,
+      "step": 37690
+    },
+    {
+      "epoch": 1.8418146727579214,
+      "grad_norm": 0.0011629087384790182,
+      "learning_rate": 0.0024534215110358915,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 48867232,
+      "step": 37695
+    },
+    {
+      "epoch": 1.8420589744216158,
+      "grad_norm": 0.0018191009294241667,
+      "learning_rate": 0.002442822691007096,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 48873536,
+      "step": 37700
+    },
+    {
+      "epoch": 1.8423032760853102,
+      "grad_norm": 0.0012553707929328084,
+      "learning_rate": 0.002432246626149348,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 48880320,
+      "step": 37705
+    },
+    {
+      "epoch": 1.8425475777490044,
+      "grad_norm": 0.001010271837003529,
+      "learning_rate": 0.002421693318093626,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 48886816,
+      "step": 37710
+    },
+    {
+      "epoch": 1.8427918794126987,
+      "grad_norm": 0.0011241771280765533,
+      "learning_rate": 0.0024111627684673784,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 48892960,
+      "step": 37715
+    },
+    {
+      "epoch": 1.843036181076393,
+      "grad_norm": 0.0015366589650511742,
+      "learning_rate": 0.0024006549788945395,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 48899712,
+      "step": 37720
+    },
+    {
+      "epoch": 1.8432804827400875,
+      "grad_norm": 0.0015209862031042576,
+      "learning_rate": 0.0023901699509955463,
+      "loss": 0.058,
+      "num_input_tokens_seen": 48906048,
+      "step": 37725
+    },
+    {
+      "epoch": 1.8435247844037819,
+      "grad_norm": 0.0018869804916903377,
+      "learning_rate": 0.0023797076863873554,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 48912160,
+      "step": 37730
+    },
+    {
+      "epoch": 1.8437690860674762,
+      "grad_norm": 0.0016802677419036627,
+      "learning_rate": 0.0023692681866833262,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 48918656,
+      "step": 37735
+    },
+    {
+      "epoch": 1.8440133877311704,
+      "grad_norm": 0.0007530960720032454,
+      "learning_rate": 0.0023588514534934046,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 48925120,
+      "step": 37740
+    },
+    {
+      "epoch": 1.8442576893948648,
+      "grad_norm": 0.0012719091027975082,
+      "learning_rate": 0.002348457488423955,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 48931392,
+      "step": 37745
+    },
+    {
+      "epoch": 1.844501991058559,
+      "grad_norm": 0.0012737780343741179,
+      "learning_rate": 0.0023380862930778624,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 48937504,
+      "step": 37750
+    },
+    {
+      "epoch": 1.8447462927222533,
+      "grad_norm": 0.0018825207371264696,
+      "learning_rate": 0.0023277378690545135,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 48944160,
+      "step": 37755
+    },
+    {
+      "epoch": 1.8449905943859477,
+      "grad_norm": 0.0013929478591307998,
+      "learning_rate": 0.0023174122179497325,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 48950464,
+      "step": 37760
+    },
+    {
+      "epoch": 1.845234896049642,
+      "grad_norm": 0.0007625172147527337,
+      "learning_rate": 0.0023071093413558784,
+      "loss": 0.0698,
+      "num_input_tokens_seen": 48956832,
+      "step": 37765
+    },
+    {
+      "epoch": 1.8454791977133365,
+      "grad_norm": 0.001255088485777378,
+      "learning_rate": 0.002296829240861814,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 48963392,
+      "step": 37770
+    },
+    {
+      "epoch": 1.8457234993770308,
+      "grad_norm": 0.0024794884957373142,
+      "learning_rate": 0.002286571918052821,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 48969856,
+      "step": 37775
+    },
+    {
+      "epoch": 1.8459678010407252,
+      "grad_norm": 0.0019410214154049754,
+      "learning_rate": 0.0022763373745107174,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 48975936,
+      "step": 37780
+    },
+    {
+      "epoch": 1.8462121027044194,
+      "grad_norm": 0.0021670556161552668,
+      "learning_rate": 0.0022661256118138074,
+      "loss": 0.103,
+      "num_input_tokens_seen": 48982496,
+      "step": 37785
+    },
+    {
+      "epoch": 1.8464564043681138,
+      "grad_norm": 0.000876557664014399,
+      "learning_rate": 0.0022559366315368645,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 48988960,
+      "step": 37790
+    },
+    {
+      "epoch": 1.846700706031808,
+      "grad_norm": 0.0013284111628308892,
+      "learning_rate": 0.002245770435251182,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 48995552,
+      "step": 37795
+    },
+    {
+      "epoch": 1.8469450076955023,
+      "grad_norm": 0.0011173420352861285,
+      "learning_rate": 0.002235627024524456,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 49002400,
+      "step": 37800
+    },
+    {
+      "epoch": 1.8469450076955023,
+      "eval_loss": 0.0836246907711029,
+      "eval_runtime": 402.4898,
+      "eval_samples_per_second": 90.4,
+      "eval_steps_per_second": 22.602,
+      "num_input_tokens_seen": 49002400,
+      "step": 37800
+    },
+    {
+      "epoch": 1.8471893093591967,
+      "grad_norm": 0.0012058857828378677,
+      "learning_rate": 0.0022255064009209847,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 49009024,
+      "step": 37805
+    },
+    {
+      "epoch": 1.847433611022891,
+      "grad_norm": 0.0008124314481392503,
+      "learning_rate": 0.0022154085660014864,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 49015648,
+      "step": 37810
+    },
+    {
+      "epoch": 1.8476779126865854,
+      "grad_norm": 0.0015821902779862285,
+      "learning_rate": 0.0022053335213231494,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 49022496,
+      "step": 37815
+    },
+    {
+      "epoch": 1.8479222143502798,
+      "grad_norm": 0.0008443401893600821,
+      "learning_rate": 0.002195281268439697,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 49028704,
+      "step": 37820
+    },
+    {
+      "epoch": 1.8481665160139742,
+      "grad_norm": 0.00132600381039083,
+      "learning_rate": 0.002185251808901306,
+      "loss": 0.088,
+      "num_input_tokens_seen": 49034912,
+      "step": 37825
+    },
+    {
+      "epoch": 1.8484108176776683,
+      "grad_norm": 0.0013409185921773314,
+      "learning_rate": 0.0021752451442546227,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 49041024,
+      "step": 37830
+    },
+    {
+      "epoch": 1.8486551193413627,
+      "grad_norm": 0.002052492694929242,
+      "learning_rate": 0.0021652612760428456,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 49047168,
+      "step": 37835
+    },
+    {
+      "epoch": 1.8488994210050569,
+      "grad_norm": 0.0010056319879367948,
+      "learning_rate": 0.0021553002058055603,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 49053568,
+      "step": 37840
+    },
+    {
+      "epoch": 1.8491437226687513,
+      "grad_norm": 0.0017705457285046577,
+      "learning_rate": 0.0021453619350789376,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 49059968,
+      "step": 37845
+    },
+    {
+      "epoch": 1.8493880243324456,
+      "grad_norm": 0.0015081592136994004,
+      "learning_rate": 0.0021354464653955516,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 49066208,
+      "step": 37850
+    },
+    {
+      "epoch": 1.84963232599614,
+      "grad_norm": 0.0014581253053620458,
+      "learning_rate": 0.002125553798284513,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 49072512,
+      "step": 37855
+    },
+    {
+      "epoch": 1.8498766276598344,
+      "grad_norm": 0.00151222909335047,
+      "learning_rate": 0.002115683935271384,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 49078848,
+      "step": 37860
+    },
+    {
+      "epoch": 1.8501209293235288,
+      "grad_norm": 0.001406384166330099,
+      "learning_rate": 0.0021058368778782144,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 49085408,
+      "step": 37865
+    },
+    {
+      "epoch": 1.8503652309872232,
+      "grad_norm": 0.0013425133656710386,
+      "learning_rate": 0.002096012627623539,
+      "loss": 0.079,
+      "num_input_tokens_seen": 49091808,
+      "step": 37870
+    },
+    {
+      "epoch": 1.8506095326509173,
+      "grad_norm": 0.0023095495998859406,
+      "learning_rate": 0.00208621118602243,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 49098176,
+      "step": 37875
+    },
+    {
+      "epoch": 1.8508538343146117,
+      "grad_norm": 0.0010345658520236611,
+      "learning_rate": 0.002076432554586327,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 49104704,
+      "step": 37880
+    },
+    {
+      "epoch": 1.8510981359783059,
+      "grad_norm": 0.0015548382652923465,
+      "learning_rate": 0.002066676734823258,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 49110752,
+      "step": 37885
+    },
+    {
+      "epoch": 1.8513424376420002,
+      "grad_norm": 0.0018998105078935623,
+      "learning_rate": 0.0020569437282376866,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 49117792,
+      "step": 37890
+    },
+    {
+      "epoch": 1.8515867393056946,
+      "grad_norm": 0.0019924715161323547,
+      "learning_rate": 0.002047233536330545,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 49124256,
+      "step": 37895
+    },
+    {
+      "epoch": 1.851831040969389,
+      "grad_norm": 0.002017814898863435,
+      "learning_rate": 0.0020375461605993015,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 49130496,
+      "step": 37900
+    },
+    {
+      "epoch": 1.8520753426330834,
+      "grad_norm": 0.0010339542059227824,
+      "learning_rate": 0.002027881602537845,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 49136768,
+      "step": 37905
+    },
+    {
+      "epoch": 1.8523196442967778,
+      "grad_norm": 0.0014499793760478497,
+      "learning_rate": 0.002018239863636567,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 49143136,
+      "step": 37910
+    },
+    {
+      "epoch": 1.8525639459604721,
+      "grad_norm": 0.0011835724581032991,
+      "learning_rate": 0.002008620945382378,
+      "loss": 0.05,
+      "num_input_tokens_seen": 49149664,
+      "step": 37915
+    },
+    {
+      "epoch": 1.8528082476241663,
+      "grad_norm": 0.0012010436039417982,
+      "learning_rate": 0.001999024849258607,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 49156128,
+      "step": 37920
+    },
+    {
+      "epoch": 1.8530525492878607,
+      "grad_norm": 0.000583147571887821,
+      "learning_rate": 0.001989451576745105,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 49162784,
+      "step": 37925
+    },
+    {
+      "epoch": 1.8532968509515548,
+      "grad_norm": 0.0018235293682664633,
+      "learning_rate": 0.00197990112931819,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 49169408,
+      "step": 37930
+    },
+    {
+      "epoch": 1.8535411526152492,
+      "grad_norm": 0.003022255841642618,
+      "learning_rate": 0.0019703735084506345,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 49175872,
+      "step": 37935
+    },
+    {
+      "epoch": 1.8537854542789436,
+      "grad_norm": 0.0009797390084713697,
+      "learning_rate": 0.001960868715611763,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 49182432,
+      "step": 37940
+    },
+    {
+      "epoch": 1.854029755942638,
+      "grad_norm": 0.0023832693696022034,
+      "learning_rate": 0.0019513867522673034,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 49188448,
+      "step": 37945
+    },
+    {
+      "epoch": 1.8542740576063323,
+      "grad_norm": 0.0015063851606100798,
+      "learning_rate": 0.001941927619879502,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 49194944,
+      "step": 37950
+    },
+    {
+      "epoch": 1.8545183592700267,
+      "grad_norm": 0.001905674347653985,
+      "learning_rate": 0.0019324913199070758,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 49201280,
+      "step": 37955
+    },
+    {
+      "epoch": 1.854762660933721,
+      "grad_norm": 0.0016450562980026007,
+      "learning_rate": 0.0019230778538052106,
+      "loss": 0.065,
+      "num_input_tokens_seen": 49207712,
+      "step": 37960
+    },
+    {
+      "epoch": 1.8550069625974153,
+      "grad_norm": 0.000801712041720748,
+      "learning_rate": 0.0019136872230255952,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 49214048,
+      "step": 37965
+    },
+    {
+      "epoch": 1.8552512642611096,
+      "grad_norm": 0.00141714361961931,
+      "learning_rate": 0.0019043194290164045,
+      "loss": 0.085,
+      "num_input_tokens_seen": 49220928,
+      "step": 37970
+    },
+    {
+      "epoch": 1.8554955659248038,
+      "grad_norm": 0.0014251713873818517,
+      "learning_rate": 0.0018949744732222162,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 49227200,
+      "step": 37975
+    },
+    {
+      "epoch": 1.8557398675884982,
+      "grad_norm": 0.0020123699214309454,
+      "learning_rate": 0.0018856523570841776,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 49233856,
+      "step": 37980
+    },
+    {
+      "epoch": 1.8559841692521926,
+      "grad_norm": 0.0012601427733898163,
+      "learning_rate": 0.0018763530820398555,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 49240224,
+      "step": 37985
+    },
+    {
+      "epoch": 1.856228470915887,
+      "grad_norm": 0.0013504078378900886,
+      "learning_rate": 0.0018670766495233525,
+      "loss": 0.0548,
+      "num_input_tokens_seen": 49246592,
+      "step": 37990
+    },
+    {
+      "epoch": 1.8564727725795813,
+      "grad_norm": 0.001973886741325259,
+      "learning_rate": 0.001857823060965158,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 49253088,
+      "step": 37995
+    },
+    {
+      "epoch": 1.8567170742432757,
+      "grad_norm": 0.0018966930219903588,
+      "learning_rate": 0.0018485923177923467,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 49259584,
+      "step": 38000
+    },
+    {
+      "epoch": 1.8567170742432757,
+      "eval_loss": 0.08342055231332779,
+      "eval_runtime": 402.4657,
+      "eval_samples_per_second": 90.405,
+      "eval_steps_per_second": 22.603,
+      "num_input_tokens_seen": 49259584,
+      "step": 38000
+    },
+    {
+      "epoch": 1.85696137590697,
+      "grad_norm": 0.0009876586263999343,
+      "learning_rate": 0.001839384421428364,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 49266720,
+      "step": 38005
+    },
+    {
+      "epoch": 1.8572056775706642,
+      "grad_norm": 0.0007899003685452044,
+      "learning_rate": 0.0018301993732932065,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 49273248,
+      "step": 38010
+    },
+    {
+      "epoch": 1.8574499792343586,
+      "grad_norm": 0.0010044953087344766,
+      "learning_rate": 0.0018210371748033248,
+      "loss": 0.103,
+      "num_input_tokens_seen": 49279680,
+      "step": 38015
+    },
+    {
+      "epoch": 1.8576942808980528,
+      "grad_norm": 0.0015213723527267575,
+      "learning_rate": 0.0018118978273716556,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 49286368,
+      "step": 38020
+    },
+    {
+      "epoch": 1.8579385825617472,
+      "grad_norm": 0.0022331736981868744,
+      "learning_rate": 0.001802781332407588,
+      "loss": 0.08,
+      "num_input_tokens_seen": 49292416,
+      "step": 38025
+    },
+    {
+      "epoch": 1.8581828842254415,
+      "grad_norm": 0.0009136634762398899,
+      "learning_rate": 0.0017936876913169806,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 49298848,
+      "step": 38030
+    },
+    {
+      "epoch": 1.858427185889136,
+      "grad_norm": 0.0014903490664437413,
+      "learning_rate": 0.0017846169055022287,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 49304864,
+      "step": 38035
+    },
+    {
+      "epoch": 1.8586714875528303,
+      "grad_norm": 0.0012546794023364782,
+      "learning_rate": 0.0017755689763621295,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 49311296,
+      "step": 38040
+    },
+    {
+      "epoch": 1.8589157892165247,
+      "grad_norm": 0.002528173616155982,
+      "learning_rate": 0.0017665439052920173,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 49317792,
+      "step": 38045
+    },
+    {
+      "epoch": 1.859160090880219,
+      "grad_norm": 0.0014378451742231846,
+      "learning_rate": 0.0017575416936836286,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 49324320,
+      "step": 38050
+    },
+    {
+      "epoch": 1.8594043925439132,
+      "grad_norm": 0.002415244234725833,
+      "learning_rate": 0.0017485623429252528,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 49331072,
+      "step": 38055
+    },
+    {
+      "epoch": 1.8596486942076076,
+      "grad_norm": 0.0021229602862149477,
+      "learning_rate": 0.0017396058544016156,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 49337760,
+      "step": 38060
+    },
+    {
+      "epoch": 1.8598929958713017,
+      "grad_norm": 0.0012871926883235574,
+      "learning_rate": 0.0017306722294938958,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 49343904,
+      "step": 38065
+    },
+    {
+      "epoch": 1.8601372975349961,
+      "grad_norm": 0.0014048685552552342,
+      "learning_rate": 0.0017217614695798078,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 49350240,
+      "step": 38070
+    },
+    {
+      "epoch": 1.8603815991986905,
+      "grad_norm": 0.0008119090925902128,
+      "learning_rate": 0.001712873576033469,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 49356480,
+      "step": 38075
+    },
+    {
+      "epoch": 1.8606259008623849,
+      "grad_norm": 0.0013576560886576772,
+      "learning_rate": 0.0017040085502255163,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 49363104,
+      "step": 38080
+    },
+    {
+      "epoch": 1.8608702025260793,
+      "grad_norm": 0.0013443371281027794,
+      "learning_rate": 0.0016951663935230565,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 49369504,
+      "step": 38085
+    },
+    {
+      "epoch": 1.8611145041897736,
+      "grad_norm": 0.0006518300506286323,
+      "learning_rate": 0.0016863471072896485,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 49376288,
+      "step": 38090
+    },
+    {
+      "epoch": 1.861358805853468,
+      "grad_norm": 0.0018806994194164872,
+      "learning_rate": 0.0016775506928853377,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 49382464,
+      "step": 38095
+    },
+    {
+      "epoch": 1.8616031075171622,
+      "grad_norm": 0.0015531014651060104,
+      "learning_rate": 0.001668777151666656,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 49388864,
+      "step": 38100
+    },
+    {
+      "epoch": 1.8618474091808566,
+      "grad_norm": 0.000914559350349009,
+      "learning_rate": 0.0016600264849865709,
+      "loss": 0.088,
+      "num_input_tokens_seen": 49395168,
+      "step": 38105
+    },
+    {
+      "epoch": 1.8620917108445507,
+      "grad_norm": 0.0020967477466911077,
+      "learning_rate": 0.0016512986941945695,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 49401536,
+      "step": 38110
+    },
+    {
+      "epoch": 1.862336012508245,
+      "grad_norm": 0.0018429995980113745,
+      "learning_rate": 0.0016425937806365753,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 49407744,
+      "step": 38115
+    },
+    {
+      "epoch": 1.8625803141719395,
+      "grad_norm": 0.001189917791634798,
+      "learning_rate": 0.0016339117456549979,
+      "loss": 0.0613,
+      "num_input_tokens_seen": 49414912,
+      "step": 38120
+    },
+    {
+      "epoch": 1.8628246158356339,
+      "grad_norm": 0.0009840141283348203,
+      "learning_rate": 0.0016252525905886995,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 49421280,
+      "step": 38125
+    },
+    {
+      "epoch": 1.8630689174993282,
+      "grad_norm": 0.001007694168947637,
+      "learning_rate": 0.0016166163167730617,
+      "loss": 0.076,
+      "num_input_tokens_seen": 49427232,
+      "step": 38130
+    },
+    {
+      "epoch": 1.8633132191630226,
+      "grad_norm": 0.0013443188508972526,
+      "learning_rate": 0.0016080029255398864,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 49433792,
+      "step": 38135
+    },
+    {
+      "epoch": 1.863557520826717,
+      "grad_norm": 0.0022816972341388464,
+      "learning_rate": 0.0015994124182174606,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 49440576,
+      "step": 38140
+    },
+    {
+      "epoch": 1.8638018224904112,
+      "grad_norm": 0.0010761291487142444,
+      "learning_rate": 0.001590844796130575,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 49447232,
+      "step": 38145
+    },
+    {
+      "epoch": 1.8640461241541055,
+      "grad_norm": 0.0010329149663448334,
+      "learning_rate": 0.001582300060600439,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 49453568,
+      "step": 38150
+    },
+    {
+      "epoch": 1.8642904258177997,
+      "grad_norm": 0.0017950218170881271,
+      "learning_rate": 0.0015737782129447652,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 49460224,
+      "step": 38155
+    },
+    {
+      "epoch": 1.864534727481494,
+      "grad_norm": 0.0017641576705500484,
+      "learning_rate": 0.0015652792544777361,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 49466688,
+      "step": 38160
+    },
+    {
+      "epoch": 1.8647790291451884,
+      "grad_norm": 0.001120561733841896,
+      "learning_rate": 0.0015568031865099863,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 49472928,
+      "step": 38165
+    },
+    {
+      "epoch": 1.8650233308088828,
+      "grad_norm": 0.0021810720209032297,
+      "learning_rate": 0.0015483500103486369,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 49479360,
+      "step": 38170
+    },
+    {
+      "epoch": 1.8652676324725772,
+      "grad_norm": 0.001365017262287438,
+      "learning_rate": 0.0015399197272972787,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 49485856,
+      "step": 38175
+    },
+    {
+      "epoch": 1.8655119341362716,
+      "grad_norm": 0.0013992412714287639,
+      "learning_rate": 0.0015315123386559714,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 49492064,
+      "step": 38180
+    },
+    {
+      "epoch": 1.8657562357999657,
+      "grad_norm": 0.0020472430624067783,
+      "learning_rate": 0.0015231278457212283,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 49498848,
+      "step": 38185
+    },
+    {
+      "epoch": 1.8660005374636601,
+      "grad_norm": 0.0011813808232545853,
+      "learning_rate": 0.001514766249786048,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 49505376,
+      "step": 38190
+    },
+    {
+      "epoch": 1.8662448391273545,
+      "grad_norm": 0.0011209185468032956,
+      "learning_rate": 0.0015064275521398994,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 49511744,
+      "step": 38195
+    },
+    {
+      "epoch": 1.8664891407910487,
+      "grad_norm": 0.001150498166680336,
+      "learning_rate": 0.0014981117540686872,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 49518144,
+      "step": 38200
+    },
+    {
+      "epoch": 1.8664891407910487,
+      "eval_loss": 0.08351525664329529,
+      "eval_runtime": 402.3344,
+      "eval_samples_per_second": 90.435,
+      "eval_steps_per_second": 22.611,
+      "num_input_tokens_seen": 49518144,
+      "step": 38200
+    },
+    {
+      "epoch": 1.866733442454743,
+      "grad_norm": 0.0022722689900547266,
+      "learning_rate": 0.0014898188568548687,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 49524608,
+      "step": 38205
+    },
+    {
+      "epoch": 1.8669777441184374,
+      "grad_norm": 0.0027043477166444063,
+      "learning_rate": 0.0014815488617772542,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 49531200,
+      "step": 38210
+    },
+    {
+      "epoch": 1.8672220457821318,
+      "grad_norm": 0.001018694369122386,
+      "learning_rate": 0.0014733017701112072,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 49538144,
+      "step": 38215
+    },
+    {
+      "epoch": 1.8674663474458262,
+      "grad_norm": 0.0017282041953876615,
+      "learning_rate": 0.0014650775831285435,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 49544544,
+      "step": 38220
+    },
+    {
+      "epoch": 1.8677106491095206,
+      "grad_norm": 0.0015815278748050332,
+      "learning_rate": 0.001456876302097515,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 49550848,
+      "step": 38225
+    },
+    {
+      "epoch": 1.8679549507732147,
+      "grad_norm": 0.0009715078049339354,
+      "learning_rate": 0.0014486979282828604,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 49557344,
+      "step": 38230
+    },
+    {
+      "epoch": 1.868199252436909,
+      "grad_norm": 0.0015724957920610905,
+      "learning_rate": 0.001440542462945804,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 49563968,
+      "step": 38235
+    },
+    {
+      "epoch": 1.8684435541006035,
+      "grad_norm": 0.0016188949812203646,
+      "learning_rate": 0.0014324099073440232,
+      "loss": 0.088,
+      "num_input_tokens_seen": 49570336,
+      "step": 38240
+    },
+    {
+      "epoch": 1.8686878557642976,
+      "grad_norm": 0.0011347931576892734,
+      "learning_rate": 0.0014243002627316482,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 49577024,
+      "step": 38245
+    },
+    {
+      "epoch": 1.868932157427992,
+      "grad_norm": 0.0017640285659581423,
+      "learning_rate": 0.0014162135303592781,
+      "loss": 0.116,
+      "num_input_tokens_seen": 49583360,
+      "step": 38250
+    },
+    {
+      "epoch": 1.8691764590916864,
+      "grad_norm": 0.0014283705968409777,
+      "learning_rate": 0.001408149711474016,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 49590240,
+      "step": 38255
+    },
+    {
+      "epoch": 1.8694207607553808,
+      "grad_norm": 0.0008406831184402108,
+      "learning_rate": 0.0014001088073193834,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 49596928,
+      "step": 38260
+    },
+    {
+      "epoch": 1.8696650624190752,
+      "grad_norm": 0.0010988347930833697,
+      "learning_rate": 0.0013920908191354052,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 49603360,
+      "step": 38265
+    },
+    {
+      "epoch": 1.8699093640827695,
+      "grad_norm": 0.0024700183421373367,
+      "learning_rate": 0.001384095748158526,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 49609536,
+      "step": 38270
+    },
+    {
+      "epoch": 1.8701536657464637,
+      "grad_norm": 0.0016307384939864278,
+      "learning_rate": 0.0013761235956217255,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 49615744,
+      "step": 38275
+    },
+    {
+      "epoch": 1.870397967410158,
+      "grad_norm": 0.0016526717226952314,
+      "learning_rate": 0.0013681743627543873,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 49621952,
+      "step": 38280
+    },
+    {
+      "epoch": 1.8706422690738524,
+      "grad_norm": 0.001021229662001133,
+      "learning_rate": 0.001360248050782381,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 49628096,
+      "step": 38285
+    },
+    {
+      "epoch": 1.8708865707375466,
+      "grad_norm": 0.0013632795307785273,
+      "learning_rate": 0.001352344660928062,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 49634784,
+      "step": 38290
+    },
+    {
+      "epoch": 1.871130872401241,
+      "grad_norm": 0.0012511530658230186,
+      "learning_rate": 0.0013444641944102052,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 49640832,
+      "step": 38295
+    },
+    {
+      "epoch": 1.8713751740649354,
+      "grad_norm": 0.0007412682753056288,
+      "learning_rate": 0.0013366066524441056,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 49647456,
+      "step": 38300
+    },
+    {
+      "epoch": 1.8716194757286297,
+      "grad_norm": 0.0007443453068844974,
+      "learning_rate": 0.0013287720362414768,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 49654144,
+      "step": 38305
+    },
+    {
+      "epoch": 1.8718637773923241,
+      "grad_norm": 0.0010112863965332508,
+      "learning_rate": 0.0013209603470105025,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 49660608,
+      "step": 38310
+    },
+    {
+      "epoch": 1.8721080790560185,
+      "grad_norm": 0.0014837377239018679,
+      "learning_rate": 0.0013131715859558857,
+      "loss": 0.084,
+      "num_input_tokens_seen": 49667264,
+      "step": 38315
+    },
+    {
+      "epoch": 1.8723523807197127,
+      "grad_norm": 0.0008410039590671659,
+      "learning_rate": 0.001305405754278699,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 49673376,
+      "step": 38320
+    },
+    {
+      "epoch": 1.872596682383407,
+      "grad_norm": 0.0006797353853471577,
+      "learning_rate": 0.0012976628531765843,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 49679488,
+      "step": 38325
+    },
+    {
+      "epoch": 1.8728409840471012,
+      "grad_norm": 0.0010886933887377381,
+      "learning_rate": 0.0012899428838435533,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 49685632,
+      "step": 38330
+    },
+    {
+      "epoch": 1.8730852857107956,
+      "grad_norm": 0.0009483877802267671,
+      "learning_rate": 0.001282245847470137,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 49691648,
+      "step": 38335
+    },
+    {
+      "epoch": 1.87332958737449,
+      "grad_norm": 0.0009772686753422022,
+      "learning_rate": 0.001274571745243319,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 49698016,
+      "step": 38340
+    },
+    {
+      "epoch": 1.8735738890381843,
+      "grad_norm": 0.0010439205216243863,
+      "learning_rate": 0.0012669205783465364,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 49704384,
+      "step": 38345
+    },
+    {
+      "epoch": 1.8738181907018787,
+      "grad_norm": 0.0017892169998958707,
+      "learning_rate": 0.001259292347959695,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 49710880,
+      "step": 38350
+    },
+    {
+      "epoch": 1.874062492365573,
+      "grad_norm": 0.001252001035027206,
+      "learning_rate": 0.0012516870552591707,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 49717216,
+      "step": 38355
+    },
+    {
+      "epoch": 1.8743067940292675,
+      "grad_norm": 0.0015551429241895676,
+      "learning_rate": 0.001244104701417792,
+      "loss": 0.077,
+      "num_input_tokens_seen": 49723712,
+      "step": 38360
+    },
+    {
+      "epoch": 1.8745510956929616,
+      "grad_norm": 0.001704273745417595,
+      "learning_rate": 0.0012365452876048565,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 49730272,
+      "step": 38365
+    },
+    {
+      "epoch": 1.874795397356656,
+      "grad_norm": 0.0012875802349299192,
+      "learning_rate": 0.001229008814986099,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 49736640,
+      "step": 38370
+    },
+    {
+      "epoch": 1.8750396990203502,
+      "grad_norm": 0.002072545699775219,
+      "learning_rate": 0.0012214952847237725,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 49743008,
+      "step": 38375
+    },
+    {
+      "epoch": 1.8752840006840445,
+      "grad_norm": 0.002432707929983735,
+      "learning_rate": 0.0012140046979765339,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 49749408,
+      "step": 38380
+    },
+    {
+      "epoch": 1.875528302347739,
+      "grad_norm": 0.001027593039907515,
+      "learning_rate": 0.0012065370558995258,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 49756288,
+      "step": 38385
+    },
+    {
+      "epoch": 1.8757726040114333,
+      "grad_norm": 0.001235651783645153,
+      "learning_rate": 0.0011990923596443602,
+      "loss": 0.0602,
+      "num_input_tokens_seen": 49763104,
+      "step": 38390
+    },
+    {
+      "epoch": 1.8760169056751277,
+      "grad_norm": 0.0017129236366599798,
+      "learning_rate": 0.001191670610359119,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 49769376,
+      "step": 38395
+    },
+    {
+      "epoch": 1.876261207338822,
+      "grad_norm": 0.001467698602937162,
+      "learning_rate": 0.0011842718091882865,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 49775776,
+      "step": 38400
+    },
+    {
+      "epoch": 1.876261207338822,
+      "eval_loss": 0.08336079865694046,
+      "eval_runtime": 401.8571,
+      "eval_samples_per_second": 90.542,
+      "eval_steps_per_second": 22.637,
+      "num_input_tokens_seen": 49775776,
+      "step": 38400
+    },
+    {
+      "epoch": 1.8765055090025164,
+      "grad_norm": 0.0012793041532859206,
+      "learning_rate": 0.0011768959572729,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 49782016,
+      "step": 38405
+    },
+    {
+      "epoch": 1.8767498106662106,
+      "grad_norm": 0.0009660903015173972,
+      "learning_rate": 0.001169543055750366,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 49788448,
+      "step": 38410
+    },
+    {
+      "epoch": 1.876994112329905,
+      "grad_norm": 0.0022102538496255875,
+      "learning_rate": 0.0011622131057546115,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 49795072,
+      "step": 38415
+    },
+    {
+      "epoch": 1.8772384139935991,
+      "grad_norm": 0.0014499177923426032,
+      "learning_rate": 0.0011549061084160316,
+      "loss": 0.108,
+      "num_input_tokens_seen": 49801376,
+      "step": 38420
+    },
+    {
+      "epoch": 1.8774827156572935,
+      "grad_norm": 0.0013569273287430406,
+      "learning_rate": 0.0011476220648614088,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 49807648,
+      "step": 38425
+    },
+    {
+      "epoch": 1.877727017320988,
+      "grad_norm": 0.0017800208879634738,
+      "learning_rate": 0.0011403609762140777,
+      "loss": 0.075,
+      "num_input_tokens_seen": 49814528,
+      "step": 38430
+    },
+    {
+      "epoch": 1.8779713189846823,
+      "grad_norm": 0.0014522639103233814,
+      "learning_rate": 0.0011331228435937756,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 49821248,
+      "step": 38435
+    },
+    {
+      "epoch": 1.8782156206483767,
+      "grad_norm": 0.0012691058218479156,
+      "learning_rate": 0.0011259076681166935,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 49827456,
+      "step": 38440
+    },
+    {
+      "epoch": 1.878459922312071,
+      "grad_norm": 0.0016518669435754418,
+      "learning_rate": 0.0011187154508955244,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 49833952,
+      "step": 38445
+    },
+    {
+      "epoch": 1.8787042239757654,
+      "grad_norm": 0.0017551897326484323,
+      "learning_rate": 0.001111546193039381,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 49840640,
+      "step": 38450
+    },
+    {
+      "epoch": 1.8789485256394596,
+      "grad_norm": 0.0019732152577489614,
+      "learning_rate": 0.0011043998956538792,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 49847008,
+      "step": 38455
+    },
+    {
+      "epoch": 1.879192827303154,
+      "grad_norm": 0.0014223293401300907,
+      "learning_rate": 0.0010972765598410538,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 49853376,
+      "step": 38460
+    },
+    {
+      "epoch": 1.8794371289668481,
+      "grad_norm": 0.002059915103018284,
+      "learning_rate": 0.0010901761866993931,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 49859936,
+      "step": 38465
+    },
+    {
+      "epoch": 1.8796814306305425,
+      "grad_norm": 0.0023333800490945578,
+      "learning_rate": 0.0010830987773238876,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 49866656,
+      "step": 38470
+    },
+    {
+      "epoch": 1.8799257322942369,
+      "grad_norm": 0.0021015028469264507,
+      "learning_rate": 0.0010760443328059644,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 49872928,
+      "step": 38475
+    },
+    {
+      "epoch": 1.8801700339579313,
+      "grad_norm": 0.0018188826506957412,
+      "learning_rate": 0.001069012854233503,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 49879456,
+      "step": 38480
+    },
+    {
+      "epoch": 1.8804143356216256,
+      "grad_norm": 0.0016130603617057204,
+      "learning_rate": 0.0010620043426908365,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 49886496,
+      "step": 38485
+    },
+    {
+      "epoch": 1.88065863728532,
+      "grad_norm": 0.001605330966413021,
+      "learning_rate": 0.0010550187992587833,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 49893312,
+      "step": 38490
+    },
+    {
+      "epoch": 1.8809029389490144,
+      "grad_norm": 0.001470236573368311,
+      "learning_rate": 0.0010480562250145653,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 49899520,
+      "step": 38495
+    },
+    {
+      "epoch": 1.8811472406127085,
+      "grad_norm": 0.0023112983908504248,
+      "learning_rate": 0.0010411166210319567,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 49906048,
+      "step": 38500
+    },
+    {
+      "epoch": 1.881391542276403,
+      "grad_norm": 0.0020312070846557617,
+      "learning_rate": 0.0010341999883810848,
+      "loss": 0.0602,
+      "num_input_tokens_seen": 49912288,
+      "step": 38505
+    },
+    {
+      "epoch": 1.881635843940097,
+      "grad_norm": 0.00169869523961097,
+      "learning_rate": 0.0010273063281285965,
+      "loss": 0.099,
+      "num_input_tokens_seen": 49919008,
+      "step": 38510
+    },
+    {
+      "epoch": 1.8818801456037915,
+      "grad_norm": 0.0011436032364144921,
+      "learning_rate": 0.0010204356413375747,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 49925248,
+      "step": 38515
+    },
+    {
+      "epoch": 1.8821244472674858,
+      "grad_norm": 0.0018355746287852526,
+      "learning_rate": 0.001013587929067572,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 49931296,
+      "step": 38520
+    },
+    {
+      "epoch": 1.8823687489311802,
+      "grad_norm": 0.0009352895431220531,
+      "learning_rate": 0.00100676319237461,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 49937568,
+      "step": 38525
+    },
+    {
+      "epoch": 1.8826130505948746,
+      "grad_norm": 0.0014141614083200693,
+      "learning_rate": 0.0009999614323110972,
+      "loss": 0.083,
+      "num_input_tokens_seen": 49944544,
+      "step": 38530
+    },
+    {
+      "epoch": 1.882857352258569,
+      "grad_norm": 0.0008962914580479264,
+      "learning_rate": 0.000993182649926011,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 49951392,
+      "step": 38535
+    },
+    {
+      "epoch": 1.8831016539222634,
+      "grad_norm": 0.0013049569679424167,
+      "learning_rate": 0.000986426846264682,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 49957824,
+      "step": 38540
+    },
+    {
+      "epoch": 1.8833459555859575,
+      "grad_norm": 0.0016247910680249333,
+      "learning_rate": 0.00097969402236896,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 49964640,
+      "step": 38545
+    },
+    {
+      "epoch": 1.883590257249652,
+      "grad_norm": 0.0018403180874884129,
+      "learning_rate": 0.0009729841792771143,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 49971136,
+      "step": 38550
+    },
+    {
+      "epoch": 1.883834558913346,
+      "grad_norm": 0.0020664501935243607,
+      "learning_rate": 0.0009662973180239176,
+      "loss": 0.112,
+      "num_input_tokens_seen": 49977408,
+      "step": 38555
+    },
+    {
+      "epoch": 1.8840788605770404,
+      "grad_norm": 0.0019778453279286623,
+      "learning_rate": 0.0009596334396405448,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 49983680,
+      "step": 38560
+    },
+    {
+      "epoch": 1.8843231622407348,
+      "grad_norm": 0.002230504062026739,
+      "learning_rate": 0.0009529925451546406,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 49990144,
+      "step": 38565
+    },
+    {
+      "epoch": 1.8845674639044292,
+      "grad_norm": 0.0008984023588709533,
+      "learning_rate": 0.0009463746355903357,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 49996640,
+      "step": 38570
+    },
+    {
+      "epoch": 1.8848117655681236,
+      "grad_norm": 0.0026623932644724846,
+      "learning_rate": 0.0009397797119681971,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 50003296,
+      "step": 38575
+    },
+    {
+      "epoch": 1.885056067231818,
+      "grad_norm": 0.001529203960672021,
+      "learning_rate": 0.0009332077753052281,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 50009920,
+      "step": 38580
+    },
+    {
+      "epoch": 1.8853003688955123,
+      "grad_norm": 0.0011919738026335835,
+      "learning_rate": 0.0009266588266149011,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 50016672,
+      "step": 38585
+    },
+    {
+      "epoch": 1.8855446705592065,
+      "grad_norm": 0.0012661145301535726,
+      "learning_rate": 0.0009201328669071584,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 50023072,
+      "step": 38590
+    },
+    {
+      "epoch": 1.8857889722229009,
+      "grad_norm": 0.0023974482901394367,
+      "learning_rate": 0.0009136298971883949,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 50029600,
+      "step": 38595
+    },
+    {
+      "epoch": 1.886033273886595,
+      "grad_norm": 0.0012652986915782094,
+      "learning_rate": 0.0009071499184614251,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 50036384,
+      "step": 38600
+    },
+    {
+      "epoch": 1.886033273886595,
+      "eval_loss": 0.08342919498682022,
+      "eval_runtime": 402.2484,
+      "eval_samples_per_second": 90.454,
+      "eval_steps_per_second": 22.615,
+      "num_input_tokens_seen": 50036384,
+      "step": 38600
+    },
+    {
+      "epoch": 1.8862775755502894,
+      "grad_norm": 0.001504500862210989,
+      "learning_rate": 0.0009006929317255663,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 50042752,
+      "step": 38605
+    },
+    {
+      "epoch": 1.8865218772139838,
+      "grad_norm": 0.0008777306065894663,
+      "learning_rate": 0.0008942589379765387,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 50048928,
+      "step": 38610
+    },
+    {
+      "epoch": 1.8867661788776782,
+      "grad_norm": 0.0008751774439588189,
+      "learning_rate": 0.0008878479382065817,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 50055424,
+      "step": 38615
+    },
+    {
+      "epoch": 1.8870104805413725,
+      "grad_norm": 0.0016626009019091725,
+      "learning_rate": 0.0008814599334043215,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 50061568,
+      "step": 38620
+    },
+    {
+      "epoch": 1.887254782205067,
+      "grad_norm": 0.001842924510128796,
+      "learning_rate": 0.0008750949245548866,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 50067712,
+      "step": 38625
+    },
+    {
+      "epoch": 1.8874990838687613,
+      "grad_norm": 0.0013542131055146456,
+      "learning_rate": 0.0008687529126398252,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 50073888,
+      "step": 38630
+    },
+    {
+      "epoch": 1.8877433855324555,
+      "grad_norm": 0.0014537409879267216,
+      "learning_rate": 0.0008624338986371715,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 50080256,
+      "step": 38635
+    },
+    {
+      "epoch": 1.8879876871961498,
+      "grad_norm": 0.001206149929203093,
+      "learning_rate": 0.0008561378835213962,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 50086752,
+      "step": 38640
+    },
+    {
+      "epoch": 1.888231988859844,
+      "grad_norm": 0.001394058228470385,
+      "learning_rate": 0.0008498648682634058,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 50093632,
+      "step": 38645
+    },
+    {
+      "epoch": 1.8884762905235384,
+      "grad_norm": 0.0010956706246361136,
+      "learning_rate": 0.0008436148538306099,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 50100736,
+      "step": 38650
+    },
+    {
+      "epoch": 1.8887205921872328,
+      "grad_norm": 0.0019996289629489183,
+      "learning_rate": 0.0008373878411868041,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 50107232,
+      "step": 38655
+    },
+    {
+      "epoch": 1.8889648938509271,
+      "grad_norm": 0.0009042808087542653,
+      "learning_rate": 0.000831183831292287,
+      "loss": 0.072,
+      "num_input_tokens_seen": 50113728,
+      "step": 38660
+    },
+    {
+      "epoch": 1.8892091955146215,
+      "grad_norm": 0.0008238825830630958,
+      "learning_rate": 0.0008250028251037933,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 50120192,
+      "step": 38665
+    },
+    {
+      "epoch": 1.889453497178316,
+      "grad_norm": 0.0008596939733251929,
+      "learning_rate": 0.0008188448235745271,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 50126208,
+      "step": 38670
+    },
+    {
+      "epoch": 1.8896977988420103,
+      "grad_norm": 0.0012569722020998597,
+      "learning_rate": 0.0008127098276541122,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 50132896,
+      "step": 38675
+    },
+    {
+      "epoch": 1.8899421005057044,
+      "grad_norm": 0.0012977187288925052,
+      "learning_rate": 0.0008065978382886418,
+      "loss": 0.09,
+      "num_input_tokens_seen": 50139328,
+      "step": 38680
+    },
+    {
+      "epoch": 1.8901864021693988,
+      "grad_norm": 0.0012436701217666268,
+      "learning_rate": 0.0008005088564206785,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 50145216,
+      "step": 38685
+    },
+    {
+      "epoch": 1.890430703833093,
+      "grad_norm": 0.0008105356246232986,
+      "learning_rate": 0.0007944428829891881,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 50152992,
+      "step": 38690
+    },
+    {
+      "epoch": 1.8906750054967874,
+      "grad_norm": 0.0012613266007974744,
+      "learning_rate": 0.0007883999189296386,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 50159680,
+      "step": 38695
+    },
+    {
+      "epoch": 1.8909193071604817,
+      "grad_norm": 0.001651573576964438,
+      "learning_rate": 0.0007823799651739515,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 50166368,
+      "step": 38700
+    },
+    {
+      "epoch": 1.8911636088241761,
+      "grad_norm": 0.0010180219542235136,
+      "learning_rate": 0.0007763830226504509,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 50173024,
+      "step": 38705
+    },
+    {
+      "epoch": 1.8914079104878705,
+      "grad_norm": 0.0013151437742635608,
+      "learning_rate": 0.0007704090922839468,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 50179456,
+      "step": 38710
+    },
+    {
+      "epoch": 1.8916522121515649,
+      "grad_norm": 0.0017500873655080795,
+      "learning_rate": 0.0007644581749957025,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 50185920,
+      "step": 38715
+    },
+    {
+      "epoch": 1.891896513815259,
+      "grad_norm": 0.002512756735086441,
+      "learning_rate": 0.000758530271703417,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 50192448,
+      "step": 38720
+    },
+    {
+      "epoch": 1.8921408154789534,
+      "grad_norm": 0.0018648153636604548,
+      "learning_rate": 0.0007526253833212426,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 50199200,
+      "step": 38725
+    },
+    {
+      "epoch": 1.8923851171426478,
+      "grad_norm": 0.0011783173540607095,
+      "learning_rate": 0.0007467435107598008,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 50205760,
+      "step": 38730
+    },
+    {
+      "epoch": 1.892629418806342,
+      "grad_norm": 0.0011781023349612951,
+      "learning_rate": 0.0007408846549261328,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 50212352,
+      "step": 38735
+    },
+    {
+      "epoch": 1.8928737204700363,
+      "grad_norm": 0.0009322012774646282,
+      "learning_rate": 0.0007350488167237656,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 50219232,
+      "step": 38740
+    },
+    {
+      "epoch": 1.8931180221337307,
+      "grad_norm": 0.0014702717307955027,
+      "learning_rate": 0.0007292359970526629,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 50225440,
+      "step": 38745
+    },
+    {
+      "epoch": 1.893362323797425,
+      "grad_norm": 0.0016196670476347208,
+      "learning_rate": 0.0007234461968092076,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 50232064,
+      "step": 38750
+    },
+    {
+      "epoch": 1.8936066254611195,
+      "grad_norm": 0.0017132462235167623,
+      "learning_rate": 0.0007176794168862854,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 50238720,
+      "step": 38755
+    },
+    {
+      "epoch": 1.8938509271248138,
+      "grad_norm": 0.0011550731724128127,
+      "learning_rate": 0.000711935658173185,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 50245440,
+      "step": 38760
+    },
+    {
+      "epoch": 1.894095228788508,
+      "grad_norm": 0.0011053637135773897,
+      "learning_rate": 0.0007062149215556812,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 50251936,
+      "step": 38765
+    },
+    {
+      "epoch": 1.8943395304522024,
+      "grad_norm": 0.0009143630159087479,
+      "learning_rate": 0.0007005172079159849,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 50258912,
+      "step": 38770
+    },
+    {
+      "epoch": 1.8945838321158968,
+      "grad_norm": 0.002229492412880063,
+      "learning_rate": 0.0006948425181327267,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 50265600,
+      "step": 38775
+    },
+    {
+      "epoch": 1.894828133779591,
+      "grad_norm": 0.001350597944110632,
+      "learning_rate": 0.000689190853081073,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 50272128,
+      "step": 38780
+    },
+    {
+      "epoch": 1.8950724354432853,
+      "grad_norm": 0.0009147960226982832,
+      "learning_rate": 0.000683562213632527,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 50278720,
+      "step": 38785
+    },
+    {
+      "epoch": 1.8953167371069797,
+      "grad_norm": 0.0009264491382054985,
+      "learning_rate": 0.0006779566006551108,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 50285504,
+      "step": 38790
+    },
+    {
+      "epoch": 1.895561038770674,
+      "grad_norm": 0.002339794300496578,
+      "learning_rate": 0.0006723740150132995,
+      "loss": 0.081,
+      "num_input_tokens_seen": 50292128,
+      "step": 38795
+    },
+    {
+      "epoch": 1.8958053404343684,
+      "grad_norm": 0.0012016583932563663,
+      "learning_rate": 0.0006668144575679713,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 50298720,
+      "step": 38800
+    },
+    {
+      "epoch": 1.8958053404343684,
+      "eval_loss": 0.08346465975046158,
+      "eval_runtime": 401.7742,
+      "eval_samples_per_second": 90.561,
+      "eval_steps_per_second": 22.642,
+      "num_input_tokens_seen": 50298720,
+      "step": 38800
+    },
+    {
+      "epoch": 1.8960496420980628,
+      "grad_norm": 0.0015116985887289047,
+      "learning_rate": 0.0006612779291765069,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 50305440,
+      "step": 38805
+    },
+    {
+      "epoch": 1.896293943761757,
+      "grad_norm": 0.0018948332872241735,
+      "learning_rate": 0.0006557644306926736,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 50311936,
+      "step": 38810
+    },
+    {
+      "epoch": 1.8965382454254514,
+      "grad_norm": 0.0007842591730877757,
+      "learning_rate": 0.0006502739629667575,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 50318432,
+      "step": 38815
+    },
+    {
+      "epoch": 1.8967825470891457,
+      "grad_norm": 0.0010888047982007265,
+      "learning_rate": 0.0006448065268454317,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 50324928,
+      "step": 38820
+    },
+    {
+      "epoch": 1.89702684875284,
+      "grad_norm": 0.002588969422504306,
+      "learning_rate": 0.0006393621231718549,
+      "loss": 0.117,
+      "num_input_tokens_seen": 50331424,
+      "step": 38825
+    },
+    {
+      "epoch": 1.8972711504165343,
+      "grad_norm": 0.0019058637553825974,
+      "learning_rate": 0.0006339407527856389,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 50337696,
+      "step": 38830
+    },
+    {
+      "epoch": 1.8975154520802286,
+      "grad_norm": 0.0013886464294046164,
+      "learning_rate": 0.0006285424165227982,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 50344608,
+      "step": 38835
+    },
+    {
+      "epoch": 1.897759753743923,
+      "grad_norm": 0.0014158434933051467,
+      "learning_rate": 0.0006231671152158169,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 50351904,
+      "step": 38840
+    },
+    {
+      "epoch": 1.8980040554076174,
+      "grad_norm": 0.001239896984770894,
+      "learning_rate": 0.0006178148496936819,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 50357920,
+      "step": 38845
+    },
+    {
+      "epoch": 1.8982483570713118,
+      "grad_norm": 0.0013788114301860332,
+      "learning_rate": 0.000612485620781733,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 50363936,
+      "step": 38850
+    },
+    {
+      "epoch": 1.898492658735006,
+      "grad_norm": 0.0012497827410697937,
+      "learning_rate": 0.0006071794293018296,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 50370784,
+      "step": 38855
+    },
+    {
+      "epoch": 1.8987369603987003,
+      "grad_norm": 0.0016660415567457676,
+      "learning_rate": 0.0006018962760722501,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 50376960,
+      "step": 38860
+    },
+    {
+      "epoch": 1.8989812620623945,
+      "grad_norm": 0.0017763037467375398,
+      "learning_rate": 0.0005966361619077098,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 50383584,
+      "step": 38865
+    },
+    {
+      "epoch": 1.8992255637260889,
+      "grad_norm": 0.0013449377147480845,
+      "learning_rate": 0.000591399087619393,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 50390496,
+      "step": 38870
+    },
+    {
+      "epoch": 1.8994698653897832,
+      "grad_norm": 0.002246580319479108,
+      "learning_rate": 0.0005861850540149371,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 50396704,
+      "step": 38875
+    },
+    {
+      "epoch": 1.8997141670534776,
+      "grad_norm": 0.001256345771253109,
+      "learning_rate": 0.0005809940618983822,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 50403264,
+      "step": 38880
+    },
+    {
+      "epoch": 1.899958468717172,
+      "grad_norm": 0.0015022734878584743,
+      "learning_rate": 0.0005758261120702712,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 50410208,
+      "step": 38885
+    },
+    {
+      "epoch": 1.9002027703808664,
+      "grad_norm": 0.0006697920034639537,
+      "learning_rate": 0.0005706812053275501,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 50416736,
+      "step": 38890
+    },
+    {
+      "epoch": 1.9004470720445608,
+      "grad_norm": 0.002598490798845887,
+      "learning_rate": 0.0005655593424636173,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 50423360,
+      "step": 38895
+    },
+    {
+      "epoch": 1.900691373708255,
+      "grad_norm": 0.0014705253997817636,
+      "learning_rate": 0.0005604605242683746,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 50430208,
+      "step": 38900
+    },
+    {
+      "epoch": 1.9009356753719493,
+      "grad_norm": 0.0010710915084928274,
+      "learning_rate": 0.0005553847515280596,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 50436928,
+      "step": 38905
+    },
+    {
+      "epoch": 1.9011799770356435,
+      "grad_norm": 0.00158511265181005,
+      "learning_rate": 0.0005503320250254795,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 50443104,
+      "step": 38910
+    },
+    {
+      "epoch": 1.9014242786993378,
+      "grad_norm": 0.0010551685700193048,
+      "learning_rate": 0.0005453023455397943,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 50449824,
+      "step": 38915
+    },
+    {
+      "epoch": 1.9016685803630322,
+      "grad_norm": 0.0011935323709622025,
+      "learning_rate": 0.0005402957138466502,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 50456640,
+      "step": 38920
+    },
+    {
+      "epoch": 1.9019128820267266,
+      "grad_norm": 0.0024107072968035936,
+      "learning_rate": 0.0005353121307181463,
+      "loss": 0.087,
+      "num_input_tokens_seen": 50463488,
+      "step": 38925
+    },
+    {
+      "epoch": 1.902157183690421,
+      "grad_norm": 0.0014778648037463427,
+      "learning_rate": 0.0005303515969227845,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 50469664,
+      "step": 38930
+    },
+    {
+      "epoch": 1.9024014853541154,
+      "grad_norm": 0.0011161259608343244,
+      "learning_rate": 0.0005254141132255862,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 50476288,
+      "step": 38935
+    },
+    {
+      "epoch": 1.9026457870178097,
+      "grad_norm": 0.0021839241962879896,
+      "learning_rate": 0.0005204996803879258,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 50482688,
+      "step": 38940
+    },
+    {
+      "epoch": 1.9028900886815039,
+      "grad_norm": 0.0012512897374108434,
+      "learning_rate": 0.0005156082991676969,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 50488960,
+      "step": 38945
+    },
+    {
+      "epoch": 1.9031343903451983,
+      "grad_norm": 0.000992674264125526,
+      "learning_rate": 0.0005107399703192127,
+      "loss": 0.064,
+      "num_input_tokens_seen": 50495488,
+      "step": 38950
+    },
+    {
+      "epoch": 1.9033786920088924,
+      "grad_norm": 0.0010819289600476623,
+      "learning_rate": 0.0005058946945932063,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 50502336,
+      "step": 38955
+    },
+    {
+      "epoch": 1.9036229936725868,
+      "grad_norm": 0.0009653886663727462,
+      "learning_rate": 0.0005010724727369131,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 50508576,
+      "step": 38960
+    },
+    {
+      "epoch": 1.9038672953362812,
+      "grad_norm": 0.0010961830848827958,
+      "learning_rate": 0.000496273305493955,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 50515232,
+      "step": 38965
+    },
+    {
+      "epoch": 1.9041115969999756,
+      "grad_norm": 0.0013858421007171273,
+      "learning_rate": 0.0004914971936044399,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 50521376,
+      "step": 38970
+    },
+    {
+      "epoch": 1.90435589866367,
+      "grad_norm": 0.0013842876069247723,
+      "learning_rate": 0.00048674413780491196,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 50527904,
+      "step": 38975
+    },
+    {
+      "epoch": 1.9046002003273643,
+      "grad_norm": 0.0015727211721241474,
+      "learning_rate": 0.0004820141388283183,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 50534592,
+      "step": 38980
+    },
+    {
+      "epoch": 1.9048445019910587,
+      "grad_norm": 0.0010753544047474861,
+      "learning_rate": 0.00047730719740410874,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 50541088,
+      "step": 38985
+    },
+    {
+      "epoch": 1.9050888036547529,
+      "grad_norm": 0.0012616509338840842,
+      "learning_rate": 0.00047262331425816927,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 50547488,
+      "step": 38990
+    },
+    {
+      "epoch": 1.9053331053184472,
+      "grad_norm": 0.0011702267220243812,
+      "learning_rate": 0.00046796249011277213,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 50554112,
+      "step": 38995
+    },
+    {
+      "epoch": 1.9055774069821414,
+      "grad_norm": 0.0012160316109657288,
+      "learning_rate": 0.00046332472568669236,
+      "loss": 0.082,
+      "num_input_tokens_seen": 50560704,
+      "step": 39000
+    },
+    {
+      "epoch": 1.9055774069821414,
+      "eval_loss": 0.08352769911289215,
+      "eval_runtime": 402.2526,
+      "eval_samples_per_second": 90.453,
+      "eval_steps_per_second": 22.615,
+      "num_input_tokens_seen": 50560704,
+      "step": 39000
+    },
+    {
+      "epoch": 1.9058217086458358,
+      "grad_norm": 0.0016057598404586315,
+      "learning_rate": 0.0004587100216951578,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 50567296,
+      "step": 39005
+    },
+    {
+      "epoch": 1.9060660103095302,
+      "grad_norm": 0.001419192529283464,
+      "learning_rate": 0.00045411837884978265,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 50573888,
+      "step": 39010
+    },
+    {
+      "epoch": 1.9063103119732245,
+      "grad_norm": 0.001009492320008576,
+      "learning_rate": 0.00044954979785865045,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 50580192,
+      "step": 39015
+    },
+    {
+      "epoch": 1.906554613636919,
+      "grad_norm": 0.0021873617079108953,
+      "learning_rate": 0.00044500427942631426,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 50586432,
+      "step": 39020
+    },
+    {
+      "epoch": 1.9067989153006133,
+      "grad_norm": 0.0011966880410909653,
+      "learning_rate": 0.0004404818242537467,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 50593120,
+      "step": 39025
+    },
+    {
+      "epoch": 1.9070432169643077,
+      "grad_norm": 0.00128910131752491,
+      "learning_rate": 0.00043598243303837324,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 50599264,
+      "step": 39030
+    },
+    {
+      "epoch": 1.9072875186280018,
+      "grad_norm": 0.0017264753114432096,
+      "learning_rate": 0.00043150610647403885,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 50605952,
+      "step": 39035
+    },
+    {
+      "epoch": 1.9075318202916962,
+      "grad_norm": 0.0011551899369806051,
+      "learning_rate": 0.00042705284525104134,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 50612576,
+      "step": 39040
+    },
+    {
+      "epoch": 1.9077761219553904,
+      "grad_norm": 0.0010033752769231796,
+      "learning_rate": 0.0004226226500561647,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 50618880,
+      "step": 39045
+    },
+    {
+      "epoch": 1.9080204236190847,
+      "grad_norm": 0.001966457348316908,
+      "learning_rate": 0.0004182155215725791,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 50625280,
+      "step": 39050
+    },
+    {
+      "epoch": 1.9082647252827791,
+      "grad_norm": 0.001771910465322435,
+      "learning_rate": 0.00041383146047992424,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 50631456,
+      "step": 39055
+    },
+    {
+      "epoch": 1.9085090269464735,
+      "grad_norm": 0.0018967220094054937,
+      "learning_rate": 0.00040947046745427597,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 50638048,
+      "step": 39060
+    },
+    {
+      "epoch": 1.9087533286101679,
+      "grad_norm": 0.0016959296772256494,
+      "learning_rate": 0.00040513254316814625,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 50644800,
+      "step": 39065
+    },
+    {
+      "epoch": 1.9089976302738623,
+      "grad_norm": 0.0015253580641001463,
+      "learning_rate": 0.0004008176882905168,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 50651008,
+      "step": 39070
+    },
+    {
+      "epoch": 1.9092419319375566,
+      "grad_norm": 0.0013509616255760193,
+      "learning_rate": 0.00039652590348677184,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 50657312,
+      "step": 39075
+    },
+    {
+      "epoch": 1.9094862336012508,
+      "grad_norm": 0.0008953963406383991,
+      "learning_rate": 0.00039225718941878206,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 50663872,
+      "step": 39080
+    },
+    {
+      "epoch": 1.9097305352649452,
+      "grad_norm": 0.0010023227659985423,
+      "learning_rate": 0.00038801154674480417,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 50670752,
+      "step": 39085
+    },
+    {
+      "epoch": 1.9099748369286393,
+      "grad_norm": 0.0015580648323521018,
+      "learning_rate": 0.00038378897611959784,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 50677184,
+      "step": 39090
+    },
+    {
+      "epoch": 1.9102191385923337,
+      "grad_norm": 0.002162869554013014,
+      "learning_rate": 0.00037958947819430875,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 50684128,
+      "step": 39095
+    },
+    {
+      "epoch": 1.910463440256028,
+      "grad_norm": 0.0009535101125948131,
+      "learning_rate": 0.0003754130536165856,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 50690752,
+      "step": 39100
+    },
+    {
+      "epoch": 1.9107077419197225,
+      "grad_norm": 0.0016965123359113932,
+      "learning_rate": 0.0003712597030304632,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 50697504,
+      "step": 39105
+    },
+    {
+      "epoch": 1.9109520435834169,
+      "grad_norm": 0.0008283084607683122,
+      "learning_rate": 0.00036712942707646247,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 50704480,
+      "step": 39110
+    },
+    {
+      "epoch": 1.9111963452471112,
+      "grad_norm": 0.0013071782886981964,
+      "learning_rate": 0.00036302222639149063,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 50710944,
+      "step": 39115
+    },
+    {
+      "epoch": 1.9114406469108056,
+      "grad_norm": 0.0010700508719310164,
+      "learning_rate": 0.000358938101608941,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 50716896,
+      "step": 39120
+    },
+    {
+      "epoch": 1.9116849485744998,
+      "grad_norm": 0.001290413667447865,
+      "learning_rate": 0.0003548770533586598,
+      "loss": 0.094,
+      "num_input_tokens_seen": 50723424,
+      "step": 39125
+    },
+    {
+      "epoch": 1.9119292502381942,
+      "grad_norm": 0.002023292239755392,
+      "learning_rate": 0.0003508390822668961,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 50729760,
+      "step": 39130
+    },
+    {
+      "epoch": 1.9121735519018883,
+      "grad_norm": 0.0006425651954486966,
+      "learning_rate": 0.00034682418895633503,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 50736416,
+      "step": 39135
+    },
+    {
+      "epoch": 1.9124178535655827,
+      "grad_norm": 0.0007187841110862792,
+      "learning_rate": 0.0003428323740461647,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 50743168,
+      "step": 39140
+    },
+    {
+      "epoch": 1.912662155229277,
+      "grad_norm": 0.0013909941771999002,
+      "learning_rate": 0.00033886363815194276,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 50749344,
+      "step": 39145
+    },
+    {
+      "epoch": 1.9129064568929715,
+      "grad_norm": 0.001394927967339754,
+      "learning_rate": 0.0003349179818857129,
+      "loss": 0.095,
+      "num_input_tokens_seen": 50755744,
+      "step": 39150
+    },
+    {
+      "epoch": 1.9131507585566658,
+      "grad_norm": 0.0012980102328583598,
+      "learning_rate": 0.0003309954058559383,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 50761792,
+      "step": 39155
+    },
+    {
+      "epoch": 1.9133950602203602,
+      "grad_norm": 0.0016450684051960707,
+      "learning_rate": 0.0003270959106675186,
+      "loss": 0.076,
+      "num_input_tokens_seen": 50768192,
+      "step": 39160
+    },
+    {
+      "epoch": 1.9136393618840546,
+      "grad_norm": 0.001098791602998972,
+      "learning_rate": 0.0003232194969218227,
+      "loss": 0.092,
+      "num_input_tokens_seen": 50774496,
+      "step": 39165
+    },
+    {
+      "epoch": 1.9138836635477487,
+      "grad_norm": 0.0011655592825263739,
+      "learning_rate": 0.00031936616521663905,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 50781120,
+      "step": 39170
+    },
+    {
+      "epoch": 1.9141279652114431,
+      "grad_norm": 0.001157216727733612,
+      "learning_rate": 0.00031553591614619236,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 50787872,
+      "step": 39175
+    },
+    {
+      "epoch": 1.9143722668751373,
+      "grad_norm": 0.0017004822148010135,
+      "learning_rate": 0.00031172875030117676,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 50794816,
+      "step": 39180
+    },
+    {
+      "epoch": 1.9146165685388317,
+      "grad_norm": 0.001033041742630303,
+      "learning_rate": 0.0003079446682686726,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 50801184,
+      "step": 39185
+    },
+    {
+      "epoch": 1.914860870202526,
+      "grad_norm": 0.0013934376183897257,
+      "learning_rate": 0.0003041836706322465,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 50807744,
+      "step": 39190
+    },
+    {
+      "epoch": 1.9151051718662204,
+      "grad_norm": 0.0011582054430618882,
+      "learning_rate": 0.0003004457579719011,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 50813984,
+      "step": 39195
+    },
+    {
+      "epoch": 1.9153494735299148,
+      "grad_norm": 0.0011286742519587278,
+      "learning_rate": 0.00029673093086405867,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 50820416,
+      "step": 39200
+    },
+    {
+      "epoch": 1.9153494735299148,
+      "eval_loss": 0.08342854678630829,
+      "eval_runtime": 402.4086,
+      "eval_samples_per_second": 90.418,
+      "eval_steps_per_second": 22.606,
+      "num_input_tokens_seen": 50820416,
+      "step": 39200
+    },
+    {
+      "epoch": 1.9155937751936092,
+      "grad_norm": 0.000654987059533596,
+      "learning_rate": 0.00029303918988159426,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 50826816,
+      "step": 39205
+    },
+    {
+      "epoch": 1.9158380768573036,
+      "grad_norm": 0.0014937109081074595,
+      "learning_rate": 0.0002893705355938192,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 50833376,
+      "step": 39210
+    },
+    {
+      "epoch": 1.9160823785209977,
+      "grad_norm": 0.0016937509644776583,
+      "learning_rate": 0.0002857249685664975,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 50839936,
+      "step": 39215
+    },
+    {
+      "epoch": 1.916326680184692,
+      "grad_norm": 0.0019229995086789131,
+      "learning_rate": 0.0002821024893618129,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 50846208,
+      "step": 39220
+    },
+    {
+      "epoch": 1.9165709818483863,
+      "grad_norm": 0.0014812445733696222,
+      "learning_rate": 0.0002785030985383852,
+      "loss": 0.0602,
+      "num_input_tokens_seen": 50852864,
+      "step": 39225
+    },
+    {
+      "epoch": 1.9168152835120806,
+      "grad_norm": 0.0019394431728869677,
+      "learning_rate": 0.00027492679665130356,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 50859232,
+      "step": 39230
+    },
+    {
+      "epoch": 1.917059585175775,
+      "grad_norm": 0.0020534491632133722,
+      "learning_rate": 0.000271373584252077,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 50865856,
+      "step": 39235
+    },
+    {
+      "epoch": 1.9173038868394694,
+      "grad_norm": 0.0015977972652763128,
+      "learning_rate": 0.00026784346188865046,
+      "loss": 0.084,
+      "num_input_tokens_seen": 50872192,
+      "step": 39240
+    },
+    {
+      "epoch": 1.9175481885031638,
+      "grad_norm": 0.0009631086722947657,
+      "learning_rate": 0.0002643364301054218,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 50878752,
+      "step": 39245
+    },
+    {
+      "epoch": 1.9177924901668582,
+      "grad_norm": 0.0020411775913089514,
+      "learning_rate": 0.0002608524894431918,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 50885280,
+      "step": 39250
+    },
+    {
+      "epoch": 1.9180367918305523,
+      "grad_norm": 0.0013910261914134026,
+      "learning_rate": 0.000257391640439264,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 50891616,
+      "step": 39255
+    },
+    {
+      "epoch": 1.9182810934942467,
+      "grad_norm": 0.0009823169093579054,
+      "learning_rate": 0.00025395388362732806,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 50898048,
+      "step": 39260
+    },
+    {
+      "epoch": 1.918525395157941,
+      "grad_norm": 0.0009151108679361641,
+      "learning_rate": 0.00025053921953751,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 50904768,
+      "step": 39265
+    },
+    {
+      "epoch": 1.9187696968216352,
+      "grad_norm": 0.0008314131409861147,
+      "learning_rate": 0.00024714764869643855,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 50911360,
+      "step": 39270
+    },
+    {
+      "epoch": 1.9190139984853296,
+      "grad_norm": 0.0010575789492577314,
+      "learning_rate": 0.0002437791716270954,
+      "loss": 0.096,
+      "num_input_tokens_seen": 50917856,
+      "step": 39275
+    },
+    {
+      "epoch": 1.919258300149024,
+      "grad_norm": 0.001997529761865735,
+      "learning_rate": 0.00024043378884896493,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 50924416,
+      "step": 39280
+    },
+    {
+      "epoch": 1.9195026018127184,
+      "grad_norm": 0.0007777489372529089,
+      "learning_rate": 0.00023711150087793453,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 50930560,
+      "step": 39285
+    },
+    {
+      "epoch": 1.9197469034764127,
+      "grad_norm": 0.001484760781750083,
+      "learning_rate": 0.000233812308226361,
+      "loss": 0.064,
+      "num_input_tokens_seen": 50936928,
+      "step": 39290
+    },
+    {
+      "epoch": 1.9199912051401071,
+      "grad_norm": 0.0011313359718769789,
+      "learning_rate": 0.00023053621140300406,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 50943392,
+      "step": 39295
+    },
+    {
+      "epoch": 1.9202355068038013,
+      "grad_norm": 0.002348833018913865,
+      "learning_rate": 0.00022728321091307623,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 50950240,
+      "step": 39300
+    },
+    {
+      "epoch": 1.9204798084674957,
+      "grad_norm": 0.0017651929520070553,
+      "learning_rate": 0.0002240533072582429,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 50956960,
+      "step": 39305
+    },
+    {
+      "epoch": 1.92072411013119,
+      "grad_norm": 0.001665415707975626,
+      "learning_rate": 0.00022084650093658897,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 50963648,
+      "step": 39310
+    },
+    {
+      "epoch": 1.9209684117948842,
+      "grad_norm": 0.001374374027363956,
+      "learning_rate": 0.0002176627924426522,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 50969824,
+      "step": 39315
+    },
+    {
+      "epoch": 1.9212127134585786,
+      "grad_norm": 0.0031889791134744883,
+      "learning_rate": 0.0002145021822673898,
+      "loss": 0.082,
+      "num_input_tokens_seen": 50976448,
+      "step": 39320
+    },
+    {
+      "epoch": 1.921457015122273,
+      "grad_norm": 0.0014307685196399689,
+      "learning_rate": 0.00021136467089822862,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 50982784,
+      "step": 39325
+    },
+    {
+      "epoch": 1.9217013167859673,
+      "grad_norm": 0.0013180478708818555,
+      "learning_rate": 0.00020825025881898162,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 50989088,
+      "step": 39330
+    },
+    {
+      "epoch": 1.9219456184496617,
+      "grad_norm": 0.0015981163596734405,
+      "learning_rate": 0.0002051589465099479,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 50995744,
+      "step": 39335
+    },
+    {
+      "epoch": 1.922189920113356,
+      "grad_norm": 0.001144491252489388,
+      "learning_rate": 0.0002020907344478462,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 51001984,
+      "step": 39340
+    },
+    {
+      "epoch": 1.9224342217770503,
+      "grad_norm": 0.0010383836925029755,
+      "learning_rate": 0.0001990456231058313,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 51008416,
+      "step": 39345
+    },
+    {
+      "epoch": 1.9226785234407446,
+      "grad_norm": 0.001550961984321475,
+      "learning_rate": 0.00019602361295349423,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 51014880,
+      "step": 39350
+    },
+    {
+      "epoch": 1.922922825104439,
+      "grad_norm": 0.0013245169539004564,
+      "learning_rate": 0.0001930247044568789,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 51021504,
+      "step": 39355
+    },
+    {
+      "epoch": 1.9231671267681332,
+      "grad_norm": 0.0010162844555452466,
+      "learning_rate": 0.00019004889807843205,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 51028736,
+      "step": 39360
+    },
+    {
+      "epoch": 1.9234114284318276,
+      "grad_norm": 0.0010711103677749634,
+      "learning_rate": 0.00018709619427708656,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 51034944,
+      "step": 39365
+    },
+    {
+      "epoch": 1.923655730095522,
+      "grad_norm": 0.001125076785683632,
+      "learning_rate": 0.00018416659350817822,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 51041376,
+      "step": 39370
+    },
+    {
+      "epoch": 1.9239000317592163,
+      "grad_norm": 0.0007801977335475385,
+      "learning_rate": 0.00018126009622346229,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 51047488,
+      "step": 39375
+    },
+    {
+      "epoch": 1.9241443334229107,
+      "grad_norm": 0.0012713914038613439,
+      "learning_rate": 0.00017837670287119687,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 51054112,
+      "step": 39380
+    },
+    {
+      "epoch": 1.924388635086605,
+      "grad_norm": 0.0022532385773956776,
+      "learning_rate": 0.00017551641389602633,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 51060544,
+      "step": 39385
+    },
+    {
+      "epoch": 1.9246329367502992,
+      "grad_norm": 0.0016893661813810468,
+      "learning_rate": 0.00017267922973903115,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 51067008,
+      "step": 39390
+    },
+    {
+      "epoch": 1.9248772384139936,
+      "grad_norm": 0.0009278386132791638,
+      "learning_rate": 0.00016986515083774467,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 51073696,
+      "step": 39395
+    },
+    {
+      "epoch": 1.9251215400776878,
+      "grad_norm": 0.0012422115541994572,
+      "learning_rate": 0.00016707417762611975,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 51080832,
+      "step": 39400
+    },
+    {
+      "epoch": 1.9251215400776878,
+      "eval_loss": 0.083449587225914,
+      "eval_runtime": 402.8786,
+      "eval_samples_per_second": 90.313,
+      "eval_steps_per_second": 22.58,
+      "num_input_tokens_seen": 51080832,
+      "step": 39400
+    },
+    {
+      "epoch": 1.9253658417413821,
+      "grad_norm": 0.0016627043951302767,
+      "learning_rate": 0.00016430631053459543,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 51087200,
+      "step": 39405
+    },
+    {
+      "epoch": 1.9256101434050765,
+      "grad_norm": 0.0008166012703441083,
+      "learning_rate": 0.0001615615499899803,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 51093600,
+      "step": 39410
+    },
+    {
+      "epoch": 1.925854445068771,
+      "grad_norm": 0.0015342639526352286,
+      "learning_rate": 0.00015883989641556905,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 51099936,
+      "step": 39415
+    },
+    {
+      "epoch": 1.9260987467324653,
+      "grad_norm": 0.0018844357691705227,
+      "learning_rate": 0.00015614135023105934,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 51106336,
+      "step": 39420
+    },
+    {
+      "epoch": 1.9263430483961597,
+      "grad_norm": 0.0012609801487997174,
+      "learning_rate": 0.00015346591185261827,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 51112864,
+      "step": 39425
+    },
+    {
+      "epoch": 1.926587350059854,
+      "grad_norm": 0.0011741038179025054,
+      "learning_rate": 0.00015081358169281576,
+      "loss": 0.083,
+      "num_input_tokens_seen": 51119552,
+      "step": 39430
+    },
+    {
+      "epoch": 1.9268316517235482,
+      "grad_norm": 0.001105376984924078,
+      "learning_rate": 0.00014818436016069135,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 51125696,
+      "step": 39435
+    },
+    {
+      "epoch": 1.9270759533872426,
+      "grad_norm": 0.0017834455939009786,
+      "learning_rate": 0.00014557824766168735,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 51132192,
+      "step": 39440
+    },
+    {
+      "epoch": 1.9273202550509367,
+      "grad_norm": 0.0013966833939775825,
+      "learning_rate": 0.00014299524459769896,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 51138880,
+      "step": 39445
+    },
+    {
+      "epoch": 1.9275645567146311,
+      "grad_norm": 0.002196571324020624,
+      "learning_rate": 0.0001404353513670742,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 51145312,
+      "step": 39450
+    },
+    {
+      "epoch": 1.9278088583783255,
+      "grad_norm": 0.001315773231908679,
+      "learning_rate": 0.0001378985683645806,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 51151808,
+      "step": 39455
+    },
+    {
+      "epoch": 1.9280531600420199,
+      "grad_norm": 0.0014299562899395823,
+      "learning_rate": 0.0001353848959813886,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 51158592,
+      "step": 39460
+    },
+    {
+      "epoch": 1.9282974617057143,
+      "grad_norm": 0.0010852640261873603,
+      "learning_rate": 0.00013289433460517142,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 51165024,
+      "step": 39465
+    },
+    {
+      "epoch": 1.9285417633694086,
+      "grad_norm": 0.0016910441918298602,
+      "learning_rate": 0.00013042688462000518,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 51171680,
+      "step": 39470
+    },
+    {
+      "epoch": 1.928786065033103,
+      "grad_norm": 0.0014493614435195923,
+      "learning_rate": 0.0001279825464063855,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 51178176,
+      "step": 39475
+    },
+    {
+      "epoch": 1.9290303666967972,
+      "grad_norm": 0.0013048984110355377,
+      "learning_rate": 0.00012556132034126087,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 51184736,
+      "step": 39480
+    },
+    {
+      "epoch": 1.9292746683604916,
+      "grad_norm": 0.001116492203436792,
+      "learning_rate": 0.0001231632067980326,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 51191328,
+      "step": 39485
+    },
+    {
+      "epoch": 1.9295189700241857,
+      "grad_norm": 0.0012928876094520092,
+      "learning_rate": 0.00012078820614650486,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 51197792,
+      "step": 39490
+    },
+    {
+      "epoch": 1.92976327168788,
+      "grad_norm": 0.002004611771553755,
+      "learning_rate": 0.00011843631875291804,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 51204416,
+      "step": 39495
+    },
+    {
+      "epoch": 1.9300075733515745,
+      "grad_norm": 0.0017879531951621175,
+      "learning_rate": 0.00011610754497999863,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 51210976,
+      "step": 39500
+    },
+    {
+      "epoch": 1.9302518750152688,
+      "grad_norm": 0.001581227290444076,
+      "learning_rate": 0.0001138018851868594,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 51217120,
+      "step": 39505
+    },
+    {
+      "epoch": 1.9304961766789632,
+      "grad_norm": 0.001719644875265658,
+      "learning_rate": 0.0001115193397290326,
+      "loss": 0.095,
+      "num_input_tokens_seen": 51223488,
+      "step": 39510
+    },
+    {
+      "epoch": 1.9307404783426576,
+      "grad_norm": 0.0011554931988939643,
+      "learning_rate": 0.00010925990895856996,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 51229504,
+      "step": 39515
+    },
+    {
+      "epoch": 1.930984780006352,
+      "grad_norm": 0.0010104216635227203,
+      "learning_rate": 0.00010702359322385946,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 51235904,
+      "step": 39520
+    },
+    {
+      "epoch": 1.9312290816700461,
+      "grad_norm": 0.0012640218483284116,
+      "learning_rate": 0.00010481039286977523,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 51242528,
+      "step": 39525
+    },
+    {
+      "epoch": 1.9314733833337405,
+      "grad_norm": 0.0019138590432703495,
+      "learning_rate": 0.00010262030823764423,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 51249536,
+      "step": 39530
+    },
+    {
+      "epoch": 1.9317176849974347,
+      "grad_norm": 0.0009054734837263823,
+      "learning_rate": 0.00010045333966517966,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 51255936,
+      "step": 39535
+    },
+    {
+      "epoch": 1.931961986661129,
+      "grad_norm": 0.001323827775195241,
+      "learning_rate": 9.83094874865642e-05,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 51262624,
+      "step": 39540
+    },
+    {
+      "epoch": 1.9322062883248234,
+      "grad_norm": 0.0015549021773040295,
+      "learning_rate": 9.618875203241672e-05,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 51269568,
+      "step": 39545
+    },
+    {
+      "epoch": 1.9324505899885178,
+      "grad_norm": 0.0025764619931578636,
+      "learning_rate": 9.409113362977561e-05,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 51275616,
+      "step": 39550
+    },
+    {
+      "epoch": 1.9326948916522122,
+      "grad_norm": 0.0013755166437476873,
+      "learning_rate": 9.20166326020988e-05,
+      "loss": 0.0558,
+      "num_input_tokens_seen": 51282080,
+      "step": 39555
+    },
+    {
+      "epoch": 1.9329391933159066,
+      "grad_norm": 0.001439266954548657,
+      "learning_rate": 8.996524926933035e-05,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 51288928,
+      "step": 39560
+    },
+    {
+      "epoch": 1.933183494979601,
+      "grad_norm": 0.002084410982206464,
+      "learning_rate": 8.793698394781723e-05,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 51295168,
+      "step": 39565
+    },
+    {
+      "epoch": 1.9334277966432951,
+      "grad_norm": 0.0017804753733798862,
+      "learning_rate": 8.593183695030926e-05,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 51301568,
+      "step": 39570
+    },
+    {
+      "epoch": 1.9336720983069895,
+      "grad_norm": 0.0012075647246092558,
+      "learning_rate": 8.39498085860757e-05,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 51308000,
+      "step": 39575
+    },
+    {
+      "epoch": 1.9339163999706837,
+      "grad_norm": 0.0012234010500833392,
+      "learning_rate": 8.199089916072211e-05,
+      "loss": 0.077,
+      "num_input_tokens_seen": 51314208,
+      "step": 39580
+    },
+    {
+      "epoch": 1.934160701634378,
+      "grad_norm": 0.0021315969061106443,
+      "learning_rate": 8.005510897637346e-05,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 51320384,
+      "step": 39585
+    },
+    {
+      "epoch": 1.9344050032980724,
+      "grad_norm": 0.001375738182105124,
+      "learning_rate": 7.8142438331541e-05,
+      "loss": 0.089,
+      "num_input_tokens_seen": 51326816,
+      "step": 39590
+    },
+    {
+      "epoch": 1.9346493049617668,
+      "grad_norm": 0.002512831473723054,
+      "learning_rate": 7.625288752117209e-05,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 51332960,
+      "step": 39595
+    },
+    {
+      "epoch": 1.9348936066254612,
+      "grad_norm": 0.0013186202850192785,
+      "learning_rate": 7.4386456836667e-05,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 51339424,
+      "step": 39600
+    },
+    {
+      "epoch": 1.9348936066254612,
+      "eval_loss": 0.08348038792610168,
+      "eval_runtime": 402.6247,
+      "eval_samples_per_second": 90.37,
+      "eval_steps_per_second": 22.594,
+      "num_input_tokens_seen": 51339424,
+      "step": 39600
+    },
+    {
+      "epoch": 1.9351379082891556,
+      "grad_norm": 0.001671448117122054,
+      "learning_rate": 7.254314656586214e-05,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 51346080,
+      "step": 39605
+    },
+    {
+      "epoch": 1.93538220995285,
+      "grad_norm": 0.0005686490912921727,
+      "learning_rate": 7.07229569929968e-05,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 51352640,
+      "step": 39610
+    },
+    {
+      "epoch": 1.935626511616544,
+      "grad_norm": 0.0015200544148683548,
+      "learning_rate": 6.892588839879643e-05,
+      "loss": 0.084,
+      "num_input_tokens_seen": 51358912,
+      "step": 39615
+    },
+    {
+      "epoch": 1.9358708132802385,
+      "grad_norm": 0.0012694926699623466,
+      "learning_rate": 6.71519410603727e-05,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 51365760,
+      "step": 39620
+    },
+    {
+      "epoch": 1.9361151149439326,
+      "grad_norm": 0.0030589813832193613,
+      "learning_rate": 6.540111525129011e-05,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 51372128,
+      "step": 39625
+    },
+    {
+      "epoch": 1.936359416607627,
+      "grad_norm": 0.0015268202405422926,
+      "learning_rate": 6.367341124154934e-05,
+      "loss": 0.075,
+      "num_input_tokens_seen": 51378656,
+      "step": 39630
+    },
+    {
+      "epoch": 1.9366037182713214,
+      "grad_norm": 0.0012761978432536125,
+      "learning_rate": 6.19688292975873e-05,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 51385120,
+      "step": 39635
+    },
+    {
+      "epoch": 1.9368480199350158,
+      "grad_norm": 0.0017650444060564041,
+      "learning_rate": 6.0287369682260336e-05,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 51391328,
+      "step": 39640
+    },
+    {
+      "epoch": 1.9370923215987101,
+      "grad_norm": 0.0019893739372491837,
+      "learning_rate": 5.8629032654894384e-05,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 51397472,
+      "step": 39645
+    },
+    {
+      "epoch": 1.9373366232624045,
+      "grad_norm": 0.0017901664832606912,
+      "learning_rate": 5.699381847120155e-05,
+      "loss": 0.092,
+      "num_input_tokens_seen": 51403296,
+      "step": 39650
+    },
+    {
+      "epoch": 1.937580924926099,
+      "grad_norm": 0.0013542602537199855,
+      "learning_rate": 5.5381727383380094e-05,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 51409408,
+      "step": 39655
+    },
+    {
+      "epoch": 1.937825226589793,
+      "grad_norm": 0.0018144809873774648,
+      "learning_rate": 5.379275964001451e-05,
+      "loss": 0.09,
+      "num_input_tokens_seen": 51416480,
+      "step": 39660
+    },
+    {
+      "epoch": 1.9380695282534874,
+      "grad_norm": 0.0009109515813179314,
+      "learning_rate": 5.222691548614211e-05,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 51423296,
+      "step": 39665
+    },
+    {
+      "epoch": 1.9383138299171816,
+      "grad_norm": 0.0020758043974637985,
+      "learning_rate": 5.068419516323641e-05,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 51429760,
+      "step": 39670
+    },
+    {
+      "epoch": 1.938558131580876,
+      "grad_norm": 0.0011800708016380668,
+      "learning_rate": 4.91645989092071e-05,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 51436160,
+      "step": 39675
+    },
+    {
+      "epoch": 1.9388024332445704,
+      "grad_norm": 0.0010916474275290966,
+      "learning_rate": 4.7668126958400056e-05,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 51442848,
+      "step": 39680
+    },
+    {
+      "epoch": 1.9390467349082647,
+      "grad_norm": 0.0011597948614507914,
+      "learning_rate": 4.619477954159734e-05,
+      "loss": 0.078,
+      "num_input_tokens_seen": 51448896,
+      "step": 39685
+    },
+    {
+      "epoch": 1.9392910365719591,
+      "grad_norm": 0.0008699095342308283,
+      "learning_rate": 4.4744556885983884e-05,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 51455648,
+      "step": 39690
+    },
+    {
+      "epoch": 1.9395353382356535,
+      "grad_norm": 0.0015254340833052993,
+      "learning_rate": 4.331745921523078e-05,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 51462528,
+      "step": 39695
+    },
+    {
+      "epoch": 1.9397796398993479,
+      "grad_norm": 0.0008257442386820912,
+      "learning_rate": 4.191348674937867e-05,
+      "loss": 0.0511,
+      "num_input_tokens_seen": 51469248,
+      "step": 39700
+    },
+    {
+      "epoch": 1.940023941563042,
+      "grad_norm": 0.00133255566470325,
+      "learning_rate": 4.0532639704971006e-05,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 51476384,
+      "step": 39705
+    },
+    {
+      "epoch": 1.9402682432267364,
+      "grad_norm": 0.0017362851649522781,
+      "learning_rate": 3.917491829493747e-05,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 51482624,
+      "step": 39710
+    },
+    {
+      "epoch": 1.9405125448904306,
+      "grad_norm": 0.0015232813311740756,
+      "learning_rate": 3.78403227286439e-05,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 51488928,
+      "step": 39715
+    },
+    {
+      "epoch": 1.940756846554125,
+      "grad_norm": 0.0008294421131722629,
+      "learning_rate": 3.652885321192567e-05,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 51494944,
+      "step": 39720
+    },
+    {
+      "epoch": 1.9410011482178193,
+      "grad_norm": 0.000902404310181737,
+      "learning_rate": 3.524050994702099e-05,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 51501408,
+      "step": 39725
+    },
+    {
+      "epoch": 1.9412454498815137,
+      "grad_norm": 0.002448145765811205,
+      "learning_rate": 3.3975293132604276e-05,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 51507616,
+      "step": 39730
+    },
+    {
+      "epoch": 1.941489751545208,
+      "grad_norm": 0.0016972963931038976,
+      "learning_rate": 3.2733202963786125e-05,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 51514144,
+      "step": 39735
+    },
+    {
+      "epoch": 1.9417340532089025,
+      "grad_norm": 0.0014549988554790616,
+      "learning_rate": 3.15142396321133e-05,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 51520128,
+      "step": 39740
+    },
+    {
+      "epoch": 1.9419783548725968,
+      "grad_norm": 0.0011390501167625189,
+      "learning_rate": 3.0318403325552132e-05,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 51526656,
+      "step": 39745
+    },
+    {
+      "epoch": 1.942222656536291,
+      "grad_norm": 0.001228598295710981,
+      "learning_rate": 2.914569422855506e-05,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 51532992,
+      "step": 39750
+    },
+    {
+      "epoch": 1.9424669581999854,
+      "grad_norm": 0.0015607532113790512,
+      "learning_rate": 2.7996112521927462e-05,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 51539456,
+      "step": 39755
+    },
+    {
+      "epoch": 1.9427112598636795,
+      "grad_norm": 0.0020313402637839317,
+      "learning_rate": 2.68696583829775e-05,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 51545600,
+      "step": 39760
+    },
+    {
+      "epoch": 1.942955561527374,
+      "grad_norm": 0.001044652657583356,
+      "learning_rate": 2.576633198539957e-05,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 51551808,
+      "step": 39765
+    },
+    {
+      "epoch": 1.9431998631910683,
+      "grad_norm": 0.001628507161512971,
+      "learning_rate": 2.46861334993409e-05,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 51558208,
+      "step": 39770
+    },
+    {
+      "epoch": 1.9434441648547627,
+      "grad_norm": 0.001494752592407167,
+      "learning_rate": 2.3629063091384903e-05,
+      "loss": 0.074,
+      "num_input_tokens_seen": 51564832,
+      "step": 39775
+    },
+    {
+      "epoch": 1.943688466518457,
+      "grad_norm": 0.0019620517268776894,
+      "learning_rate": 2.2595120924567834e-05,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 51570944,
+      "step": 39780
+    },
+    {
+      "epoch": 1.9439327681821514,
+      "grad_norm": 0.0016814080299809575,
+      "learning_rate": 2.158430715829551e-05,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 51577248,
+      "step": 39785
+    },
+    {
+      "epoch": 1.9441770698458456,
+      "grad_norm": 0.0011088871397078037,
+      "learning_rate": 2.059662194849321e-05,
+      "loss": 0.0582,
+      "num_input_tokens_seen": 51584000,
+      "step": 39790
+    },
+    {
+      "epoch": 1.94442137150954,
+      "grad_norm": 0.0009847857290878892,
+      "learning_rate": 1.9632065447422463e-05,
+      "loss": 0.072,
+      "num_input_tokens_seen": 51590464,
+      "step": 39795
+    },
+    {
+      "epoch": 1.9446656731732344,
+      "grad_norm": 0.0015141044277697802,
+      "learning_rate": 1.8690637803880916e-05,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 51597120,
+      "step": 39800
+    },
+    {
+      "epoch": 1.9446656731732344,
+      "eval_loss": 0.08352842926979065,
+      "eval_runtime": 402.5895,
+      "eval_samples_per_second": 90.377,
+      "eval_steps_per_second": 22.596,
+      "num_input_tokens_seen": 51597120,
+      "step": 39800
+    },
+    {
+      "epoch": 1.9449099748369285,
+      "grad_norm": 0.0016871544066816568,
+      "learning_rate": 1.7772339163019123e-05,
+      "loss": 0.094,
+      "num_input_tokens_seen": 51604032,
+      "step": 39805
+    },
+    {
+      "epoch": 1.945154276500623,
+      "grad_norm": 0.0008465906139463186,
+      "learning_rate": 1.6877169666457138e-05,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 51610464,
+      "step": 39810
+    },
+    {
+      "epoch": 1.9453985781643173,
+      "grad_norm": 0.0019627318251878023,
+      "learning_rate": 1.6005129452234532e-05,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 51616928,
+      "step": 39815
+    },
+    {
+      "epoch": 1.9456428798280117,
+      "grad_norm": 0.0017312443815171719,
+      "learning_rate": 1.5156218654843733e-05,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 51623520,
+      "step": 39820
+    },
+    {
+      "epoch": 1.945887181491706,
+      "grad_norm": 0.0014705673092976213,
+      "learning_rate": 1.4330437405196683e-05,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 51630240,
+      "step": 39825
+    },
+    {
+      "epoch": 1.9461314831554004,
+      "grad_norm": 0.0015679296338930726,
+      "learning_rate": 1.352778583062486e-05,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 51637152,
+      "step": 39830
+    },
+    {
+      "epoch": 1.9463757848190946,
+      "grad_norm": 0.0014822818338871002,
+      "learning_rate": 1.2748264054929237e-05,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 51643648,
+      "step": 39835
+    },
+    {
+      "epoch": 1.946620086482789,
+      "grad_norm": 0.0007796856807544827,
+      "learning_rate": 1.1991872198297004e-05,
+      "loss": 0.098,
+      "num_input_tokens_seen": 51650272,
+      "step": 39840
+    },
+    {
+      "epoch": 1.9468643881464833,
+      "grad_norm": 0.0018442997243255377,
+      "learning_rate": 1.1258610377384847e-05,
+      "loss": 0.1195,
+      "num_input_tokens_seen": 51657024,
+      "step": 39845
+    },
+    {
+      "epoch": 1.9471086898101775,
+      "grad_norm": 0.0012369079049676657,
+      "learning_rate": 1.0548478705268982e-05,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 51663424,
+      "step": 39850
+    },
+    {
+      "epoch": 1.9473529914738719,
+      "grad_norm": 0.0012117817532271147,
+      "learning_rate": 9.86147729147846e-06,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 51669824,
+      "step": 39855
+    },
+    {
+      "epoch": 1.9475972931375662,
+      "grad_norm": 0.0013257364043965936,
+      "learning_rate": 9.197606241928557e-06,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 51676448,
+      "step": 39860
+    },
+    {
+      "epoch": 1.9478415948012606,
+      "grad_norm": 0.002439408330246806,
+      "learning_rate": 8.556865659004042e-06,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 51683328,
+      "step": 39865
+    },
+    {
+      "epoch": 1.948085896464955,
+      "grad_norm": 0.00171981705352664,
+      "learning_rate": 7.939255641525867e-06,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 51689248,
+      "step": 39870
+    },
+    {
+      "epoch": 1.9483301981286494,
+      "grad_norm": 0.0008337883045896888,
+      "learning_rate": 7.344776284751164e-06,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 51695968,
+      "step": 39875
+    },
+    {
+      "epoch": 1.9485744997923435,
+      "grad_norm": 0.00150409119669348,
+      "learning_rate": 6.773427680323296e-06,
+      "loss": 0.055,
+      "num_input_tokens_seen": 51702816,
+      "step": 39880
+    },
+    {
+      "epoch": 1.948818801456038,
+      "grad_norm": 0.004190626088529825,
+      "learning_rate": 6.225209916355112e-06,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 51709184,
+      "step": 39885
+    },
+    {
+      "epoch": 1.9490631031197323,
+      "grad_norm": 0.0020914103370159864,
+      "learning_rate": 5.7001230774123e-06,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 51715904,
+      "step": 39890
+    },
+    {
+      "epoch": 1.9493074047834265,
+      "grad_norm": 0.0033902600407600403,
+      "learning_rate": 5.198167244446772e-06,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 51722016,
+      "step": 39895
+    },
+    {
+      "epoch": 1.9495517064471208,
+      "grad_norm": 0.0011896920623257756,
+      "learning_rate": 4.71934249487993e-06,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 51728128,
+      "step": 39900
+    },
+    {
+      "epoch": 1.9497960081108152,
+      "grad_norm": 0.0027725358959287405,
+      "learning_rate": 4.2636489025527075e-06,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 51734368,
+      "step": 39905
+    },
+    {
+      "epoch": 1.9500403097745096,
+      "grad_norm": 0.0006452453671954572,
+      "learning_rate": 3.831086537742223e-06,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 51740768,
+      "step": 39910
+    },
+    {
+      "epoch": 1.950284611438204,
+      "grad_norm": 0.004577306564897299,
+      "learning_rate": 3.4216554671451236e-06,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 51748000,
+      "step": 39915
+    },
+    {
+      "epoch": 1.9505289131018984,
+      "grad_norm": 0.001094386330805719,
+      "learning_rate": 3.035355753894242e-06,
+      "loss": 0.078,
+      "num_input_tokens_seen": 51754432,
+      "step": 39920
+    },
+    {
+      "epoch": 1.9507732147655925,
+      "grad_norm": 0.0015341052785515785,
+      "learning_rate": 2.6721874575752477e-06,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 51761120,
+      "step": 39925
+    },
+    {
+      "epoch": 1.951017516429287,
+      "grad_norm": 0.0013513618614524603,
+      "learning_rate": 2.3321506341933418e-06,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 51767712,
+      "step": 39930
+    },
+    {
+      "epoch": 1.951261818092981,
+      "grad_norm": 0.0012079617008566856,
+      "learning_rate": 2.0152453361732546e-06,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 51773824,
+      "step": 39935
+    },
+    {
+      "epoch": 1.9515061197566754,
+      "grad_norm": 0.00171079789288342,
+      "learning_rate": 1.7214716123925554e-06,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 51780064,
+      "step": 39940
+    },
+    {
+      "epoch": 1.9517504214203698,
+      "grad_norm": 0.0016099673230201006,
+      "learning_rate": 1.4508295081649968e-06,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 51786752,
+      "step": 39945
+    },
+    {
+      "epoch": 1.9519947230840642,
+      "grad_norm": 0.0016678298125043511,
+      "learning_rate": 1.2033190652238623e-06,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 51793056,
+      "step": 39950
+    },
+    {
+      "epoch": 1.9522390247477586,
+      "grad_norm": 0.0027258889749646187,
+      "learning_rate": 9.78940321721966e-07,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 51799552,
+      "step": 39955
+    },
+    {
+      "epoch": 1.952483326411453,
+      "grad_norm": 0.0010730818612501025,
+      "learning_rate": 7.776933122816132e-07,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 51805824,
+      "step": 39960
+    },
+    {
+      "epoch": 1.9527276280751473,
+      "grad_norm": 0.0015369560569524765,
+      "learning_rate": 5.99578067927986e-07,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 51812544,
+      "step": 39965
+    },
+    {
+      "epoch": 1.9529719297388415,
+      "grad_norm": 0.0013758064014837146,
+      "learning_rate": 4.445946161224512e-07,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 51819520,
+      "step": 39970
+    },
+    {
+      "epoch": 1.9532162314025359,
+      "grad_norm": 0.0010877670720219612,
+      "learning_rate": 3.127429807792126e-07,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 51826336,
+      "step": 39975
+    },
+    {
+      "epoch": 1.95346053306623,
+      "grad_norm": 0.0012753023765981197,
+      "learning_rate": 2.040231822320049e-07,
+      "loss": 0.081,
+      "num_input_tokens_seen": 51833216,
+      "step": 39980
+    },
+    {
+      "epoch": 1.9537048347299244,
+      "grad_norm": 0.0011382832890376449,
+      "learning_rate": 1.1843523723409354e-07,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 51840096,
+      "step": 39985
+    },
+    {
+      "epoch": 1.9539491363936188,
+      "grad_norm": 0.0010573217878118157,
+      "learning_rate": 5.597915897492811e-08,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 51846688,
+      "step": 39990
+    },
+    {
+      "epoch": 1.9541934380573132,
+      "grad_norm": 0.0013175917556509376,
+      "learning_rate": 1.6654957113448885e-08,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 51852640,
+      "step": 39995
+    },
+    {
+      "epoch": 1.9544377397210075,
+      "grad_norm": 0.0011914661154150963,
+      "learning_rate": 4.626377114735902e-10,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 51858816,
+      "step": 40000
+    },
+    {
+      "epoch": 1.9544377397210075,
+      "eval_loss": 0.08348309993743896,
+      "eval_runtime": 402.6122,
+      "eval_samples_per_second": 90.372,
+      "eval_steps_per_second": 22.595,
+      "num_input_tokens_seen": 51858816,
+      "step": 40000
+    },
+    {
+      "epoch": 1.9544377397210075,
+      "num_input_tokens_seen": 51858816,
+      "step": 40000,
+      "total_flos": 2.1715238142060134e+17,
+      "train_loss": 0.10561876927614212,
+      "train_runtime": 96179.8765,
+      "train_samples_per_second": 6.654,
+      "train_steps_per_second": 0.416
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 40000,
+  "num_input_tokens_seen": 51858816,
+  "num_train_epochs": 2,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.1715238142060134e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}