| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 0.2986666666666667, | |
| "eval_steps": 500, | |
| "global_step": 5600, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.005333333333333333, | |
| "grad_norm": 0.7408381700515747, | |
| "learning_rate": 1.777777777777778e-06, | |
| "loss": 2.4329, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.010666666666666666, | |
| "grad_norm": 1.5163946151733398, | |
| "learning_rate": 3.555555555555556e-06, | |
| "loss": 2.4588, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.016, | |
| "grad_norm": 2.0432918071746826, | |
| "learning_rate": 5.333333333333334e-06, | |
| "loss": 2.4059, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.021333333333333333, | |
| "grad_norm": 1.060476303100586, | |
| "learning_rate": 7.111111111111112e-06, | |
| "loss": 2.3268, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 3.8191990852355957, | |
| "learning_rate": 8.88888888888889e-06, | |
| "loss": 2.2524, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.032, | |
| "grad_norm": 1.805410623550415, | |
| "learning_rate": 1.0666666666666667e-05, | |
| "loss": 2.1703, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.037333333333333336, | |
| "grad_norm": 2.2576651573181152, | |
| "learning_rate": 1.2444444444444445e-05, | |
| "loss": 2.135, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.042666666666666665, | |
| "grad_norm": 3.0686051845550537, | |
| "learning_rate": 1.4222222222222224e-05, | |
| "loss": 2.1264, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.048, | |
| "grad_norm": 3.616314649581909, | |
| "learning_rate": 1.6000000000000003e-05, | |
| "loss": 2.117, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 0.9794963598251343, | |
| "learning_rate": 1.777777777777778e-05, | |
| "loss": 2.0696, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.058666666666666666, | |
| "grad_norm": 1.115675926208496, | |
| "learning_rate": 1.9555555555555557e-05, | |
| "loss": 2.1145, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.064, | |
| "grad_norm": 1.3264107704162598, | |
| "learning_rate": 2.1333333333333335e-05, | |
| "loss": 2.1577, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.06933333333333333, | |
| "grad_norm": 1.0655226707458496, | |
| "learning_rate": 2.3111111111111112e-05, | |
| "loss": 2.1426, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.07466666666666667, | |
| "grad_norm": 1.8344405889511108, | |
| "learning_rate": 2.488888888888889e-05, | |
| "loss": 2.106, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 0.8793189525604248, | |
| "learning_rate": 2.6666666666666667e-05, | |
| "loss": 2.106, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.08533333333333333, | |
| "grad_norm": 0.9472557306289673, | |
| "learning_rate": 2.8444444444444447e-05, | |
| "loss": 2.1196, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.09066666666666667, | |
| "grad_norm": 1.0065737962722778, | |
| "learning_rate": 3.0222222222222225e-05, | |
| "loss": 2.1359, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.096, | |
| "grad_norm": 1.0629477500915527, | |
| "learning_rate": 3.2000000000000005e-05, | |
| "loss": 2.1281, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.10133333333333333, | |
| "grad_norm": 1.1452460289001465, | |
| "learning_rate": 3.377777777777778e-05, | |
| "loss": 2.1015, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 0.774829626083374, | |
| "learning_rate": 3.555555555555556e-05, | |
| "loss": 2.1491, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.112, | |
| "grad_norm": 1.9840822219848633, | |
| "learning_rate": 3.733333333333334e-05, | |
| "loss": 2.1162, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 0.11733333333333333, | |
| "grad_norm": 1.1680502891540527, | |
| "learning_rate": 3.9111111111111115e-05, | |
| "loss": 2.1081, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.12266666666666666, | |
| "grad_norm": 1.0015199184417725, | |
| "learning_rate": 4.088888888888889e-05, | |
| "loss": 2.1106, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 0.128, | |
| "grad_norm": 1.4964936971664429, | |
| "learning_rate": 4.266666666666667e-05, | |
| "loss": 2.0845, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 0.8865829110145569, | |
| "learning_rate": 4.4444444444444447e-05, | |
| "loss": 2.1168, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.13866666666666666, | |
| "grad_norm": 0.7985750436782837, | |
| "learning_rate": 4.6222222222222224e-05, | |
| "loss": 2.0818, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.144, | |
| "grad_norm": 0.7723366022109985, | |
| "learning_rate": 4.8e-05, | |
| "loss": 2.1174, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 0.14933333333333335, | |
| "grad_norm": 1.5099104642868042, | |
| "learning_rate": 4.977777777777778e-05, | |
| "loss": 2.0898, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 0.15466666666666667, | |
| "grad_norm": 0.6583521962165833, | |
| "learning_rate": 5.1555555555555556e-05, | |
| "loss": 2.0947, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 0.6292089819908142, | |
| "learning_rate": 5.333333333333333e-05, | |
| "loss": 2.1364, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.16533333333333333, | |
| "grad_norm": 2.6520564556121826, | |
| "learning_rate": 5.511111111111111e-05, | |
| "loss": 2.0834, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 0.17066666666666666, | |
| "grad_norm": 0.6982457637786865, | |
| "learning_rate": 5.6888888888888895e-05, | |
| "loss": 2.0916, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 0.176, | |
| "grad_norm": 1.235366702079773, | |
| "learning_rate": 5.866666666666667e-05, | |
| "loss": 2.0768, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 0.18133333333333335, | |
| "grad_norm": 0.5952820777893066, | |
| "learning_rate": 6.044444444444445e-05, | |
| "loss": 2.0834, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 0.7027677893638611, | |
| "learning_rate": 6.222222222222222e-05, | |
| "loss": 2.122, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 0.192, | |
| "grad_norm": 0.9129226207733154, | |
| "learning_rate": 6.400000000000001e-05, | |
| "loss": 2.0797, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 0.19733333333333333, | |
| "grad_norm": 1.3665482997894287, | |
| "learning_rate": 6.577777777777779e-05, | |
| "loss": 2.1386, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 0.20266666666666666, | |
| "grad_norm": 0.7354358434677124, | |
| "learning_rate": 6.755555555555557e-05, | |
| "loss": 2.1181, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 0.208, | |
| "grad_norm": 1.131577491760254, | |
| "learning_rate": 6.933333333333334e-05, | |
| "loss": 2.0839, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 1.4498499631881714, | |
| "learning_rate": 7.111111111111112e-05, | |
| "loss": 2.0743, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.21866666666666668, | |
| "grad_norm": 0.7681794762611389, | |
| "learning_rate": 7.28888888888889e-05, | |
| "loss": 2.0916, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 0.224, | |
| "grad_norm": 1.020183801651001, | |
| "learning_rate": 7.466666666666667e-05, | |
| "loss": 2.1021, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 0.22933333333333333, | |
| "grad_norm": 0.9761343002319336, | |
| "learning_rate": 7.644444444444445e-05, | |
| "loss": 2.0721, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 0.23466666666666666, | |
| "grad_norm": 0.5290562510490417, | |
| "learning_rate": 7.822222222222223e-05, | |
| "loss": 2.0873, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 0.7238642573356628, | |
| "learning_rate": 8e-05, | |
| "loss": 2.1149, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 0.24533333333333332, | |
| "grad_norm": 0.8895397186279297, | |
| "learning_rate": 8.177777777777778e-05, | |
| "loss": 2.097, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 0.25066666666666665, | |
| "grad_norm": 0.7431837320327759, | |
| "learning_rate": 8.355555555555556e-05, | |
| "loss": 2.1264, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 0.256, | |
| "grad_norm": 0.8203670382499695, | |
| "learning_rate": 8.533333333333334e-05, | |
| "loss": 2.0972, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 0.2613333333333333, | |
| "grad_norm": 0.47923657298088074, | |
| "learning_rate": 8.711111111111112e-05, | |
| "loss": 2.0768, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 1.155190110206604, | |
| "learning_rate": 8.888888888888889e-05, | |
| "loss": 2.1036, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.272, | |
| "grad_norm": 0.6187294721603394, | |
| "learning_rate": 9.066666666666667e-05, | |
| "loss": 2.1188, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 0.2773333333333333, | |
| "grad_norm": 0.43292027711868286, | |
| "learning_rate": 9.244444444444445e-05, | |
| "loss": 2.0647, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 0.2826666666666667, | |
| "grad_norm": 1.1204800605773926, | |
| "learning_rate": 9.422222222222223e-05, | |
| "loss": 2.0616, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 0.288, | |
| "grad_norm": 0.5165124535560608, | |
| "learning_rate": 9.6e-05, | |
| "loss": 2.1516, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 0.4999570846557617, | |
| "learning_rate": 9.777777777777778e-05, | |
| "loss": 2.0841, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 0.2986666666666667, | |
| "grad_norm": 0.6320493817329407, | |
| "learning_rate": 9.955555555555556e-05, | |
| "loss": 2.0595, | |
| "step": 5600 | |
| } | |
| ], | |
| "logging_steps": 100, | |
| "max_steps": 56250, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 3, | |
| "save_steps": 5600, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 2.687976559607808e+17, | |
| "train_batch_size": 4, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |