emirhanboge's picture
Upload folder using huggingface_hub
53a4974 verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 0.2986666666666667,
"eval_steps": 500,
"global_step": 5600,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.005333333333333333,
"grad_norm": 0.7408381700515747,
"learning_rate": 1.777777777777778e-06,
"loss": 2.4329,
"step": 100
},
{
"epoch": 0.010666666666666666,
"grad_norm": 1.5163946151733398,
"learning_rate": 3.555555555555556e-06,
"loss": 2.4588,
"step": 200
},
{
"epoch": 0.016,
"grad_norm": 2.0432918071746826,
"learning_rate": 5.333333333333334e-06,
"loss": 2.4059,
"step": 300
},
{
"epoch": 0.021333333333333333,
"grad_norm": 1.060476303100586,
"learning_rate": 7.111111111111112e-06,
"loss": 2.3268,
"step": 400
},
{
"epoch": 0.02666666666666667,
"grad_norm": 3.8191990852355957,
"learning_rate": 8.88888888888889e-06,
"loss": 2.2524,
"step": 500
},
{
"epoch": 0.032,
"grad_norm": 1.805410623550415,
"learning_rate": 1.0666666666666667e-05,
"loss": 2.1703,
"step": 600
},
{
"epoch": 0.037333333333333336,
"grad_norm": 2.2576651573181152,
"learning_rate": 1.2444444444444445e-05,
"loss": 2.135,
"step": 700
},
{
"epoch": 0.042666666666666665,
"grad_norm": 3.0686051845550537,
"learning_rate": 1.4222222222222224e-05,
"loss": 2.1264,
"step": 800
},
{
"epoch": 0.048,
"grad_norm": 3.616314649581909,
"learning_rate": 1.6000000000000003e-05,
"loss": 2.117,
"step": 900
},
{
"epoch": 0.05333333333333334,
"grad_norm": 0.9794963598251343,
"learning_rate": 1.777777777777778e-05,
"loss": 2.0696,
"step": 1000
},
{
"epoch": 0.058666666666666666,
"grad_norm": 1.115675926208496,
"learning_rate": 1.9555555555555557e-05,
"loss": 2.1145,
"step": 1100
},
{
"epoch": 0.064,
"grad_norm": 1.3264107704162598,
"learning_rate": 2.1333333333333335e-05,
"loss": 2.1577,
"step": 1200
},
{
"epoch": 0.06933333333333333,
"grad_norm": 1.0655226707458496,
"learning_rate": 2.3111111111111112e-05,
"loss": 2.1426,
"step": 1300
},
{
"epoch": 0.07466666666666667,
"grad_norm": 1.8344405889511108,
"learning_rate": 2.488888888888889e-05,
"loss": 2.106,
"step": 1400
},
{
"epoch": 0.08,
"grad_norm": 0.8793189525604248,
"learning_rate": 2.6666666666666667e-05,
"loss": 2.106,
"step": 1500
},
{
"epoch": 0.08533333333333333,
"grad_norm": 0.9472557306289673,
"learning_rate": 2.8444444444444447e-05,
"loss": 2.1196,
"step": 1600
},
{
"epoch": 0.09066666666666667,
"grad_norm": 1.0065737962722778,
"learning_rate": 3.0222222222222225e-05,
"loss": 2.1359,
"step": 1700
},
{
"epoch": 0.096,
"grad_norm": 1.0629477500915527,
"learning_rate": 3.2000000000000005e-05,
"loss": 2.1281,
"step": 1800
},
{
"epoch": 0.10133333333333333,
"grad_norm": 1.1452460289001465,
"learning_rate": 3.377777777777778e-05,
"loss": 2.1015,
"step": 1900
},
{
"epoch": 0.10666666666666667,
"grad_norm": 0.774829626083374,
"learning_rate": 3.555555555555556e-05,
"loss": 2.1491,
"step": 2000
},
{
"epoch": 0.112,
"grad_norm": 1.9840822219848633,
"learning_rate": 3.733333333333334e-05,
"loss": 2.1162,
"step": 2100
},
{
"epoch": 0.11733333333333333,
"grad_norm": 1.1680502891540527,
"learning_rate": 3.9111111111111115e-05,
"loss": 2.1081,
"step": 2200
},
{
"epoch": 0.12266666666666666,
"grad_norm": 1.0015199184417725,
"learning_rate": 4.088888888888889e-05,
"loss": 2.1106,
"step": 2300
},
{
"epoch": 0.128,
"grad_norm": 1.4964936971664429,
"learning_rate": 4.266666666666667e-05,
"loss": 2.0845,
"step": 2400
},
{
"epoch": 0.13333333333333333,
"grad_norm": 0.8865829110145569,
"learning_rate": 4.4444444444444447e-05,
"loss": 2.1168,
"step": 2500
},
{
"epoch": 0.13866666666666666,
"grad_norm": 0.7985750436782837,
"learning_rate": 4.6222222222222224e-05,
"loss": 2.0818,
"step": 2600
},
{
"epoch": 0.144,
"grad_norm": 0.7723366022109985,
"learning_rate": 4.8e-05,
"loss": 2.1174,
"step": 2700
},
{
"epoch": 0.14933333333333335,
"grad_norm": 1.5099104642868042,
"learning_rate": 4.977777777777778e-05,
"loss": 2.0898,
"step": 2800
},
{
"epoch": 0.15466666666666667,
"grad_norm": 0.6583521962165833,
"learning_rate": 5.1555555555555556e-05,
"loss": 2.0947,
"step": 2900
},
{
"epoch": 0.16,
"grad_norm": 0.6292089819908142,
"learning_rate": 5.333333333333333e-05,
"loss": 2.1364,
"step": 3000
},
{
"epoch": 0.16533333333333333,
"grad_norm": 2.6520564556121826,
"learning_rate": 5.511111111111111e-05,
"loss": 2.0834,
"step": 3100
},
{
"epoch": 0.17066666666666666,
"grad_norm": 0.6982457637786865,
"learning_rate": 5.6888888888888895e-05,
"loss": 2.0916,
"step": 3200
},
{
"epoch": 0.176,
"grad_norm": 1.235366702079773,
"learning_rate": 5.866666666666667e-05,
"loss": 2.0768,
"step": 3300
},
{
"epoch": 0.18133333333333335,
"grad_norm": 0.5952820777893066,
"learning_rate": 6.044444444444445e-05,
"loss": 2.0834,
"step": 3400
},
{
"epoch": 0.18666666666666668,
"grad_norm": 0.7027677893638611,
"learning_rate": 6.222222222222222e-05,
"loss": 2.122,
"step": 3500
},
{
"epoch": 0.192,
"grad_norm": 0.9129226207733154,
"learning_rate": 6.400000000000001e-05,
"loss": 2.0797,
"step": 3600
},
{
"epoch": 0.19733333333333333,
"grad_norm": 1.3665482997894287,
"learning_rate": 6.577777777777779e-05,
"loss": 2.1386,
"step": 3700
},
{
"epoch": 0.20266666666666666,
"grad_norm": 0.7354358434677124,
"learning_rate": 6.755555555555557e-05,
"loss": 2.1181,
"step": 3800
},
{
"epoch": 0.208,
"grad_norm": 1.131577491760254,
"learning_rate": 6.933333333333334e-05,
"loss": 2.0839,
"step": 3900
},
{
"epoch": 0.21333333333333335,
"grad_norm": 1.4498499631881714,
"learning_rate": 7.111111111111112e-05,
"loss": 2.0743,
"step": 4000
},
{
"epoch": 0.21866666666666668,
"grad_norm": 0.7681794762611389,
"learning_rate": 7.28888888888889e-05,
"loss": 2.0916,
"step": 4100
},
{
"epoch": 0.224,
"grad_norm": 1.020183801651001,
"learning_rate": 7.466666666666667e-05,
"loss": 2.1021,
"step": 4200
},
{
"epoch": 0.22933333333333333,
"grad_norm": 0.9761343002319336,
"learning_rate": 7.644444444444445e-05,
"loss": 2.0721,
"step": 4300
},
{
"epoch": 0.23466666666666666,
"grad_norm": 0.5290562510490417,
"learning_rate": 7.822222222222223e-05,
"loss": 2.0873,
"step": 4400
},
{
"epoch": 0.24,
"grad_norm": 0.7238642573356628,
"learning_rate": 8e-05,
"loss": 2.1149,
"step": 4500
},
{
"epoch": 0.24533333333333332,
"grad_norm": 0.8895397186279297,
"learning_rate": 8.177777777777778e-05,
"loss": 2.097,
"step": 4600
},
{
"epoch": 0.25066666666666665,
"grad_norm": 0.7431837320327759,
"learning_rate": 8.355555555555556e-05,
"loss": 2.1264,
"step": 4700
},
{
"epoch": 0.256,
"grad_norm": 0.8203670382499695,
"learning_rate": 8.533333333333334e-05,
"loss": 2.0972,
"step": 4800
},
{
"epoch": 0.2613333333333333,
"grad_norm": 0.47923657298088074,
"learning_rate": 8.711111111111112e-05,
"loss": 2.0768,
"step": 4900
},
{
"epoch": 0.26666666666666666,
"grad_norm": 1.155190110206604,
"learning_rate": 8.888888888888889e-05,
"loss": 2.1036,
"step": 5000
},
{
"epoch": 0.272,
"grad_norm": 0.6187294721603394,
"learning_rate": 9.066666666666667e-05,
"loss": 2.1188,
"step": 5100
},
{
"epoch": 0.2773333333333333,
"grad_norm": 0.43292027711868286,
"learning_rate": 9.244444444444445e-05,
"loss": 2.0647,
"step": 5200
},
{
"epoch": 0.2826666666666667,
"grad_norm": 1.1204800605773926,
"learning_rate": 9.422222222222223e-05,
"loss": 2.0616,
"step": 5300
},
{
"epoch": 0.288,
"grad_norm": 0.5165124535560608,
"learning_rate": 9.6e-05,
"loss": 2.1516,
"step": 5400
},
{
"epoch": 0.29333333333333333,
"grad_norm": 0.4999570846557617,
"learning_rate": 9.777777777777778e-05,
"loss": 2.0841,
"step": 5500
},
{
"epoch": 0.2986666666666667,
"grad_norm": 0.6320493817329407,
"learning_rate": 9.955555555555556e-05,
"loss": 2.0595,
"step": 5600
}
],
"logging_steps": 100,
"max_steps": 56250,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 5600,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 2.687976559607808e+17,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}