Upload folder using huggingface_hub

53a4974 verified 8 months ago

10.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.2986666666666667,
	"eval_steps": 500,
	"global_step": 5600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005333333333333333,
	"grad_norm": 0.7408381700515747,
	"learning_rate": 1.777777777777778e-06,
	"loss": 2.4329,
	"step": 100
	},
	{
	"epoch": 0.010666666666666666,
	"grad_norm": 1.5163946151733398,
	"learning_rate": 3.555555555555556e-06,
	"loss": 2.4588,
	"step": 200
	},
	{
	"epoch": 0.016,
	"grad_norm": 2.0432918071746826,
	"learning_rate": 5.333333333333334e-06,
	"loss": 2.4059,
	"step": 300
	},
	{
	"epoch": 0.021333333333333333,
	"grad_norm": 1.060476303100586,
	"learning_rate": 7.111111111111112e-06,
	"loss": 2.3268,
	"step": 400
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 3.8191990852355957,
	"learning_rate": 8.88888888888889e-06,
	"loss": 2.2524,
	"step": 500
	},
	{
	"epoch": 0.032,
	"grad_norm": 1.805410623550415,
	"learning_rate": 1.0666666666666667e-05,
	"loss": 2.1703,
	"step": 600
	},
	{
	"epoch": 0.037333333333333336,
	"grad_norm": 2.2576651573181152,
	"learning_rate": 1.2444444444444445e-05,
	"loss": 2.135,
	"step": 700
	},
	{
	"epoch": 0.042666666666666665,
	"grad_norm": 3.0686051845550537,
	"learning_rate": 1.4222222222222224e-05,
	"loss": 2.1264,
	"step": 800
	},
	{
	"epoch": 0.048,
	"grad_norm": 3.616314649581909,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 2.117,
	"step": 900
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 0.9794963598251343,
	"learning_rate": 1.777777777777778e-05,
	"loss": 2.0696,
	"step": 1000
	},
	{
	"epoch": 0.058666666666666666,
	"grad_norm": 1.115675926208496,
	"learning_rate": 1.9555555555555557e-05,
	"loss": 2.1145,
	"step": 1100
	},
	{
	"epoch": 0.064,
	"grad_norm": 1.3264107704162598,
	"learning_rate": 2.1333333333333335e-05,
	"loss": 2.1577,
	"step": 1200
	},
	{
	"epoch": 0.06933333333333333,
	"grad_norm": 1.0655226707458496,
	"learning_rate": 2.3111111111111112e-05,
	"loss": 2.1426,
	"step": 1300
	},
	{
	"epoch": 0.07466666666666667,
	"grad_norm": 1.8344405889511108,
	"learning_rate": 2.488888888888889e-05,
	"loss": 2.106,
	"step": 1400
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.8793189525604248,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 2.106,
	"step": 1500
	},
	{
	"epoch": 0.08533333333333333,
	"grad_norm": 0.9472557306289673,
	"learning_rate": 2.8444444444444447e-05,
	"loss": 2.1196,
	"step": 1600
	},
	{
	"epoch": 0.09066666666666667,
	"grad_norm": 1.0065737962722778,
	"learning_rate": 3.0222222222222225e-05,
	"loss": 2.1359,
	"step": 1700
	},
	{
	"epoch": 0.096,
	"grad_norm": 1.0629477500915527,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 2.1281,
	"step": 1800
	},
	{
	"epoch": 0.10133333333333333,
	"grad_norm": 1.1452460289001465,
	"learning_rate": 3.377777777777778e-05,
	"loss": 2.1015,
	"step": 1900
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 0.774829626083374,
	"learning_rate": 3.555555555555556e-05,
	"loss": 2.1491,
	"step": 2000
	},
	{
	"epoch": 0.112,
	"grad_norm": 1.9840822219848633,
	"learning_rate": 3.733333333333334e-05,
	"loss": 2.1162,
	"step": 2100
	},
	{
	"epoch": 0.11733333333333333,
	"grad_norm": 1.1680502891540527,
	"learning_rate": 3.9111111111111115e-05,
	"loss": 2.1081,
	"step": 2200
	},
	{
	"epoch": 0.12266666666666666,
	"grad_norm": 1.0015199184417725,
	"learning_rate": 4.088888888888889e-05,
	"loss": 2.1106,
	"step": 2300
	},
	{
	"epoch": 0.128,
	"grad_norm": 1.4964936971664429,
	"learning_rate": 4.266666666666667e-05,
	"loss": 2.0845,
	"step": 2400
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 0.8865829110145569,
	"learning_rate": 4.4444444444444447e-05,
	"loss": 2.1168,
	"step": 2500
	},
	{
	"epoch": 0.13866666666666666,
	"grad_norm": 0.7985750436782837,
	"learning_rate": 4.6222222222222224e-05,
	"loss": 2.0818,
	"step": 2600
	},
	{
	"epoch": 0.144,
	"grad_norm": 0.7723366022109985,
	"learning_rate": 4.8e-05,
	"loss": 2.1174,
	"step": 2700
	},
	{
	"epoch": 0.14933333333333335,
	"grad_norm": 1.5099104642868042,
	"learning_rate": 4.977777777777778e-05,
	"loss": 2.0898,
	"step": 2800
	},
	{
	"epoch": 0.15466666666666667,
	"grad_norm": 0.6583521962165833,
	"learning_rate": 5.1555555555555556e-05,
	"loss": 2.0947,
	"step": 2900
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.6292089819908142,
	"learning_rate": 5.333333333333333e-05,
	"loss": 2.1364,
	"step": 3000
	},
	{
	"epoch": 0.16533333333333333,
	"grad_norm": 2.6520564556121826,
	"learning_rate": 5.511111111111111e-05,
	"loss": 2.0834,
	"step": 3100
	},
	{
	"epoch": 0.17066666666666666,
	"grad_norm": 0.6982457637786865,
	"learning_rate": 5.6888888888888895e-05,
	"loss": 2.0916,
	"step": 3200
	},
	{
	"epoch": 0.176,
	"grad_norm": 1.235366702079773,
	"learning_rate": 5.866666666666667e-05,
	"loss": 2.0768,
	"step": 3300
	},
	{
	"epoch": 0.18133333333333335,
	"grad_norm": 0.5952820777893066,
	"learning_rate": 6.044444444444445e-05,
	"loss": 2.0834,
	"step": 3400
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 0.7027677893638611,
	"learning_rate": 6.222222222222222e-05,
	"loss": 2.122,
	"step": 3500
	},
	{
	"epoch": 0.192,
	"grad_norm": 0.9129226207733154,
	"learning_rate": 6.400000000000001e-05,
	"loss": 2.0797,
	"step": 3600
	},
	{
	"epoch": 0.19733333333333333,
	"grad_norm": 1.3665482997894287,
	"learning_rate": 6.577777777777779e-05,
	"loss": 2.1386,
	"step": 3700
	},
	{
	"epoch": 0.20266666666666666,
	"grad_norm": 0.7354358434677124,
	"learning_rate": 6.755555555555557e-05,
	"loss": 2.1181,
	"step": 3800
	},
	{
	"epoch": 0.208,
	"grad_norm": 1.131577491760254,
	"learning_rate": 6.933333333333334e-05,
	"loss": 2.0839,
	"step": 3900
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 1.4498499631881714,
	"learning_rate": 7.111111111111112e-05,
	"loss": 2.0743,
	"step": 4000
	},
	{
	"epoch": 0.21866666666666668,
	"grad_norm": 0.7681794762611389,
	"learning_rate": 7.28888888888889e-05,
	"loss": 2.0916,
	"step": 4100
	},
	{
	"epoch": 0.224,
	"grad_norm": 1.020183801651001,
	"learning_rate": 7.466666666666667e-05,
	"loss": 2.1021,
	"step": 4200
	},
	{
	"epoch": 0.22933333333333333,
	"grad_norm": 0.9761343002319336,
	"learning_rate": 7.644444444444445e-05,
	"loss": 2.0721,
	"step": 4300
	},
	{
	"epoch": 0.23466666666666666,
	"grad_norm": 0.5290562510490417,
	"learning_rate": 7.822222222222223e-05,
	"loss": 2.0873,
	"step": 4400
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.7238642573356628,
	"learning_rate": 8e-05,
	"loss": 2.1149,
	"step": 4500
	},
	{
	"epoch": 0.24533333333333332,
	"grad_norm": 0.8895397186279297,
	"learning_rate": 8.177777777777778e-05,
	"loss": 2.097,
	"step": 4600
	},
	{
	"epoch": 0.25066666666666665,
	"grad_norm": 0.7431837320327759,
	"learning_rate": 8.355555555555556e-05,
	"loss": 2.1264,
	"step": 4700
	},
	{
	"epoch": 0.256,
	"grad_norm": 0.8203670382499695,
	"learning_rate": 8.533333333333334e-05,
	"loss": 2.0972,
	"step": 4800
	},
	{
	"epoch": 0.2613333333333333,
	"grad_norm": 0.47923657298088074,
	"learning_rate": 8.711111111111112e-05,
	"loss": 2.0768,
	"step": 4900
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 1.155190110206604,
	"learning_rate": 8.888888888888889e-05,
	"loss": 2.1036,
	"step": 5000
	},
	{
	"epoch": 0.272,
	"grad_norm": 0.6187294721603394,
	"learning_rate": 9.066666666666667e-05,
	"loss": 2.1188,
	"step": 5100
	},
	{
	"epoch": 0.2773333333333333,
	"grad_norm": 0.43292027711868286,
	"learning_rate": 9.244444444444445e-05,
	"loss": 2.0647,
	"step": 5200
	},
	{
	"epoch": 0.2826666666666667,
	"grad_norm": 1.1204800605773926,
	"learning_rate": 9.422222222222223e-05,
	"loss": 2.0616,
	"step": 5300
	},
	{
	"epoch": 0.288,
	"grad_norm": 0.5165124535560608,
	"learning_rate": 9.6e-05,
	"loss": 2.1516,
	"step": 5400
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 0.4999570846557617,
	"learning_rate": 9.777777777777778e-05,
	"loss": 2.0841,
	"step": 5500
	},
	{
	"epoch": 0.2986666666666667,
	"grad_norm": 0.6320493817329407,
	"learning_rate": 9.955555555555556e-05,
	"loss": 2.0595,
	"step": 5600
	}
	],
	"logging_steps": 100,
	"max_steps": 56250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 5600,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.687976559607808e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}