RadAlienware commited on
Commit
b9c7fd5
·
verified ·
1 Parent(s): efae726

checkpoint-26200-uploaded-manually

Browse files
bn_adapter_ultrachatconv25april2024/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5de629b14c1e92898e103a41df327d3d6ffab9051cb32f3a0a3a6fe90389d4fb
3
  size 1195438880
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:25609992204958fc1ee37024b6a504d718c9cadba289138d4c060ec421c86a54
3
  size 1195438880
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2c7b404559132da2fe8465d7eab54f571e217ab99167303dcfe81e075d21efd4
3
  size 1198237404
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:09d92075491bf5f5606a3a5a371709841022fc2c5a91e033c7c081fd600d6d04
3
  size 1198237404
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5f84e01d4d1e45fd6c974166f30530d827161ad9788cad48f74785312ef9930d
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0abb51f32da6588af521ea52e1d3bf2d6faf48968d797fd32303a7862fb8dd97
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:181155956f8717a3f610116530ae1690d8882139bec61e4f08ff58258891d7c4
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:43cc6f7e24533ba24f16551452140098ac7955092206a834a0a31696d925450b
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.36482900943396224,
5
  "eval_steps": 500,
6
- "global_step": 19800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6937,6 +6937,2246 @@
6937
  "learning_rate": 1.840239603620849e-05,
6938
  "loss": 2.1362,
6939
  "step": 19800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6940
  }
6941
  ],
6942
  "logging_steps": 20,
@@ -6944,7 +9184,7 @@
6944
  "num_input_tokens_seen": 0,
6945
  "num_train_epochs": 2,
6946
  "save_steps": 200,
6947
- "total_flos": 1.9864148094152737e+19,
6948
  "train_batch_size": 16,
6949
  "trial_name": null,
6950
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.48275353773584906,
5
  "eval_steps": 500,
6
+ "global_step": 26200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6937
  "learning_rate": 1.840239603620849e-05,
6938
  "loss": 2.1362,
6939
  "step": 19800
6940
+ },
6941
+ {
6942
+ "epoch": 0.36519752358490565,
6943
+ "grad_norm": 2.71875,
6944
+ "learning_rate": 1.839925595675872e-05,
6945
+ "loss": 2.1075,
6946
+ "step": 19820
6947
+ },
6948
+ {
6949
+ "epoch": 0.36556603773584906,
6950
+ "grad_norm": 2.21875,
6951
+ "learning_rate": 1.8396113062887467e-05,
6952
+ "loss": 2.1305,
6953
+ "step": 19840
6954
+ },
6955
+ {
6956
+ "epoch": 0.36593455188679247,
6957
+ "grad_norm": 2.53125,
6958
+ "learning_rate": 1.839296735564786e-05,
6959
+ "loss": 2.1248,
6960
+ "step": 19860
6961
+ },
6962
+ {
6963
+ "epoch": 0.3663030660377358,
6964
+ "grad_norm": 2.359375,
6965
+ "learning_rate": 1.8389818836093948e-05,
6966
+ "loss": 2.1572,
6967
+ "step": 19880
6968
+ },
6969
+ {
6970
+ "epoch": 0.36667158018867924,
6971
+ "grad_norm": 2.390625,
6972
+ "learning_rate": 1.8386667505280745e-05,
6973
+ "loss": 2.1612,
6974
+ "step": 19900
6975
+ },
6976
+ {
6977
+ "epoch": 0.36704009433962265,
6978
+ "grad_norm": 2.40625,
6979
+ "learning_rate": 1.83835133642642e-05,
6980
+ "loss": 2.158,
6981
+ "step": 19920
6982
+ },
6983
+ {
6984
+ "epoch": 0.36740860849056606,
6985
+ "grad_norm": 2.9375,
6986
+ "learning_rate": 1.8380356414101198e-05,
6987
+ "loss": 2.096,
6988
+ "step": 19940
6989
+ },
6990
+ {
6991
+ "epoch": 0.3677771226415094,
6992
+ "grad_norm": 2.609375,
6993
+ "learning_rate": 1.837719665584957e-05,
6994
+ "loss": 2.1365,
6995
+ "step": 19960
6996
+ },
6997
+ {
6998
+ "epoch": 0.3681456367924528,
6999
+ "grad_norm": 2.65625,
7000
+ "learning_rate": 1.837403409056809e-05,
7001
+ "loss": 2.1483,
7002
+ "step": 19980
7003
+ },
7004
+ {
7005
+ "epoch": 0.36851415094339623,
7006
+ "grad_norm": 3.03125,
7007
+ "learning_rate": 1.837086871931647e-05,
7008
+ "loss": 2.1442,
7009
+ "step": 20000
7010
+ },
7011
+ {
7012
+ "epoch": 0.36888266509433965,
7013
+ "grad_norm": 2.40625,
7014
+ "learning_rate": 1.8367700543155355e-05,
7015
+ "loss": 2.1285,
7016
+ "step": 20020
7017
+ },
7018
+ {
7019
+ "epoch": 0.369251179245283,
7020
+ "grad_norm": 2.25,
7021
+ "learning_rate": 1.8364529563146348e-05,
7022
+ "loss": 2.1639,
7023
+ "step": 20040
7024
+ },
7025
+ {
7026
+ "epoch": 0.3696196933962264,
7027
+ "grad_norm": 2.40625,
7028
+ "learning_rate": 1.836135578035197e-05,
7029
+ "loss": 2.1572,
7030
+ "step": 20060
7031
+ },
7032
+ {
7033
+ "epoch": 0.3699882075471698,
7034
+ "grad_norm": 2.328125,
7035
+ "learning_rate": 1.83581791958357e-05,
7036
+ "loss": 2.1444,
7037
+ "step": 20080
7038
+ },
7039
+ {
7040
+ "epoch": 0.37035672169811323,
7041
+ "grad_norm": 2.46875,
7042
+ "learning_rate": 1.8354999810661942e-05,
7043
+ "loss": 2.1119,
7044
+ "step": 20100
7045
+ },
7046
+ {
7047
+ "epoch": 0.3707252358490566,
7048
+ "grad_norm": 2.5625,
7049
+ "learning_rate": 1.8351817625896046e-05,
7050
+ "loss": 2.0858,
7051
+ "step": 20120
7052
+ },
7053
+ {
7054
+ "epoch": 0.37109375,
7055
+ "grad_norm": 2.625,
7056
+ "learning_rate": 1.8348632642604297e-05,
7057
+ "loss": 2.1187,
7058
+ "step": 20140
7059
+ },
7060
+ {
7061
+ "epoch": 0.3714622641509434,
7062
+ "grad_norm": 2.734375,
7063
+ "learning_rate": 1.8345444861853922e-05,
7064
+ "loss": 2.1463,
7065
+ "step": 20160
7066
+ },
7067
+ {
7068
+ "epoch": 0.37183077830188677,
7069
+ "grad_norm": 2.640625,
7070
+ "learning_rate": 1.834225428471308e-05,
7071
+ "loss": 2.1447,
7072
+ "step": 20180
7073
+ },
7074
+ {
7075
+ "epoch": 0.3721992924528302,
7076
+ "grad_norm": 2.5,
7077
+ "learning_rate": 1.833906091225087e-05,
7078
+ "loss": 2.1054,
7079
+ "step": 20200
7080
+ },
7081
+ {
7082
+ "epoch": 0.3725678066037736,
7083
+ "grad_norm": 3.0,
7084
+ "learning_rate": 1.8335864745537323e-05,
7085
+ "loss": 2.0707,
7086
+ "step": 20220
7087
+ },
7088
+ {
7089
+ "epoch": 0.372936320754717,
7090
+ "grad_norm": 2.296875,
7091
+ "learning_rate": 1.8332665785643414e-05,
7092
+ "loss": 2.1163,
7093
+ "step": 20240
7094
+ },
7095
+ {
7096
+ "epoch": 0.37330483490566035,
7097
+ "grad_norm": 2.5,
7098
+ "learning_rate": 1.8329464033641048e-05,
7099
+ "loss": 2.1219,
7100
+ "step": 20260
7101
+ },
7102
+ {
7103
+ "epoch": 0.37367334905660377,
7104
+ "grad_norm": 3.09375,
7105
+ "learning_rate": 1.832625949060307e-05,
7106
+ "loss": 2.1054,
7107
+ "step": 20280
7108
+ },
7109
+ {
7110
+ "epoch": 0.3740418632075472,
7111
+ "grad_norm": 2.359375,
7112
+ "learning_rate": 1.8323052157603256e-05,
7113
+ "loss": 2.1189,
7114
+ "step": 20300
7115
+ },
7116
+ {
7117
+ "epoch": 0.3744103773584906,
7118
+ "grad_norm": 2.171875,
7119
+ "learning_rate": 1.831984203571632e-05,
7120
+ "loss": 2.1239,
7121
+ "step": 20320
7122
+ },
7123
+ {
7124
+ "epoch": 0.37477889150943394,
7125
+ "grad_norm": 2.375,
7126
+ "learning_rate": 1.8316629126017906e-05,
7127
+ "loss": 2.1513,
7128
+ "step": 20340
7129
+ },
7130
+ {
7131
+ "epoch": 0.37514740566037735,
7132
+ "grad_norm": 2.40625,
7133
+ "learning_rate": 1.8313413429584596e-05,
7134
+ "loss": 2.1285,
7135
+ "step": 20360
7136
+ },
7137
+ {
7138
+ "epoch": 0.37551591981132076,
7139
+ "grad_norm": 2.40625,
7140
+ "learning_rate": 1.8310194947493907e-05,
7141
+ "loss": 2.1439,
7142
+ "step": 20380
7143
+ },
7144
+ {
7145
+ "epoch": 0.3758844339622642,
7146
+ "grad_norm": 2.640625,
7147
+ "learning_rate": 1.830697368082429e-05,
7148
+ "loss": 2.128,
7149
+ "step": 20400
7150
+ },
7151
+ {
7152
+ "epoch": 0.37625294811320753,
7153
+ "grad_norm": 2.203125,
7154
+ "learning_rate": 1.8303749630655125e-05,
7155
+ "loss": 2.1059,
7156
+ "step": 20420
7157
+ },
7158
+ {
7159
+ "epoch": 0.37662146226415094,
7160
+ "grad_norm": 2.296875,
7161
+ "learning_rate": 1.830052279806672e-05,
7162
+ "loss": 2.1378,
7163
+ "step": 20440
7164
+ },
7165
+ {
7166
+ "epoch": 0.37698997641509435,
7167
+ "grad_norm": 2.703125,
7168
+ "learning_rate": 1.829729318414033e-05,
7169
+ "loss": 2.1479,
7170
+ "step": 20460
7171
+ },
7172
+ {
7173
+ "epoch": 0.37735849056603776,
7174
+ "grad_norm": 2.3125,
7175
+ "learning_rate": 1.8294060789958128e-05,
7176
+ "loss": 2.1055,
7177
+ "step": 20480
7178
+ },
7179
+ {
7180
+ "epoch": 0.3777270047169811,
7181
+ "grad_norm": 2.453125,
7182
+ "learning_rate": 1.829082561660323e-05,
7183
+ "loss": 2.1284,
7184
+ "step": 20500
7185
+ },
7186
+ {
7187
+ "epoch": 0.37809551886792453,
7188
+ "grad_norm": 2.328125,
7189
+ "learning_rate": 1.8287587665159668e-05,
7190
+ "loss": 2.139,
7191
+ "step": 20520
7192
+ },
7193
+ {
7194
+ "epoch": 0.37846403301886794,
7195
+ "grad_norm": 2.453125,
7196
+ "learning_rate": 1.8284346936712425e-05,
7197
+ "loss": 2.1444,
7198
+ "step": 20540
7199
+ },
7200
+ {
7201
+ "epoch": 0.3788325471698113,
7202
+ "grad_norm": 2.5,
7203
+ "learning_rate": 1.8281103432347397e-05,
7204
+ "loss": 2.1615,
7205
+ "step": 20560
7206
+ },
7207
+ {
7208
+ "epoch": 0.3792010613207547,
7209
+ "grad_norm": 2.28125,
7210
+ "learning_rate": 1.827785715315142e-05,
7211
+ "loss": 2.0913,
7212
+ "step": 20580
7213
+ },
7214
+ {
7215
+ "epoch": 0.3795695754716981,
7216
+ "grad_norm": 2.3125,
7217
+ "learning_rate": 1.8274608100212253e-05,
7218
+ "loss": 2.1519,
7219
+ "step": 20600
7220
+ },
7221
+ {
7222
+ "epoch": 0.37993808962264153,
7223
+ "grad_norm": 2.28125,
7224
+ "learning_rate": 1.8271356274618594e-05,
7225
+ "loss": 2.108,
7226
+ "step": 20620
7227
+ },
7228
+ {
7229
+ "epoch": 0.3803066037735849,
7230
+ "grad_norm": 2.3125,
7231
+ "learning_rate": 1.8268101677460056e-05,
7232
+ "loss": 2.1208,
7233
+ "step": 20640
7234
+ },
7235
+ {
7236
+ "epoch": 0.3806751179245283,
7237
+ "grad_norm": 2.234375,
7238
+ "learning_rate": 1.8264844309827195e-05,
7239
+ "loss": 2.1263,
7240
+ "step": 20660
7241
+ },
7242
+ {
7243
+ "epoch": 0.3810436320754717,
7244
+ "grad_norm": 2.359375,
7245
+ "learning_rate": 1.8261584172811494e-05,
7246
+ "loss": 2.1344,
7247
+ "step": 20680
7248
+ },
7249
+ {
7250
+ "epoch": 0.3814121462264151,
7251
+ "grad_norm": 2.484375,
7252
+ "learning_rate": 1.825832126750535e-05,
7253
+ "loss": 2.1199,
7254
+ "step": 20700
7255
+ },
7256
+ {
7257
+ "epoch": 0.38178066037735847,
7258
+ "grad_norm": 2.6875,
7259
+ "learning_rate": 1.82550555950021e-05,
7260
+ "loss": 2.1269,
7261
+ "step": 20720
7262
+ },
7263
+ {
7264
+ "epoch": 0.3821491745283019,
7265
+ "grad_norm": 3.234375,
7266
+ "learning_rate": 1.8251787156396002e-05,
7267
+ "loss": 2.0986,
7268
+ "step": 20740
7269
+ },
7270
+ {
7271
+ "epoch": 0.3825176886792453,
7272
+ "grad_norm": 2.5625,
7273
+ "learning_rate": 1.8248515952782254e-05,
7274
+ "loss": 2.1599,
7275
+ "step": 20760
7276
+ },
7277
+ {
7278
+ "epoch": 0.3828862028301887,
7279
+ "grad_norm": 2.46875,
7280
+ "learning_rate": 1.824524198525696e-05,
7281
+ "loss": 2.137,
7282
+ "step": 20780
7283
+ },
7284
+ {
7285
+ "epoch": 0.38325471698113206,
7286
+ "grad_norm": 2.484375,
7287
+ "learning_rate": 1.8241965254917168e-05,
7288
+ "loss": 2.1332,
7289
+ "step": 20800
7290
+ },
7291
+ {
7292
+ "epoch": 0.38362323113207547,
7293
+ "grad_norm": 2.4375,
7294
+ "learning_rate": 1.8238685762860835e-05,
7295
+ "loss": 2.137,
7296
+ "step": 20820
7297
+ },
7298
+ {
7299
+ "epoch": 0.3839917452830189,
7300
+ "grad_norm": 2.28125,
7301
+ "learning_rate": 1.8235403510186863e-05,
7302
+ "loss": 2.1272,
7303
+ "step": 20840
7304
+ },
7305
+ {
7306
+ "epoch": 0.38436025943396224,
7307
+ "grad_norm": 2.515625,
7308
+ "learning_rate": 1.8232118497995058e-05,
7309
+ "loss": 2.0837,
7310
+ "step": 20860
7311
+ },
7312
+ {
7313
+ "epoch": 0.38472877358490565,
7314
+ "grad_norm": 2.890625,
7315
+ "learning_rate": 1.8228830727386175e-05,
7316
+ "loss": 2.1107,
7317
+ "step": 20880
7318
+ },
7319
+ {
7320
+ "epoch": 0.38509728773584906,
7321
+ "grad_norm": 2.546875,
7322
+ "learning_rate": 1.822554019946187e-05,
7323
+ "loss": 2.1133,
7324
+ "step": 20900
7325
+ },
7326
+ {
7327
+ "epoch": 0.38546580188679247,
7328
+ "grad_norm": 3.0625,
7329
+ "learning_rate": 1.8222246915324734e-05,
7330
+ "loss": 2.1449,
7331
+ "step": 20920
7332
+ },
7333
+ {
7334
+ "epoch": 0.3858343160377358,
7335
+ "grad_norm": 2.46875,
7336
+ "learning_rate": 1.821895087607828e-05,
7337
+ "loss": 2.1228,
7338
+ "step": 20940
7339
+ },
7340
+ {
7341
+ "epoch": 0.38620283018867924,
7342
+ "grad_norm": 2.375,
7343
+ "learning_rate": 1.8215652082826945e-05,
7344
+ "loss": 2.1257,
7345
+ "step": 20960
7346
+ },
7347
+ {
7348
+ "epoch": 0.38657134433962265,
7349
+ "grad_norm": 2.25,
7350
+ "learning_rate": 1.8212350536676093e-05,
7351
+ "loss": 2.114,
7352
+ "step": 20980
7353
+ },
7354
+ {
7355
+ "epoch": 0.38693985849056606,
7356
+ "grad_norm": 2.3125,
7357
+ "learning_rate": 1.8209046238731998e-05,
7358
+ "loss": 2.1355,
7359
+ "step": 21000
7360
+ },
7361
+ {
7362
+ "epoch": 0.3873083726415094,
7363
+ "grad_norm": 2.34375,
7364
+ "learning_rate": 1.820573919010187e-05,
7365
+ "loss": 2.0884,
7366
+ "step": 21020
7367
+ },
7368
+ {
7369
+ "epoch": 0.3876768867924528,
7370
+ "grad_norm": 2.46875,
7371
+ "learning_rate": 1.8202429391893826e-05,
7372
+ "loss": 2.1283,
7373
+ "step": 21040
7374
+ },
7375
+ {
7376
+ "epoch": 0.38804540094339623,
7377
+ "grad_norm": 2.953125,
7378
+ "learning_rate": 1.8199116845216923e-05,
7379
+ "loss": 2.1312,
7380
+ "step": 21060
7381
+ },
7382
+ {
7383
+ "epoch": 0.38841391509433965,
7384
+ "grad_norm": 2.90625,
7385
+ "learning_rate": 1.819580155118112e-05,
7386
+ "loss": 2.1085,
7387
+ "step": 21080
7388
+ },
7389
+ {
7390
+ "epoch": 0.388782429245283,
7391
+ "grad_norm": 2.5,
7392
+ "learning_rate": 1.819248351089731e-05,
7393
+ "loss": 2.1113,
7394
+ "step": 21100
7395
+ },
7396
+ {
7397
+ "epoch": 0.3891509433962264,
7398
+ "grad_norm": 2.171875,
7399
+ "learning_rate": 1.81891627254773e-05,
7400
+ "loss": 2.1113,
7401
+ "step": 21120
7402
+ },
7403
+ {
7404
+ "epoch": 0.3895194575471698,
7405
+ "grad_norm": 2.875,
7406
+ "learning_rate": 1.818583919603382e-05,
7407
+ "loss": 2.13,
7408
+ "step": 21140
7409
+ },
7410
+ {
7411
+ "epoch": 0.38988797169811323,
7412
+ "grad_norm": 2.1875,
7413
+ "learning_rate": 1.8182512923680515e-05,
7414
+ "loss": 2.1251,
7415
+ "step": 21160
7416
+ },
7417
+ {
7418
+ "epoch": 0.3902564858490566,
7419
+ "grad_norm": 2.375,
7420
+ "learning_rate": 1.8179183909531955e-05,
7421
+ "loss": 2.1498,
7422
+ "step": 21180
7423
+ },
7424
+ {
7425
+ "epoch": 0.390625,
7426
+ "grad_norm": 2.265625,
7427
+ "learning_rate": 1.8175852154703624e-05,
7428
+ "loss": 2.105,
7429
+ "step": 21200
7430
+ },
7431
+ {
7432
+ "epoch": 0.3909935141509434,
7433
+ "grad_norm": 2.71875,
7434
+ "learning_rate": 1.8172517660311926e-05,
7435
+ "loss": 2.0958,
7436
+ "step": 21220
7437
+ },
7438
+ {
7439
+ "epoch": 0.39136202830188677,
7440
+ "grad_norm": 2.671875,
7441
+ "learning_rate": 1.816918042747418e-05,
7442
+ "loss": 2.1024,
7443
+ "step": 21240
7444
+ },
7445
+ {
7446
+ "epoch": 0.3917305424528302,
7447
+ "grad_norm": 2.359375,
7448
+ "learning_rate": 1.816584045730863e-05,
7449
+ "loss": 2.1055,
7450
+ "step": 21260
7451
+ },
7452
+ {
7453
+ "epoch": 0.3920990566037736,
7454
+ "grad_norm": 2.5,
7455
+ "learning_rate": 1.816249775093443e-05,
7456
+ "loss": 2.1376,
7457
+ "step": 21280
7458
+ },
7459
+ {
7460
+ "epoch": 0.392467570754717,
7461
+ "grad_norm": 2.53125,
7462
+ "learning_rate": 1.8159152309471655e-05,
7463
+ "loss": 2.0971,
7464
+ "step": 21300
7465
+ },
7466
+ {
7467
+ "epoch": 0.39283608490566035,
7468
+ "grad_norm": 2.515625,
7469
+ "learning_rate": 1.8155804134041294e-05,
7470
+ "loss": 2.0963,
7471
+ "step": 21320
7472
+ },
7473
+ {
7474
+ "epoch": 0.39320459905660377,
7475
+ "grad_norm": 2.3125,
7476
+ "learning_rate": 1.8152453225765256e-05,
7477
+ "loss": 2.0779,
7478
+ "step": 21340
7479
+ },
7480
+ {
7481
+ "epoch": 0.3935731132075472,
7482
+ "grad_norm": 2.328125,
7483
+ "learning_rate": 1.8149099585766362e-05,
7484
+ "loss": 2.1209,
7485
+ "step": 21360
7486
+ },
7487
+ {
7488
+ "epoch": 0.3939416273584906,
7489
+ "grad_norm": 2.453125,
7490
+ "learning_rate": 1.8145743215168343e-05,
7491
+ "loss": 2.0993,
7492
+ "step": 21380
7493
+ },
7494
+ {
7495
+ "epoch": 0.39431014150943394,
7496
+ "grad_norm": 2.515625,
7497
+ "learning_rate": 1.8142384115095857e-05,
7498
+ "loss": 2.1092,
7499
+ "step": 21400
7500
+ },
7501
+ {
7502
+ "epoch": 0.39467865566037735,
7503
+ "grad_norm": 2.609375,
7504
+ "learning_rate": 1.8139022286674473e-05,
7505
+ "loss": 2.132,
7506
+ "step": 21420
7507
+ },
7508
+ {
7509
+ "epoch": 0.39504716981132076,
7510
+ "grad_norm": 2.5,
7511
+ "learning_rate": 1.8135657731030666e-05,
7512
+ "loss": 2.1542,
7513
+ "step": 21440
7514
+ },
7515
+ {
7516
+ "epoch": 0.3954156839622642,
7517
+ "grad_norm": 2.453125,
7518
+ "learning_rate": 1.8132290449291834e-05,
7519
+ "loss": 2.1324,
7520
+ "step": 21460
7521
+ },
7522
+ {
7523
+ "epoch": 0.39578419811320753,
7524
+ "grad_norm": 2.59375,
7525
+ "learning_rate": 1.8128920442586285e-05,
7526
+ "loss": 2.0921,
7527
+ "step": 21480
7528
+ },
7529
+ {
7530
+ "epoch": 0.39615271226415094,
7531
+ "grad_norm": 2.265625,
7532
+ "learning_rate": 1.812554771204324e-05,
7533
+ "loss": 2.1594,
7534
+ "step": 21500
7535
+ },
7536
+ {
7537
+ "epoch": 0.39652122641509435,
7538
+ "grad_norm": 2.484375,
7539
+ "learning_rate": 1.8122172258792835e-05,
7540
+ "loss": 2.1285,
7541
+ "step": 21520
7542
+ },
7543
+ {
7544
+ "epoch": 0.39688974056603776,
7545
+ "grad_norm": 3.265625,
7546
+ "learning_rate": 1.8118794083966112e-05,
7547
+ "loss": 2.1157,
7548
+ "step": 21540
7549
+ },
7550
+ {
7551
+ "epoch": 0.3972582547169811,
7552
+ "grad_norm": 2.578125,
7553
+ "learning_rate": 1.8115413188695032e-05,
7554
+ "loss": 2.121,
7555
+ "step": 21560
7556
+ },
7557
+ {
7558
+ "epoch": 0.39762676886792453,
7559
+ "grad_norm": 2.34375,
7560
+ "learning_rate": 1.8112029574112465e-05,
7561
+ "loss": 2.0751,
7562
+ "step": 21580
7563
+ },
7564
+ {
7565
+ "epoch": 0.39799528301886794,
7566
+ "grad_norm": 2.390625,
7567
+ "learning_rate": 1.810864324135219e-05,
7568
+ "loss": 2.1296,
7569
+ "step": 21600
7570
+ },
7571
+ {
7572
+ "epoch": 0.3983637971698113,
7573
+ "grad_norm": 2.390625,
7574
+ "learning_rate": 1.8105254191548907e-05,
7575
+ "loss": 2.1194,
7576
+ "step": 21620
7577
+ },
7578
+ {
7579
+ "epoch": 0.3987323113207547,
7580
+ "grad_norm": 2.46875,
7581
+ "learning_rate": 1.810186242583821e-05,
7582
+ "loss": 2.1254,
7583
+ "step": 21640
7584
+ },
7585
+ {
7586
+ "epoch": 0.3991008254716981,
7587
+ "grad_norm": 2.375,
7588
+ "learning_rate": 1.8098467945356612e-05,
7589
+ "loss": 2.1173,
7590
+ "step": 21660
7591
+ },
7592
+ {
7593
+ "epoch": 0.39946933962264153,
7594
+ "grad_norm": 2.34375,
7595
+ "learning_rate": 1.8095070751241537e-05,
7596
+ "loss": 2.1531,
7597
+ "step": 21680
7598
+ },
7599
+ {
7600
+ "epoch": 0.3998378537735849,
7601
+ "grad_norm": 2.34375,
7602
+ "learning_rate": 1.8091670844631317e-05,
7603
+ "loss": 2.1302,
7604
+ "step": 21700
7605
+ },
7606
+ {
7607
+ "epoch": 0.4002063679245283,
7608
+ "grad_norm": 2.265625,
7609
+ "learning_rate": 1.808826822666519e-05,
7610
+ "loss": 2.0457,
7611
+ "step": 21720
7612
+ },
7613
+ {
7614
+ "epoch": 0.4005748820754717,
7615
+ "grad_norm": 2.296875,
7616
+ "learning_rate": 1.8084862898483304e-05,
7617
+ "loss": 2.1384,
7618
+ "step": 21740
7619
+ },
7620
+ {
7621
+ "epoch": 0.4009433962264151,
7622
+ "grad_norm": 2.375,
7623
+ "learning_rate": 1.8081454861226723e-05,
7624
+ "loss": 2.1201,
7625
+ "step": 21760
7626
+ },
7627
+ {
7628
+ "epoch": 0.40131191037735847,
7629
+ "grad_norm": 2.984375,
7630
+ "learning_rate": 1.80780441160374e-05,
7631
+ "loss": 2.0842,
7632
+ "step": 21780
7633
+ },
7634
+ {
7635
+ "epoch": 0.4016804245283019,
7636
+ "grad_norm": 2.3125,
7637
+ "learning_rate": 1.8074630664058218e-05,
7638
+ "loss": 2.1259,
7639
+ "step": 21800
7640
+ },
7641
+ {
7642
+ "epoch": 0.4020489386792453,
7643
+ "grad_norm": 2.671875,
7644
+ "learning_rate": 1.807121450643295e-05,
7645
+ "loss": 2.1188,
7646
+ "step": 21820
7647
+ },
7648
+ {
7649
+ "epoch": 0.4024174528301887,
7650
+ "grad_norm": 2.3125,
7651
+ "learning_rate": 1.8067795644306284e-05,
7652
+ "loss": 2.1493,
7653
+ "step": 21840
7654
+ },
7655
+ {
7656
+ "epoch": 0.40278596698113206,
7657
+ "grad_norm": 2.390625,
7658
+ "learning_rate": 1.8064374078823807e-05,
7659
+ "loss": 2.1433,
7660
+ "step": 21860
7661
+ },
7662
+ {
7663
+ "epoch": 0.40315448113207547,
7664
+ "grad_norm": 2.390625,
7665
+ "learning_rate": 1.8060949811132024e-05,
7666
+ "loss": 2.1383,
7667
+ "step": 21880
7668
+ },
7669
+ {
7670
+ "epoch": 0.4035229952830189,
7671
+ "grad_norm": 2.21875,
7672
+ "learning_rate": 1.8057522842378333e-05,
7673
+ "loss": 2.1132,
7674
+ "step": 21900
7675
+ },
7676
+ {
7677
+ "epoch": 0.40389150943396224,
7678
+ "grad_norm": 2.328125,
7679
+ "learning_rate": 1.8054093173711046e-05,
7680
+ "loss": 2.0957,
7681
+ "step": 21920
7682
+ },
7683
+ {
7684
+ "epoch": 0.40426002358490565,
7685
+ "grad_norm": 2.65625,
7686
+ "learning_rate": 1.8050660806279374e-05,
7687
+ "loss": 2.135,
7688
+ "step": 21940
7689
+ },
7690
+ {
7691
+ "epoch": 0.40462853773584906,
7692
+ "grad_norm": 2.6875,
7693
+ "learning_rate": 1.804722574123343e-05,
7694
+ "loss": 2.1502,
7695
+ "step": 21960
7696
+ },
7697
+ {
7698
+ "epoch": 0.40499705188679247,
7699
+ "grad_norm": 2.484375,
7700
+ "learning_rate": 1.8043787979724242e-05,
7701
+ "loss": 2.0767,
7702
+ "step": 21980
7703
+ },
7704
+ {
7705
+ "epoch": 0.4053655660377358,
7706
+ "grad_norm": 2.78125,
7707
+ "learning_rate": 1.804034752290373e-05,
7708
+ "loss": 2.115,
7709
+ "step": 22000
7710
+ },
7711
+ {
7712
+ "epoch": 0.40573408018867924,
7713
+ "grad_norm": 2.421875,
7714
+ "learning_rate": 1.8036904371924724e-05,
7715
+ "loss": 2.1322,
7716
+ "step": 22020
7717
+ },
7718
+ {
7719
+ "epoch": 0.40610259433962265,
7720
+ "grad_norm": 2.71875,
7721
+ "learning_rate": 1.8033458527940956e-05,
7722
+ "loss": 2.1141,
7723
+ "step": 22040
7724
+ },
7725
+ {
7726
+ "epoch": 0.40647110849056606,
7727
+ "grad_norm": 2.515625,
7728
+ "learning_rate": 1.8030009992107055e-05,
7729
+ "loss": 2.0886,
7730
+ "step": 22060
7731
+ },
7732
+ {
7733
+ "epoch": 0.4068396226415094,
7734
+ "grad_norm": 2.609375,
7735
+ "learning_rate": 1.802655876557856e-05,
7736
+ "loss": 2.1382,
7737
+ "step": 22080
7738
+ },
7739
+ {
7740
+ "epoch": 0.4072081367924528,
7741
+ "grad_norm": 2.484375,
7742
+ "learning_rate": 1.8023104849511902e-05,
7743
+ "loss": 2.1051,
7744
+ "step": 22100
7745
+ },
7746
+ {
7747
+ "epoch": 0.40757665094339623,
7748
+ "grad_norm": 2.5,
7749
+ "learning_rate": 1.8019648245064423e-05,
7750
+ "loss": 2.0943,
7751
+ "step": 22120
7752
+ },
7753
+ {
7754
+ "epoch": 0.40794516509433965,
7755
+ "grad_norm": 2.484375,
7756
+ "learning_rate": 1.801618895339436e-05,
7757
+ "loss": 2.1503,
7758
+ "step": 22140
7759
+ },
7760
+ {
7761
+ "epoch": 0.408313679245283,
7762
+ "grad_norm": 2.703125,
7763
+ "learning_rate": 1.8012726975660856e-05,
7764
+ "loss": 2.1316,
7765
+ "step": 22160
7766
+ },
7767
+ {
7768
+ "epoch": 0.4086821933962264,
7769
+ "grad_norm": 2.484375,
7770
+ "learning_rate": 1.800926231302394e-05,
7771
+ "loss": 2.1229,
7772
+ "step": 22180
7773
+ },
7774
+ {
7775
+ "epoch": 0.4090507075471698,
7776
+ "grad_norm": 2.5,
7777
+ "learning_rate": 1.800579496664456e-05,
7778
+ "loss": 2.1029,
7779
+ "step": 22200
7780
+ },
7781
+ {
7782
+ "epoch": 0.40941922169811323,
7783
+ "grad_norm": 2.625,
7784
+ "learning_rate": 1.8002324937684552e-05,
7785
+ "loss": 2.1008,
7786
+ "step": 22220
7787
+ },
7788
+ {
7789
+ "epoch": 0.4097877358490566,
7790
+ "grad_norm": 2.703125,
7791
+ "learning_rate": 1.7998852227306655e-05,
7792
+ "loss": 2.1325,
7793
+ "step": 22240
7794
+ },
7795
+ {
7796
+ "epoch": 0.41015625,
7797
+ "grad_norm": 2.4375,
7798
+ "learning_rate": 1.7995376836674495e-05,
7799
+ "loss": 2.1312,
7800
+ "step": 22260
7801
+ },
7802
+ {
7803
+ "epoch": 0.4105247641509434,
7804
+ "grad_norm": 2.15625,
7805
+ "learning_rate": 1.7991898766952614e-05,
7806
+ "loss": 2.1224,
7807
+ "step": 22280
7808
+ },
7809
+ {
7810
+ "epoch": 0.41089327830188677,
7811
+ "grad_norm": 2.34375,
7812
+ "learning_rate": 1.798841801930644e-05,
7813
+ "loss": 2.1377,
7814
+ "step": 22300
7815
+ },
7816
+ {
7817
+ "epoch": 0.4112617924528302,
7818
+ "grad_norm": 2.390625,
7819
+ "learning_rate": 1.7984934594902302e-05,
7820
+ "loss": 2.1548,
7821
+ "step": 22320
7822
+ },
7823
+ {
7824
+ "epoch": 0.4116303066037736,
7825
+ "grad_norm": 2.78125,
7826
+ "learning_rate": 1.7981448494907424e-05,
7827
+ "loss": 2.1323,
7828
+ "step": 22340
7829
+ },
7830
+ {
7831
+ "epoch": 0.411998820754717,
7832
+ "grad_norm": 2.890625,
7833
+ "learning_rate": 1.7977959720489932e-05,
7834
+ "loss": 2.1364,
7835
+ "step": 22360
7836
+ },
7837
+ {
7838
+ "epoch": 0.41236733490566035,
7839
+ "grad_norm": 2.703125,
7840
+ "learning_rate": 1.7974468272818844e-05,
7841
+ "loss": 2.1422,
7842
+ "step": 22380
7843
+ },
7844
+ {
7845
+ "epoch": 0.41273584905660377,
7846
+ "grad_norm": 2.46875,
7847
+ "learning_rate": 1.7970974153064068e-05,
7848
+ "loss": 2.1491,
7849
+ "step": 22400
7850
+ },
7851
+ {
7852
+ "epoch": 0.4131043632075472,
7853
+ "grad_norm": 2.328125,
7854
+ "learning_rate": 1.7967477362396413e-05,
7855
+ "loss": 2.1264,
7856
+ "step": 22420
7857
+ },
7858
+ {
7859
+ "epoch": 0.4134728773584906,
7860
+ "grad_norm": 2.765625,
7861
+ "learning_rate": 1.796397790198759e-05,
7862
+ "loss": 2.1195,
7863
+ "step": 22440
7864
+ },
7865
+ {
7866
+ "epoch": 0.41384139150943394,
7867
+ "grad_norm": 2.359375,
7868
+ "learning_rate": 1.7960475773010193e-05,
7869
+ "loss": 2.112,
7870
+ "step": 22460
7871
+ },
7872
+ {
7873
+ "epoch": 0.41420990566037735,
7874
+ "grad_norm": 2.40625,
7875
+ "learning_rate": 1.7956970976637715e-05,
7876
+ "loss": 2.1132,
7877
+ "step": 22480
7878
+ },
7879
+ {
7880
+ "epoch": 0.41457841981132076,
7881
+ "grad_norm": 2.4375,
7882
+ "learning_rate": 1.7953463514044545e-05,
7883
+ "loss": 2.12,
7884
+ "step": 22500
7885
+ },
7886
+ {
7887
+ "epoch": 0.4149469339622642,
7888
+ "grad_norm": 2.4375,
7889
+ "learning_rate": 1.7949953386405962e-05,
7890
+ "loss": 2.116,
7891
+ "step": 22520
7892
+ },
7893
+ {
7894
+ "epoch": 0.41531544811320753,
7895
+ "grad_norm": 2.546875,
7896
+ "learning_rate": 1.794644059489814e-05,
7897
+ "loss": 2.0904,
7898
+ "step": 22540
7899
+ },
7900
+ {
7901
+ "epoch": 0.41568396226415094,
7902
+ "grad_norm": 2.421875,
7903
+ "learning_rate": 1.794292514069814e-05,
7904
+ "loss": 2.1462,
7905
+ "step": 22560
7906
+ },
7907
+ {
7908
+ "epoch": 0.41605247641509435,
7909
+ "grad_norm": 2.609375,
7910
+ "learning_rate": 1.7939407024983927e-05,
7911
+ "loss": 2.0715,
7912
+ "step": 22580
7913
+ },
7914
+ {
7915
+ "epoch": 0.41642099056603776,
7916
+ "grad_norm": 2.421875,
7917
+ "learning_rate": 1.793588624893434e-05,
7918
+ "loss": 2.1402,
7919
+ "step": 22600
7920
+ },
7921
+ {
7922
+ "epoch": 0.4167895047169811,
7923
+ "grad_norm": 2.671875,
7924
+ "learning_rate": 1.7932362813729134e-05,
7925
+ "loss": 2.098,
7926
+ "step": 22620
7927
+ },
7928
+ {
7929
+ "epoch": 0.41715801886792453,
7930
+ "grad_norm": 2.546875,
7931
+ "learning_rate": 1.792883672054893e-05,
7932
+ "loss": 2.1199,
7933
+ "step": 22640
7934
+ },
7935
+ {
7936
+ "epoch": 0.41752653301886794,
7937
+ "grad_norm": 2.1875,
7938
+ "learning_rate": 1.7925307970575262e-05,
7939
+ "loss": 2.0988,
7940
+ "step": 22660
7941
+ },
7942
+ {
7943
+ "epoch": 0.4178950471698113,
7944
+ "grad_norm": 2.484375,
7945
+ "learning_rate": 1.7921776564990528e-05,
7946
+ "loss": 2.1301,
7947
+ "step": 22680
7948
+ },
7949
+ {
7950
+ "epoch": 0.4182635613207547,
7951
+ "grad_norm": 2.640625,
7952
+ "learning_rate": 1.7918242504978047e-05,
7953
+ "loss": 2.1171,
7954
+ "step": 22700
7955
+ },
7956
+ {
7957
+ "epoch": 0.4186320754716981,
7958
+ "grad_norm": 2.484375,
7959
+ "learning_rate": 1.7914705791721994e-05,
7960
+ "loss": 2.117,
7961
+ "step": 22720
7962
+ },
7963
+ {
7964
+ "epoch": 0.41900058962264153,
7965
+ "grad_norm": 3.0625,
7966
+ "learning_rate": 1.7911166426407467e-05,
7967
+ "loss": 2.1198,
7968
+ "step": 22740
7969
+ },
7970
+ {
7971
+ "epoch": 0.4193691037735849,
7972
+ "grad_norm": 2.46875,
7973
+ "learning_rate": 1.7907624410220425e-05,
7974
+ "loss": 2.1664,
7975
+ "step": 22760
7976
+ },
7977
+ {
7978
+ "epoch": 0.4197376179245283,
7979
+ "grad_norm": 2.453125,
7980
+ "learning_rate": 1.7904079744347732e-05,
7981
+ "loss": 2.1384,
7982
+ "step": 22780
7983
+ },
7984
+ {
7985
+ "epoch": 0.4201061320754717,
7986
+ "grad_norm": 2.546875,
7987
+ "learning_rate": 1.790053242997713e-05,
7988
+ "loss": 2.0966,
7989
+ "step": 22800
7990
+ },
7991
+ {
7992
+ "epoch": 0.4204746462264151,
7993
+ "grad_norm": 2.46875,
7994
+ "learning_rate": 1.7896982468297255e-05,
7995
+ "loss": 2.1267,
7996
+ "step": 22820
7997
+ },
7998
+ {
7999
+ "epoch": 0.42084316037735847,
8000
+ "grad_norm": 2.375,
8001
+ "learning_rate": 1.789342986049763e-05,
8002
+ "loss": 2.1452,
8003
+ "step": 22840
8004
+ },
8005
+ {
8006
+ "epoch": 0.4212116745283019,
8007
+ "grad_norm": 2.34375,
8008
+ "learning_rate": 1.7889874607768656e-05,
8009
+ "loss": 2.0968,
8010
+ "step": 22860
8011
+ },
8012
+ {
8013
+ "epoch": 0.4215801886792453,
8014
+ "grad_norm": 2.515625,
8015
+ "learning_rate": 1.7886316711301632e-05,
8016
+ "loss": 2.1147,
8017
+ "step": 22880
8018
+ },
8019
+ {
8020
+ "epoch": 0.4219487028301887,
8021
+ "grad_norm": 2.71875,
8022
+ "learning_rate": 1.7882756172288735e-05,
8023
+ "loss": 2.1206,
8024
+ "step": 22900
8025
+ },
8026
+ {
8027
+ "epoch": 0.42231721698113206,
8028
+ "grad_norm": 2.8125,
8029
+ "learning_rate": 1.787919299192303e-05,
8030
+ "loss": 2.1124,
8031
+ "step": 22920
8032
+ },
8033
+ {
8034
+ "epoch": 0.42268573113207547,
8035
+ "grad_norm": 2.609375,
8036
+ "learning_rate": 1.787562717139847e-05,
8037
+ "loss": 2.1247,
8038
+ "step": 22940
8039
+ },
8040
+ {
8041
+ "epoch": 0.4230542452830189,
8042
+ "grad_norm": 2.5625,
8043
+ "learning_rate": 1.7872058711909884e-05,
8044
+ "loss": 2.1297,
8045
+ "step": 22960
8046
+ },
8047
+ {
8048
+ "epoch": 0.42342275943396224,
8049
+ "grad_norm": 2.5,
8050
+ "learning_rate": 1.7868487614653e-05,
8051
+ "loss": 2.1258,
8052
+ "step": 22980
8053
+ },
8054
+ {
8055
+ "epoch": 0.42379127358490565,
8056
+ "grad_norm": 2.8125,
8057
+ "learning_rate": 1.786491388082441e-05,
8058
+ "loss": 2.12,
8059
+ "step": 23000
8060
+ },
8061
+ {
8062
+ "epoch": 0.42415978773584906,
8063
+ "grad_norm": 2.25,
8064
+ "learning_rate": 1.7861337511621604e-05,
8065
+ "loss": 2.1035,
8066
+ "step": 23020
8067
+ },
8068
+ {
8069
+ "epoch": 0.42452830188679247,
8070
+ "grad_norm": 2.40625,
8071
+ "learning_rate": 1.7857758508242956e-05,
8072
+ "loss": 2.0851,
8073
+ "step": 23040
8074
+ },
8075
+ {
8076
+ "epoch": 0.4248968160377358,
8077
+ "grad_norm": 3.515625,
8078
+ "learning_rate": 1.7854176871887713e-05,
8079
+ "loss": 2.1357,
8080
+ "step": 23060
8081
+ },
8082
+ {
8083
+ "epoch": 0.42526533018867924,
8084
+ "grad_norm": 2.921875,
8085
+ "learning_rate": 1.7850592603756008e-05,
8086
+ "loss": 2.107,
8087
+ "step": 23080
8088
+ },
8089
+ {
8090
+ "epoch": 0.42563384433962265,
8091
+ "grad_norm": 2.71875,
8092
+ "learning_rate": 1.784700570504886e-05,
8093
+ "loss": 2.1241,
8094
+ "step": 23100
8095
+ },
8096
+ {
8097
+ "epoch": 0.42600235849056606,
8098
+ "grad_norm": 2.640625,
8099
+ "learning_rate": 1.7843416176968167e-05,
8100
+ "loss": 2.1463,
8101
+ "step": 23120
8102
+ },
8103
+ {
8104
+ "epoch": 0.4263708726415094,
8105
+ "grad_norm": 2.328125,
8106
+ "learning_rate": 1.783982402071671e-05,
8107
+ "loss": 2.1319,
8108
+ "step": 23140
8109
+ },
8110
+ {
8111
+ "epoch": 0.4267393867924528,
8112
+ "grad_norm": 2.65625,
8113
+ "learning_rate": 1.7836229237498138e-05,
8114
+ "loss": 2.1138,
8115
+ "step": 23160
8116
+ },
8117
+ {
8118
+ "epoch": 0.42710790094339623,
8119
+ "grad_norm": 2.515625,
8120
+ "learning_rate": 1.7832631828517004e-05,
8121
+ "loss": 2.1099,
8122
+ "step": 23180
8123
+ },
8124
+ {
8125
+ "epoch": 0.42747641509433965,
8126
+ "grad_norm": 2.71875,
8127
+ "learning_rate": 1.7829031794978717e-05,
8128
+ "loss": 2.1536,
8129
+ "step": 23200
8130
+ },
8131
+ {
8132
+ "epoch": 0.427844929245283,
8133
+ "grad_norm": 2.6875,
8134
+ "learning_rate": 1.782542913808958e-05,
8135
+ "loss": 2.0897,
8136
+ "step": 23220
8137
+ },
8138
+ {
8139
+ "epoch": 0.4282134433962264,
8140
+ "grad_norm": 2.203125,
8141
+ "learning_rate": 1.7821823859056772e-05,
8142
+ "loss": 2.1334,
8143
+ "step": 23240
8144
+ },
8145
+ {
8146
+ "epoch": 0.4285819575471698,
8147
+ "grad_norm": 2.703125,
8148
+ "learning_rate": 1.7818215959088345e-05,
8149
+ "loss": 2.1019,
8150
+ "step": 23260
8151
+ },
8152
+ {
8153
+ "epoch": 0.42895047169811323,
8154
+ "grad_norm": 2.234375,
8155
+ "learning_rate": 1.7814605439393233e-05,
8156
+ "loss": 2.1333,
8157
+ "step": 23280
8158
+ },
8159
+ {
8160
+ "epoch": 0.4293189858490566,
8161
+ "grad_norm": 2.828125,
8162
+ "learning_rate": 1.7810992301181254e-05,
8163
+ "loss": 2.1413,
8164
+ "step": 23300
8165
+ },
8166
+ {
8167
+ "epoch": 0.4296875,
8168
+ "grad_norm": 2.828125,
8169
+ "learning_rate": 1.7807376545663096e-05,
8170
+ "loss": 2.103,
8171
+ "step": 23320
8172
+ },
8173
+ {
8174
+ "epoch": 0.4300560141509434,
8175
+ "grad_norm": 2.21875,
8176
+ "learning_rate": 1.7803758174050325e-05,
8177
+ "loss": 2.1395,
8178
+ "step": 23340
8179
+ },
8180
+ {
8181
+ "epoch": 0.43042452830188677,
8182
+ "grad_norm": 2.359375,
8183
+ "learning_rate": 1.7800137187555385e-05,
8184
+ "loss": 2.0909,
8185
+ "step": 23360
8186
+ },
8187
+ {
8188
+ "epoch": 0.4307930424528302,
8189
+ "grad_norm": 2.28125,
8190
+ "learning_rate": 1.7796513587391593e-05,
8191
+ "loss": 2.1422,
8192
+ "step": 23380
8193
+ },
8194
+ {
8195
+ "epoch": 0.4311615566037736,
8196
+ "grad_norm": 2.203125,
8197
+ "learning_rate": 1.7792887374773148e-05,
8198
+ "loss": 2.1051,
8199
+ "step": 23400
8200
+ },
8201
+ {
8202
+ "epoch": 0.431530070754717,
8203
+ "grad_norm": 2.265625,
8204
+ "learning_rate": 1.778925855091512e-05,
8205
+ "loss": 2.1094,
8206
+ "step": 23420
8207
+ },
8208
+ {
8209
+ "epoch": 0.43189858490566035,
8210
+ "grad_norm": 2.53125,
8211
+ "learning_rate": 1.7785627117033453e-05,
8212
+ "loss": 2.1083,
8213
+ "step": 23440
8214
+ },
8215
+ {
8216
+ "epoch": 0.43226709905660377,
8217
+ "grad_norm": 2.453125,
8218
+ "learning_rate": 1.7781993074344967e-05,
8219
+ "loss": 2.1161,
8220
+ "step": 23460
8221
+ },
8222
+ {
8223
+ "epoch": 0.4326356132075472,
8224
+ "grad_norm": 2.359375,
8225
+ "learning_rate": 1.777835642406736e-05,
8226
+ "loss": 2.1066,
8227
+ "step": 23480
8228
+ },
8229
+ {
8230
+ "epoch": 0.4330041273584906,
8231
+ "grad_norm": 2.34375,
8232
+ "learning_rate": 1.7774717167419197e-05,
8233
+ "loss": 2.1006,
8234
+ "step": 23500
8235
+ },
8236
+ {
8237
+ "epoch": 0.43337264150943394,
8238
+ "grad_norm": 2.4375,
8239
+ "learning_rate": 1.777107530561992e-05,
8240
+ "loss": 2.1097,
8241
+ "step": 23520
8242
+ },
8243
+ {
8244
+ "epoch": 0.43374115566037735,
8245
+ "grad_norm": 2.546875,
8246
+ "learning_rate": 1.7767430839889848e-05,
8247
+ "loss": 2.1047,
8248
+ "step": 23540
8249
+ },
8250
+ {
8251
+ "epoch": 0.43410966981132076,
8252
+ "grad_norm": 2.71875,
8253
+ "learning_rate": 1.7763783771450162e-05,
8254
+ "loss": 2.0918,
8255
+ "step": 23560
8256
+ },
8257
+ {
8258
+ "epoch": 0.4344781839622642,
8259
+ "grad_norm": 2.265625,
8260
+ "learning_rate": 1.7760134101522925e-05,
8261
+ "loss": 2.1057,
8262
+ "step": 23580
8263
+ },
8264
+ {
8265
+ "epoch": 0.43484669811320753,
8266
+ "grad_norm": 2.625,
8267
+ "learning_rate": 1.7756481831331064e-05,
8268
+ "loss": 2.109,
8269
+ "step": 23600
8270
+ },
8271
+ {
8272
+ "epoch": 0.43521521226415094,
8273
+ "grad_norm": 2.421875,
8274
+ "learning_rate": 1.7752826962098387e-05,
8275
+ "loss": 2.0851,
8276
+ "step": 23620
8277
+ },
8278
+ {
8279
+ "epoch": 0.43558372641509435,
8280
+ "grad_norm": 2.453125,
8281
+ "learning_rate": 1.7749169495049563e-05,
8282
+ "loss": 2.0989,
8283
+ "step": 23640
8284
+ },
8285
+ {
8286
+ "epoch": 0.43595224056603776,
8287
+ "grad_norm": 2.578125,
8288
+ "learning_rate": 1.7745509431410136e-05,
8289
+ "loss": 2.1,
8290
+ "step": 23660
8291
+ },
8292
+ {
8293
+ "epoch": 0.4363207547169811,
8294
+ "grad_norm": 2.359375,
8295
+ "learning_rate": 1.7741846772406518e-05,
8296
+ "loss": 2.151,
8297
+ "step": 23680
8298
+ },
8299
+ {
8300
+ "epoch": 0.43668926886792453,
8301
+ "grad_norm": 2.359375,
8302
+ "learning_rate": 1.7738181519265993e-05,
8303
+ "loss": 2.1182,
8304
+ "step": 23700
8305
+ },
8306
+ {
8307
+ "epoch": 0.43705778301886794,
8308
+ "grad_norm": 2.5,
8309
+ "learning_rate": 1.7734513673216714e-05,
8310
+ "loss": 2.1046,
8311
+ "step": 23720
8312
+ },
8313
+ {
8314
+ "epoch": 0.4374262971698113,
8315
+ "grad_norm": 2.859375,
8316
+ "learning_rate": 1.7730843235487706e-05,
8317
+ "loss": 2.0966,
8318
+ "step": 23740
8319
+ },
8320
+ {
8321
+ "epoch": 0.4377948113207547,
8322
+ "grad_norm": 2.390625,
8323
+ "learning_rate": 1.7727170207308857e-05,
8324
+ "loss": 2.1083,
8325
+ "step": 23760
8326
+ },
8327
+ {
8328
+ "epoch": 0.4381633254716981,
8329
+ "grad_norm": 2.625,
8330
+ "learning_rate": 1.772349458991092e-05,
8331
+ "loss": 2.143,
8332
+ "step": 23780
8333
+ },
8334
+ {
8335
+ "epoch": 0.43853183962264153,
8336
+ "grad_norm": 2.4375,
8337
+ "learning_rate": 1.7719816384525524e-05,
8338
+ "loss": 2.1452,
8339
+ "step": 23800
8340
+ },
8341
+ {
8342
+ "epoch": 0.4389003537735849,
8343
+ "grad_norm": 2.390625,
8344
+ "learning_rate": 1.7716135592385164e-05,
8345
+ "loss": 2.1432,
8346
+ "step": 23820
8347
+ },
8348
+ {
8349
+ "epoch": 0.4392688679245283,
8350
+ "grad_norm": 2.578125,
8351
+ "learning_rate": 1.7712452214723197e-05,
8352
+ "loss": 2.1193,
8353
+ "step": 23840
8354
+ },
8355
+ {
8356
+ "epoch": 0.4396373820754717,
8357
+ "grad_norm": 2.6875,
8358
+ "learning_rate": 1.7708766252773845e-05,
8359
+ "loss": 2.1585,
8360
+ "step": 23860
8361
+ },
8362
+ {
8363
+ "epoch": 0.4400058962264151,
8364
+ "grad_norm": 2.4375,
8365
+ "learning_rate": 1.7705077707772204e-05,
8366
+ "loss": 2.1349,
8367
+ "step": 23880
8368
+ },
8369
+ {
8370
+ "epoch": 0.44037441037735847,
8371
+ "grad_norm": 2.328125,
8372
+ "learning_rate": 1.7701386580954228e-05,
8373
+ "loss": 2.1203,
8374
+ "step": 23900
8375
+ },
8376
+ {
8377
+ "epoch": 0.4407429245283019,
8378
+ "grad_norm": 2.609375,
8379
+ "learning_rate": 1.7697692873556747e-05,
8380
+ "loss": 2.099,
8381
+ "step": 23920
8382
+ },
8383
+ {
8384
+ "epoch": 0.4411114386792453,
8385
+ "grad_norm": 2.46875,
8386
+ "learning_rate": 1.7693996586817436e-05,
8387
+ "loss": 2.0907,
8388
+ "step": 23940
8389
+ },
8390
+ {
8391
+ "epoch": 0.4414799528301887,
8392
+ "grad_norm": 2.515625,
8393
+ "learning_rate": 1.7690297721974852e-05,
8394
+ "loss": 2.1221,
8395
+ "step": 23960
8396
+ },
8397
+ {
8398
+ "epoch": 0.44184846698113206,
8399
+ "grad_norm": 2.609375,
8400
+ "learning_rate": 1.7686596280268417e-05,
8401
+ "loss": 2.1181,
8402
+ "step": 23980
8403
+ },
8404
+ {
8405
+ "epoch": 0.44221698113207547,
8406
+ "grad_norm": 2.40625,
8407
+ "learning_rate": 1.76828922629384e-05,
8408
+ "loss": 2.0741,
8409
+ "step": 24000
8410
+ },
8411
+ {
8412
+ "epoch": 0.4425854952830189,
8413
+ "grad_norm": 2.9375,
8414
+ "learning_rate": 1.7679185671225944e-05,
8415
+ "loss": 2.1043,
8416
+ "step": 24020
8417
+ },
8418
+ {
8419
+ "epoch": 0.44295400943396224,
8420
+ "grad_norm": 2.703125,
8421
+ "learning_rate": 1.7675476506373055e-05,
8422
+ "loss": 2.1082,
8423
+ "step": 24040
8424
+ },
8425
+ {
8426
+ "epoch": 0.44332252358490565,
8427
+ "grad_norm": 2.734375,
8428
+ "learning_rate": 1.76717647696226e-05,
8429
+ "loss": 2.0884,
8430
+ "step": 24060
8431
+ },
8432
+ {
8433
+ "epoch": 0.44369103773584906,
8434
+ "grad_norm": 2.78125,
8435
+ "learning_rate": 1.7668050462218308e-05,
8436
+ "loss": 2.0943,
8437
+ "step": 24080
8438
+ },
8439
+ {
8440
+ "epoch": 0.44405955188679247,
8441
+ "grad_norm": 2.578125,
8442
+ "learning_rate": 1.7664333585404768e-05,
8443
+ "loss": 2.1311,
8444
+ "step": 24100
8445
+ },
8446
+ {
8447
+ "epoch": 0.4444280660377358,
8448
+ "grad_norm": 3.125,
8449
+ "learning_rate": 1.7660614140427427e-05,
8450
+ "loss": 2.1166,
8451
+ "step": 24120
8452
+ },
8453
+ {
8454
+ "epoch": 0.44479658018867924,
8455
+ "grad_norm": 2.859375,
8456
+ "learning_rate": 1.7656892128532596e-05,
8457
+ "loss": 2.0731,
8458
+ "step": 24140
8459
+ },
8460
+ {
8461
+ "epoch": 0.44516509433962265,
8462
+ "grad_norm": 2.65625,
8463
+ "learning_rate": 1.7653167550967453e-05,
8464
+ "loss": 2.1201,
8465
+ "step": 24160
8466
+ },
8467
+ {
8468
+ "epoch": 0.44553360849056606,
8469
+ "grad_norm": 2.59375,
8470
+ "learning_rate": 1.7649440408980026e-05,
8471
+ "loss": 2.1099,
8472
+ "step": 24180
8473
+ },
8474
+ {
8475
+ "epoch": 0.4459021226415094,
8476
+ "grad_norm": 2.34375,
8477
+ "learning_rate": 1.7645710703819202e-05,
8478
+ "loss": 2.1279,
8479
+ "step": 24200
8480
+ },
8481
+ {
8482
+ "epoch": 0.4462706367924528,
8483
+ "grad_norm": 2.40625,
8484
+ "learning_rate": 1.7641978436734732e-05,
8485
+ "loss": 2.0748,
8486
+ "step": 24220
8487
+ },
8488
+ {
8489
+ "epoch": 0.44663915094339623,
8490
+ "grad_norm": 2.1875,
8491
+ "learning_rate": 1.7638243608977225e-05,
8492
+ "loss": 2.0422,
8493
+ "step": 24240
8494
+ },
8495
+ {
8496
+ "epoch": 0.44700766509433965,
8497
+ "grad_norm": 2.390625,
8498
+ "learning_rate": 1.7634506221798144e-05,
8499
+ "loss": 2.1285,
8500
+ "step": 24260
8501
+ },
8502
+ {
8503
+ "epoch": 0.447376179245283,
8504
+ "grad_norm": 2.515625,
8505
+ "learning_rate": 1.7630766276449813e-05,
8506
+ "loss": 2.111,
8507
+ "step": 24280
8508
+ },
8509
+ {
8510
+ "epoch": 0.4477446933962264,
8511
+ "grad_norm": 2.375,
8512
+ "learning_rate": 1.7627023774185412e-05,
8513
+ "loss": 2.1067,
8514
+ "step": 24300
8515
+ },
8516
+ {
8517
+ "epoch": 0.4481132075471698,
8518
+ "grad_norm": 2.46875,
8519
+ "learning_rate": 1.762327871625898e-05,
8520
+ "loss": 2.128,
8521
+ "step": 24320
8522
+ },
8523
+ {
8524
+ "epoch": 0.44848172169811323,
8525
+ "grad_norm": 2.390625,
8526
+ "learning_rate": 1.761953110392541e-05,
8527
+ "loss": 2.1402,
8528
+ "step": 24340
8529
+ },
8530
+ {
8531
+ "epoch": 0.4488502358490566,
8532
+ "grad_norm": 2.46875,
8533
+ "learning_rate": 1.761578093844045e-05,
8534
+ "loss": 2.1319,
8535
+ "step": 24360
8536
+ },
8537
+ {
8538
+ "epoch": 0.44921875,
8539
+ "grad_norm": 2.546875,
8540
+ "learning_rate": 1.7612028221060705e-05,
8541
+ "loss": 2.1004,
8542
+ "step": 24380
8543
+ },
8544
+ {
8545
+ "epoch": 0.4495872641509434,
8546
+ "grad_norm": 2.34375,
8547
+ "learning_rate": 1.7608272953043636e-05,
8548
+ "loss": 2.1283,
8549
+ "step": 24400
8550
+ },
8551
+ {
8552
+ "epoch": 0.44995577830188677,
8553
+ "grad_norm": 2.578125,
8554
+ "learning_rate": 1.760451513564756e-05,
8555
+ "loss": 2.1034,
8556
+ "step": 24420
8557
+ },
8558
+ {
8559
+ "epoch": 0.4503242924528302,
8560
+ "grad_norm": 2.265625,
8561
+ "learning_rate": 1.760075477013164e-05,
8562
+ "loss": 2.0715,
8563
+ "step": 24440
8564
+ },
8565
+ {
8566
+ "epoch": 0.4506928066037736,
8567
+ "grad_norm": 2.71875,
8568
+ "learning_rate": 1.7596991857755903e-05,
8569
+ "loss": 2.1336,
8570
+ "step": 24460
8571
+ },
8572
+ {
8573
+ "epoch": 0.451061320754717,
8574
+ "grad_norm": 2.484375,
8575
+ "learning_rate": 1.7593226399781222e-05,
8576
+ "loss": 2.1419,
8577
+ "step": 24480
8578
+ },
8579
+ {
8580
+ "epoch": 0.45142983490566035,
8581
+ "grad_norm": 2.734375,
8582
+ "learning_rate": 1.7589458397469333e-05,
8583
+ "loss": 2.1267,
8584
+ "step": 24500
8585
+ },
8586
+ {
8587
+ "epoch": 0.45179834905660377,
8588
+ "grad_norm": 2.375,
8589
+ "learning_rate": 1.758568785208281e-05,
8590
+ "loss": 2.1158,
8591
+ "step": 24520
8592
+ },
8593
+ {
8594
+ "epoch": 0.4521668632075472,
8595
+ "grad_norm": 2.484375,
8596
+ "learning_rate": 1.758191476488509e-05,
8597
+ "loss": 2.1312,
8598
+ "step": 24540
8599
+ },
8600
+ {
8601
+ "epoch": 0.4525353773584906,
8602
+ "grad_norm": 3.21875,
8603
+ "learning_rate": 1.7578139137140455e-05,
8604
+ "loss": 2.1509,
8605
+ "step": 24560
8606
+ },
8607
+ {
8608
+ "epoch": 0.45290389150943394,
8609
+ "grad_norm": 2.234375,
8610
+ "learning_rate": 1.757436097011405e-05,
8611
+ "loss": 2.1073,
8612
+ "step": 24580
8613
+ },
8614
+ {
8615
+ "epoch": 0.45327240566037735,
8616
+ "grad_norm": 2.6875,
8617
+ "learning_rate": 1.7570580265071855e-05,
8618
+ "loss": 2.127,
8619
+ "step": 24600
8620
+ },
8621
+ {
8622
+ "epoch": 0.45364091981132076,
8623
+ "grad_norm": 2.828125,
8624
+ "learning_rate": 1.7566797023280712e-05,
8625
+ "loss": 2.1007,
8626
+ "step": 24620
8627
+ },
8628
+ {
8629
+ "epoch": 0.4540094339622642,
8630
+ "grad_norm": 2.40625,
8631
+ "learning_rate": 1.7563011246008307e-05,
8632
+ "loss": 2.1209,
8633
+ "step": 24640
8634
+ },
8635
+ {
8636
+ "epoch": 0.45437794811320753,
8637
+ "grad_norm": 2.46875,
8638
+ "learning_rate": 1.7559222934523177e-05,
8639
+ "loss": 2.0866,
8640
+ "step": 24660
8641
+ },
8642
+ {
8643
+ "epoch": 0.45474646226415094,
8644
+ "grad_norm": 2.546875,
8645
+ "learning_rate": 1.7555432090094716e-05,
8646
+ "loss": 2.1239,
8647
+ "step": 24680
8648
+ },
8649
+ {
8650
+ "epoch": 0.45511497641509435,
8651
+ "grad_norm": 2.46875,
8652
+ "learning_rate": 1.7551638713993145e-05,
8653
+ "loss": 2.0982,
8654
+ "step": 24700
8655
+ },
8656
+ {
8657
+ "epoch": 0.45548349056603776,
8658
+ "grad_norm": 2.53125,
8659
+ "learning_rate": 1.7547842807489566e-05,
8660
+ "loss": 2.086,
8661
+ "step": 24720
8662
+ },
8663
+ {
8664
+ "epoch": 0.4558520047169811,
8665
+ "grad_norm": 2.328125,
8666
+ "learning_rate": 1.7544044371855897e-05,
8667
+ "loss": 2.1182,
8668
+ "step": 24740
8669
+ },
8670
+ {
8671
+ "epoch": 0.45622051886792453,
8672
+ "grad_norm": 2.328125,
8673
+ "learning_rate": 1.7540243408364924e-05,
8674
+ "loss": 2.1121,
8675
+ "step": 24760
8676
+ },
8677
+ {
8678
+ "epoch": 0.45658903301886794,
8679
+ "grad_norm": 2.46875,
8680
+ "learning_rate": 1.7536439918290272e-05,
8681
+ "loss": 2.1324,
8682
+ "step": 24780
8683
+ },
8684
+ {
8685
+ "epoch": 0.4569575471698113,
8686
+ "grad_norm": 2.5,
8687
+ "learning_rate": 1.7532633902906414e-05,
8688
+ "loss": 2.1164,
8689
+ "step": 24800
8690
+ },
8691
+ {
8692
+ "epoch": 0.4573260613207547,
8693
+ "grad_norm": 2.703125,
8694
+ "learning_rate": 1.7528825363488664e-05,
8695
+ "loss": 2.0858,
8696
+ "step": 24820
8697
+ },
8698
+ {
8699
+ "epoch": 0.4576945754716981,
8700
+ "grad_norm": 2.46875,
8701
+ "learning_rate": 1.752501430131319e-05,
8702
+ "loss": 2.131,
8703
+ "step": 24840
8704
+ },
8705
+ {
8706
+ "epoch": 0.45806308962264153,
8707
+ "grad_norm": 2.40625,
8708
+ "learning_rate": 1.752120071765701e-05,
8709
+ "loss": 2.153,
8710
+ "step": 24860
8711
+ },
8712
+ {
8713
+ "epoch": 0.4584316037735849,
8714
+ "grad_norm": 2.546875,
8715
+ "learning_rate": 1.751738461379797e-05,
8716
+ "loss": 2.1512,
8717
+ "step": 24880
8718
+ },
8719
+ {
8720
+ "epoch": 0.4588001179245283,
8721
+ "grad_norm": 2.625,
8722
+ "learning_rate": 1.751356599101477e-05,
8723
+ "loss": 2.1456,
8724
+ "step": 24900
8725
+ },
8726
+ {
8727
+ "epoch": 0.4591686320754717,
8728
+ "grad_norm": 2.421875,
8729
+ "learning_rate": 1.750974485058696e-05,
8730
+ "loss": 2.0839,
8731
+ "step": 24920
8732
+ },
8733
+ {
8734
+ "epoch": 0.4595371462264151,
8735
+ "grad_norm": 2.5,
8736
+ "learning_rate": 1.7505921193794916e-05,
8737
+ "loss": 2.1421,
8738
+ "step": 24940
8739
+ },
8740
+ {
8741
+ "epoch": 0.45990566037735847,
8742
+ "grad_norm": 2.484375,
8743
+ "learning_rate": 1.750209502191988e-05,
8744
+ "loss": 2.0954,
8745
+ "step": 24960
8746
+ },
8747
+ {
8748
+ "epoch": 0.4602741745283019,
8749
+ "grad_norm": 2.3125,
8750
+ "learning_rate": 1.749826633624392e-05,
8751
+ "loss": 2.1094,
8752
+ "step": 24980
8753
+ },
8754
+ {
8755
+ "epoch": 0.4606426886792453,
8756
+ "grad_norm": 2.71875,
8757
+ "learning_rate": 1.749443513804995e-05,
8758
+ "loss": 2.0905,
8759
+ "step": 25000
8760
+ },
8761
+ {
8762
+ "epoch": 0.4610112028301887,
8763
+ "grad_norm": 2.359375,
8764
+ "learning_rate": 1.749060142862173e-05,
8765
+ "loss": 2.1255,
8766
+ "step": 25020
8767
+ },
8768
+ {
8769
+ "epoch": 0.46137971698113206,
8770
+ "grad_norm": 2.5,
8771
+ "learning_rate": 1.7486765209243858e-05,
8772
+ "loss": 2.1198,
8773
+ "step": 25040
8774
+ },
8775
+ {
8776
+ "epoch": 0.46174823113207547,
8777
+ "grad_norm": 2.40625,
8778
+ "learning_rate": 1.7482926481201775e-05,
8779
+ "loss": 2.1223,
8780
+ "step": 25060
8781
+ },
8782
+ {
8783
+ "epoch": 0.4621167452830189,
8784
+ "grad_norm": 2.28125,
8785
+ "learning_rate": 1.7479085245781754e-05,
8786
+ "loss": 2.0708,
8787
+ "step": 25080
8788
+ },
8789
+ {
8790
+ "epoch": 0.46248525943396224,
8791
+ "grad_norm": 2.390625,
8792
+ "learning_rate": 1.747524150427093e-05,
8793
+ "loss": 2.1043,
8794
+ "step": 25100
8795
+ },
8796
+ {
8797
+ "epoch": 0.46285377358490565,
8798
+ "grad_norm": 2.640625,
8799
+ "learning_rate": 1.747139525795725e-05,
8800
+ "loss": 2.1392,
8801
+ "step": 25120
8802
+ },
8803
+ {
8804
+ "epoch": 0.46322228773584906,
8805
+ "grad_norm": 2.75,
8806
+ "learning_rate": 1.746754650812952e-05,
8807
+ "loss": 2.1248,
8808
+ "step": 25140
8809
+ },
8810
+ {
8811
+ "epoch": 0.46359080188679247,
8812
+ "grad_norm": 2.53125,
8813
+ "learning_rate": 1.7463695256077376e-05,
8814
+ "loss": 2.1419,
8815
+ "step": 25160
8816
+ },
8817
+ {
8818
+ "epoch": 0.4639593160377358,
8819
+ "grad_norm": 2.3125,
8820
+ "learning_rate": 1.7459841503091296e-05,
8821
+ "loss": 2.1347,
8822
+ "step": 25180
8823
+ },
8824
+ {
8825
+ "epoch": 0.46432783018867924,
8826
+ "grad_norm": 2.4375,
8827
+ "learning_rate": 1.7455985250462597e-05,
8828
+ "loss": 2.0906,
8829
+ "step": 25200
8830
+ },
8831
+ {
8832
+ "epoch": 0.46469634433962265,
8833
+ "grad_norm": 2.796875,
8834
+ "learning_rate": 1.745212649948343e-05,
8835
+ "loss": 2.1114,
8836
+ "step": 25220
8837
+ },
8838
+ {
8839
+ "epoch": 0.46506485849056606,
8840
+ "grad_norm": 2.46875,
8841
+ "learning_rate": 1.7448265251446783e-05,
8842
+ "loss": 2.0949,
8843
+ "step": 25240
8844
+ },
8845
+ {
8846
+ "epoch": 0.4654333726415094,
8847
+ "grad_norm": 2.59375,
8848
+ "learning_rate": 1.7444401507646488e-05,
8849
+ "loss": 2.0722,
8850
+ "step": 25260
8851
+ },
8852
+ {
8853
+ "epoch": 0.4658018867924528,
8854
+ "grad_norm": 2.484375,
8855
+ "learning_rate": 1.7440535269377198e-05,
8856
+ "loss": 2.1266,
8857
+ "step": 25280
8858
+ },
8859
+ {
8860
+ "epoch": 0.46617040094339623,
8861
+ "grad_norm": 2.5,
8862
+ "learning_rate": 1.743666653793442e-05,
8863
+ "loss": 2.1079,
8864
+ "step": 25300
8865
+ },
8866
+ {
8867
+ "epoch": 0.46653891509433965,
8868
+ "grad_norm": 2.34375,
8869
+ "learning_rate": 1.7432795314614484e-05,
8870
+ "loss": 2.086,
8871
+ "step": 25320
8872
+ },
8873
+ {
8874
+ "epoch": 0.466907429245283,
8875
+ "grad_norm": 2.65625,
8876
+ "learning_rate": 1.7428921600714566e-05,
8877
+ "loss": 2.1129,
8878
+ "step": 25340
8879
+ },
8880
+ {
8881
+ "epoch": 0.4672759433962264,
8882
+ "grad_norm": 2.421875,
8883
+ "learning_rate": 1.7425045397532657e-05,
8884
+ "loss": 2.0769,
8885
+ "step": 25360
8886
+ },
8887
+ {
8888
+ "epoch": 0.4676444575471698,
8889
+ "grad_norm": 2.53125,
8890
+ "learning_rate": 1.7421166706367604e-05,
8891
+ "loss": 2.0878,
8892
+ "step": 25380
8893
+ },
8894
+ {
8895
+ "epoch": 0.46801297169811323,
8896
+ "grad_norm": 2.75,
8897
+ "learning_rate": 1.7417285528519078e-05,
8898
+ "loss": 2.142,
8899
+ "step": 25400
8900
+ },
8901
+ {
8902
+ "epoch": 0.4683814858490566,
8903
+ "grad_norm": 2.71875,
8904
+ "learning_rate": 1.7413401865287576e-05,
8905
+ "loss": 2.135,
8906
+ "step": 25420
8907
+ },
8908
+ {
8909
+ "epoch": 0.46875,
8910
+ "grad_norm": 2.84375,
8911
+ "learning_rate": 1.740951571797444e-05,
8912
+ "loss": 2.1272,
8913
+ "step": 25440
8914
+ },
8915
+ {
8916
+ "epoch": 0.4691185141509434,
8917
+ "grad_norm": 2.375,
8918
+ "learning_rate": 1.7405627087881846e-05,
8919
+ "loss": 2.0918,
8920
+ "step": 25460
8921
+ },
8922
+ {
8923
+ "epoch": 0.46948702830188677,
8924
+ "grad_norm": 2.453125,
8925
+ "learning_rate": 1.7401735976312786e-05,
8926
+ "loss": 2.0877,
8927
+ "step": 25480
8928
+ },
8929
+ {
8930
+ "epoch": 0.4698555424528302,
8931
+ "grad_norm": 2.453125,
8932
+ "learning_rate": 1.7397842384571098e-05,
8933
+ "loss": 2.1101,
8934
+ "step": 25500
8935
+ },
8936
+ {
8937
+ "epoch": 0.4702240566037736,
8938
+ "grad_norm": 2.578125,
8939
+ "learning_rate": 1.7393946313961444e-05,
8940
+ "loss": 2.1004,
8941
+ "step": 25520
8942
+ },
8943
+ {
8944
+ "epoch": 0.470592570754717,
8945
+ "grad_norm": 2.515625,
8946
+ "learning_rate": 1.739004776578932e-05,
8947
+ "loss": 2.076,
8948
+ "step": 25540
8949
+ },
8950
+ {
8951
+ "epoch": 0.47096108490566035,
8952
+ "grad_norm": 2.296875,
8953
+ "learning_rate": 1.738614674136105e-05,
8954
+ "loss": 2.1314,
8955
+ "step": 25560
8956
+ },
8957
+ {
8958
+ "epoch": 0.47132959905660377,
8959
+ "grad_norm": 2.484375,
8960
+ "learning_rate": 1.7382243241983793e-05,
8961
+ "loss": 2.082,
8962
+ "step": 25580
8963
+ },
8964
+ {
8965
+ "epoch": 0.4716981132075472,
8966
+ "grad_norm": 2.59375,
8967
+ "learning_rate": 1.7378337268965525e-05,
8968
+ "loss": 2.0995,
8969
+ "step": 25600
8970
+ },
8971
+ {
8972
+ "epoch": 0.4720666273584906,
8973
+ "grad_norm": 2.6875,
8974
+ "learning_rate": 1.7374428823615065e-05,
8975
+ "loss": 2.1468,
8976
+ "step": 25620
8977
+ },
8978
+ {
8979
+ "epoch": 0.47243514150943394,
8980
+ "grad_norm": 2.359375,
8981
+ "learning_rate": 1.7370517907242054e-05,
8982
+ "loss": 2.0789,
8983
+ "step": 25640
8984
+ },
8985
+ {
8986
+ "epoch": 0.47280365566037735,
8987
+ "grad_norm": 2.15625,
8988
+ "learning_rate": 1.7366604521156958e-05,
8989
+ "loss": 2.1137,
8990
+ "step": 25660
8991
+ },
8992
+ {
8993
+ "epoch": 0.47317216981132076,
8994
+ "grad_norm": 2.734375,
8995
+ "learning_rate": 1.7362688666671077e-05,
8996
+ "loss": 2.0753,
8997
+ "step": 25680
8998
+ },
8999
+ {
9000
+ "epoch": 0.4735406839622642,
9001
+ "grad_norm": 2.671875,
9002
+ "learning_rate": 1.7358770345096536e-05,
9003
+ "loss": 2.0988,
9004
+ "step": 25700
9005
+ },
9006
+ {
9007
+ "epoch": 0.47390919811320753,
9008
+ "grad_norm": 2.46875,
9009
+ "learning_rate": 1.7354849557746275e-05,
9010
+ "loss": 2.0755,
9011
+ "step": 25720
9012
+ },
9013
+ {
9014
+ "epoch": 0.47427771226415094,
9015
+ "grad_norm": 2.75,
9016
+ "learning_rate": 1.7350926305934085e-05,
9017
+ "loss": 2.1032,
9018
+ "step": 25740
9019
+ },
9020
+ {
9021
+ "epoch": 0.47464622641509435,
9022
+ "grad_norm": 2.40625,
9023
+ "learning_rate": 1.7347000590974564e-05,
9024
+ "loss": 2.1105,
9025
+ "step": 25760
9026
+ },
9027
+ {
9028
+ "epoch": 0.47501474056603776,
9029
+ "grad_norm": 2.8125,
9030
+ "learning_rate": 1.7343072414183136e-05,
9031
+ "loss": 2.1139,
9032
+ "step": 25780
9033
+ },
9034
+ {
9035
+ "epoch": 0.4753832547169811,
9036
+ "grad_norm": 2.765625,
9037
+ "learning_rate": 1.733914177687606e-05,
9038
+ "loss": 2.1169,
9039
+ "step": 25800
9040
+ },
9041
+ {
9042
+ "epoch": 0.47575176886792453,
9043
+ "grad_norm": 2.765625,
9044
+ "learning_rate": 1.733520868037041e-05,
9045
+ "loss": 2.1285,
9046
+ "step": 25820
9047
+ },
9048
+ {
9049
+ "epoch": 0.47612028301886794,
9050
+ "grad_norm": 2.328125,
9051
+ "learning_rate": 1.7331273125984086e-05,
9052
+ "loss": 2.1631,
9053
+ "step": 25840
9054
+ },
9055
+ {
9056
+ "epoch": 0.4764887971698113,
9057
+ "grad_norm": 2.3125,
9058
+ "learning_rate": 1.7327335115035814e-05,
9059
+ "loss": 2.0671,
9060
+ "step": 25860
9061
+ },
9062
+ {
9063
+ "epoch": 0.4768573113207547,
9064
+ "grad_norm": 2.609375,
9065
+ "learning_rate": 1.7323394648845145e-05,
9066
+ "loss": 2.0903,
9067
+ "step": 25880
9068
+ },
9069
+ {
9070
+ "epoch": 0.4772258254716981,
9071
+ "grad_norm": 2.515625,
9072
+ "learning_rate": 1.7319451728732448e-05,
9073
+ "loss": 2.1003,
9074
+ "step": 25900
9075
+ },
9076
+ {
9077
+ "epoch": 0.47759433962264153,
9078
+ "grad_norm": 3.125,
9079
+ "learning_rate": 1.7315506356018912e-05,
9080
+ "loss": 2.1062,
9081
+ "step": 25920
9082
+ },
9083
+ {
9084
+ "epoch": 0.4779628537735849,
9085
+ "grad_norm": 2.578125,
9086
+ "learning_rate": 1.731155853202656e-05,
9087
+ "loss": 2.1029,
9088
+ "step": 25940
9089
+ },
9090
+ {
9091
+ "epoch": 0.4783313679245283,
9092
+ "grad_norm": 2.609375,
9093
+ "learning_rate": 1.730760825807822e-05,
9094
+ "loss": 2.1113,
9095
+ "step": 25960
9096
+ },
9097
+ {
9098
+ "epoch": 0.4786998820754717,
9099
+ "grad_norm": 2.375,
9100
+ "learning_rate": 1.7303655535497555e-05,
9101
+ "loss": 2.1399,
9102
+ "step": 25980
9103
+ },
9104
+ {
9105
+ "epoch": 0.4790683962264151,
9106
+ "grad_norm": 2.5625,
9107
+ "learning_rate": 1.729970036560904e-05,
9108
+ "loss": 2.1394,
9109
+ "step": 26000
9110
+ },
9111
+ {
9112
+ "epoch": 0.47943691037735847,
9113
+ "grad_norm": 2.53125,
9114
+ "learning_rate": 1.7295742749737975e-05,
9115
+ "loss": 2.12,
9116
+ "step": 26020
9117
+ },
9118
+ {
9119
+ "epoch": 0.4798054245283019,
9120
+ "grad_norm": 2.890625,
9121
+ "learning_rate": 1.7291782689210475e-05,
9122
+ "loss": 2.1166,
9123
+ "step": 26040
9124
+ },
9125
+ {
9126
+ "epoch": 0.4801739386792453,
9127
+ "grad_norm": 2.453125,
9128
+ "learning_rate": 1.7287820185353478e-05,
9129
+ "loss": 2.107,
9130
+ "step": 26060
9131
+ },
9132
+ {
9133
+ "epoch": 0.4805424528301887,
9134
+ "grad_norm": 2.609375,
9135
+ "learning_rate": 1.728385523949474e-05,
9136
+ "loss": 2.1413,
9137
+ "step": 26080
9138
+ },
9139
+ {
9140
+ "epoch": 0.48091096698113206,
9141
+ "grad_norm": 2.5625,
9142
+ "learning_rate": 1.727988785296283e-05,
9143
+ "loss": 2.0822,
9144
+ "step": 26100
9145
+ },
9146
+ {
9147
+ "epoch": 0.48127948113207547,
9148
+ "grad_norm": 2.4375,
9149
+ "learning_rate": 1.7275918027087146e-05,
9150
+ "loss": 2.1056,
9151
+ "step": 26120
9152
+ },
9153
+ {
9154
+ "epoch": 0.4816479952830189,
9155
+ "grad_norm": 2.4375,
9156
+ "learning_rate": 1.727194576319789e-05,
9157
+ "loss": 2.1218,
9158
+ "step": 26140
9159
+ },
9160
+ {
9161
+ "epoch": 0.48201650943396224,
9162
+ "grad_norm": 2.5,
9163
+ "learning_rate": 1.7267971062626095e-05,
9164
+ "loss": 2.1634,
9165
+ "step": 26160
9166
+ },
9167
+ {
9168
+ "epoch": 0.48238502358490565,
9169
+ "grad_norm": 2.84375,
9170
+ "learning_rate": 1.7263993926703593e-05,
9171
+ "loss": 2.1486,
9172
+ "step": 26180
9173
+ },
9174
+ {
9175
+ "epoch": 0.48275353773584906,
9176
+ "grad_norm": 2.234375,
9177
+ "learning_rate": 1.726001435676305e-05,
9178
+ "loss": 2.1075,
9179
+ "step": 26200
9180
  }
9181
  ],
9182
  "logging_steps": 20,
 
9184
  "num_input_tokens_seen": 0,
9185
  "num_train_epochs": 2,
9186
  "save_steps": 200,
9187
+ "total_flos": 2.6285411908110385e+19,
9188
  "train_batch_size": 16,
9189
  "trial_name": null,
9190
  "trial_params": null