Model save

Browse files

Files changed (5) hide show

README.md +76 -0
all_results.json +9 -0
generation_config.json +6 -0
train_results.json +9 -0
trainer_state.json +811 -0

README.md ADDED Viewed

	@@ -0,0 +1,76 @@

+---
+license: apache-2.0
+base_model: alignment-handbook/zephyr-7b-sft-full
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: zephyr-7b-dpo-full-ultrabin-3-avg-logprob-lr-same
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-dpo-full-ultrabin-3-avg-logprob-lr-same
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6219
+- Rewards/chosen: -0.2287
+- Rewards/rejected: -0.4214
+- Rewards/accuracies: 0.7188
+- Rewards/margins: 0.1928
+- Logps/rejected: -43.2637
+- Logps/chosen: -23.8237
+- Logits/rejected: 2.7050
+- Logits/chosen: 2.7595
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 55
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 128
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6803        | 0.2092 | 100  | 0.6741          | -0.1830        | -0.2238          | 0.6055             | 0.0408          | -23.4969       | -19.2551     | 5.1619          | 4.6722        |
+| 0.6333        | 0.4184 | 200  | 0.6318          | -0.2607        | -0.4263          | 0.7070             | 0.1656          | -43.7487       | -27.0254     | 2.0618          | 2.2059        |
+| 0.6202        | 0.6276 | 300  | 0.6256          | -0.1960        | -0.3896          | 0.7188             | 0.1936          | -40.0823       | -20.5594     | 3.0356          | 2.9998        |
+| 0.6195        | 0.8368 | 400  | 0.6219          | -0.2287        | -0.4214          | 0.7188             | 0.1928          | -43.2637       | -23.8237     | 2.7050          | 2.7595        |
+### Framework versions
+- Transformers 4.44.0.dev0
+- Pytorch 2.1.2
+- Datasets 2.20.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.6403242514223234,
+    "train_runtime": 11960.3252,
+    "train_samples": 61134,
+    "train_samples_per_second": 5.111,
+    "train_steps_per_second": 0.04
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.44.0.dev0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.6403242514223234,
+    "train_runtime": 11960.3252,
+    "train_samples": 61134,
+    "train_samples_per_second": 5.111,
+    "train_steps_per_second": 0.04
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,811 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 478,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02092050209205021,
+      "grad_norm": 0.07870777149790437,
+      "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -2.6306002140045166,
+      "logits/rejected": -2.576826572418213,
+      "logps/chosen": -1.0156770944595337,
+      "logps/rejected": -1.187302827835083,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.48124998807907104,
+      "rewards/chosen": 4.107605946046533e-06,
+      "rewards/margins": 6.403818588296417e-06,
+      "rewards/rejected": -2.296213096997235e-06,
+      "step": 10
+    },
+    {
+      "epoch": 0.04184100418410042,
+      "grad_norm": 0.07901324239389455,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -2.6465299129486084,
+      "logits/rejected": -2.615328311920166,
+      "logps/chosen": -1.072858452796936,
+      "logps/rejected": -1.1568002700805664,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 5.4746556997997686e-05,
+      "rewards/margins": 2.0796986063942313e-05,
+      "rewards/rejected": 3.394957457203418e-05,
+      "step": 20
+    },
+    {
+      "epoch": 0.06276150627615062,
+      "grad_norm": 0.06023523282455774,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -2.6788735389709473,
+      "logits/rejected": -2.601842164993286,
+      "logps/chosen": -0.9440663456916809,
+      "logps/rejected": -1.1466290950775146,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": 0.0002553145168349147,
+      "rewards/margins": 6.28855632385239e-05,
+      "rewards/rejected": 0.00019242893904447556,
+      "step": 30
+    },
+    {
+      "epoch": 0.08368200836820083,
+      "grad_norm": 0.07304770397797064,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -2.655829906463623,
+      "logits/rejected": -2.574197292327881,
+      "logps/chosen": -0.9297592043876648,
+      "logps/rejected": -1.1075788736343384,
+      "loss": 0.6929,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 0.0005508430185727775,
+      "rewards/margins": 7.169989112298936e-05,
+      "rewards/rejected": 0.0004791432002093643,
+      "step": 40
+    },
+    {
+      "epoch": 0.10460251046025104,
+      "grad_norm": 0.10718963835004064,
+      "learning_rate": 4.999733114418725e-07,
+      "logits/chosen": -2.5783586502075195,
+      "logits/rejected": -2.5689890384674072,
+      "logps/chosen": -1.1152536869049072,
+      "logps/rejected": -1.2834819555282593,
+      "loss": 0.6926,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.00013837238657288253,
+      "rewards/margins": 0.0015539798187091947,
+      "rewards/rejected": -0.0014156072866171598,
+      "step": 50
+    },
+    {
+      "epoch": 0.12552301255230125,
+      "grad_norm": 0.746842093919948,
+      "learning_rate": 4.990398100856366e-07,
+      "logits/chosen": -2.4468166828155518,
+      "logits/rejected": -2.4004383087158203,
+      "logps/chosen": -1.0850234031677246,
+      "logps/rejected": -1.3491606712341309,
+      "loss": 0.6921,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.0004565033013932407,
+      "rewards/margins": 0.00173471518792212,
+      "rewards/rejected": -0.0021912185475230217,
+      "step": 60
+    },
+    {
+      "epoch": 0.14644351464435146,
+      "grad_norm": 0.4410404107128935,
+      "learning_rate": 4.967775735898179e-07,
+      "logits/chosen": -1.8864914178848267,
+      "logits/rejected": -1.7537386417388916,
+      "logps/chosen": -1.3654557466506958,
+      "logps/rejected": -1.9325025081634521,
+      "loss": 0.6915,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.0032336972653865814,
+      "rewards/margins": 0.004393851850181818,
+      "rewards/rejected": -0.007627549115568399,
+      "step": 70
+    },
+    {
+      "epoch": 0.16736401673640167,
+      "grad_norm": 1.1545608141293162,
+      "learning_rate": 4.931986719649298e-07,
+      "logits/chosen": 0.8977311253547668,
+      "logits/rejected": 0.8506044149398804,
+      "logps/chosen": -1.9253437519073486,
+      "logps/rejected": -2.216801643371582,
+      "loss": 0.6897,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.008814895525574684,
+      "rewards/margins": 0.0028276063967496157,
+      "rewards/rejected": -0.01164250262081623,
+      "step": 80
+    },
+    {
+      "epoch": 0.18828451882845187,
+      "grad_norm": 0.6816222180173854,
+      "learning_rate": 4.883222001996351e-07,
+      "logits/chosen": 2.8068461418151855,
+      "logits/rejected": 3.1994242668151855,
+      "logps/chosen": -3.0255942344665527,
+      "logps/rejected": -4.264664649963379,
+      "loss": 0.6871,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.019984012469649315,
+      "rewards/margins": 0.011252423748373985,
+      "rewards/rejected": -0.0312364362180233,
+      "step": 90
+    },
+    {
+      "epoch": 0.20920502092050208,
+      "grad_norm": 2.826730795468728,
+      "learning_rate": 4.821741763807186e-07,
+      "logits/chosen": 3.5266506671905518,
+      "logits/rejected": 4.590703010559082,
+      "logps/chosen": -8.408990859985352,
+      "logps/rejected": -11.962701797485352,
+      "loss": 0.6803,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.07384248822927475,
+      "rewards/margins": 0.0347314216196537,
+      "rewards/rejected": -0.10857391357421875,
+      "step": 100
+    },
+    {
+      "epoch": 0.20920502092050208,
+      "eval_logits/chosen": 4.672222137451172,
+      "eval_logits/rejected": 5.161917209625244,
+      "eval_logps/chosen": -19.255094528198242,
+      "eval_logps/rejected": -23.496896743774414,
+      "eval_loss": 0.6740710735321045,
+      "eval_rewards/accuracies": 0.60546875,
+      "eval_rewards/chosen": -0.18297159671783447,
+      "eval_rewards/margins": 0.04080774635076523,
+      "eval_rewards/rejected": -0.2237793505191803,
+      "eval_runtime": 101.5736,
+      "eval_samples_per_second": 19.69,
+      "eval_steps_per_second": 0.315,
+      "step": 100
+    },
+    {
+      "epoch": 0.2301255230125523,
+      "grad_norm": 3.6684021455052416,
+      "learning_rate": 4.747874028753375e-07,
+      "logits/chosen": 4.655301094055176,
+      "logits/rejected": 5.133517265319824,
+      "logps/chosen": -21.937213897705078,
+      "logps/rejected": -27.49126625061035,
+      "loss": 0.6637,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.20875534415245056,
+      "rewards/margins": 0.05406813696026802,
+      "rewards/rejected": -0.2628234922885895,
+      "step": 110
+    },
+    {
+      "epoch": 0.2510460251046025,
+      "grad_norm": 3.7695575614366703,
+      "learning_rate": 4.662012913161997e-07,
+      "logits/chosen": 3.5462818145751953,
+      "logits/rejected": 4.2834906578063965,
+      "logps/chosen": -20.185375213623047,
+      "logps/rejected": -30.037878036499023,
+      "loss": 0.6586,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.19164811074733734,
+      "rewards/margins": 0.09708912670612335,
+      "rewards/rejected": -0.2887372672557831,
+      "step": 120
+    },
+    {
+      "epoch": 0.2719665271966527,
+      "grad_norm": 5.06646121428358,
+      "learning_rate": 4.5646165232345103e-07,
+      "logits/chosen": 3.5566489696502686,
+      "logits/rejected": 3.932034969329834,
+      "logps/chosen": -26.674022674560547,
+      "logps/rejected": -33.86052703857422,
+      "loss": 0.6538,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.25690948963165283,
+      "rewards/margins": 0.0707937479019165,
+      "rewards/rejected": -0.32770323753356934,
+      "step": 130
+    },
+    {
+      "epoch": 0.2928870292887029,
+      "grad_norm": 6.761925793876663,
+      "learning_rate": 4.456204510851956e-07,
+      "logits/chosen": 3.1402018070220947,
+      "logits/rejected": 3.708683490753174,
+      "logps/chosen": -21.81682777404785,
+      "logps/rejected": -37.612449645996094,
+      "loss": 0.6431,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.20800963044166565,
+      "rewards/margins": 0.15619885921478271,
+      "rewards/rejected": -0.36420848965644836,
+      "step": 140
+    },
+    {
+      "epoch": 0.3138075313807531,
+      "grad_norm": 8.735857187801553,
+      "learning_rate": 4.337355301007335e-07,
+      "logits/chosen": 3.099961519241333,
+      "logits/rejected": 3.81238055229187,
+      "logps/chosen": -23.575672149658203,
+      "logps/rejected": -36.89662551879883,
+      "loss": 0.6395,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.2260146588087082,
+      "rewards/margins": 0.1314857304096222,
+      "rewards/rejected": -0.3575003743171692,
+      "step": 150
+    },
+    {
+      "epoch": 0.33472803347280333,
+      "grad_norm": 6.923549888626696,
+      "learning_rate": 4.2087030056579986e-07,
+      "logits/chosen": 3.2462105751037598,
+      "logits/rejected": 3.581221103668213,
+      "logps/chosen": -21.311235427856445,
+      "logps/rejected": -36.60784149169922,
+      "loss": 0.6369,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.2027742564678192,
+      "rewards/margins": 0.151877760887146,
+      "rewards/rejected": -0.3546520173549652,
+      "step": 160
+    },
+    {
+      "epoch": 0.35564853556485354,
+      "grad_norm": 7.240479894508596,
+      "learning_rate": 4.070934040463998e-07,
+      "logits/chosen": 3.023836612701416,
+      "logits/rejected": 3.3588485717773438,
+      "logps/chosen": -23.696680068969727,
+      "logps/rejected": -36.59798049926758,
+      "loss": 0.6339,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.22723570466041565,
+      "rewards/margins": 0.12730170786380768,
+      "rewards/rejected": -0.3545374274253845,
+      "step": 170
+    },
+    {
+      "epoch": 0.37656903765690375,
+      "grad_norm": 9.14137324995646,
+      "learning_rate": 3.9247834624635404e-07,
+      "logits/chosen": 2.783609390258789,
+      "logits/rejected": 3.172799587249756,
+      "logps/chosen": -22.1041259765625,
+      "logps/rejected": -37.87432098388672,
+      "loss": 0.6295,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.2107868194580078,
+      "rewards/margins": 0.15683028101921082,
+      "rewards/rejected": -0.36761707067489624,
+      "step": 180
+    },
+    {
+      "epoch": 0.39748953974895396,
+      "grad_norm": 9.772844987285321,
+      "learning_rate": 3.7710310482256523e-07,
+      "logits/chosen": 2.702998399734497,
+      "logits/rejected": 2.8405003547668457,
+      "logps/chosen": -26.399200439453125,
+      "logps/rejected": -40.94459915161133,
+      "loss": 0.6258,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.25330352783203125,
+      "rewards/margins": 0.14452621340751648,
+      "rewards/rejected": -0.3978297710418701,
+      "step": 190
+    },
+    {
+      "epoch": 0.41841004184100417,
+      "grad_norm": 8.573703981557731,
+      "learning_rate": 3.610497133404795e-07,
+      "logits/chosen": 2.867384433746338,
+      "logits/rejected": 3.402123212814331,
+      "logps/chosen": -25.27474021911621,
+      "logps/rejected": -39.822689056396484,
+      "loss": 0.6333,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.24253730475902557,
+      "rewards/margins": 0.14454875886440277,
+      "rewards/rejected": -0.38708609342575073,
+      "step": 200
+    },
+    {
+      "epoch": 0.41841004184100417,
+      "eval_logits/chosen": 2.205869197845459,
+      "eval_logits/rejected": 2.0618207454681396,
+      "eval_logps/chosen": -27.025375366210938,
+      "eval_logps/rejected": -43.748695373535156,
+      "eval_loss": 0.6317887902259827,
+      "eval_rewards/accuracies": 0.70703125,
+      "eval_rewards/chosen": -0.2606744170188904,
+      "eval_rewards/margins": 0.16562291979789734,
+      "eval_rewards/rejected": -0.4262973666191101,
+      "eval_runtime": 102.633,
+      "eval_samples_per_second": 19.487,
+      "eval_steps_per_second": 0.312,
+      "step": 200
+    },
+    {
+      "epoch": 0.4393305439330544,
+      "grad_norm": 10.103691000737252,
+      "learning_rate": 3.4440382358952115e-07,
+      "logits/chosen": 2.632490634918213,
+      "logits/rejected": 2.8943495750427246,
+      "logps/chosen": -26.576526641845703,
+      "logps/rejected": -39.573448181152344,
+      "loss": 0.6294,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.2549188733100891,
+      "rewards/margins": 0.12898248434066772,
+      "rewards/rejected": -0.38390129804611206,
+      "step": 210
+    },
+    {
+      "epoch": 0.4602510460251046,
+      "grad_norm": 8.68088284973258,
+      "learning_rate": 3.272542485937368e-07,
+      "logits/chosen": 2.8408799171447754,
+      "logits/rejected": 3.1735482215881348,
+      "logps/chosen": -28.81484031677246,
+      "logps/rejected": -44.7733268737793,
+      "loss": 0.6277,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.2777389883995056,
+      "rewards/margins": 0.15828576683998108,
+      "rewards/rejected": -0.43602481484413147,
+      "step": 220
+    },
+    {
+      "epoch": 0.4811715481171548,
+      "grad_norm": 9.381367466525985,
+      "learning_rate": 3.096924887558854e-07,
+      "logits/chosen": 2.756274700164795,
+      "logits/rejected": 3.042253017425537,
+      "logps/chosen": -20.681415557861328,
+      "logps/rejected": -41.724674224853516,
+      "loss": 0.6228,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.195968359708786,
+      "rewards/margins": 0.20941869914531708,
+      "rewards/rejected": -0.4053870737552643,
+      "step": 230
+    },
+    {
+      "epoch": 0.502092050209205,
+      "grad_norm": 9.698557591113461,
+      "learning_rate": 2.9181224366319943e-07,
+      "logits/chosen": 2.9523372650146484,
+      "logits/rejected": 3.568504810333252,
+      "logps/chosen": -25.638051986694336,
+      "logps/rejected": -40.016014099121094,
+      "loss": 0.6288,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.24575933814048767,
+      "rewards/margins": 0.14226052165031433,
+      "rewards/rejected": -0.3880198299884796,
+      "step": 240
+    },
+    {
+      "epoch": 0.5230125523012552,
+      "grad_norm": 7.996022666238754,
+      "learning_rate": 2.7370891215954565e-07,
+      "logits/chosen": 2.842616558074951,
+      "logits/rejected": 3.386730670928955,
+      "logps/chosen": -16.753459930419922,
+      "logps/rejected": -32.727378845214844,
+      "loss": 0.6271,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.157147616147995,
+      "rewards/margins": 0.15919244289398193,
+      "rewards/rejected": -0.31634002923965454,
+      "step": 250
+    },
+    {
+      "epoch": 0.5439330543933054,
+      "grad_norm": 9.49367392875526,
+      "learning_rate": 2.55479083351317e-07,
+      "logits/chosen": 2.8096323013305664,
+      "logits/rejected": 2.8222105503082275,
+      "logps/chosen": -26.005813598632812,
+      "logps/rejected": -45.71054458618164,
+      "loss": 0.6241,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.24941372871398926,
+      "rewards/margins": 0.19658246636390686,
+      "rewards/rejected": -0.4459961950778961,
+      "step": 260
+    },
+    {
+      "epoch": 0.5648535564853556,
+      "grad_norm": 14.638817153423537,
+      "learning_rate": 2.3722002126275822e-07,
+      "logits/chosen": 2.8568336963653564,
+      "logits/rejected": 3.19636869430542,
+      "logps/chosen": -22.6005916595459,
+      "logps/rejected": -40.90196990966797,
+      "loss": 0.6224,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.21595272421836853,
+      "rewards/margins": 0.1823262870311737,
+      "rewards/rejected": -0.3982790410518646,
+      "step": 270
+    },
+    {
+      "epoch": 0.5857740585774058,
+      "grad_norm": 10.46787470104777,
+      "learning_rate": 2.19029145890313e-07,
+      "logits/chosen": 2.681917428970337,
+      "logits/rejected": 2.849825382232666,
+      "logps/chosen": -21.89919090270996,
+      "logps/rejected": -37.612815856933594,
+      "loss": 0.6265,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.2091476172208786,
+      "rewards/margins": 0.1555161476135254,
+      "rewards/rejected": -0.3646637797355652,
+      "step": 280
+    },
+    {
+      "epoch": 0.606694560669456,
+      "grad_norm": 7.74921044050114,
+      "learning_rate": 2.0100351342479216e-07,
+      "logits/chosen": 2.8385300636291504,
+      "logits/rejected": 2.8731513023376465,
+      "logps/chosen": -24.38838768005371,
+      "logps/rejected": -42.81266784667969,
+      "loss": 0.6231,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.23373980820178986,
+      "rewards/margins": 0.18318690359592438,
+      "rewards/rejected": -0.41692671179771423,
+      "step": 290
+    },
+    {
+      "epoch": 0.6276150627615062,
+      "grad_norm": 8.46554493519494,
+      "learning_rate": 1.8323929841460178e-07,
+      "logits/chosen": 3.3211822509765625,
+      "logits/rejected": 3.4708034992218018,
+      "logps/chosen": -22.359912872314453,
+      "logps/rejected": -38.96550369262695,
+      "loss": 0.6202,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.21357199549674988,
+      "rewards/margins": 0.16511210799217224,
+      "rewards/rejected": -0.3786841034889221,
+      "step": 300
+    },
+    {
+      "epoch": 0.6276150627615062,
+      "eval_logits/chosen": 2.999788284301758,
+      "eval_logits/rejected": 3.0356078147888184,
+      "eval_logps/chosen": -20.559364318847656,
+      "eval_logps/rejected": -40.0822639465332,
+      "eval_loss": 0.6255786418914795,
+      "eval_rewards/accuracies": 0.71875,
+      "eval_rewards/chosen": -0.19601428508758545,
+      "eval_rewards/margins": 0.1936187446117401,
+      "eval_rewards/rejected": -0.38963305950164795,
+      "eval_runtime": 102.0512,
+      "eval_samples_per_second": 19.598,
+      "eval_steps_per_second": 0.314,
+      "step": 300
+    },
+    {
+      "epoch": 0.6485355648535565,
+      "grad_norm": 9.417564911888258,
+      "learning_rate": 1.6583128063291573e-07,
+      "logits/chosen": 2.8539745807647705,
+      "logits/rejected": 3.0914368629455566,
+      "logps/chosen": -20.804203033447266,
+      "logps/rejected": -41.28700637817383,
+      "loss": 0.621,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.1979689598083496,
+      "rewards/margins": 0.20332905650138855,
+      "rewards/rejected": -0.40129804611206055,
+      "step": 310
+    },
+    {
+      "epoch": 0.6694560669456067,
+      "grad_norm": 8.668181751551456,
+      "learning_rate": 1.488723393865766e-07,
+      "logits/chosen": 2.763029098510742,
+      "logits/rejected": 3.5786728858947754,
+      "logps/chosen": -25.161691665649414,
+      "logps/rejected": -41.82555389404297,
+      "loss": 0.6159,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.24154594540596008,
+      "rewards/margins": 0.16512060165405273,
+      "rewards/rejected": -0.4066665768623352,
+      "step": 320
+    },
+    {
+      "epoch": 0.6903765690376569,
+      "grad_norm": 9.135541705526716,
+      "learning_rate": 1.3245295796480788e-07,
+      "logits/chosen": 2.6453309059143066,
+      "logits/rejected": 3.213120937347412,
+      "logps/chosen": -28.319080352783203,
+      "logps/rejected": -45.0162467956543,
+      "loss": 0.6209,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.27260464429855347,
+      "rewards/margins": 0.16600076854228973,
+      "rewards/rejected": -0.438605397939682,
+      "step": 330
+    },
+    {
+      "epoch": 0.7112970711297071,
+      "grad_norm": 9.485727128957436,
+      "learning_rate": 1.1666074087171627e-07,
+      "logits/chosen": 3.553588390350342,
+      "logits/rejected": 3.5263543128967285,
+      "logps/chosen": -23.71384048461914,
+      "logps/rejected": -40.1160774230957,
+      "loss": 0.6268,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.22761042416095734,
+      "rewards/margins": 0.16276967525482178,
+      "rewards/rejected": -0.3903800845146179,
+      "step": 340
+    },
+    {
+      "epoch": 0.7322175732217573,
+      "grad_norm": 9.579729502767362,
+      "learning_rate": 1.0157994641835734e-07,
+      "logits/chosen": 3.2801671028137207,
+      "logits/rejected": 3.6302173137664795,
+      "logps/chosen": -23.160703659057617,
+      "logps/rejected": -39.75481414794922,
+      "loss": 0.6148,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.22147643566131592,
+      "rewards/margins": 0.1643747091293335,
+      "rewards/rejected": -0.3858511745929718,
+      "step": 350
+    },
+    {
+      "epoch": 0.7531380753138075,
+      "grad_norm": 9.56792620122,
+      "learning_rate": 8.729103716819111e-08,
+      "logits/chosen": 2.997981548309326,
+      "logits/rejected": 3.285050868988037,
+      "logps/chosen": -25.180973052978516,
+      "logps/rejected": -41.596805572509766,
+      "loss": 0.6213,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.2415219247341156,
+      "rewards/margins": 0.16281357407569885,
+      "rewards/rejected": -0.40433549880981445,
+      "step": 360
+    },
+    {
+      "epoch": 0.7740585774058577,
+      "grad_norm": 9.46320162833878,
+      "learning_rate": 7.387025063449081e-08,
+      "logits/chosen": 2.827638864517212,
+      "logits/rejected": 3.168362855911255,
+      "logps/chosen": -20.08965301513672,
+      "logps/rejected": -41.27653121948242,
+      "loss": 0.6151,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.1905418187379837,
+      "rewards/margins": 0.21073243021965027,
+      "rewards/rejected": -0.40127426385879517,
+      "step": 370
+    },
+    {
+      "epoch": 0.7949790794979079,
+      "grad_norm": 11.287573566387135,
+      "learning_rate": 6.138919252022435e-08,
+      "logits/chosen": 2.806427001953125,
+      "logits/rejected": 2.9862289428710938,
+      "logps/chosen": -26.241718292236328,
+      "logps/rejected": -40.23133850097656,
+      "loss": 0.6247,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.25202974677085876,
+      "rewards/margins": 0.1393345296382904,
+      "rewards/rejected": -0.39136427640914917,
+      "step": 380
+    },
+    {
+      "epoch": 0.8158995815899581,
+      "grad_norm": 13.141931276110663,
+      "learning_rate": 4.991445467064689e-08,
+      "logits/chosen": 3.050666093826294,
+      "logits/rejected": 3.1723926067352295,
+      "logps/chosen": -28.155725479125977,
+      "logps/rejected": -46.16926193237305,
+      "loss": 0.6197,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.2713962495326996,
+      "rewards/margins": 0.17873115837574005,
+      "rewards/rejected": -0.45012742280960083,
+      "step": 390
+    },
+    {
+      "epoch": 0.8368200836820083,
+      "grad_norm": 7.223640139685516,
+      "learning_rate": 3.9507259776993954e-08,
+      "logits/chosen": 2.904824733734131,
+      "logits/rejected": 2.7292914390563965,
+      "logps/chosen": -28.01041603088379,
+      "logps/rejected": -43.947017669677734,
+      "loss": 0.6195,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.27024754881858826,
+      "rewards/margins": 0.1586446762084961,
+      "rewards/rejected": -0.42889222502708435,
+      "step": 400
+    },
+    {
+      "epoch": 0.8368200836820083,
+      "eval_logits/chosen": 2.7595362663269043,
+      "eval_logits/rejected": 2.7050070762634277,
+      "eval_logps/chosen": -23.82366180419922,
+      "eval_logps/rejected": -43.26374435424805,
+      "eval_loss": 0.6218914985656738,
+      "eval_rewards/accuracies": 0.71875,
+      "eval_rewards/chosen": -0.2286572903394699,
+      "eval_rewards/margins": 0.19279056787490845,
+      "eval_rewards/rejected": -0.42144784331321716,
+      "eval_runtime": 101.9605,
+      "eval_samples_per_second": 19.615,
+      "eval_steps_per_second": 0.314,
+      "step": 400
+    },
+    {
+      "epoch": 0.8577405857740585,
+      "grad_norm": 9.798220212045168,
+      "learning_rate": 3.022313472693447e-08,
+      "logits/chosen": 2.254669427871704,
+      "logits/rejected": 2.458228588104248,
+      "logps/chosen": -25.69635009765625,
+      "logps/rejected": -43.98773956298828,
+      "loss": 0.6191,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.24772438406944275,
+      "rewards/margins": 0.18161071836948395,
+      "rewards/rejected": -0.42933517694473267,
+      "step": 410
+    },
+    {
+      "epoch": 0.8786610878661087,
+      "grad_norm": 9.457071183698215,
+      "learning_rate": 2.2111614344599684e-08,
+      "logits/chosen": 2.807976484298706,
+      "logits/rejected": 3.5379626750946045,
+      "logps/chosen": -23.7137393951416,
+      "logps/rejected": -40.27167510986328,
+      "loss": 0.6151,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.22669024765491486,
+      "rewards/margins": 0.16417010128498077,
+      "rewards/rejected": -0.390860378742218,
+      "step": 420
+    },
+    {
+      "epoch": 0.899581589958159,
+      "grad_norm": 11.679593436076072,
+      "learning_rate": 1.521597710086439e-08,
+      "logits/chosen": 2.7207865715026855,
+      "logits/rejected": 3.395256757736206,
+      "logps/chosen": -21.971521377563477,
+      "logps/rejected": -40.920936584472656,
+      "loss": 0.6232,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.20926229655742645,
+      "rewards/margins": 0.18839535117149353,
+      "rewards/rejected": -0.3976576328277588,
+      "step": 430
+    },
+    {
+      "epoch": 0.9205020920502092,
+      "grad_norm": 8.417656516106161,
+      "learning_rate": 9.57301420397924e-09,
+      "logits/chosen": 3.1824350357055664,
+      "logits/rejected": 3.9073855876922607,
+      "logps/chosen": -25.478689193725586,
+      "logps/rejected": -40.70270538330078,
+      "loss": 0.6223,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.24391062557697296,
+      "rewards/margins": 0.15080411732196808,
+      "rewards/rejected": -0.3947147727012634,
+      "step": 440
+    },
+    {
+      "epoch": 0.9414225941422594,
+      "grad_norm": 8.425685268345296,
+      "learning_rate": 5.212833302556258e-09,
+      "logits/chosen": 3.0830206871032715,
+      "logits/rejected": 3.034968614578247,
+      "logps/chosen": -21.253185272216797,
+      "logps/rejected": -42.495853424072266,
+      "loss": 0.6214,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.20228211581707,
+      "rewards/margins": 0.21119949221611023,
+      "rewards/rejected": -0.41348162293434143,
+      "step": 450
+    },
+    {
+      "epoch": 0.9623430962343096,
+      "grad_norm": 7.6775915287366585,
+      "learning_rate": 2.158697848236607e-09,
+      "logits/chosen": 3.344025135040283,
+      "logits/rejected": 3.607654571533203,
+      "logps/chosen": -26.998760223388672,
+      "logps/rejected": -40.048553466796875,
+      "loss": 0.6173,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.26005202531814575,
+      "rewards/margins": 0.12917304039001465,
+      "rewards/rejected": -0.3892250657081604,
+      "step": 460
+    },
+    {
+      "epoch": 0.9832635983263598,
+      "grad_norm": 9.905482891237243,
+      "learning_rate": 4.269029751107489e-10,
+      "logits/chosen": 3.274850368499756,
+      "logits/rejected": 3.1045289039611816,
+      "logps/chosen": -22.779346466064453,
+      "logps/rejected": -39.72507095336914,
+      "loss": 0.6284,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.217888742685318,
+      "rewards/margins": 0.168381929397583,
+      "rewards/rejected": -0.386270672082901,
+      "step": 470
+    },
+    {
+      "epoch": 1.0,
+      "step": 478,
+      "total_flos": 0.0,
+      "train_loss": 0.6403242514223234,
+      "train_runtime": 11960.3252,
+      "train_samples_per_second": 5.111,
+      "train_steps_per_second": 0.04
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 478,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}