YYYYYYibo
/

zephyr-7b-dpo-qlora-min-pi-part-0

alignment-handbook

Generated from Trainer

Model card Files Files and versions

zephyr-7b-dpo-qlora-min-pi-part-0 / all_results.json

YYYYYYibo's picture

Model save

bc59731 verified over 1 year ago

735 Bytes

	{
	"epoch": 1.0,
	"eval_logits/chosen": -2.498661994934082,
	"eval_logits/rejected": -2.4008209705352783,
	"eval_logps/chosen": -269.65570068359375,
	"eval_logps/rejected": -257.6377868652344,
	"eval_loss": 0.6512373089790344,
	"eval_rewards/accuracies": 0.6639999747276306,
	"eval_rewards/chosen": -0.06204665079712868,
	"eval_rewards/margins": 0.10243026912212372,
	"eval_rewards/rejected": -0.1644769161939621,
	"eval_runtime": 542.9483,
	"eval_samples": 2000,
	"eval_samples_per_second": 3.684,
	"eval_steps_per_second": 0.46,
	"train_loss": 0.0,
	"train_runtime": 0.0278,
	"train_samples": 10000,
	"train_samples_per_second": 359461.447,
	"train_steps_per_second": 1401.9
	}