Open LLM Leaderboard Evaluation Results

Detailed results can be found here

Detailed results can be found here

Safetensors

Model size

11B params

Tensor type

F16

Model tree for vicgalle/CarbonBeagle-11B-truthy

Merges

Quantizations

normalized accuracy on AI2 Reasoning Challenge (25-Shot)
test set Open LLM Leaderboard

72.270
normalized accuracy on HellaSwag (10-Shot)
validation set Open LLM Leaderboard

89.310
accuracy on MMLU (5-Shot)
test set Open LLM Leaderboard

66.550
mc2 on TruthfulQA (0-shot)
validation set Open LLM Leaderboard

78.550
accuracy on Winogrande (5-shot)
validation set Open LLM Leaderboard

83.820
accuracy on GSM8k (5-shot)
test set Open LLM Leaderboard

66.110
strict accuracy on IFEval (0-Shot)
Open LLM Leaderboard

52.120
normalized accuracy on BBH (3-Shot)
Open LLM Leaderboard

33.990
exact match on MATH Lvl 5 (4-Shot)
Open LLM Leaderboard

4.760
acc_norm on GPQA (0-shot)
Open LLM Leaderboard

6.600