File size: 2,746 Bytes

ed39105
 
 
 
 
 
 
 
 
 
 
 
 
 
d3da676
 
ed39105
 
 
 
 
 
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
 
 
d3da676
ed39105
d3da676
ed39105
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
d3da676
 
 
ed39105
 
 
 
 
aa600e3
ed39105
aa600e3
ed39105
aa600e3
ed39105
 
 
 
 
aa600e3
ed39105
aa600e3
ed39105
aa600e3
ed39105
 
 
 
 
aa600e3
ed39105
aa600e3
ed39105
aa600e3
ed39105
 
 
 
 
aa600e3
ed39105
aa600e3
ed39105
aa600e3
ed39105

---
license: apache-2.0
---





### Accuracy
<table>
  <thead>
    <tr>
      <th>Category</th>
      <th>Metric</th>
      <th>meta-llama/Llama-4-Maverick-17B-128E-Instruct</th>
      <th>nm-testing/Llama-4-Maverick-17B-128E-Instruct-block-FP8</th>
      <th>Recovery (%)</th>
    </tr>
  </thead>
  <tbody>
    <!-- OpenLLM Leaderboard V1 -->
    <tr>
      <td rowspan="7"><b>OpenLLM V1</b></td>
      <td>ARC-Challenge (Acc-Norm, 25-shot)</td>
      <td>73.38</td>
      <td>73.38</td>
      <td>100.00</td>
    </tr>
    <tr>
      <td>GSM8K (Strict-Match, 5-shot)</td>
      <td>93.03</td>
      <td>92.72</td>
      <td>99.67</td>
    </tr>
    <tr>
      <td>HellaSwag (Acc-Norm, 10-shot)</td>
      <td>87.39</td>
      <td>87.33</td>
      <td>99.93</td>
    </tr>
    <tr>
      <td>MMLU (Acc, 5-shot)</td>
      <td>86.03</td>
      <td>86.15</td>
      <td>100.13</td>
    </tr>
    <tr>
      <td>TruthfulQA (MC2, 0-shot)</td>
      <td>62.76</td>
      <td>62.90</td>
      <td>100.23</td>
    </tr>
    <tr>
      <td>Winogrande (Acc, 5-shot)</td>
      <td>79.56</td>
      <td>79.40</td>
      <td>99.80</td>
    </tr>
    <tr>
      <td><b>Average Score</b></td>
      <td><b>80.36</b></td>
      <td><b>80.31</b></td>
      <td><b>99.94</b></td>
    </tr>
    <!-- OpenLLM Leaderboard V2 -->
    <tr>
      <td rowspan="7"><b>OpenLLM V2</b></td>
      <td>IFEval (Inst Level Strict Acc, 0-shot)</td>
      <td>89.93</td>
      <td>90.89</td>
      <td>101.07</td>
    </tr>
    <tr>
      <td>BBH (Acc-Norm, 3-shot)</td>
      <td>70.53</td>
      <td>71.03</td>
      <td>100.71</td>
    </tr>
    <tr>
      <td>Math-Hard (Exact-Match, 4-shot)</td>
      <td>64.73</td>
      <td>65.26</td>
      <td>100.82</td>
    </tr>
    <tr>
      <td>GPQA (Acc-Norm, 0-shot)</td>
      <td>31.29</td>
      <td>30.54</td>
      <td>97.59</td>
    </tr>
    <tr>
      <td>MUSR (Acc-Norm, 0-shot)</td>
      <td>46.56</td>
      <td>46.03</td>
      <td>98.86</td>
    </tr>
    <tr>
      <td>MMLU-Pro (Acc, 5-shot)</td>
      <td>64.11</td>
      <td>63.95</td>
      <td>99.75</td>
    </tr>
    <tr>
      <td><b>Average Score</b></td>
      <td><b>61.19</b></td>
      <td><b>61.28</b></td>
      <td><b>100.15</b></td>
    </tr>
    <td rowspan="4" ><strong>Coding</strong>
   </td>
   <td>HumanEval pass@1
   </td>
   <td>abc
   </td>
   <td>88.40
   </td>
   <td>xyz
   </td>
  </tr>
  <tr>
   <td>HumanEval+ pass@1
   </td>
   <td>abc
   </td>
   <td>79.30
   </td>
   <td>xyz
   </td>
  </tr>
  <tr>
   <td>MBPP pass@1
   </td>
   <td>abc
   </td>
   <td>90.20
   </td>
   <td>xyz
   </td>
  </tr>
  <tr>
   <td>MBPP+ pass@1
   </td>
   <td>abc
   </td>
   <td>75.10
   </td>
   <td>xyz
   </td>
  </tr>
  </tbody>
</table>