Spaces:

lmarena
/

chatbot-arena-leaderboard

Running

App Files Files Community

LLMArena commited on Dec 24, 2024

Commit

15dd4eb

verified ·

1 Parent(s): 38cea8b

add depricated

Browse files

Files changed (1) hide show

app.py +81 -20

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import ast
 import glob
 import pickle
 import traceback
 from datetime import datetime
 import pandas as pd
@@ -22,13 +23,13 @@ promo_banner = """
 deprecated_model_name = [
     "GigaChat 3.1.25.3",
-    "GigaChat-Pro 2.2.25.3",
     "saiga_llama3_8b_v6",
     "saiga_phi3_medium",
     "GigaChat-Plus 3.1.25.3",
     "GigaChat-Pro 4.0.26.8",
     "GigaChat 4.0.26.8",
-    "xAI: Grok 2",
     "GigaChat-Pro 4.0.26.15",
     "GigaChat 4.0.26.15",
     "YandexGPT Experimental", "yandex-gpt-arena"
@@ -88,6 +89,43 @@ def model_hyperlink(model_name, link):
     return f'<a target="_blank" href="{link}" style="color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;">{model_name}</a>'
 def load_leaderboard_table_csv(filename, add_hyperlink=True):
     lines = open(filename).readlines()
     heads = [v.strip() for v in lines[0].split(",")]
@@ -151,14 +189,18 @@ def recompute_final_ranking(arena_df):
 def get_arena_table(arena_df, model_table_df, arena_subset_df=None, hidden_models=None):
     arena_df = arena_df.sort_values(
         by=["final_ranking", "rating"], ascending=[True, False]
     )
-    if hidden_models:
-        arena_df = arena_df[~arena_df.index.isin(hidden_models)].copy()  # Filter deprecated models
     arena_df["final_ranking"] = recompute_final_ranking(arena_df)
     # sort by rating
     if arena_subset_df is not None:
@@ -321,7 +363,7 @@ def build_leaderboard_tab(
         model_table_df = pd.DataFrame(data)
         with gr.Tabs() as tabs:
-            arena_table_vals = get_arena_table(arena_df, model_table_df)
             with gr.Tab("Arena", id=0):
                 md = make_arena_leaderboard_md(arena_dfs[selected_category], last_updated_time)
@@ -330,17 +372,18 @@ def build_leaderboard_tab(
                 with gr.Row():
                     with gr.Column(scale=2):
                         category_dropdown = gr.Dropdown(
-                            choices=actual_categories,  # Updated categories
-                            value=selected_category,     # Default to selected_category
                             label="Category",
                         )
-                    with gr.Column(scale=2): # New CheckboxGroup for deprecated models
-                         category_checkbox = gr.CheckboxGroup(
-                             ["Show Deprecated Models"],
-                             label="Filter",
-                             info="",
-                         )
                     default_category_details = make_category_arena_leaderboard_md(
                         arena_df, arena_df, name=selected_category
                     )
@@ -481,7 +524,7 @@ def build_leaderboard_tab(
         )
     def update_leaderboard_and_plots(category, filters):
-        _, arena_dfs, category_elo_results, _ , model_table_df = read_elo_file(elo_results_file, leaderboard_table_file)
         arena_subset_df = arena_dfs[category]
         arena_subset_df = arena_subset_df[arena_subset_df["num_battles"] > 200]
@@ -493,7 +536,25 @@ def build_leaderboard_tab(
             arena_df,
             model_table_df,
             arena_subset_df=arena_subset_df if category != "Overall" else None,
-            hidden_models=None if "Show Deprecated Models" in filters else deprecated_model_name # Pass filter value
         )
         if category != "Overall":
             arena_values = update_leaderboard_df(arena_values)
@@ -569,7 +630,7 @@ def build_leaderboard_tab(
     if leaderboard_table_file:
         category_dropdown.change(
             fn=update_leaderboard_and_plots,
-            inputs=[category_dropdown, category_checkbox], # Pass checkbox value
             outputs=[
                 elo_display_df,
                 plot_1,
@@ -580,8 +641,8 @@ def build_leaderboard_tab(
                 category_deets,
             ],
         )
-        category_checkbox.change( # Add a separate change handler for the checkbox
-            fn=update_leaderboard_and_plots,
             inputs=[category_dropdown, category_checkbox],
             outputs=[
                 elo_display_df,

 import glob
 import pickle
 import traceback
+import numpy as np
 from datetime import datetime
 import pandas as pd
 deprecated_model_name = [
     "GigaChat 3.1.25.3",
+    "GigaChat-Pro 2.2.25.3",
     "saiga_llama3_8b_v6",
     "saiga_phi3_medium",
     "GigaChat-Plus 3.1.25.3",
     "GigaChat-Pro 4.0.26.8",
     "GigaChat 4.0.26.8",
+    "xAI: Grok 2",
     "GigaChat-Pro 4.0.26.15",
     "GigaChat 4.0.26.15",
     "YandexGPT Experimental", "yandex-gpt-arena"
     return f'<a target="_blank" href="{link}" style="color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;">{model_name}</a>'
+def filter_deprecated_models_plots(fig, hidden_models=None):
+    """
+    Removes deprecated models from a Plotly figure.
+    Args:
+        fig: The Plotly figure object.
+        hidden_models: A list of model names to remove.
+    """
+    if fig is None:
+        return
+    if hidden_models is None:
+        return fig
+    if fig.data[0].type == 'heatmap':
+        data = fig.data[0]
+        mask_x = ~np.isin(data.x, hidden_models)
+        mask_y = ~np.isin(data.y, hidden_models)
+        data.update({
+            'x': np.array(data.x)[mask_x],
+            'y': np.array(data.y)[mask_y],
+            'z': np.array(data.z)[np.ix_(mask_y, mask_x)]
+        })
+    elif fig.data[0].type == 'scatter':
+        trace = fig.data[0]
+        mask = ~np.isin(trace.x, hidden_models)
+        trace.x, trace.y, trace.text = np.array(trace.x)[mask], np.array(trace.y)[mask], np.array(trace.text)[mask]
+        for key in ['array', 'arrayminus']:
+            if key in trace.error_y:
+                trace.error_y[key] = trace.error_y[key][mask]
+    elif fig.data[0].type == 'bar':
+        mask = ~np.isin(fig.data[0].x, hidden_models)
+        fig.data[0].x = fig.data[0].x[mask]
+        fig.data[0].y = fig.data[0].y[mask]
+    return fig
 def load_leaderboard_table_csv(filename, add_hyperlink=True):
     lines = open(filename).readlines()
     heads = [v.strip() for v in lines[0].split(",")]
 def get_arena_table(arena_df, model_table_df, arena_subset_df=None, hidden_models=None):
+    # Apply hidden_models filter first
+    if hidden_models:
+        arena_df = arena_df[~arena_df.index.isin(hidden_models)].copy()
     arena_df = arena_df.sort_values(
         by=["final_ranking", "rating"], ascending=[True, False]
     )
     arena_df["final_ranking"] = recompute_final_ranking(arena_df)
+    arena_df = arena_df.sort_values(
+        by=["final_ranking", "rating"], ascending=[True, False]
+    )
     # sort by rating
     if arena_subset_df is not None:
         model_table_df = pd.DataFrame(data)
         with gr.Tabs() as tabs:
+            arena_table_vals = get_arena_table(arena_df, model_table_df, hidden_models=deprecated_model_name)
             with gr.Tab("Arena", id=0):
                 md = make_arena_leaderboard_md(arena_dfs[selected_category], last_updated_time)
                 with gr.Row():
                     with gr.Column(scale=2):
                         category_dropdown = gr.Dropdown(
+                            choices=actual_categories,
+                            value=selected_category,
                             label="Category",
                         )
+                    with gr.Column(scale=2):
+                        category_checkbox = gr.CheckboxGroup(
+                            ["Deprecated"],
+                            label="Filter",
+                            value=[],
+                            info="",
+                        )
                     default_category_details = make_category_arena_leaderboard_md(
                         arena_df, arena_df, name=selected_category
                     )
         )
     def update_leaderboard_and_plots(category, filters):
+        _, arena_dfs, category_elo_results, _, model_table_df = read_elo_file(elo_results_file, leaderboard_table_file)
         arena_subset_df = arena_dfs[category]
         arena_subset_df = arena_subset_df[arena_subset_df["num_battles"] > 200]
             arena_df,
             model_table_df,
             arena_subset_df=arena_subset_df if category != "Overall" else None,
+            hidden_models=(None if len(filters) > 0 and "Deprecated" in filters else deprecated_model_name)
+        )
+        # Filter plots based on deprecated models
+        p1 = filter_deprecated_models_plots(
+            elo_subset_results["win_fraction_heatmap"],
+            hidden_models=(None if len(filters) > 0 and "Deprecated" in filters else deprecated_model_name)
+        )
+        p2 = filter_deprecated_models_plots(
+            elo_subset_results["battle_count_heatmap"],
+            hidden_models=(None if len(filters) > 0 and "Deprecated" in filters else deprecated_model_name)
+        )
+        p3 = filter_deprecated_models_plots(
+            elo_subset_results["bootstrap_elo_rating"],
+            hidden_models=(None if len(filters) > 0 and "Deprecated" in filters else deprecated_model_name)
+        )
+        p4 = filter_deprecated_models_plots(
+            elo_subset_results["average_win_rate_bar"],
+            hidden_models=(None if len(filters) > 0 and "Deprecated" in filters else deprecated_model_name)
         )
         if category != "Overall":
             arena_values = update_leaderboard_df(arena_values)
     if leaderboard_table_file:
         category_dropdown.change(
             fn=update_leaderboard_and_plots,
+            inputs=[category_dropdown, category_checkbox],
             outputs=[
                 elo_display_df,
                 plot_1,
                 category_deets,
             ],
         )
+        category_checkbox.change(
+            update_leaderboard_and_plots,
             inputs=[category_dropdown, category_checkbox],
             outputs=[
                 elo_display_df,