leaderboard

Running on CPU Upgrade

App Files Files Community

nan commited on Oct 14, 2024

Commit

2508d96

1 Parent(s): ebf3ceb

refactor: refactor the data loading part

Browse files

Files changed (1) hide show

app.py +56 -37

app.py CHANGED Viewed

@@ -82,8 +82,8 @@ from typing import Optional
 @dataclass
 class LeaderboardDataStore:
     raw_data: Optional[list]
-    raw_qa_df: Optional[pd.DataFrame]
-    original_df_long_doc: Optional[pd.DataFrame]
     leaderboard_df_qa: Optional[pd.DataFrame]
     leaderboard_df_long_doc: Optional[pd.DataFrame]
     reranking_models: Optional[list]
@@ -91,41 +91,52 @@ class LeaderboardDataStore:
     types_long_doc: Optional[list]
 def load_eval_results(file_path: str):
     output = {}
     versions = ("AIR-Bench_24.04",)
     for version in versions:
-        output[version] = LeaderboardDataStore(None, None, None, None, None, None, None, None)
-        output[version].raw_data = get_raw_eval_results(f"{file_path}/{version}")
-        output[version].raw_qa_df = get_leaderboard_df(
-            output[version].raw_data, task='qa', metric=DEFAULT_METRIC_QA)
-        output[version].original_df_long_doc = get_leaderboard_df(
-            output[version].raw_data, task='long-doc', metric=DEFAULT_METRIC_LONG_DOC)
-        print(f'raw data: {len(output[version].raw_data)}')
-        print(f'QA data loaded: {output[version].raw_qa_df.shape}')
-        print(f'Long-Doc data loaded: {len(output[version].original_df_long_doc)}')
-        output[version].leaderboard_df_qa = output[version].raw_qa_df.copy()
-        # leaderboard_df_qa = leaderboard_df_qa[has_no_nan_values(df, _benchmark_cols)]
-        shown_columns_qa, types_qa = get_default_cols(
-            'qa', output[version].leaderboard_df_qa.columns, add_fix_cols=True)
-        output[version].types_qa = types_qa
-        output[version].leaderboard_df_qa = output[version].leaderboard_df_qa[~output[version].leaderboard_df_qa[COL_NAME_IS_ANONYMOUS]][shown_columns_qa]
-        output[version].leaderboard_df_qa.drop([COL_NAME_REVISION, COL_NAME_TIMESTAMP], axis=1, inplace=True)
-        output[version].leaderboard_df_long_doc = output[version].original_df_long_doc.copy()
-        shown_columns_long_doc, types_long_doc = get_default_cols(
-            'long-doc', output[version].leaderboard_df_long_doc.columns, add_fix_cols=True)
-        output[version].types_long_doc = types_long_doc
-        output[version].leaderboard_df_long_doc = output[version].leaderboard_df_long_doc[~output[version].leaderboard_df_long_doc[COL_NAME_IS_ANONYMOUS]][shown_columns_long_doc]
-        output[version].leaderboard_df_long_doc.drop([COL_NAME_REVISION, COL_NAME_TIMESTAMP], axis=1, inplace=True)
-        output[version].reranking_models = sorted(list(frozenset([eval_result.reranking_model for eval_result in output[version].raw_data])))
     return output
 data = load_eval_results(EVAL_RESULTS_PATH)
 def update_metric_qa(
         metric: str,
         domains: list,
@@ -133,9 +144,11 @@ def update_metric_qa(
         reranking_model: list,
         query: str,
         show_anonymous: bool,
-        show_revision_and_timestamp,
 ):
-    return update_metric(data["AIR-Bench_24.04"].raw_data, 'qa', metric, domains, langs, reranking_model, query, show_anonymous, show_revision_and_timestamp)
 def update_metric_long_doc(
         metric: str,
@@ -188,7 +201,7 @@ with demo:
                                 selected_rerankings = get_reranking_dropdown(data["AIR-Bench_24.04"].reranking_models)
                         leaderboard_table = get_leaderboard_table(data["AIR-Bench_24.04"].leaderboard_df_qa, data["AIR-Bench_24.04"].types_qa)
                         # Dummy leaderboard for handling the case when the user uses backspace key
-                        hidden_leaderboard_table_for_search = get_leaderboard_table(data["AIR-Bench_24.04"].raw_qa_df, data["AIR-Bench_24.04"].types_qa, visible=False)
                         set_listeners(
                             "qa",
@@ -213,10 +226,13 @@ with demo:
                                 search_bar,
                                 show_anonymous,
                                 show_revision_and_timestamp,
                             ],
                             leaderboard_table,
                             queue=True
                         )
                     with gr.TabItem("Retrieval Only", id=11):
                         with gr.Row():
                             with gr.Column(scale=1):
@@ -227,7 +243,7 @@ with demo:
                         lb_df_retriever = reset_rank(lb_df_retriever)
                         lb_table_retriever = get_leaderboard_table(lb_df_retriever, data["AIR-Bench_24.04"].types_qa)
                         # Dummy leaderboard for handling the case when the user uses backspace key
-                        hidden_lb_df_retriever = data["AIR-Bench_24.04"].raw_qa_df[data["AIR-Bench_24.04"].raw_qa_df[COL_NAME_RERANKING_MODEL] == "NoReranker"]
                         hidden_lb_df_retriever = reset_rank(hidden_lb_df_retriever)
                         hidden_lb_table_retriever = get_leaderboard_table(hidden_lb_df_retriever, data["AIR-Bench_24.04"].types_qa, visible=False)
@@ -254,6 +270,7 @@ with demo:
                                 search_bar_retriever,
                                 show_anonymous,
                                 show_revision_and_timestamp,
                             ],
                             lb_table_retriever,
                             queue=True
@@ -268,7 +285,7 @@ with demo:
                             with gr.Column(scale=1):
                                 search_bar_reranker = gr.Textbox(show_label=False, visible=False)
                         lb_table_reranker = get_leaderboard_table(lb_df_reranker, data["AIR-Bench_24.04"].types_qa)
-                        hidden_lb_df_reranker = data["AIR-Bench_24.04"].raw_qa_df[data["AIR-Bench_24.04"].raw_qa_df[COL_NAME_RETRIEVAL_MODEL] == BM25_LINK]
                         hidden_lb_df_reranker = reset_rank(hidden_lb_df_reranker)
                         hidden_lb_table_reranker = get_leaderboard_table(
                             hidden_lb_df_reranker, data["AIR-Bench_24.04"].types_qa, visible=False
@@ -296,6 +313,7 @@ with demo:
                                 search_bar_reranker,
                                 show_anonymous,
                                 show_revision_and_timestamp,
                             ],
                             lb_table_reranker,
                             queue=True
@@ -334,7 +352,7 @@ with demo:
                         # Dummy leaderboard for handling the case when the user uses backspace key
                         hidden_lb_table_for_search = get_leaderboard_table(
-                            data["AIR-Bench_24.04"].original_df_long_doc, data["AIR-Bench_24.04"].types_long_doc, visible=False
                         )
                         set_listeners(
@@ -374,8 +392,8 @@ with demo:
                             data["AIR-Bench_24.04"].leaderboard_df_long_doc[COL_NAME_RERANKING_MODEL] == "NoReranker"
                         ]
                         lb_df_retriever_long_doc = reset_rank(lb_df_retriever_long_doc)
-                        hidden_lb_db_retriever_long_doc = data["AIR-Bench_24.04"].original_df_long_doc[
-                            data["AIR-Bench_24.04"].original_df_long_doc[COL_NAME_RERANKING_MODEL] == "NoReranker"
                         ]
                         hidden_lb_db_retriever_long_doc = reset_rank(hidden_lb_db_retriever_long_doc)
                         lb_table_retriever_long_doc = get_leaderboard_table(
@@ -422,7 +440,7 @@ with demo:
                             with gr.Column(scale=1):
                                 search_bar_reranker_ldoc = gr.Textbox(show_label=False, visible=False)
                         lb_table_reranker_ldoc = get_leaderboard_table(lb_df_reranker_ldoc, data["AIR-Bench_24.04"].types_long_doc)
-                        hidden_lb_df_reranker_ldoc = data["AIR-Bench_24.04"].original_df_long_doc[data["AIR-Bench_24.04"].original_df_long_doc[COL_NAME_RETRIEVAL_MODEL] == BM25_LINK]
                         hidden_lb_df_reranker_ldoc = reset_rank(hidden_lb_df_reranker_ldoc)
                         hidden_lb_table_reranker_ldoc = get_leaderboard_table(
                             hidden_lb_df_reranker_ldoc, data["AIR-Bench_24.04"].types_long_doc, visible=False
@@ -521,6 +539,7 @@ with demo:
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=3):
             gr.Markdown(BENCHMARKS_TEXT, elem_classes="markdown-text")
 if __name__ == "__main__":
     scheduler = BackgroundScheduler()

 @dataclass
 class LeaderboardDataStore:
     raw_data: Optional[list]
+    raw_df_qa: Optional[pd.DataFrame]
+    raw_df_long_doc: Optional[pd.DataFrame]
     leaderboard_df_qa: Optional[pd.DataFrame]
     leaderboard_df_long_doc: Optional[pd.DataFrame]
     reranking_models: Optional[list]
     types_long_doc: Optional[list]
+def load_leaderboard_data(file_path) -> LeaderboardDataStore:
+    lb_data_store = LeaderboardDataStore(None, None, None, None, None, None, None, None)
+    lb_data_store.raw_data = get_raw_eval_results(file_path)
+    print(f'raw data: {len(lb_data_store.raw_data)}')
+    lb_data_store.raw_df_qa = get_leaderboard_df(
+        lb_data_store.raw_data, task='qa', metric=DEFAULT_METRIC_QA)
+    lb_data_store.leaderboard_df_qa = lb_data_store.raw_df_qa.copy()
+    # leaderboard_df_qa = leaderboard_df_qa[has_no_nan_values(df, _benchmark_cols)]
+    print(f'QA data loaded: {lb_data_store.raw_df_qa.shape}')
+    shown_columns_qa, types_qa = get_default_cols(
+        'qa', lb_data_store.leaderboard_df_qa.columns, add_fix_cols=True)
+    lb_data_store.types_qa = types_qa
+    lb_data_store.leaderboard_df_qa = \
+    lb_data_store.leaderboard_df_qa[~lb_data_store.leaderboard_df_qa[COL_NAME_IS_ANONYMOUS]][shown_columns_qa]
+    lb_data_store.leaderboard_df_qa.drop([COL_NAME_REVISION, COL_NAME_TIMESTAMP], axis=1, inplace=True)
+    lb_data_store.raw_df_long_doc = get_leaderboard_df(
+        lb_data_store.raw_data, task='long-doc', metric=DEFAULT_METRIC_LONG_DOC)
+    print(f'Long-Doc data loaded: {len(lb_data_store.raw_df_long_doc)}')
+    lb_data_store.leaderboard_df_long_doc = lb_data_store.raw_df_long_doc.copy()
+    shown_columns_long_doc, types_long_doc = get_default_cols(
+        'long-doc', lb_data_store.leaderboard_df_long_doc.columns, add_fix_cols=True)
+    lb_data_store.types_long_doc = types_long_doc
+    lb_data_store.leaderboard_df_long_doc = \
+    lb_data_store.leaderboard_df_long_doc[~lb_data_store.leaderboard_df_long_doc[COL_NAME_IS_ANONYMOUS]][
+        shown_columns_long_doc]
+    lb_data_store.leaderboard_df_long_doc.drop([COL_NAME_REVISION, COL_NAME_TIMESTAMP], axis=1, inplace=True)
+    lb_data_store.reranking_models = sorted(
+        list(frozenset([eval_result.reranking_model for eval_result in lb_data_store.raw_data])))
+    return lb_data_store
 def load_eval_results(file_path: str):
     output = {}
     versions = ("AIR-Bench_24.04",)
     for version in versions:
+        fn = f"{file_path}/{version}"
+        output[version] = load_leaderboard_data(fn)
     return output
 data = load_eval_results(EVAL_RESULTS_PATH)
 def update_metric_qa(
         metric: str,
         domains: list,
         reranking_model: list,
         query: str,
         show_anonymous: bool,
+        show_revision_and_timestamp: bool,
+        selected_version: str,
 ):
+    return update_metric(data[selected_version].raw_data, 'qa', metric, domains, langs, reranking_model, query, show_anonymous, show_revision_and_timestamp)
 def update_metric_long_doc(
         metric: str,
                                 selected_rerankings = get_reranking_dropdown(data["AIR-Bench_24.04"].reranking_models)
                         leaderboard_table = get_leaderboard_table(data["AIR-Bench_24.04"].leaderboard_df_qa, data["AIR-Bench_24.04"].types_qa)
                         # Dummy leaderboard for handling the case when the user uses backspace key
+                        hidden_leaderboard_table_for_search = get_leaderboard_table(data["AIR-Bench_24.04"].raw_df_qa, data["AIR-Bench_24.04"].types_qa, visible=False)
                         set_listeners(
                             "qa",
                                 search_bar,
                                 show_anonymous,
                                 show_revision_and_timestamp,
+                                selected_version,
                             ],
                             leaderboard_table,
                             queue=True
                         )
+"""
                     with gr.TabItem("Retrieval Only", id=11):
                         with gr.Row():
                             with gr.Column(scale=1):
                         lb_df_retriever = reset_rank(lb_df_retriever)
                         lb_table_retriever = get_leaderboard_table(lb_df_retriever, data["AIR-Bench_24.04"].types_qa)
                         # Dummy leaderboard for handling the case when the user uses backspace key
+                        hidden_lb_df_retriever = data["AIR-Bench_24.04"].raw_df_qa[data["AIR-Bench_24.04"].raw_df_qa[COL_NAME_RERANKING_MODEL] == "NoReranker"]
                         hidden_lb_df_retriever = reset_rank(hidden_lb_df_retriever)
                         hidden_lb_table_retriever = get_leaderboard_table(hidden_lb_df_retriever, data["AIR-Bench_24.04"].types_qa, visible=False)
                                 search_bar_retriever,
                                 show_anonymous,
                                 show_revision_and_timestamp,
+                                selected_version,
                             ],
                             lb_table_retriever,
                             queue=True
                             with gr.Column(scale=1):
                                 search_bar_reranker = gr.Textbox(show_label=False, visible=False)
                         lb_table_reranker = get_leaderboard_table(lb_df_reranker, data["AIR-Bench_24.04"].types_qa)
+                        hidden_lb_df_reranker = data["AIR-Bench_24.04"].raw_df_qa[data["AIR-Bench_24.04"].raw_df_qa[COL_NAME_RETRIEVAL_MODEL] == BM25_LINK]
                         hidden_lb_df_reranker = reset_rank(hidden_lb_df_reranker)
                         hidden_lb_table_reranker = get_leaderboard_table(
                             hidden_lb_df_reranker, data["AIR-Bench_24.04"].types_qa, visible=False
                                 search_bar_reranker,
                                 show_anonymous,
                                 show_revision_and_timestamp,
+                                selected_version,
                             ],
                             lb_table_reranker,
                             queue=True
                         # Dummy leaderboard for handling the case when the user uses backspace key
                         hidden_lb_table_for_search = get_leaderboard_table(
+                            data["AIR-Bench_24.04"].raw_df_long_doc, data["AIR-Bench_24.04"].types_long_doc, visible=False
                         )
                         set_listeners(
                             data["AIR-Bench_24.04"].leaderboard_df_long_doc[COL_NAME_RERANKING_MODEL] == "NoReranker"
                         ]
                         lb_df_retriever_long_doc = reset_rank(lb_df_retriever_long_doc)
+                        hidden_lb_db_retriever_long_doc = data["AIR-Bench_24.04"].raw_df_long_doc[
+                            data["AIR-Bench_24.04"].raw_df_long_doc[COL_NAME_RERANKING_MODEL] == "NoReranker"
                         ]
                         hidden_lb_db_retriever_long_doc = reset_rank(hidden_lb_db_retriever_long_doc)
                         lb_table_retriever_long_doc = get_leaderboard_table(
                             with gr.Column(scale=1):
                                 search_bar_reranker_ldoc = gr.Textbox(show_label=False, visible=False)
                         lb_table_reranker_ldoc = get_leaderboard_table(lb_df_reranker_ldoc, data["AIR-Bench_24.04"].types_long_doc)
+                        hidden_lb_df_reranker_ldoc = data["AIR-Bench_24.04"].raw_df_long_doc[data["AIR-Bench_24.04"].raw_df_long_doc[COL_NAME_RETRIEVAL_MODEL] == BM25_LINK]
                         hidden_lb_df_reranker_ldoc = reset_rank(hidden_lb_df_reranker_ldoc)
                         hidden_lb_table_reranker_ldoc = get_leaderboard_table(
                             hidden_lb_df_reranker_ldoc, data["AIR-Bench_24.04"].types_long_doc, visible=False
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=3):
             gr.Markdown(BENCHMARKS_TEXT, elem_classes="markdown-text")
+"""
 if __name__ == "__main__":
     scheduler = BackgroundScheduler()