leaderboard

Running on CPU Upgrade

App Files Files Community

nan commited on Oct 15, 2024

Commit

a7c0332

1 Parent(s): 2d272e2

refactor: refactor the column settings

Browse files

Files changed (6) hide show

src/display/column_names.py +0 -9
src/display/{utils.py → columns.py} +22 -9
src/loaders.py +1 -3
src/models.py +1 -1
src/utils.py +3 -6
tests/test_utils.py +1 -1

src/display/column_names.py DELETED Viewed

@@ -1,9 +0,0 @@
-COL_NAME_AVG = "Average ⬆️"
-COL_NAME_RETRIEVAL_MODEL = "Retrieval Method"
-COL_NAME_RERANKING_MODEL = "Reranking Model"
-COL_NAME_RETRIEVAL_MODEL_LINK = "Retrieval Model LINK"
-COL_NAME_RERANKING_MODEL_LINK = "Reranking Model LINK"
-COL_NAME_RANK = "Rank 🏆"
-COL_NAME_REVISION = "Revision"
-COL_NAME_TIMESTAMP = "Submission Date"
-COL_NAME_IS_ANONYMOUS = "Anonymous Submission"

src/display/{utils.py → columns.py} RENAMED Viewed

@@ -1,9 +1,16 @@
 from dataclasses import dataclass, make_dataclass
 from src.benchmarks import BenchmarksQA, BenchmarksLongDoc
-from src.display.column_names import COL_NAME_AVG, COL_NAME_RETRIEVAL_MODEL, COL_NAME_RERANKING_MODEL, \
-    COL_NAME_RETRIEVAL_MODEL_LINK, COL_NAME_RERANKING_MODEL_LINK, COL_NAME_RANK, COL_NAME_REVISION, COL_NAME_TIMESTAMP, \
-    COL_NAME_IS_ANONYMOUS
 def fields(raw_class):
@@ -29,10 +36,12 @@ def get_default_auto_eval_column_dict():
         ["rank", ColumnContent, ColumnContent(COL_NAME_RANK, "number", True)]
     )
     auto_eval_column_dict.append(
-        ["retrieval_model", ColumnContent, ColumnContent(COL_NAME_RETRIEVAL_MODEL, "markdown", True, hidden=False, never_hidden=True)]
     )
     auto_eval_column_dict.append(
-        ["reranking_model", ColumnContent, ColumnContent(COL_NAME_RERANKING_MODEL, "markdown", True, hidden=False, never_hidden=True)]
     )
     auto_eval_column_dict.append(
         ["revision", ColumnContent, ColumnContent(COL_NAME_REVISION, "markdown", True, never_hidden=True)]
@@ -44,10 +53,12 @@ def get_default_auto_eval_column_dict():
         ["average", ColumnContent, ColumnContent(COL_NAME_AVG, "number", True)]
     )
     auto_eval_column_dict.append(
-        ["retrieval_model_link", ColumnContent, ColumnContent(COL_NAME_RETRIEVAL_MODEL_LINK, "markdown", False, hidden=True, never_hidden=False)]
     )
     auto_eval_column_dict.append(
-        ["reranking_model_link", ColumnContent, ColumnContent(COL_NAME_RERANKING_MODEL_LINK, "markdown", False, hidden=True, never_hidden=False)]
     )
     auto_eval_column_dict.append(
         ["is_anonymous", ColumnContent, ColumnContent(COL_NAME_IS_ANONYMOUS, "bool", False, hidden=True)]
@@ -72,6 +83,10 @@ AutoEvalColumnQA = make_autoevalcolumn(
 AutoEvalColumnLongDoc = make_autoevalcolumn(
     "AutoEvalColumnLongDoc", BenchmarksLongDoc)
 # Column selection
 COLS_QA = [c.name for c in fields(AutoEvalColumnQA) if not c.hidden]
@@ -79,5 +94,3 @@ COLS_LONG_DOC = [c.name for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
 TYPES_QA = [c.type for c in fields(AutoEvalColumnQA) if not c.hidden]
 TYPES_LONG_DOC = [c.type for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
 COLS_LITE = [c.name for c in fields(AutoEvalColumnQA) if c.displayed_by_default and not c.hidden]

 from dataclasses import dataclass, make_dataclass
 from src.benchmarks import BenchmarksQA, BenchmarksLongDoc
+COL_NAME_AVG = "Average ⬆️"
+COL_NAME_RETRIEVAL_MODEL = "Retrieval Method"
+COL_NAME_RERANKING_MODEL = "Reranking Model"
+COL_NAME_RETRIEVAL_MODEL_LINK = "Retrieval Model LINK"
+COL_NAME_RERANKING_MODEL_LINK = "Reranking Model LINK"
+COL_NAME_RANK = "Rank 🏆"
+COL_NAME_REVISION = "Revision"
+COL_NAME_TIMESTAMP = "Submission Date"
+COL_NAME_IS_ANONYMOUS = "Anonymous Submission"
 def fields(raw_class):
         ["rank", ColumnContent, ColumnContent(COL_NAME_RANK, "number", True)]
     )
     auto_eval_column_dict.append(
+        ["retrieval_model", ColumnContent,
+         ColumnContent(COL_NAME_RETRIEVAL_MODEL, "markdown", True, hidden=False, never_hidden=True)]
     )
     auto_eval_column_dict.append(
+        ["reranking_model", ColumnContent,
+         ColumnContent(COL_NAME_RERANKING_MODEL, "markdown", True, hidden=False, never_hidden=True)]
     )
     auto_eval_column_dict.append(
         ["revision", ColumnContent, ColumnContent(COL_NAME_REVISION, "markdown", True, never_hidden=True)]
         ["average", ColumnContent, ColumnContent(COL_NAME_AVG, "number", True)]
     )
     auto_eval_column_dict.append(
+        ["retrieval_model_link", ColumnContent,
+         ColumnContent(COL_NAME_RETRIEVAL_MODEL_LINK, "markdown", False, hidden=True, never_hidden=False)]
     )
     auto_eval_column_dict.append(
+        ["reranking_model_link", ColumnContent,
+         ColumnContent(COL_NAME_RERANKING_MODEL_LINK, "markdown", False, hidden=True, never_hidden=False)]
     )
     auto_eval_column_dict.append(
         ["is_anonymous", ColumnContent, ColumnContent(COL_NAME_IS_ANONYMOUS, "bool", False, hidden=True)]
 AutoEvalColumnLongDoc = make_autoevalcolumn(
     "AutoEvalColumnLongDoc", BenchmarksLongDoc)
+fixed_cols = get_default_auto_eval_column_dict()[:-3]
+FIXED_COLS = [c.name for _, _, c in fixed_cols]
+FIXED_COLS_TYPES = [c.type for _, _, c in fixed_cols]
 # Column selection
 COLS_QA = [c.name for c in fields(AutoEvalColumnQA) if not c.hidden]
 TYPES_QA = [c.type for c in fields(AutoEvalColumnQA) if not c.hidden]
 TYPES_LONG_DOC = [c.type for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
 COLS_LITE = [c.name for c in fields(AutoEvalColumnQA) if c.displayed_by_default and not c.hidden]

src/loaders.py CHANGED Viewed

@@ -4,8 +4,7 @@ from typing import List
 import pandas as pd
 from src.benchmarks import DEFAULT_METRIC_QA, DEFAULT_METRIC_LONG_DOC
-from src.display.column_names import COL_NAME_REVISION, COL_NAME_IS_ANONYMOUS, \
-    COL_NAME_TIMESTAMP
 from src.models import FullEvalResult, LeaderboardDataStore
 from src.utils import get_default_cols, get_leaderboard_df
@@ -13,7 +12,6 @@ from src.utils import get_default_cols, get_leaderboard_df
 pd.options.mode.copy_on_write = True
 def load_raw_eval_results(results_path: str) -> List[FullEvalResult]:
     """
     Load the evaluation results from a json file

 import pandas as pd
 from src.benchmarks import DEFAULT_METRIC_QA, DEFAULT_METRIC_LONG_DOC
+from src.display.columns import COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_IS_ANONYMOUS
 from src.models import FullEvalResult, LeaderboardDataStore
 from src.utils import get_default_cols, get_leaderboard_df
 pd.options.mode.copy_on_write = True
 def load_raw_eval_results(results_path: str) -> List[FullEvalResult]:
     """
     Load the evaluation results from a json file

src/models.py CHANGED Viewed

@@ -6,7 +6,7 @@ from typing import List, Optional
 import pandas as pd
 from src.benchmarks import get_safe_name
-from src.display.column_names import COL_NAME_RETRIEVAL_MODEL, COL_NAME_RERANKING_MODEL, COL_NAME_RETRIEVAL_MODEL_LINK, \
     COL_NAME_RERANKING_MODEL_LINK, COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_IS_ANONYMOUS
 from src.display.formatting import make_clickable_model

 import pandas as pd
 from src.benchmarks import get_safe_name
+from src.display.columns import COL_NAME_RETRIEVAL_MODEL, COL_NAME_RERANKING_MODEL, COL_NAME_RETRIEVAL_MODEL_LINK, \
     COL_NAME_RERANKING_MODEL_LINK, COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_IS_ANONYMOUS
 from src.display.formatting import make_clickable_model

src/utils.py CHANGED Viewed

@@ -8,9 +8,9 @@ import pandas as pd
 from src.benchmarks import qa_benchmark_dict, long_doc_benchmark_dict, BenchmarksQA, BenchmarksLongDoc
 from src.display.formatting import styled_message, styled_error
-from src.display.utils import COLS_QA, TYPES_QA, COLS_LONG_DOC, TYPES_LONG_DOC, get_default_auto_eval_column_dict
-from src.display.column_names import COL_NAME_AVG, COL_NAME_RETRIEVAL_MODEL, COL_NAME_RERANKING_MODEL, COL_NAME_RANK, \
-    COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_IS_ANONYMOUS
 from src.envs import API, SEARCH_RESULTS_REPO, LATEST_BENCHMARK_VERSION
 from src.models import FullEvalResult
@@ -96,10 +96,7 @@ def get_default_cols(task: str, columns: list=[], add_fix_cols: bool=True) -> li
     return cols, types
-fixed_cols = get_default_auto_eval_column_dict()[:-3]
-FIXED_COLS = [c.name for _, _, c in fixed_cols]
-FIXED_COLS_TYPES = [c.type for _, _, c in fixed_cols]
 def select_columns(

 from src.benchmarks import qa_benchmark_dict, long_doc_benchmark_dict, BenchmarksQA, BenchmarksLongDoc
 from src.display.formatting import styled_message, styled_error
+from src.display.columns import COL_NAME_AVG, COL_NAME_RETRIEVAL_MODEL, COL_NAME_RERANKING_MODEL, COL_NAME_RANK, \
+    COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_IS_ANONYMOUS, COLS_QA, TYPES_QA, COLS_LONG_DOC, TYPES_LONG_DOC, \
+    FIXED_COLS, FIXED_COLS_TYPES
 from src.envs import API, SEARCH_RESULTS_REPO, LATEST_BENCHMARK_VERSION
 from src.models import FullEvalResult
     return cols, types
 def select_columns(

tests/test_utils.py CHANGED Viewed

@@ -2,7 +2,7 @@ import pandas as pd
 import pytest
 from src.utils import filter_models, search_table, filter_queries, select_columns, update_table_long_doc, get_iso_format_timestamp, get_default_cols, update_table
-from src.display.column_names import COL_NAME_AVG, COL_NAME_RETRIEVAL_MODEL, COL_NAME_RERANKING_MODEL, COL_NAME_RANK, \
     COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_IS_ANONYMOUS

 import pytest
 from src.utils import filter_models, search_table, filter_queries, select_columns, update_table_long_doc, get_iso_format_timestamp, get_default_cols, update_table
+from src.display.columns import COL_NAME_AVG, COL_NAME_RETRIEVAL_MODEL, COL_NAME_RERANKING_MODEL, COL_NAME_RANK, \
     COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_IS_ANONYMOUS