Spaces:

MERaLiON
/

SeaEval_Leaderboard

Running

App Files Files Community

binwang commited on Dec 18, 2024

Commit

14fb007

verified ·

1 Parent(s): 73cdee6

Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

app/__pycache__/draw_diagram.cpython-310.pyc +0 -0
app/__pycache__/pages.cpython-310.pyc +0 -0
app/draw_diagram.py +1 -17
app/pages.py +2 -5

app/__pycache__/draw_diagram.cpython-310.pyc CHANGED Viewed

Binary files a/app/__pycache__/draw_diagram.cpython-310.pyc and b/app/__pycache__/draw_diagram.cpython-310.pyc differ

app/__pycache__/pages.cpython-310.pyc CHANGED Viewed

Binary files a/app/__pycache__/pages.cpython-310.pyc and b/app/__pycache__/pages.cpython-310.pyc differ

app/draw_diagram.py CHANGED Viewed

@@ -65,22 +65,6 @@ def draw(folder_name, category_one, category_two, sort, num_sort, model_size_ran
     min_value = round(min(chart_data.iloc[:, 1]) - 0.1*min(chart_data.iloc[:, 1]), 1)
     max_value = round(max(chart_data.iloc[:, 1]) + 0.1*max(chart_data.iloc[:, 1]), 1)
-    display_names = {
-        'cross_mmlu'              : 'Cross-MMLU',
-        'cross_mmlu_no_prompt'    : 'Cross-MMLU-No-Prompt',
-        'cross_logiqa'            : 'Cross-LogiQA',
-        'cross_logiqa_no_prompt'  : 'Cross-LogiQA-No-Prompt',
-        'cross_xquad'             : 'Cross-XQUAD',
-        'cross_xquad_no_prompt'   : 'Cross-XQUAD-No-Prompt',
-        'sg_eval'                 : 'SG EVAL',
-        'sg_eval_v1_cleaned'      : 'SG EVAL V1 Cleaned',
-        'sg_eval_v2_mcq'          : 'SG EVAL V2 MCQ',
-        'sg_eval_v2_mcq_no_prompt': 'SG EVAL V2 MCQ No Prompt',
-        'sg_eval_v2_open'         : 'SG EVAL V2 Open Ended',
-        'us_eval'                 : 'US EVAL',
-        'cn_eval'                 : 'CN EVAL',
-        'ph_eval'                 : 'PH EVAL'
-    }
     data_columns = [i for i in chart_data.columns if i not in ['Model', 'model_show']]
@@ -109,7 +93,7 @@ def draw(folder_name, category_one, category_two, sort, num_sort, model_size_ran
                 chart_data_table.columns[i]: "{:.3f}" for i in range(2, len(chart_data_table.columns))
              }
         ).highlight_max(
-            subset=[chart_data_table.columns[2]], color='yellow'
         )
         st.dataframe(

     min_value = round(min(chart_data.iloc[:, 1]) - 0.1*min(chart_data.iloc[:, 1]), 1)
     max_value = round(max(chart_data.iloc[:, 1]) + 0.1*max(chart_data.iloc[:, 1]), 1)
     data_columns = [i for i in chart_data.columns if i not in ['Model', 'model_show']]
                 chart_data_table.columns[i]: "{:.3f}" for i in range(2, len(chart_data_table.columns))
              }
         ).highlight_max(
+            subset=[chart_data_table.columns[2]], color='#b0c1d7',
         )
         st.dataframe(

app/pages.py CHANGED Viewed

@@ -130,8 +130,6 @@ def cultural_reasoning():
     filters_leveltwo = [
                         'SG-EVAL-v2-MCQ',
                         'SG-EVAL-v2-Open-Ended',
-                        'SG-EVAL-v1-Cleaned',
-                        'SG-EVAL-v1',
                         'CN-EVAL',
                         'PH-EVAL',
                         'US-EVAL'
@@ -143,8 +141,6 @@ def cultural_reasoning():
     category_two_dict = {
                          'SG-EVAL-v2-MCQ'          : 'sg_eval_v2_mcq_no_prompt',
-                         'SG-EVAL-v1'              : 'sg_eval',
-                         'SG-EVAL-v1-Cleaned'      : 'sg_eval_v1_cleaned',
                          'SG-EVAL-v2-Open-Ended'   : 'sg_eval_v2_open',
                          'US-EVAL'                 : 'us_eval',
                          'CN-EVAL'                 : 'cn_eval',
@@ -171,6 +167,7 @@ def general_reasoning():
     st.title("Task: General Reasoning")
     filters_levelone = ['Zero Shot', 'Few Shot']
     filters_leveltwo = [
                         'IndoMMLU',
                         'MMLU',
@@ -188,7 +185,7 @@ def general_reasoning():
                          'IndoMMLU': 'indommlu_no_prompt',
                          'MMLU'    : 'mmlu_no_prompt',
                          'C-Eval'  : 'c_eval',
-                         'CMMLU'   : 'cmmlu',
                          'ZBench'  : 'zbench',
                          }

     filters_leveltwo = [
                         'SG-EVAL-v2-MCQ',
                         'SG-EVAL-v2-Open-Ended',
                         'CN-EVAL',
                         'PH-EVAL',
                         'US-EVAL'
     category_two_dict = {
                          'SG-EVAL-v2-MCQ'          : 'sg_eval_v2_mcq_no_prompt',
                          'SG-EVAL-v2-Open-Ended'   : 'sg_eval_v2_open',
                          'US-EVAL'                 : 'us_eval',
                          'CN-EVAL'                 : 'cn_eval',
     st.title("Task: General Reasoning")
     filters_levelone = ['Zero Shot', 'Few Shot']
     filters_leveltwo = [
                         'IndoMMLU',
                         'MMLU',
                          'IndoMMLU': 'indommlu_no_prompt',
                          'MMLU'    : 'mmlu_no_prompt',
                          'C-Eval'  : 'c_eval',
+                         'CMMLU'   : 'cmmlu_no_prompt',
                          'ZBench'  : 'zbench',
                          }