模型 F:/GeoLLM/output/output_result/Task2/nomal/zero_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6746
BERT Recall: 0.8308
BERT F1: 0.7411

METEOR Score 评估结果：
METEOR Precision: 0.3439
METEOR Recall: 0.8504
METEOR Fmean: 0.6933
METEOR Penalty (Gamma=0.5,β=3.0): 0.1803
METEOR Score: 0.6252
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/one_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7366
BERT Recall: 0.8530
BERT F1: 0.7857

METEOR Score 评估结果：
METEOR Precision: 0.4934
METEOR Recall: 0.8613
METEOR Fmean: 0.7424
METEOR Penalty (Gamma=0.5,β=3.0): 0.1753
METEOR Score: 0.6649
空预测率: 0.0100
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/two_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7711
BERT Recall: 0.8508
BERT F1: 0.8051

METEOR Score 评估结果：
METEOR Precision: 0.5625
METEOR Recall: 0.8409
METEOR Fmean: 0.7560
METEOR Penalty (Gamma=0.5,β=3.0): 0.1840
METEOR Score: 0.6827
空预测率: 0.0300
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/three_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7553
BERT Recall: 0.8592
BERT F1: 0.7991

METEOR Score 评估结果：
METEOR Precision: 0.5339
METEOR Recall: 0.8643
METEOR Fmean: 0.7625
METEOR Penalty (Gamma=0.5,β=3.0): 0.1742
METEOR Score: 0.6796
空预测率: 0.0100
---
模型 F:/GeoLLM/output/output_result/Task2/knn/one_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7491
BERT Recall: 0.8535
BERT F1: 0.7943

METEOR Score 评估结果：
METEOR Precision: 0.4816
METEOR Recall: 0.8455
METEOR Fmean: 0.7442
METEOR Penalty (Gamma=0.5,β=3.0): 0.1781
METEOR Score: 0.6613
空预测率: 0.0100
---
模型 F:/GeoLLM/output/output_result/Task2/knn/two_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7667
BERT Recall: 0.8440
BERT F1: 0.8001

METEOR Score 评估结果：
METEOR Precision: 0.5160
METEOR Recall: 0.8249
METEOR Fmean: 0.7441
METEOR Penalty (Gamma=0.5,β=3.0): 0.2058
METEOR Score: 0.6549
空预测率: 0.0300
---
模型 F:/GeoLLM/output/output_result/Task2/knn/three_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7835
BERT Recall: 0.8500
BERT F1: 0.8121

METEOR Score 评估结果：
METEOR Precision: 0.5412
METEOR Recall: 0.8033
METEOR Fmean: 0.7316
METEOR Penalty (Gamma=0.5,β=3.0): 0.2067
METEOR Score: 0.6482
空预测率: 0.0200
---
模型 F:/GeoLLM/output/output_result/Task2/cot/cot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.5938
BERT Recall: 0.8059
BERT F1: 0.6819

METEOR Score 评估结果：
METEOR Precision: 0.2176
METEOR Recall: 0.8671
METEOR Fmean: 0.6204
METEOR Penalty (Gamma=0.5,β=3.0): 0.2022
METEOR Score: 0.5408
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/zero_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6837
BERT Recall: 0.8415
BERT F1: 0.7505

METEOR Score 评估结果：
METEOR Precision: 0.3648
METEOR Recall: 0.8972
METEOR Fmean: 0.7219
METEOR Penalty (Gamma=0.5,β=3.0): 0.1581
METEOR Score: 0.6435
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/one_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7638
BERT Recall: 0.8518
BERT F1: 0.8018

METEOR Score 评估结果：
METEOR Precision: 0.5214
METEOR Recall: 0.8558
METEOR Fmean: 0.7668
METEOR Penalty (Gamma=0.5,β=3.0): 0.1713
METEOR Score: 0.6929
空预测率: 0.0200
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/two_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8406
BERT Recall: 0.8602
BERT F1: 0.8474

METEOR Score 评估结果：
METEOR Precision: 0.6943
METEOR Recall: 0.7805
METEOR Fmean: 0.7512
METEOR Penalty (Gamma=0.5,β=3.0): 0.2048
METEOR Score: 0.6740
空预测率: 0.0300
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/three_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8356
BERT Recall: 0.8910
BERT F1: 0.8590

METEOR Score 评估结果：
METEOR Precision: 0.6628
METEOR Recall: 0.8635
METEOR Fmean: 0.8128
METEOR Penalty (Gamma=0.5,β=3.0): 0.1564
METEOR Score: 0.7385
空预测率: 0.0100
---
模型 F:/GeoLLM/output/output_result/Task2/knn/one_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7921
BERT Recall: 0.8635
BERT F1: 0.8236

METEOR Score 评估结果：
METEOR Precision: 0.5694
METEOR Recall: 0.8541
METEOR Fmean: 0.7849
METEOR Penalty (Gamma=0.5,β=3.0): 0.1894
METEOR Score: 0.7142
空预测率: 0.0300
---
模型 F:/GeoLLM/output/output_result/Task2/knn/two_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7858
BERT Recall: 0.8620
BERT F1: 0.8190

METEOR Score 评估结果：
METEOR Precision: 0.5457
METEOR Recall: 0.8422
METEOR Fmean: 0.7670
METEOR Penalty (Gamma=0.5,β=3.0): 0.1818
METEOR Score: 0.6936
空预测率: 0.0300
---
模型 F:/GeoLLM/output/output_result/Task2/knn/three_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7889
BERT Recall: 0.8644
BERT F1: 0.8227

METEOR Score 评估结果：
METEOR Precision: 0.5477
METEOR Recall: 0.8534
METEOR Fmean: 0.7813
METEOR Penalty (Gamma=0.5,β=3.0): 0.1817
METEOR Score: 0.7062
空预测率: 0.0300
---
模型 F:/GeoLLM/output/output_result/Task2/cot/cot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.5890
BERT Recall: 0.8050
BERT F1: 0.6790

METEOR Score 评估结果：
METEOR Precision: 0.2033
METEOR Recall: 0.8717
METEOR Fmean: 0.6243
METEOR Penalty (Gamma=0.5,β=3.0): 0.1925
METEOR Score: 0.5504
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/zero_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8618
BERT Recall: 0.8998
BERT F1: 0.8772

METEOR Score 评估结果：
METEOR Precision: 0.7083
METEOR Recall: 0.8256
METEOR Fmean: 0.7869
METEOR Penalty (Gamma=0.5,β=3.0): 0.1829
METEOR Score: 0.7023
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/one_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8923
BERT Recall: 0.9061
BERT F1: 0.8967

METEOR Score 评估结果：
METEOR Precision: 0.7828
METEOR Recall: 0.8178
METEOR Fmean: 0.7975
METEOR Penalty (Gamma=0.5,β=3.0): 0.1753
METEOR Score: 0.7096
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/two_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9131
BERT Recall: 0.9238
BERT F1: 0.9160

METEOR Score 评估结果：
METEOR Precision: 0.8096
METEOR Recall: 0.8338
METEOR Fmean: 0.8156
METEOR Penalty (Gamma=0.5,β=3.0): 0.1582
METEOR Score: 0.7306
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/three_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8980
BERT Recall: 0.8977
BERT F1: 0.8954

METEOR Score 评估结果：
METEOR Precision: 0.8150
METEOR Recall: 0.7955
METEOR Fmean: 0.7819
METEOR Penalty (Gamma=0.5,β=3.0): 0.1817
METEOR Score: 0.6875
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/one_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8985
BERT Recall: 0.8999
BERT F1: 0.8967

METEOR Score 评估结果：
METEOR Precision: 0.8198
METEOR Recall: 0.7994
METEOR Fmean: 0.7879
METEOR Penalty (Gamma=0.5,β=3.0): 0.1762
METEOR Score: 0.6978
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/two_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9123
BERT Recall: 0.9044
BERT F1: 0.9062

METEOR Score 评估结果：
METEOR Precision: 0.8601
METEOR Recall: 0.8107
METEOR Fmean: 0.8041
METEOR Penalty (Gamma=0.5,β=3.0): 0.1668
METEOR Score: 0.7174
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/three_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9156
BERT Recall: 0.9138
BERT F1: 0.9129

METEOR Score 评估结果：
METEOR Precision: 0.8492
METEOR Recall: 0.8221
METEOR Fmean: 0.8143
METEOR Penalty (Gamma=0.5,β=3.0): 0.1635
METEOR Score: 0.7299
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/cot/cot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6766
BERT Recall: 0.8441
BERT F1: 0.7466

METEOR Score 评估结果：
METEOR Precision: 0.3601
METEOR Recall: 0.8764
METEOR Fmean: 0.7021
METEOR Penalty (Gamma=0.5,β=3.0): 0.1635
METEOR Score: 0.6311
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/zero_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6391
BERT Recall: 0.8357
BERT F1: 0.7201

METEOR Score 评估结果：
METEOR Precision: 0.2838
METEOR Recall: 0.8981
METEOR Fmean: 0.6364
METEOR Penalty (Gamma=0.5,β=3.0): 0.2151
METEOR Score: 0.5455
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/one_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7362
BERT Recall: 0.8595
BERT F1: 0.7869

METEOR Score 评估结果：
METEOR Precision: 0.4808
METEOR Recall: 0.8673
METEOR Fmean: 0.7064
METEOR Penalty (Gamma=0.5,β=3.0): 0.1957
METEOR Score: 0.6211
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/two_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7879
BERT Recall: 0.8828
BERT F1: 0.8266

METEOR Score 评估结果：
METEOR Precision: 0.5849
METEOR Recall: 0.8765
METEOR Fmean: 0.7539
METEOR Penalty (Gamma=0.5,β=3.0): 0.1633
METEOR Score: 0.6726
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/three_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8151
BERT Recall: 0.8936
BERT F1: 0.8474

METEOR Score 评估结果：
METEOR Precision: 0.6188
METEOR Recall: 0.8659
METEOR Fmean: 0.7661
METEOR Penalty (Gamma=0.5,β=3.0): 0.1819
METEOR Score: 0.6841
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/one_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7927
BERT Recall: 0.8915
BERT F1: 0.8341

METEOR Score 评估结果：
METEOR Precision: 0.5789
METEOR Recall: 0.8850
METEOR Fmean: 0.7699
METEOR Penalty (Gamma=0.5,β=3.0): 0.1775
METEOR Score: 0.6796
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/two_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7703
BERT Recall: 0.8671
BERT F1: 0.8105

METEOR Score 评估结果：
METEOR Precision: 0.5377
METEOR Recall: 0.8550
METEOR Fmean: 0.7304
METEOR Penalty (Gamma=0.5,β=3.0): 0.1972
METEOR Score: 0.6404
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/three_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7566
BERT Recall: 0.8625
BERT F1: 0.8004

METEOR Score 评估结果：
METEOR Precision: 0.5182
METEOR Recall: 0.8579
METEOR Fmean: 0.7226
METEOR Penalty (Gamma=0.5,β=3.0): 0.2029
METEOR Score: 0.6348
空预测率: 0.0100
---
模型 F:/GeoLLM/output/output_result/Task2/cot/cot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.5733
BERT Recall: 0.8010
BERT F1: 0.6666

METEOR Score 评估结果：
METEOR Precision: 0.1782
METEOR Recall: 0.8395
METEOR Fmean: 0.5745
METEOR Penalty (Gamma=0.5,β=3.0): 0.1978
METEOR Score: 0.4955
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/zero_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7882
BERT Recall: 0.8874
BERT F1: 0.8304

METEOR Score 评估结果：
METEOR Precision: 0.5766
METEOR Recall: 0.8875
METEOR Fmean: 0.7878
METEOR Penalty (Gamma=0.5,β=3.0): 0.1524
METEOR Score: 0.7066
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/one_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8605
BERT Recall: 0.8986
BERT F1: 0.8758

METEOR Score 评估结果：
METEOR Precision: 0.7439
METEOR Recall: 0.8562
METEOR Fmean: 0.8180
METEOR Penalty (Gamma=0.5,β=3.0): 0.1620
METEOR Score: 0.7319
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/two_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8708
BERT Recall: 0.9013
BERT F1: 0.8828

METEOR Score 评估结果：
METEOR Precision: 0.7595
METEOR Recall: 0.8409
METEOR Fmean: 0.8079
METEOR Penalty (Gamma=0.5,β=3.0): 0.1709
METEOR Score: 0.7238
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/three_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8591
BERT Recall: 0.9132
BERT F1: 0.8820

METEOR Score 评估结果：
METEOR Precision: 0.6917
METEOR Recall: 0.8672
METEOR Fmean: 0.8174
METEOR Penalty (Gamma=0.5,β=3.0): 0.1441
METEOR Score: 0.7307
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/one_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8927
BERT Recall: 0.9137
BERT F1: 0.9007

METEOR Score 评估结果：
METEOR Precision: 0.8008
METEOR Recall: 0.8488
METEOR Fmean: 0.8291
METEOR Penalty (Gamma=0.5,β=3.0): 0.1639
METEOR Score: 0.7404
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/two_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8867
BERT Recall: 0.9100
BERT F1: 0.8959

METEOR Score 评估结果：
METEOR Precision: 0.7796
METEOR Recall: 0.8503
METEOR Fmean: 0.8260
METEOR Penalty (Gamma=0.5,β=3.0): 0.1561
METEOR Score: 0.7383
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/three_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8825
BERT Recall: 0.9145
BERT F1: 0.8955

METEOR Score 评估结果：
METEOR Precision: 0.7723
METEOR Recall: 0.8716
METEOR Fmean: 0.8397
METEOR Penalty (Gamma=0.5,β=3.0): 0.1485
METEOR Score: 0.7540
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/cot/cot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.5843
BERT Recall: 0.8032
BERT F1: 0.6749

METEOR Score 评估结果：
METEOR Precision: 0.1997
METEOR Recall: 0.8811
METEOR Fmean: 0.6076
METEOR Penalty (Gamma=0.5,β=3.0): 0.1703
METEOR Score: 0.5424
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/zero_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7947
BERT Recall: 0.8851
BERT F1: 0.8331

METEOR Score 评估结果：
METEOR Precision: 0.5605
METEOR Recall: 0.8857
METEOR Fmean: 0.7883
METEOR Penalty (Gamma=0.5,β=3.0): 0.1480
METEOR Score: 0.7089
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/one_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8699
BERT Recall: 0.8921
BERT F1: 0.8779

METEOR Score 评估结果：
METEOR Precision: 0.7775
METEOR Recall: 0.8277
METEOR Fmean: 0.7992
METEOR Penalty (Gamma=0.5,β=3.0): 0.1835
METEOR Score: 0.6890
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/two_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9088
BERT Recall: 0.9233
BERT F1: 0.9139

METEOR Score 评估结果：
METEOR Precision: 0.8079
METEOR Recall: 0.8570
METEOR Fmean: 0.8391
METEOR Penalty (Gamma=0.5,β=3.0): 0.1408
METEOR Score: 0.7584
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/three_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9107
BERT Recall: 0.9258
BERT F1: 0.9160

METEOR Score 评估结果：
METEOR Precision: 0.7939
METEOR Recall: 0.8682
METEOR Fmean: 0.8455
METEOR Penalty (Gamma=0.5,β=3.0): 0.1312
METEOR Score: 0.7648
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/one_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9013
BERT Recall: 0.9281
BERT F1: 0.9125

METEOR Score 评估结果：
METEOR Precision: 0.7820
METEOR Recall: 0.8681
METEOR Fmean: 0.8463
METEOR Penalty (Gamma=0.5,β=3.0): 0.1517
METEOR Score: 0.7622
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/two_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9087
BERT Recall: 0.9227
BERT F1: 0.9137

METEOR Score 评估结果：
METEOR Precision: 0.8200
METEOR Recall: 0.8487
METEOR Fmean: 0.8338
METEOR Penalty (Gamma=0.5,β=3.0): 0.1511
METEOR Score: 0.7474
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/three_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9202
BERT Recall: 0.9342
BERT F1: 0.9257

METEOR Score 评估结果：
METEOR Precision: 0.8319
METEOR Recall: 0.8641
METEOR Fmean: 0.8529
METEOR Penalty (Gamma=0.5,β=3.0): 0.1393
METEOR Score: 0.7709
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/cot/cot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6073
BERT Recall: 0.8161
BERT F1: 0.6944

METEOR Score 评估结果：
METEOR Precision: 0.2438
METEOR Recall: 0.9110
METEOR Fmean: 0.6704
METEOR Penalty (Gamma=0.5,β=3.0): 0.1498
METEOR Score: 0.6050
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/zero_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7448
BERT Recall: 0.8691
BERT F1: 0.7967

METEOR Score 评估结果：
METEOR Precision: 0.4926
METEOR Recall: 0.9064
METEOR Fmean: 0.7556
METEOR Penalty (Gamma=0.5,β=3.0): 0.1465
METEOR Score: 0.6783
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/one_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8062
BERT Recall: 0.8811
BERT F1: 0.8379

METEOR Score 评估结果：
METEOR Precision: 0.6063
METEOR Recall: 0.8671
METEOR Fmean: 0.7785
METEOR Penalty (Gamma=0.5,β=3.0): 0.1716
METEOR Score: 0.6994
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/two_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7839
BERT Recall: 0.8721
BERT F1: 0.8207

METEOR Score 评估结果：
METEOR Precision: 0.5514
METEOR Recall: 0.8471
METEOR Fmean: 0.7439
METEOR Penalty (Gamma=0.5,β=3.0): 0.1803
METEOR Score: 0.6676
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/three_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8268
BERT Recall: 0.8889
BERT F1: 0.8529

METEOR Score 评估结果：
METEOR Precision: 0.6423
METEOR Recall: 0.8450
METEOR Fmean: 0.7791
METEOR Penalty (Gamma=0.5,β=3.0): 0.1689
METEOR Score: 0.7065
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/one_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8337
BERT Recall: 0.8967
BERT F1: 0.8608

METEOR Score 评估结果：
METEOR Precision: 0.6397
METEOR Recall: 0.8488
METEOR Fmean: 0.7936
METEOR Penalty (Gamma=0.5,β=3.0): 0.1860
METEOR Score: 0.7103
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/two_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8380
BERT Recall: 0.9004
BERT F1: 0.8638

METEOR Score 评估结果：
METEOR Precision: 0.6666
METEOR Recall: 0.8752
METEOR Fmean: 0.8065
METEOR Penalty (Gamma=0.5,β=3.0): 0.1531
METEOR Score: 0.7320
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/three_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8651
BERT Recall: 0.9119
BERT F1: 0.8849

METEOR Score 评估结果：
METEOR Precision: 0.7205
METEOR Recall: 0.8658
METEOR Fmean: 0.8265
METEOR Penalty (Gamma=0.5,β=3.0): 0.1558
METEOR Score: 0.7525
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/cot/cot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6336
BERT Recall: 0.8229
BERT F1: 0.7122

METEOR Score 评估结果：
METEOR Precision: 0.2812
METEOR Recall: 0.8927
METEOR Fmean: 0.6625
METEOR Penalty (Gamma=0.5,β=3.0): 0.1750
METEOR Score: 0.5886
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/zero_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7490
BERT Recall: 0.8754
BERT F1: 0.8025

METEOR Score 评估结果：
METEOR Precision: 0.4766
METEOR Recall: 0.8860
METEOR Fmean: 0.7506
METEOR Penalty (Gamma=0.5,β=3.0): 0.1579
METEOR Score: 0.6737
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/one_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8370
BERT Recall: 0.9083
BERT F1: 0.8677

METEOR Score 评估结果：
METEOR Precision: 0.6435
METEOR Recall: 0.8652
METEOR Fmean: 0.8054
METEOR Penalty (Gamma=0.5,β=3.0): 0.1566
METEOR Score: 0.7306
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/two_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8573
BERT Recall: 0.9156
BERT F1: 0.8818

METEOR Score 评估结果：
METEOR Precision: 0.6910
METEOR Recall: 0.8843
METEOR Fmean: 0.8269
METEOR Penalty (Gamma=0.5,β=3.0): 0.1470
METEOR Score: 0.7401
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/nomal/three_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8468
BERT Recall: 0.9153
BERT F1: 0.8761

METEOR Score 评估结果：
METEOR Precision: 0.6724
METEOR Recall: 0.8943
METEOR Fmean: 0.8289
METEOR Penalty (Gamma=0.5,β=3.0): 0.1445
METEOR Score: 0.7456
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/one_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8565
BERT Recall: 0.9153
BERT F1: 0.8812

METEOR Score 评估结果：
METEOR Precision: 0.6913
METEOR Recall: 0.8753
METEOR Fmean: 0.8209
METEOR Penalty (Gamma=0.5,β=3.0): 0.1460
METEOR Score: 0.7406
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/two_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8637
BERT Recall: 0.9170
BERT F1: 0.8861

METEOR Score 评估结果：
METEOR Precision: 0.7110
METEOR Recall: 0.8765
METEOR Fmean: 0.8295
METEOR Penalty (Gamma=0.5,β=3.0): 0.1548
METEOR Score: 0.7419
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/knn/three_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8542
BERT Recall: 0.9168
BERT F1: 0.8813

METEOR Score 评估结果：
METEOR Precision: 0.6751
METEOR Recall: 0.8815
METEOR Fmean: 0.8236
METEOR Penalty (Gamma=0.5,β=3.0): 0.1495
METEOR Score: 0.7400
空预测率: 0.0000
---
模型 F:/GeoLLM/output/output_result/Task2/cot/cot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.5992
BERT Recall: 0.8078
BERT F1: 0.6864

METEOR Score 评估结果：
METEOR Precision: 0.2253
METEOR Recall: 0.8819
METEOR Fmean: 0.6413
METEOR Penalty (Gamma=0.5,β=3.0): 0.1650
METEOR Score: 0.5732
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6746
BERT Recall: 0.8308
BERT F1: 0.7411

METEOR Score 评估结果：
METEOR Precision: 0.3439
METEOR Recall: 0.8504
METEOR Fmean: 0.6933
METEOR Penalty (Gamma=0.5,β=3.0): 0.1803
METEOR Score: 0.6252
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7366
BERT Recall: 0.8530
BERT F1: 0.7857

METEOR Score 评估结果：
METEOR Precision: 0.4934
METEOR Recall: 0.8613
METEOR Fmean: 0.7424
METEOR Penalty (Gamma=0.5,β=3.0): 0.1753
METEOR Score: 0.6649
空预测率: 0.0100
---
模型 ./output/Task2/nomal/two_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7711
BERT Recall: 0.8508
BERT F1: 0.8051

METEOR Score 评估结果：
METEOR Precision: 0.5625
METEOR Recall: 0.8409
METEOR Fmean: 0.7560
METEOR Penalty (Gamma=0.5,β=3.0): 0.1840
METEOR Score: 0.6827
空预测率: 0.0300
---
模型 ./output/Task2/nomal/three_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7553
BERT Recall: 0.8592
BERT F1: 0.7991

METEOR Score 评估结果：
METEOR Precision: 0.5339
METEOR Recall: 0.8643
METEOR Fmean: 0.7625
METEOR Penalty (Gamma=0.5,β=3.0): 0.1742
METEOR Score: 0.6796
空预测率: 0.0100
---
模型 ./output/Task2/knn/one_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7491
BERT Recall: 0.8535
BERT F1: 0.7943

METEOR Score 评估结果：
METEOR Precision: 0.4816
METEOR Recall: 0.8455
METEOR Fmean: 0.7442
METEOR Penalty (Gamma=0.5,β=3.0): 0.1781
METEOR Score: 0.6613
空预测率: 0.0100
---
模型 ./output/Task2/knn/two_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7667
BERT Recall: 0.8440
BERT F1: 0.8001

METEOR Score 评估结果：
METEOR Precision: 0.5160
METEOR Recall: 0.8249
METEOR Fmean: 0.7441
METEOR Penalty (Gamma=0.5,β=3.0): 0.2058
METEOR Score: 0.6549
空预测率: 0.0300
---
模型 ./output/Task2/knn/three_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7835
BERT Recall: 0.8500
BERT F1: 0.8121

METEOR Score 评估结果：
METEOR Precision: 0.5412
METEOR Recall: 0.8033
METEOR Fmean: 0.7316
METEOR Penalty (Gamma=0.5,β=3.0): 0.2067
METEOR Score: 0.6482
空预测率: 0.0200
---
模型 ./output/Task2/cot/cot_new/gpt-3.5-turbo_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8576
BERT Recall: 0.8968
BERT F1: 0.8745

METEOR Score 评估结果：
METEOR Precision: 0.6944
METEOR Recall: 0.8265
METEOR Fmean: 0.7930
METEOR Penalty (Gamma=0.5,β=3.0): 0.1853
METEOR Score: 0.6941
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6837
BERT Recall: 0.8415
BERT F1: 0.7505

METEOR Score 评估结果：
METEOR Precision: 0.3648
METEOR Recall: 0.8972
METEOR Fmean: 0.7219
METEOR Penalty (Gamma=0.5,β=3.0): 0.1581
METEOR Score: 0.6435
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7638
BERT Recall: 0.8518
BERT F1: 0.8018

METEOR Score 评估结果：
METEOR Precision: 0.5214
METEOR Recall: 0.8558
METEOR Fmean: 0.7668
METEOR Penalty (Gamma=0.5,β=3.0): 0.1713
METEOR Score: 0.6929
空预测率: 0.0200
---
模型 ./output/Task2/nomal/two_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8406
BERT Recall: 0.8602
BERT F1: 0.8474

METEOR Score 评估结果：
METEOR Precision: 0.6943
METEOR Recall: 0.7805
METEOR Fmean: 0.7512
METEOR Penalty (Gamma=0.5,β=3.0): 0.2048
METEOR Score: 0.6740
空预测率: 0.0300
---
模型 ./output/Task2/nomal/three_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8356
BERT Recall: 0.8910
BERT F1: 0.8590

METEOR Score 评估结果：
METEOR Precision: 0.6628
METEOR Recall: 0.8635
METEOR Fmean: 0.8128
METEOR Penalty (Gamma=0.5,β=3.0): 0.1564
METEOR Score: 0.7385
空预测率: 0.0100
---
模型 ./output/Task2/knn/one_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7921
BERT Recall: 0.8635
BERT F1: 0.8236

METEOR Score 评估结果：
METEOR Precision: 0.5694
METEOR Recall: 0.8541
METEOR Fmean: 0.7849
METEOR Penalty (Gamma=0.5,β=3.0): 0.1894
METEOR Score: 0.7142
空预测率: 0.0300
---
模型 ./output/Task2/knn/two_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7858
BERT Recall: 0.8620
BERT F1: 0.8190

METEOR Score 评估结果：
METEOR Precision: 0.5457
METEOR Recall: 0.8422
METEOR Fmean: 0.7670
METEOR Penalty (Gamma=0.5,β=3.0): 0.1818
METEOR Score: 0.6936
空预测率: 0.0300
---
模型 ./output/Task2/knn/three_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7889
BERT Recall: 0.8644
BERT F1: 0.8227

METEOR Score 评估结果：
METEOR Precision: 0.5477
METEOR Recall: 0.8534
METEOR Fmean: 0.7813
METEOR Penalty (Gamma=0.5,β=3.0): 0.1817
METEOR Score: 0.7062
空预测率: 0.0300
---
模型 ./output/Task2/cot/cot_new/gpt-4o_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8817
BERT Recall: 0.9048
BERT F1: 0.8912

METEOR Score 评估结果：
METEOR Precision: 0.7271
METEOR Recall: 0.8105
METEOR Fmean: 0.7859
METEOR Penalty (Gamma=0.5,β=3.0): 0.1775
METEOR Score: 0.7030
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8618
BERT Recall: 0.8998
BERT F1: 0.8772

METEOR Score 评估结果：
METEOR Precision: 0.7083
METEOR Recall: 0.8256
METEOR Fmean: 0.7869
METEOR Penalty (Gamma=0.5,β=3.0): 0.1829
METEOR Score: 0.7023
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8923
BERT Recall: 0.9061
BERT F1: 0.8967

METEOR Score 评估结果：
METEOR Precision: 0.7828
METEOR Recall: 0.8178
METEOR Fmean: 0.7975
METEOR Penalty (Gamma=0.5,β=3.0): 0.1753
METEOR Score: 0.7096
空预测率: 0.0000
---
模型 ./output/Task2/nomal/two_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9131
BERT Recall: 0.9238
BERT F1: 0.9160

METEOR Score 评估结果：
METEOR Precision: 0.8096
METEOR Recall: 0.8338
METEOR Fmean: 0.8156
METEOR Penalty (Gamma=0.5,β=3.0): 0.1582
METEOR Score: 0.7306
空预测率: 0.0000
---
模型 ./output/Task2/nomal/three_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8980
BERT Recall: 0.8977
BERT F1: 0.8954

METEOR Score 评估结果：
METEOR Precision: 0.8150
METEOR Recall: 0.7955
METEOR Fmean: 0.7819
METEOR Penalty (Gamma=0.5,β=3.0): 0.1817
METEOR Score: 0.6875
空预测率: 0.0000
---
模型 ./output/Task2/knn/one_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8985
BERT Recall: 0.8999
BERT F1: 0.8967

METEOR Score 评估结果：
METEOR Precision: 0.8198
METEOR Recall: 0.7994
METEOR Fmean: 0.7879
METEOR Penalty (Gamma=0.5,β=3.0): 0.1762
METEOR Score: 0.6978
空预测率: 0.0000
---
模型 ./output/Task2/knn/two_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9123
BERT Recall: 0.9044
BERT F1: 0.9062

METEOR Score 评估结果：
METEOR Precision: 0.8601
METEOR Recall: 0.8107
METEOR Fmean: 0.8041
METEOR Penalty (Gamma=0.5,β=3.0): 0.1668
METEOR Score: 0.7174
空预测率: 0.0000
---
模型 ./output/Task2/knn/three_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9156
BERT Recall: 0.9138
BERT F1: 0.9129

METEOR Score 评估结果：
METEOR Precision: 0.8492
METEOR Recall: 0.8221
METEOR Fmean: 0.8143
METEOR Penalty (Gamma=0.5,β=3.0): 0.1635
METEOR Score: 0.7299
空预测率: 0.0000
---
模型 ./output/Task2/cot/cot_new/gemini-1.5-pro-002_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8881
BERT Recall: 0.8996
BERT F1: 0.8908

METEOR Score 评估结果：
METEOR Precision: 0.7691
METEOR Recall: 0.8185
METEOR Fmean: 0.7932
METEOR Penalty (Gamma=0.5,β=3.0): 0.1637
METEOR Score: 0.6992
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6391
BERT Recall: 0.8357
BERT F1: 0.7201

METEOR Score 评估结果：
METEOR Precision: 0.2838
METEOR Recall: 0.8981
METEOR Fmean: 0.6364
METEOR Penalty (Gamma=0.5,β=3.0): 0.2151
METEOR Score: 0.5455
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7362
BERT Recall: 0.8595
BERT F1: 0.7869

METEOR Score 评估结果：
METEOR Precision: 0.4808
METEOR Recall: 0.8673
METEOR Fmean: 0.7064
METEOR Penalty (Gamma=0.5,β=3.0): 0.1957
METEOR Score: 0.6211
空预测率: 0.0000
---
模型 ./output/Task2/nomal/two_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7879
BERT Recall: 0.8828
BERT F1: 0.8266

METEOR Score 评估结果：
METEOR Precision: 0.5849
METEOR Recall: 0.8765
METEOR Fmean: 0.7539
METEOR Penalty (Gamma=0.5,β=3.0): 0.1633
METEOR Score: 0.6726
空预测率: 0.0000
---
模型 ./output/Task2/nomal/three_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8151
BERT Recall: 0.8936
BERT F1: 0.8474

METEOR Score 评估结果：
METEOR Precision: 0.6188
METEOR Recall: 0.8659
METEOR Fmean: 0.7661
METEOR Penalty (Gamma=0.5,β=3.0): 0.1819
METEOR Score: 0.6841
空预测率: 0.0000
---
模型 ./output/Task2/knn/one_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7927
BERT Recall: 0.8915
BERT F1: 0.8341

METEOR Score 评估结果：
METEOR Precision: 0.5789
METEOR Recall: 0.8850
METEOR Fmean: 0.7699
METEOR Penalty (Gamma=0.5,β=3.0): 0.1775
METEOR Score: 0.6796
空预测率: 0.0000
---
模型 ./output/Task2/knn/two_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7703
BERT Recall: 0.8671
BERT F1: 0.8105

METEOR Score 评估结果：
METEOR Precision: 0.5377
METEOR Recall: 0.8550
METEOR Fmean: 0.7304
METEOR Penalty (Gamma=0.5,β=3.0): 0.1972
METEOR Score: 0.6404
空预测率: 0.0000
---
模型 ./output/Task2/knn/three_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7566
BERT Recall: 0.8625
BERT F1: 0.8004

METEOR Score 评估结果：
METEOR Precision: 0.5182
METEOR Recall: 0.8579
METEOR Fmean: 0.7226
METEOR Penalty (Gamma=0.5,β=3.0): 0.2029
METEOR Score: 0.6348
空预测率: 0.0100
---
模型 ./output/Task2/cot/cot_new/claude-3-5-haiku-20241022_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8621
BERT Recall: 0.8995
BERT F1: 0.8779

METEOR Score 评估结果：
METEOR Precision: 0.6769
METEOR Recall: 0.8071
METEOR Fmean: 0.7731
METEOR Penalty (Gamma=0.5,β=3.0): 0.1911
METEOR Score: 0.6741
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7882
BERT Recall: 0.8874
BERT F1: 0.8304

METEOR Score 评估结果：
METEOR Precision: 0.5766
METEOR Recall: 0.8875
METEOR Fmean: 0.7878
METEOR Penalty (Gamma=0.5,β=3.0): 0.1524
METEOR Score: 0.7066
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8605
BERT Recall: 0.8986
BERT F1: 0.8758

METEOR Score 评估结果：
METEOR Precision: 0.7439
METEOR Recall: 0.8562
METEOR Fmean: 0.8180
METEOR Penalty (Gamma=0.5,β=3.0): 0.1620
METEOR Score: 0.7319
空预测率: 0.0000
---
模型 ./output/Task2/nomal/two_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8708
BERT Recall: 0.9013
BERT F1: 0.8828

METEOR Score 评估结果：
METEOR Precision: 0.7595
METEOR Recall: 0.8409
METEOR Fmean: 0.8079
METEOR Penalty (Gamma=0.5,β=3.0): 0.1709
METEOR Score: 0.7238
空预测率: 0.0000
---
模型 ./output/Task2/nomal/three_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8591
BERT Recall: 0.9132
BERT F1: 0.8820

METEOR Score 评估结果：
METEOR Precision: 0.6917
METEOR Recall: 0.8672
METEOR Fmean: 0.8174
METEOR Penalty (Gamma=0.5,β=3.0): 0.1441
METEOR Score: 0.7307
空预测率: 0.0000
---
模型 ./output/Task2/knn/one_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8927
BERT Recall: 0.9137
BERT F1: 0.9007

METEOR Score 评估结果：
METEOR Precision: 0.8008
METEOR Recall: 0.8488
METEOR Fmean: 0.8291
METEOR Penalty (Gamma=0.5,β=3.0): 0.1639
METEOR Score: 0.7404
空预测率: 0.0000
---
模型 ./output/Task2/knn/two_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8867
BERT Recall: 0.9100
BERT F1: 0.8959

METEOR Score 评估结果：
METEOR Precision: 0.7796
METEOR Recall: 0.8503
METEOR Fmean: 0.8260
METEOR Penalty (Gamma=0.5,β=3.0): 0.1561
METEOR Score: 0.7383
空预测率: 0.0000
---
模型 ./output/Task2/knn/three_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8825
BERT Recall: 0.9145
BERT F1: 0.8955

METEOR Score 评估结果：
METEOR Precision: 0.7723
METEOR Recall: 0.8716
METEOR Fmean: 0.8397
METEOR Penalty (Gamma=0.5,β=3.0): 0.1485
METEOR Score: 0.7540
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6746
BERT Recall: 0.8308
BERT F1: 0.7411

METEOR Score 评估结果：
METEOR Precision: 0.3439
METEOR Recall: 0.8504
METEOR Fmean: 0.6933
METEOR Penalty (Gamma=0.5,β=3.0): 0.1803
METEOR Score: 0.6252
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7366
BERT Recall: 0.8530
BERT F1: 0.7857

METEOR Score 评估结果：
METEOR Precision: 0.4934
METEOR Recall: 0.8613
METEOR Fmean: 0.7424
METEOR Penalty (Gamma=0.5,β=3.0): 0.1753
METEOR Score: 0.6649
空预测率: 0.0100
---
模型 ./output/Task2/nomal/two_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7711
BERT Recall: 0.8508
BERT F1: 0.8051

METEOR Score 评估结果：
METEOR Precision: 0.5625
METEOR Recall: 0.8409
METEOR Fmean: 0.7560
METEOR Penalty (Gamma=0.5,β=3.0): 0.1840
METEOR Score: 0.6827
空预测率: 0.0300
---
模型 ./output/Task2/nomal/three_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7553
BERT Recall: 0.8592
BERT F1: 0.7991

METEOR Score 评估结果：
METEOR Precision: 0.5339
METEOR Recall: 0.8643
METEOR Fmean: 0.7625
METEOR Penalty (Gamma=0.5,β=3.0): 0.1742
METEOR Score: 0.6796
空预测率: 0.0100
---
模型 ./output/Task2/knn/one_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7491
BERT Recall: 0.8535
BERT F1: 0.7943

METEOR Score 评估结果：
METEOR Precision: 0.4816
METEOR Recall: 0.8455
METEOR Fmean: 0.7442
METEOR Penalty (Gamma=0.5,β=3.0): 0.1781
METEOR Score: 0.6613
空预测率: 0.0100
---
模型 ./output/Task2/knn/two_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7667
BERT Recall: 0.8440
BERT F1: 0.8001

METEOR Score 评估结果：
METEOR Precision: 0.5160
METEOR Recall: 0.8249
METEOR Fmean: 0.7441
METEOR Penalty (Gamma=0.5,β=3.0): 0.2058
METEOR Score: 0.6549
空预测率: 0.0300
---
模型 ./output/Task2/knn/three_shot/gpt-3.5-turbo_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7835
BERT Recall: 0.8500
BERT F1: 0.8121

METEOR Score 评估结果：
METEOR Precision: 0.5412
METEOR Recall: 0.8033
METEOR Fmean: 0.7316
METEOR Penalty (Gamma=0.5,β=3.0): 0.2067
METEOR Score: 0.6482
空预测率: 0.0200
---
模型 ./output/Task2/cot/cot_new/gpt-3.5-turbo_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8576
BERT Recall: 0.8968
BERT F1: 0.8745

METEOR Score 评估结果：
METEOR Precision: 0.6944
METEOR Recall: 0.8265
METEOR Fmean: 0.7930
METEOR Penalty (Gamma=0.5,β=3.0): 0.1853
METEOR Score: 0.6941
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6837
BERT Recall: 0.8415
BERT F1: 0.7505

METEOR Score 评估结果：
METEOR Precision: 0.3648
METEOR Recall: 0.8972
METEOR Fmean: 0.7219
METEOR Penalty (Gamma=0.5,β=3.0): 0.1581
METEOR Score: 0.6435
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7638
BERT Recall: 0.8518
BERT F1: 0.8018

METEOR Score 评估结果：
METEOR Precision: 0.5214
METEOR Recall: 0.8558
METEOR Fmean: 0.7668
METEOR Penalty (Gamma=0.5,β=3.0): 0.1713
METEOR Score: 0.6929
空预测率: 0.0200
---
模型 ./output/Task2/nomal/two_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8406
BERT Recall: 0.8602
BERT F1: 0.8474

METEOR Score 评估结果：
METEOR Precision: 0.6943
METEOR Recall: 0.7805
METEOR Fmean: 0.7512
METEOR Penalty (Gamma=0.5,β=3.0): 0.2048
METEOR Score: 0.6740
空预测率: 0.0300
---
模型 ./output/Task2/nomal/three_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8356
BERT Recall: 0.8910
BERT F1: 0.8590

METEOR Score 评估结果：
METEOR Precision: 0.6628
METEOR Recall: 0.8635
METEOR Fmean: 0.8128
METEOR Penalty (Gamma=0.5,β=3.0): 0.1564
METEOR Score: 0.7385
空预测率: 0.0100
---
模型 ./output/Task2/knn/one_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7921
BERT Recall: 0.8635
BERT F1: 0.8236

METEOR Score 评估结果：
METEOR Precision: 0.5694
METEOR Recall: 0.8541
METEOR Fmean: 0.7849
METEOR Penalty (Gamma=0.5,β=3.0): 0.1894
METEOR Score: 0.7142
空预测率: 0.0300
---
模型 ./output/Task2/knn/two_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7858
BERT Recall: 0.8620
BERT F1: 0.8190

METEOR Score 评估结果：
METEOR Precision: 0.5457
METEOR Recall: 0.8422
METEOR Fmean: 0.7670
METEOR Penalty (Gamma=0.5,β=3.0): 0.1818
METEOR Score: 0.6936
空预测率: 0.0300
---
模型 ./output/Task2/knn/three_shot/gpt-4o_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7889
BERT Recall: 0.8644
BERT F1: 0.8227

METEOR Score 评估结果：
METEOR Precision: 0.5477
METEOR Recall: 0.8534
METEOR Fmean: 0.7813
METEOR Penalty (Gamma=0.5,β=3.0): 0.1817
METEOR Score: 0.7062
空预测率: 0.0300
---
模型 ./output/Task2/cot/cot_new/gpt-4o_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8817
BERT Recall: 0.9048
BERT F1: 0.8912

METEOR Score 评估结果：
METEOR Precision: 0.7271
METEOR Recall: 0.8105
METEOR Fmean: 0.7859
METEOR Penalty (Gamma=0.5,β=3.0): 0.1775
METEOR Score: 0.7030
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8618
BERT Recall: 0.8998
BERT F1: 0.8772

METEOR Score 评估结果：
METEOR Precision: 0.7083
METEOR Recall: 0.8256
METEOR Fmean: 0.7869
METEOR Penalty (Gamma=0.5,β=3.0): 0.1829
METEOR Score: 0.7023
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8923
BERT Recall: 0.9061
BERT F1: 0.8967

METEOR Score 评估结果：
METEOR Precision: 0.7828
METEOR Recall: 0.8178
METEOR Fmean: 0.7975
METEOR Penalty (Gamma=0.5,β=3.0): 0.1753
METEOR Score: 0.7096
空预测率: 0.0000
---
模型 ./output/Task2/nomal/two_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9131
BERT Recall: 0.9238
BERT F1: 0.9160

METEOR Score 评估结果：
METEOR Precision: 0.8096
METEOR Recall: 0.8338
METEOR Fmean: 0.8156
METEOR Penalty (Gamma=0.5,β=3.0): 0.1582
METEOR Score: 0.7306
空预测率: 0.0000
---
模型 ./output/Task2/nomal/three_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8980
BERT Recall: 0.8977
BERT F1: 0.8954

METEOR Score 评估结果：
METEOR Precision: 0.8150
METEOR Recall: 0.7955
METEOR Fmean: 0.7819
METEOR Penalty (Gamma=0.5,β=3.0): 0.1817
METEOR Score: 0.6875
空预测率: 0.0000
---
模型 ./output/Task2/knn/one_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8985
BERT Recall: 0.8999
BERT F1: 0.8967

METEOR Score 评估结果：
METEOR Precision: 0.8198
METEOR Recall: 0.7994
METEOR Fmean: 0.7879
METEOR Penalty (Gamma=0.5,β=3.0): 0.1762
METEOR Score: 0.6978
空预测率: 0.0000
---
模型 ./output/Task2/knn/two_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9123
BERT Recall: 0.9044
BERT F1: 0.9062

METEOR Score 评估结果：
METEOR Precision: 0.8601
METEOR Recall: 0.8107
METEOR Fmean: 0.8041
METEOR Penalty (Gamma=0.5,β=3.0): 0.1668
METEOR Score: 0.7174
空预测率: 0.0000
---
模型 ./output/Task2/knn/three_shot/gemini-1.5-pro-002_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9156
BERT Recall: 0.9138
BERT F1: 0.9129

METEOR Score 评估结果：
METEOR Precision: 0.8492
METEOR Recall: 0.8221
METEOR Fmean: 0.8143
METEOR Penalty (Gamma=0.5,β=3.0): 0.1635
METEOR Score: 0.7299
空预测率: 0.0000
---
模型 ./output/Task2/cot/cot_new/gemini-1.5-pro-002_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8881
BERT Recall: 0.8996
BERT F1: 0.8908

METEOR Score 评估结果：
METEOR Precision: 0.7691
METEOR Recall: 0.8185
METEOR Fmean: 0.7932
METEOR Penalty (Gamma=0.5,β=3.0): 0.1637
METEOR Score: 0.6992
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.6391
BERT Recall: 0.8357
BERT F1: 0.7201

METEOR Score 评估结果：
METEOR Precision: 0.2838
METEOR Recall: 0.8981
METEOR Fmean: 0.6364
METEOR Penalty (Gamma=0.5,β=3.0): 0.2151
METEOR Score: 0.5455
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7362
BERT Recall: 0.8595
BERT F1: 0.7869

METEOR Score 评估结果：
METEOR Precision: 0.4808
METEOR Recall: 0.8673
METEOR Fmean: 0.7064
METEOR Penalty (Gamma=0.5,β=3.0): 0.1957
METEOR Score: 0.6211
空预测率: 0.0000
---
模型 ./output/Task2/nomal/two_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7879
BERT Recall: 0.8828
BERT F1: 0.8266

METEOR Score 评估结果：
METEOR Precision: 0.5849
METEOR Recall: 0.8765
METEOR Fmean: 0.7539
METEOR Penalty (Gamma=0.5,β=3.0): 0.1633
METEOR Score: 0.6726
空预测率: 0.0000
---
模型 ./output/Task2/nomal/three_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8151
BERT Recall: 0.8936
BERT F1: 0.8474

METEOR Score 评估结果：
METEOR Precision: 0.6188
METEOR Recall: 0.8659
METEOR Fmean: 0.7661
METEOR Penalty (Gamma=0.5,β=3.0): 0.1819
METEOR Score: 0.6841
空预测率: 0.0000
---
模型 ./output/Task2/knn/one_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7927
BERT Recall: 0.8915
BERT F1: 0.8341

METEOR Score 评估结果：
METEOR Precision: 0.5789
METEOR Recall: 0.8850
METEOR Fmean: 0.7699
METEOR Penalty (Gamma=0.5,β=3.0): 0.1775
METEOR Score: 0.6796
空预测率: 0.0000
---
模型 ./output/Task2/knn/two_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7703
BERT Recall: 0.8671
BERT F1: 0.8105

METEOR Score 评估结果：
METEOR Precision: 0.5377
METEOR Recall: 0.8550
METEOR Fmean: 0.7304
METEOR Penalty (Gamma=0.5,β=3.0): 0.1972
METEOR Score: 0.6404
空预测率: 0.0000
---
模型 ./output/Task2/knn/three_shot/claude-3-5-haiku-20241022_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7566
BERT Recall: 0.8625
BERT F1: 0.8004

METEOR Score 评估结果：
METEOR Precision: 0.5182
METEOR Recall: 0.8579
METEOR Fmean: 0.7226
METEOR Penalty (Gamma=0.5,β=3.0): 0.2029
METEOR Score: 0.6348
空预测率: 0.0100
---
模型 ./output/Task2/cot/cot_new/claude-3-5-haiku-20241022_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8621
BERT Recall: 0.8995
BERT F1: 0.8779

METEOR Score 评估结果：
METEOR Precision: 0.6769
METEOR Recall: 0.8071
METEOR Fmean: 0.7731
METEOR Penalty (Gamma=0.5,β=3.0): 0.1911
METEOR Score: 0.6741
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7882
BERT Recall: 0.8874
BERT F1: 0.8304

METEOR Score 评估结果：
METEOR Precision: 0.5766
METEOR Recall: 0.8875
METEOR Fmean: 0.7878
METEOR Penalty (Gamma=0.5,β=3.0): 0.1524
METEOR Score: 0.7066
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8605
BERT Recall: 0.8986
BERT F1: 0.8758

METEOR Score 评估结果：
METEOR Precision: 0.7439
METEOR Recall: 0.8562
METEOR Fmean: 0.8180
METEOR Penalty (Gamma=0.5,β=3.0): 0.1620
METEOR Score: 0.7319
空预测率: 0.0000
---
模型 ./output/Task2/nomal/two_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8708
BERT Recall: 0.9013
BERT F1: 0.8828

METEOR Score 评估结果：
METEOR Precision: 0.7595
METEOR Recall: 0.8409
METEOR Fmean: 0.8079
METEOR Penalty (Gamma=0.5,β=3.0): 0.1709
METEOR Score: 0.7238
空预测率: 0.0000
---
模型 ./output/Task2/nomal/three_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8591
BERT Recall: 0.9132
BERT F1: 0.8820

METEOR Score 评估结果：
METEOR Precision: 0.6917
METEOR Recall: 0.8672
METEOR Fmean: 0.8174
METEOR Penalty (Gamma=0.5,β=3.0): 0.1441
METEOR Score: 0.7307
空预测率: 0.0000
---
模型 ./output/Task2/knn/one_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8927
BERT Recall: 0.9137
BERT F1: 0.9007

METEOR Score 评估结果：
METEOR Precision: 0.8008
METEOR Recall: 0.8488
METEOR Fmean: 0.8291
METEOR Penalty (Gamma=0.5,β=3.0): 0.1639
METEOR Score: 0.7404
空预测率: 0.0000
---
模型 ./output/Task2/knn/two_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8867
BERT Recall: 0.9100
BERT F1: 0.8959

METEOR Score 评估结果：
METEOR Precision: 0.7796
METEOR Recall: 0.8503
METEOR Fmean: 0.8260
METEOR Penalty (Gamma=0.5,β=3.0): 0.1561
METEOR Score: 0.7383
空预测率: 0.0000
---
模型 ./output/Task2/knn/three_shot/deepseek-ai/DeepSeek-V3_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8825
BERT Recall: 0.9145
BERT F1: 0.8955

METEOR Score 评估结果：
METEOR Precision: 0.7723
METEOR Recall: 0.8716
METEOR Fmean: 0.8397
METEOR Penalty (Gamma=0.5,β=3.0): 0.1485
METEOR Score: 0.7540
空预测率: 0.0000
---
模型 ./output/Task2/cot/cot_new/DeepSeek-V3_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8733
BERT Recall: 0.8926
BERT F1: 0.8801

METEOR Score 评估结果：
METEOR Precision: 0.7265
METEOR Recall: 0.7931
METEOR Fmean: 0.7678
METEOR Penalty (Gamma=0.5,β=3.0): 0.1817
METEOR Score: 0.6815
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7947
BERT Recall: 0.8851
BERT F1: 0.8331

METEOR Score 评估结果：
METEOR Precision: 0.5605
METEOR Recall: 0.8857
METEOR Fmean: 0.7883
METEOR Penalty (Gamma=0.5,β=3.0): 0.1480
METEOR Score: 0.7089
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8699
BERT Recall: 0.8921
BERT F1: 0.8779

METEOR Score 评估结果：
METEOR Precision: 0.7775
METEOR Recall: 0.8277
METEOR Fmean: 0.7992
METEOR Penalty (Gamma=0.5,β=3.0): 0.1835
METEOR Score: 0.6890
空预测率: 0.0000
---
模型 ./output/Task2/nomal/two_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9088
BERT Recall: 0.9233
BERT F1: 0.9139

METEOR Score 评估结果：
METEOR Precision: 0.8079
METEOR Recall: 0.8570
METEOR Fmean: 0.8391
METEOR Penalty (Gamma=0.5,β=3.0): 0.1408
METEOR Score: 0.7584
空预测率: 0.0000
---
模型 ./output/Task2/nomal/three_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9107
BERT Recall: 0.9258
BERT F1: 0.9160

METEOR Score 评估结果：
METEOR Precision: 0.7939
METEOR Recall: 0.8682
METEOR Fmean: 0.8455
METEOR Penalty (Gamma=0.5,β=3.0): 0.1312
METEOR Score: 0.7648
空预测率: 0.0000
---
模型 ./output/Task2/knn/one_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9013
BERT Recall: 0.9281
BERT F1: 0.9125

METEOR Score 评估结果：
METEOR Precision: 0.7820
METEOR Recall: 0.8681
METEOR Fmean: 0.8463
METEOR Penalty (Gamma=0.5,β=3.0): 0.1517
METEOR Score: 0.7622
空预测率: 0.0000
---
模型 ./output/Task2/knn/two_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9087
BERT Recall: 0.9227
BERT F1: 0.9137

METEOR Score 评估结果：
METEOR Precision: 0.8200
METEOR Recall: 0.8487
METEOR Fmean: 0.8338
METEOR Penalty (Gamma=0.5,β=3.0): 0.1511
METEOR Score: 0.7474
空预测率: 0.0000
---
模型 ./output/Task2/knn/three_shot/deepseek-ai/DeepSeek-R1_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.9202
BERT Recall: 0.9342
BERT F1: 0.9257

METEOR Score 评估结果：
METEOR Precision: 0.8319
METEOR Recall: 0.8641
METEOR Fmean: 0.8529
METEOR Penalty (Gamma=0.5,β=3.0): 0.1393
METEOR Score: 0.7709
空预测率: 0.0000
---
模型 ./output/Task2/cot/cot_new/DeepSeek-R1_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8754
BERT Recall: 0.9048
BERT F1: 0.8874

METEOR Score 评估结果：
METEOR Precision: 0.7286
METEOR Recall: 0.8312
METEOR Fmean: 0.8032
METEOR Penalty (Gamma=0.5,β=3.0): 0.1640
METEOR Score: 0.7130
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7448
BERT Recall: 0.8691
BERT F1: 0.7967

METEOR Score 评估结果：
METEOR Precision: 0.4926
METEOR Recall: 0.9064
METEOR Fmean: 0.7556
METEOR Penalty (Gamma=0.5,β=3.0): 0.1465
METEOR Score: 0.6783
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8062
BERT Recall: 0.8811
BERT F1: 0.8379

METEOR Score 评估结果：
METEOR Precision: 0.6063
METEOR Recall: 0.8671
METEOR Fmean: 0.7785
METEOR Penalty (Gamma=0.5,β=3.0): 0.1716
METEOR Score: 0.6994
空预测率: 0.0000
---
模型 ./output/Task2/nomal/two_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7839
BERT Recall: 0.8721
BERT F1: 0.8207

METEOR Score 评估结果：
METEOR Precision: 0.5514
METEOR Recall: 0.8471
METEOR Fmean: 0.7439
METEOR Penalty (Gamma=0.5,β=3.0): 0.1803
METEOR Score: 0.6676
空预测率: 0.0000
---
模型 ./output/Task2/nomal/three_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8268
BERT Recall: 0.8889
BERT F1: 0.8529

METEOR Score 评估结果：
METEOR Precision: 0.6423
METEOR Recall: 0.8450
METEOR Fmean: 0.7791
METEOR Penalty (Gamma=0.5,β=3.0): 0.1689
METEOR Score: 0.7065
空预测率: 0.0000
---
模型 ./output/Task2/knn/one_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8337
BERT Recall: 0.8967
BERT F1: 0.8608

METEOR Score 评估结果：
METEOR Precision: 0.6397
METEOR Recall: 0.8488
METEOR Fmean: 0.7936
METEOR Penalty (Gamma=0.5,β=3.0): 0.1860
METEOR Score: 0.7103
空预测率: 0.0000
---
模型 ./output/Task2/knn/two_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8380
BERT Recall: 0.9004
BERT F1: 0.8638

METEOR Score 评估结果：
METEOR Precision: 0.6666
METEOR Recall: 0.8752
METEOR Fmean: 0.8065
METEOR Penalty (Gamma=0.5,β=3.0): 0.1531
METEOR Score: 0.7320
空预测率: 0.0000
---
模型 ./output/Task2/knn/three_shot/meta-llama/Meta-Llama-3.1-405B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8651
BERT Recall: 0.9119
BERT F1: 0.8849

METEOR Score 评估结果：
METEOR Precision: 0.7205
METEOR Recall: 0.8658
METEOR Fmean: 0.8265
METEOR Penalty (Gamma=0.5,β=3.0): 0.1558
METEOR Score: 0.7525
空预测率: 0.0000
---
模型 ./output/Task2/cot/cot_new/Meta-Llama-3.1-405B-Instruct_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8697
BERT Recall: 0.8944
BERT F1: 0.8798

METEOR Score 评估结果：
METEOR Precision: 0.7090
METEOR Recall: 0.8148
METEOR Fmean: 0.7876
METEOR Penalty (Gamma=0.5,β=3.0): 0.1872
METEOR Score: 0.6986
空预测率: 0.0000
---
模型 ./output/Task2/nomal/zero_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.7490
BERT Recall: 0.8754
BERT F1: 0.8025

METEOR Score 评估结果：
METEOR Precision: 0.4766
METEOR Recall: 0.8860
METEOR Fmean: 0.7506
METEOR Penalty (Gamma=0.5,β=3.0): 0.1579
METEOR Score: 0.6737
空预测率: 0.0000
---
模型 ./output/Task2/nomal/one_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8370
BERT Recall: 0.9083
BERT F1: 0.8677

METEOR Score 评估结果：
METEOR Precision: 0.6435
METEOR Recall: 0.8652
METEOR Fmean: 0.8054
METEOR Penalty (Gamma=0.5,β=3.0): 0.1566
METEOR Score: 0.7306
空预测率: 0.0000
---
模型 ./output/Task2/nomal/two_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8573
BERT Recall: 0.9156
BERT F1: 0.8818

METEOR Score 评估结果：
METEOR Precision: 0.6910
METEOR Recall: 0.8843
METEOR Fmean: 0.8269
METEOR Penalty (Gamma=0.5,β=3.0): 0.1470
METEOR Score: 0.7401
空预测率: 0.0000
---
模型 ./output/Task2/nomal/three_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8468
BERT Recall: 0.9153
BERT F1: 0.8761

METEOR Score 评估结果：
METEOR Precision: 0.6724
METEOR Recall: 0.8943
METEOR Fmean: 0.8289
METEOR Penalty (Gamma=0.5,β=3.0): 0.1445
METEOR Score: 0.7456
空预测率: 0.0000
---
模型 ./output/Task2/knn/one_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8565
BERT Recall: 0.9153
BERT F1: 0.8812

METEOR Score 评估结果：
METEOR Precision: 0.6913
METEOR Recall: 0.8753
METEOR Fmean: 0.8209
METEOR Penalty (Gamma=0.5,β=3.0): 0.1460
METEOR Score: 0.7406
空预测率: 0.0000
---
模型 ./output/Task2/knn/two_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8637
BERT Recall: 0.9170
BERT F1: 0.8861

METEOR Score 评估结果：
METEOR Precision: 0.7110
METEOR Recall: 0.8765
METEOR Fmean: 0.8295
METEOR Penalty (Gamma=0.5,β=3.0): 0.1548
METEOR Score: 0.7419
空预测率: 0.0000
---
模型 ./output/Task2/knn/three_shot/Qwen/Qwen2.5-72B-Instruct_f.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8542
BERT Recall: 0.9168
BERT F1: 0.8813

METEOR Score 评估结果：
METEOR Precision: 0.6751
METEOR Recall: 0.8815
METEOR Fmean: 0.8236
METEOR Penalty (Gamma=0.5,β=3.0): 0.1495
METEOR Score: 0.7400
空预测率: 0.0000
---
模型 ./output/Task2/cot/cot_new/Qwen2.5-72B-Instruct_f_processed.json 评估结果：

BERT Score 评估结果：
BERT Precision: 0.8645
BERT Recall: 0.8902
BERT F1: 0.8744

METEOR Score 评估结果：
METEOR Precision: 0.6983
METEOR Recall: 0.8033
METEOR Fmean: 0.7721
METEOR Penalty (Gamma=0.5,β=3.0): 0.1819
METEOR Score: 0.6843
空预测率: 0.0000
---
