Spaces:
Runtime error
Runtime error
| # 测试llama和qen | |
| if __name__ == '__main__': | |
| import pandas as pd | |
| import json | |
| # 加载地质描述文本,提取prompt和label | |
| with open('./data/train_triples.json', 'r', encoding='utf-8') as f: | |
| data = json.load(f) | |
| # 将data转换为DataFrame | |
| df = pd.DataFrame(data) | |
| # 提取prompt和label | |
| text = df['text'] | |
| label = df['triple_list'] | |
| # print(prompt,label) | |
| print(len(text)) | |
| from response_to_json import parse_llm_response, save_to_json, save_raw_response | |
| from LLM_Special_for_0423 import zero_shot | |
| # from prompt_generate import generate_prompt_with_examples as generate_prompt | |
| # from prompt_generate import generate_prompt_with_best_matches as generate_prompt_b | |
| model_series = 'gemini' | |
| model_name = 'gemini-1.5-pro-002' | |
| prompt = ''' | |
| 你是一名专业经验丰富的工程地质领域专家,你的任务是从给定的输入文本中提取"实体-关系-实体"三元组。关系类型包括24种:"出露于"、"位于"、"整合接触"、"不整合接触"、"假整合接触"、"断层接触"、"分布形态"、"大地构造位置"、"地层区划"、"出露地层"、"岩性"、"厚度"、"面积"、"坐标"、"长度"、"含有"、"所属年代"、"行政区划"、"发育"、"古生物"、"海拔"、"属于"、"吞噬"、"侵入"。提取过程请按照以下规范: | |
| 1. 输出格式: | |
| 严格遵循JSON数组,无额外文本,每个元素包含: | |
| [ | |
| { | |
| "entity1": "实体1", | |
| "relation": "关系", | |
| "entity2": "实体2" | |
| } | |
| ] | |
| 2. 复杂关系处理: | |
| 若同一实体参与多个关系,需分别列出不同三元组 | |
| 3. 关系的解释: | |
| 对部分较难提取的关系解释如下: | |
| (1)假整合接触:特指产状一致的平行不整合类型,强调沉积序列的间断但无构造变形,专门用来描述地层之间的关系,请勿滥用。 | |
| (2)大地构造位置:定位地质单元在板块构造格架中的归属,关联造山带或构造单元划分。在三元组中主体和客体分别是"岩石、地层(X群或X系)"和"XX带"。 | |
| (3)出露地层:特指某区域实际暴露的地层实体,强调可观测的地表地质单元。在三元组中主体和客体分别是"地层(X组或X群)"和"地层(X组或X群)"。 | |
| (4)坐标:特指记录地质特征点的地理空间定位数据。 | |
| (5)发育:描述地质构造或沉积特征的显现程度与形成状态强度。在三元组中主体和客体分别是"岩石"和"X层(片)理等、X构造"。 | |
| (6)古生物:记录地层中赋存的化石生物信息,需包含完整拉丁学名与分类特征。专指"X岩石、地区、地层(X组或X群"有"古生物"。 | |
| (7)属于:确立地质单元在分类体系中的类型归属,构建概念层级关系,不可滥用。 | |
| ''' | |
| j=0 | |
| q=0 | |
| json_path = './output/Knowledge-guided_rerun/nomal/'+model_name+'.json' | |
| j=len(json.load(open(json_path,'r',encoding='utf-8'))) | |
| q=len(json.load(open('./output/Knowledge-guided_rerun/nomal_raw/'+model_name+'.json','r',encoding='utf-8'))) | |
| # # 当q=j时才继续处理 | |
| # # 当q=j时才继续处理 | |
| if q==j: | |
| print(j) | |
| for i in range(j,500): | |
| response = zero_shot(model_series, model_name, prompt+'\n'+'以下是地质描述文本,请基于上述描述提取三元组:'+'\n'+text[i]) | |
| print(prompt+'\n'+'以下是地质描述文本,请基于上述描述提取三元组:'+'\n'+text[i]) | |
| # 解析响应 | |
| formatted_triples = parse_llm_response(response) | |
| # 保存结果 | |
| save_to_json(text[i], formatted_triples, model_series=model_name, output_dir='./output/Knowledge-guided_rerun/nomal/') | |
| # 保存原始响应为josn文件save_raw_response | |
| save_raw_response(response, prompt+'\n'+'以下是地质描述文本,请基于上述描述提取三元组:'+'\n'+text[i], model_series=model_name, output_dir='./output/Knowledge-guided_rerun/nomal_raw/') | |
| else: | |
| print('q!=j') |