Spaces:

Ciallo0d00
/

GeoLLM

Runtime error

App Files Files Community

GeoLLM / RE-master /train_RGCN_11.8.py

Ciallo0d00

Upload folder using huggingface_hub

badcf3c verified 5 months ago

raw

history blame contribute delete

39.9 kB

	import json, time
	import numpy as np
	from tqdm import tqdm

	from torch.utils.data import Dataset, DataLoader
	from pytorch_pretrained_bert import BertModel, BertTokenizer
	import logging
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import os
	# import paddle
	# import paddle.nn.functional as F
	import unicodedata
	from pyhanlp import *
	from torch_geometric.nn import RGCNConv
	from gcn import *
	from graphModule import *
	from einops import rearrange
	from config import args
	from biaffine import *

	os.environ["CUDA_VISIBLE_DEVICES"] = "1"
	DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	# DEVICE = torch.device("cpu")
	# BERT_PATH = "./SpanBERT/Spanbert-base-cased"
	# BERT_PATH = "./chinese_roberta_wwm_ext_pytorch"
	BERT_PATH = "./bert"
	maxlen = 256 ####256


	def load_data(filename):
	D = []
	with open(filename) as data_file:
	data = data_file.read()
	# print(data)
	data = json.loads(data)
	for item in data:
	d = {'text': item['text'], 'triple_list': []}
	for sub_item in item['triple_list']:
	d['triple_list'].append(
	(sub_item[0], sub_item[1], sub_item[2])
	)
	D.append(d)

	return D


	# 加载数据集
	train_data = load_data('./data/CMED/train_triples.json')
	valid_data = load_data('./data/CMED/dev_triples.json')


	def search(pattern, sequence):
	"""从sequence中寻找子串pattern
	如果找到，返回第一个下标；否则返回-1。
	"""
	n = len(pattern)
	for i in range(len(sequence)):
	if sequence[i:i + n] == pattern:
	return i
	return -1


	train_data_new = [] # 创建新的训练集，把结束位置超过250的文本去除，可见并没有去除多少
	for data in tqdm(train_data):
	# print (data)
	flag = 1
	for s, p, o in data['triple_list']:
	s_begin = search(s, data['text'])
	o_begin = search(o, data['text'])
	if s_begin == -1 or o_begin == -1 or s_begin + len(s) > 256 or o_begin + len(o) > 256:
	flag = 0
	break
	if flag == 1:
	train_data_new.append(data)
	print("去除大于250的文本:\t", len(train_data_new))

	# 读取schema
	'''
	with open('RE/data/schema.json', encoding='utf-8') as f:
	id2predicate, predicate2id, n = {}, {}, 0
	predicate2type = {}
	for l in f:
	l = json.loads(l)
	predicate2type[l['predicate']] = (l['subject_type'], l['object_type'])
	for k, _ in sorted(l['object_type'].items()):
	key = l['predicate'] + '_' + k
	id2predicate[n] = key
	predicate2id[key] = n
	n += 1
	print(len(predicate2id))
	'''

	with open('./data/CMED/rel2id.json', encoding='utf-8') as f:
	# id2predicate, predicate2id, n = {}, {}, 0
	l = json.load(f)
	id2predicate = l[0]
	predicate2id = l[1]
	print("关系类型数量:\t", len(predicate2id))


	class OurTokenizer(BertTokenizer):
	def tokenize(self, text):
	R = []
	for c in text:
	if c in self.vocab:
	R.append(c)
	elif self._is_whitespace(c):
	R.append('[unused1]')
	else:
	R.append('[UNK]')
	return R

	def _is_whitespace(self, char):
	if char == " " or char == "\t" or char == "\n" or char == "\r":
	return True
	cat = unicodedata.category(char)
	if cat == "Zs":
	return True
	return False


	# 初始化分词器
	tokenizer = OurTokenizer(vocab_file="./chinese_roberta_wwm_ext_pytorch/vocab.txt")


	######依存句法树+分词
	def seg_pos(text):
	head, seg_word, Dep_rel, str_le = [], [], [], []
	# tree = HanLP.parseDependency(text)
	parser = JClass('com.hankcs.hanlp.dependency.nnparser.NeuralNetworkDependencyParser')()
	parser.enableDeprelTranslator(False)
	tree = parser.parse(text)
	for word in tree.iterator(): # 通过dir()可以查看sentence的方法
	head.append(word.HEAD.ID)
	for i in word.LEMMA.split():
	str_le.append(i)
	seg_word.append(word.LEMMA)
	Dep_rel.append(word.DEPREL)
	return head, seg_word, Dep_rel, str_le


	def out_list_word(seg_word):
	temp = ""
	for word in seg_word:
	temp += " " + word
	text_out = temp.lstrip(" ")
	return text_out


	def map_to_ids(tokens, vocab):
	ids = [vocab[t] if t in vocab.keys() else 0 for t in tokens]
	return ids


	def vocab_json():
	vocab_out = json.load(open("./vacab.json"))
	return vocab_out


	def dep_json():
	dep_out = json.load(open("./dep.json"))
	return dep_out


	class TorchDataset(Dataset):
	def __init__(self, data):
	self.data = data

	def __getitem__(self, i):
	t = self.data[i]
	# print ('t!!!',t) ######{'text': '齐志江，男，汉族，中共党员，大学学历', 'triple_list': [('齐志江', '民族', '汉族')]}

	x = tokenizer.tokenize(t['text'])
	# print (x)
	x = ["[CLS]"] + x + ["[SEP]"]
	token_ids = tokenizer.convert_tokens_to_ids(x)
	seg_ids = [0] * len(token_ids)
	assert len(token_ids) == len(t['text']) + 2
	spoes = {}
	for s, p, o in t['triple_list']:
	s = tokenizer.tokenize(s)
	s = tokenizer.convert_tokens_to_ids(s)
	p = predicate2id[p]
	o = tokenizer.tokenize(o)
	o = tokenizer.convert_tokens_to_ids(o)
	s_idx = search(s, token_ids)
	o_idx = search(o, token_ids)

	if s_idx != -1 and o_idx != -1:
	s = (s_idx, s_idx + len(s) - 1)
	o = (o_idx, o_idx + len(o) - 1, p) # 同时预测o和p
	if s not in spoes:
	spoes[s] = []
	spoes[s].append(o)
	# print(spoes) {(2, 5): [(13, 15, 31), (19, 21, 38), (29, 31, 45)]}

	if spoes:
	sub_labels = np.zeros((len(token_ids), 2))
	# print (sub_labels)
	for s in spoes:
	# print (s) #(2, 5)
	# print (sub_labels)
	# print(s[0])
	sub_labels[s[0], 0] = 1
	sub_labels[s[1], 1] = 1
	# 随机选一个subject
	start, end = np.array(list(spoes.keys())).T
	start = np.random.choice(start)
	# print (start)
	end = sorted(end[end >= start])[0]
	sub_ids = (start, end)
	obj_labels = np.zeros((len(token_ids), len(predicate2id), 2))
	for o in spoes.get(sub_ids, []):
	# print (o)
	obj_labels[o[0], o[2], 0] = 1
	obj_labels[o[1], o[2], 1] = 1

	token_ids = self.sequence_padding(token_ids, maxlen=maxlen)
	seg_ids = self.sequence_padding(seg_ids, maxlen=maxlen)
	sub_labels = self.sequence_padding(sub_labels, maxlen=maxlen, padding=np.zeros(2))
	sub_ids = np.array(sub_ids)
	obj_labels = self.sequence_padding(obj_labels, maxlen=maxlen,
	padding=np.zeros((len(predicate2id), 2)))

	return (torch.LongTensor(token_ids), torch.LongTensor(seg_ids), torch.LongTensor(sub_ids),
	torch.LongTensor(sub_labels), torch.LongTensor(obj_labels))

	def __len__(self):
	data_len = len(self.data)
	return data_len

	def sequence_padding(self, x, maxlen, padding=0):
	output = np.concatenate([x, [padding] * (maxlen - len(x))]) if len(x) < maxlen else np.array(x[:maxlen])
	return output


	train_dataset = TorchDataset(train_data_new)
	train_loader = DataLoader(dataset=train_dataset, batch_size=args.batch1, shuffle=True, drop_last=True)


	# for i, x in enumerate(train_loader):
	# print([_.shape for _ in x])
	# if i == 10:
	# break
	class GRUnet(nn.Module):
	def __init__(self, vocab_size, embedding_dim, hidden_dim, layer_dim, output_dim):
	"""
	vocab_size: 词典长度，也就是嵌入矩阵的行数
	embedding_dim: 词向量的维度，也就是嵌入矩阵的列数，也是W的列数，也是输入GRU的x_t的维度
	hidden_dim: GRU神经元的个数，也就是W的行数
	layer_dim: GRU的层数
	output_dim: 隐藏层输出的维度
	"""
	super(GRUnet, self).__init__()
	# 嵌入层
	self.embedding = nn.Embedding(vocab_size, embedding_dim)
	# GRU + 全连接
	self.gru = nn.GRU(embedding_dim, hidden_dim, layer_dim,
	batch_first=True)
	self.fc1 = nn.Sequential(
	nn.Linear(hidden_dim, hidden_dim),
	nn.Dropout(0.5),
	torch.nn.ReLU(),
	nn.Linear(hidden_dim, output_dim)
	)

	def forward(self, x):
	# x : [bacth, time_step, vocab_size]
	embeds = self.embedding(x)
	# print(embeds.shape)
	# embeds : [batch, time_step, embedding_dim]
	r_out, h_n = self.gru(embeds, None)
	# print (r_out.shape)
	# r_out : [batch, time_step, hidden_dim]
	# out = self.fc1(r_out[:, -1, :])
	out = self.fc1(r_out)
	# out : [batch, time_step, output_dim]
	return out


	class GCN(nn.Module):
	def __init__(self, hidden_size=768):
	super(GCN, self).__init__()
	self.hidden_size = hidden_size
	# self.fc = nn.Linear(self.hidden_size, self.hidden_size // 2)

	def forward(self, x, adj, is_relu=True):
	out = x

	# Make permutations for matrix multiplication
	# Assuming batch_first = False
	# print (out.shape)
	# out = out.permute(1, 0, 2) # to: batch, seq_len, hidden
	# adj = adj.permute(2, 0, 1) # to: batch, seq_len, seq_len

	out = torch.bmm(adj, out) # .permute(1, 0, 2) # to: seq_len, batch, hidden

	if is_relu == True:
	out = F.relu(out)

	return out



	class RGCN(torch.nn.Module):
	def __init__(self,in_channels,hideden_channels,out_channels,n_layers=2,dropout=0.5):
	super().__init__()
	self.convs = torch.nn.ModuleList()
	self.norms = torch.nn.ModuleList()
	self.relu = F.relu
	self.dropout = dropout
	self.convs.append(RGCNConv(in_channels,hideden_channels,num_relations=24,num_bases=1))
	for i in range(n_layers-2):
	self.convs.append(RGCNConv(hideden_channels,hideden_channels,num_relations=24,num_bases=1))
	self.norms.append(torch.nn.BatchNormld(hideden_channels))
	self.convs.append(RGCNConv(hideden_channels,out_channels,num_relations=24,num_bases=1))
	def forward(self, x, edge_index=2561,edge_type=24):
	for conv ,norm in zip(self.convs, self.norms):
	x = norm(conv(x,2561,24))
	x = F.relu(x)
	x = F.dropout(x,p=self.dropout,training=self.training)
	return x

	class BertLayerNorm(nn.Module):
	def __init__(self, hidden_size, eps=1e-12):
	super(BertLayerNorm, self).__init__()
	self.weight = nn.Parameter(torch.ones(hidden_size))
	self.bias = nn.Parameter(torch.zeros(hidden_size))
	self.variance_epsilon = eps

	def forward(self, x):
	u = x.mean(-1, keepdim=True) # [bs, maxlen, 1]
	s = (x - u).pow(2).mean(-1, keepdim=True)
	x = (x - u) / torch.sqrt(s + self.variance_epsilon)
	return self.weight * x + self.bias


	class Attention2(nn.Module):
	"""
	1.输入 [batch_size,time_step,hidden_dim] -> Linear、Tanh
	2.[batch_size,time_step,hidden_dim] -> transpose
	3.[batch_size,hidden_dim,time_step] -> Softmax
	4.[batch_size,hidden_dim,time_step] -> mean
	5.[batch_size,time_step] -> unsqueeze
	5.[batch_size,1,time_step] -> expand
	6.[batch_size,hidden_dim,time_step] -> transpose
	7.[batch_size,time_step,hidden_dim]
	"""

	def __init__(self, hidden_dim):
	super(Attention2, self).__init__()
	self.hidden_dim = hidden_dim
	self.dense = nn.Linear(hidden_dim, hidden_dim)

	def forward(self, features, mean=True):
	batch_size, time_step, hidden_dim = features.size()
	# weight = nn.Tanh()(self.dense(features))
	weight = nn.ReLU()(self.dense(features))

	# mask给负无穷使得权重为0
	mask_idx = torch.sign(torch.abs(features).sum(dim=-1))
	mask_idx = mask_idx.unsqueeze(-1).expand(batch_size, time_step, hidden_dim)
	paddings = torch.ones_like(mask_idx) * (-2 ** 32 + 1)
	weight = torch.where(torch.eq(mask_idx, 1), weight, paddings)

	weight = weight.transpose(2, 1)
	# weight = nn.Softmax(dim=2)(weight)
	# weight = nn.Sigmoid(weight)
	if mean:
	weight = weight.mean(dim=1)
	weight = weight.unsqueeze(1)
	weight = weight.expand(batch_size, hidden_dim, time_step)
	weight = weight.transpose(2, 1)
	features_attention = weight * features

	return features_attention


	class KeyValueMemoryNetwork(nn.Module):
	def __init__(self, vocab_size, feature_vocab_size, emb_size):
	super(KeyValueMemoryNetwork, self).__init__()
	self.key_embedding = nn.Embedding(vocab_size, emb_size, padding_idx=0)
	self.value_embedding = nn.Embedding(feature_vocab_size, emb_size, padding_idx=0)
	self.scale = np.power(emb_size, 0.5)

	def forward(self, key_embed, value_embed, hidden, mask_matrix):
	# key_embed = self.key_embedding(key_seq)
	# print (key_embed.shape)
	# value_embed = self.value_embedding(value_seq)
	# print (value_embed.shape)
	# hidden = self.key_embedding(hidden)
	u = torch.bmm(hidden.float(), key_embed.transpose(1, 2))
	u = u / self.scale
	exp_u = torch.exp(u)
	# print ('exp_u',exp_u.shape)
	delta_exp_u = torch.mul(exp_u.float(), mask_matrix.float())
	sum_delta_exp_u = torch.stack([torch.sum(delta_exp_u, 2)] * delta_exp_u.shape[2], 2)
	p = torch.div(delta_exp_u, sum_delta_exp_u + 1e-10)
	# print ('exp_u',p.shape)(9,256,256)
	# embedding_val = value_embed.permute(3, 0, 1, 2)
	o = torch.mul(p.float(), value_embed.float())
	# print (o.shape)
	# o = o.permute(1, 2, 3, 0)
	# o = torch.sum(o, 2)

	# aspect_len = (o != 0).sum(dim=1)
	# o = o.float().sum(dim=1)
	# avg_o = torch.div(o, aspect_len)
	return o # avg_o.type_as(hidden)



	class REModel(nn.Module):
	def __init__(self):
	super(REModel, self).__init__()
	self.bert = BertModel.from_pretrained(BERT_PATH)
	for param in self.bert.parameters():
	param.requires_grad = True

	self.linear = nn.Linear(768, 768)
	self.relu = nn.ReLU()
	self.sub_output = nn.Linear(768, 2)
	self.suopand = nn.Linear(1024, 768)
	self.cat_output = nn.Linear(1024, 768)
	self.obj_output = nn.Linear(768, len(predicate2id) * 2)

	self.sub_pos_emb = nn.Embedding(256, 768) # subject位置embedding
	self.layernorm = BertLayerNorm(768, eps=1e-12)
	# self.GCN_model = GCNClassifier(opt, emb_matrix=None)

	self.GRU = GRUnet(23923, 768, 1024, 6, 768)
	# self.CRF_S = CRF_S(768, 16, if_bias=True)
	# self.LSTM_CRF = LSTM_CRF(23922, 16, 768, 768, 1, 0.5, large_CRF=True)

	self.biaffine = BiaffineTagger(768, 2)

	# self.GCN = GCN(hidden_size=768)
	self.attention2 = Attention2(hidden_dim=768)
	self.gcu1 = GraphConv1(batch=args.batch1, h=[16, 32, 64, 128, 256], w=[16, 32, 64, 128, 256], d=[768, 512],
	V=[2, 4, 8, 32], outfeatures=[256, 128])
	# self.gcu2 = GraphConv2(batch = args.batch2, h=[16,32,64,128,256], w=[16,32,64,128,256], d=[768,512], V=[2,4,8,32],outfeatures=[256,128])
	self.cov = nn.Conv2d(768, 768, 1)
	self.GCN_model = GCNClassifier(opt, emb_matrix=None)
	self.emb = nn.Embedding(23923, 768)
	self.emb1 = nn.Embedding(37, 256)
	self.keyvalue = KeyValueMemoryNetwork(23923, 23923, 768)
	# self.apnb = APNB(in_channels=768, out_channels=768, key_channels=256, value_channels=256,dropout=0.05, sizes=([1]))

	def forward(self, token_ids, seg_ids, sub_ids=None):
	out, _ = self.bert(token_ids, token_type_ids=seg_ids,
	output_all_encoded_layers=False) # [batch_size, maxlen, size]
	# print ("1",out.shape)
	out = self.attention2(out)
	# print("1", out.shape)
	sub_preds = self.sub_output(out) # [batch_size, maxlen, 2]
	sub_preds = torch.sigmoid(sub_preds)
	# sub_preds = sub_preds ** 2

	if sub_ids is None:
	return sub_preds

	# print(sub_ids)
	# print(sub_ids[:, :1])
	# 融入subject特征信息
	sub_pos_start = self.sub_pos_emb(sub_ids[:, :1]) # 取主实体首位置
	sub_pos_end = self.sub_pos_emb(sub_ids[:, 1:]) # [batch_size, 1, size] #取主实体尾位置

	# print(sub_pos_start)

	sub_id1 = sub_ids[:, :1].unsqueeze(-1).repeat(1, 1, out.shape[-1]) # subject开始的位置id 重复字编码次数
	# print (sub_id1)
	sub_id2 = sub_ids[:, 1:].unsqueeze(-1).repeat(1, 1, out.shape[-1]) # [batch_size, 1, size]
	sub_start = torch.gather(out, 1, sub_id1) # 按照sub_id1位置索引去找bert编码后的值，在列维度进行索引
	# print(sub_start.shape)
	sub_end = torch.gather(out, 1, sub_id2) # [batch_size, 1, size]

	sub_start = sub_pos_start + sub_start # 位置编码向量+bert字编码向量
	sub_end = sub_pos_end + sub_end
	out1 = out + sub_start + sub_end

	out1 = torch.reshape(out1, (-1, 16, 16, 768))
	# print ('out1:',out1.shape)
	out1 = out1.permute(0, 3, 1, 2)
	# print(out1.shape)
	# out1 = HGT(in_channels=1, hidden_channels=5, out_channels=2, n_layers=2, n_heads=3)(out1)

	out1 = RGCN(in_channels=1, hideden_channels=5, out_channels=2, n_layers=2, dropout=0.5)(out1)
	# print(1)out1 = RGCN(in_channels=1, hideden_channels=5, out_channels=2, n_layers=2, dropout=0.5)(out1)
	# print(out1.shape)
	# print(1)
	# print(out1.shape)
	# if out1.shape[0] == args.batch1:
	# out1 = self.gcu1(out1)
	# # word_re_embed,_ = self.LSTM_CRF(inputs[0],hidden=None,t = True)
	# else:
	# out1 = GraphConv2(batch=out1.shape[0], h=[16, 32, 64, 128, 256], w=[16, 32, 64, 128, 256], d=[768, 512],
	# V=[2, 4, 8, 32], outfeatures=[256, 128])(out1)
	# # word_re_embed,_ = LSTM_CRF1(23922, 16, 768, 768, 1, 0.5, large_CRF=True, t = out1.shape[0]).to(DEVICE)(inputs[0],hidden=None)
	# print ('out1_',out1.shape)

	out1 = self.cov(out1)
	# out1 = self.apnb(out1)
	# out = out.permute(0,2,3,1)
	# print (out.shape)
	# b, c, h, w = out1.shape
	out1 = rearrange(out1, 'b c h w -> b c (h w)')
	out1 = out1.permute(0, 2, 1)
	# out1 = torch.cat((out1,pooling_output),dim=1)
	out1 = self.layernorm(out1)
	out1 = F.dropout(out1, p=0.5, training=self.training)
	# print(2)
	# print(out1.shape)
	output = self.relu(self.linear(out1))
	output = F.dropout(output, p=0.4, training=self.training)
	output = self.obj_output(output) # [batch_size, maxlen, 2*plen]
	# print(3)
	# print(output.shape)
	######
	# logits_output = torch.unsqueeze(logits, dim = 1)
	# final_output = logits_output + output
	output = torch.sigmoid(output)
	# output = output ** 2

	obj_preds = output.view(-1, output.shape[1], len(predicate2id), 2)
	return sub_preds, obj_preds


	net = REModel().to(DEVICE)
	print(DEVICE)
	optimizer = torch.optim.Adam(net.parameters(), lr=1e-5)


	def get_long_tensor(tokens_list, batch_size):
	""" Convert list of list of tokens to a padded LongTensor. """
	token_len = max(len(x) for x in tokens_list)
	tokens = torch.LongTensor(batch_size, token_len).fill_(0)
	for i, s in enumerate(tokens_list):
	tokens[i, :len(s)] = torch.LongTensor(s)
	return tokens


	class ValidDataset(Dataset):
	def __init__(self, data):
	self.data = data

	def __getitem__(self, i):
	t = self.data[i]
	# word_input, center_word = [],[]
	# print (t['triple_list'])
	if len(t['text']) > 254:
	t['text'] = t['text'][:254]
	x = tokenizer.tokenize(t['text'])
	x = ["[CLS]"] + x + ["[SEP]"]
	token_ids = tokenizer.convert_tokens_to_ids(x)

	seg_ids = [0] * len(token_ids)
	assert len(token_ids) == len(t['text']) + 2

	token_ids = torch.LongTensor(self.sequence_padding(token_ids, maxlen=maxlen))
	seg_ids = torch.LongTensor(self.sequence_padding(seg_ids, maxlen=maxlen))

	# tri = t['triple_list']
	# print('tri',tri)
	'''
	return {'token_ids':token_ids,
	'seg_ids':seg_ids,
	'text':t['text'],
	'triple_list':t['triple_list']}
	'''
	# return token_ids, seg_ids, list(t['text']), list(t['triple_list'])
	return token_ids, seg_ids, t

	def __len__(self):
	data_len = len(self.data)
	return data_len

	def sequence_padding(self, x, maxlen, padding=0):
	output = np.concatenate([x, [padding] * (maxlen - len(x))]) if len(x) < maxlen else np.array(x[:maxlen])
	return output


	valid_dataset = ValidDataset(valid_data)

	valid_loader = DataLoader(dataset=valid_dataset, batch_size=args.batch2, shuffle=False, drop_last=True)


	def extract_spoes(data, model, device):
	'''
	"""抽取三元组"""
	if len(text) > 254:
	text = text[:254]
	tokens = tokenizer.tokenize(text)
	tokens = ["[CLS]"] + tokens + ["[SEP]"]
	token_ids = tokenizer.convert_tokens_to_ids(tokens)
	assert len(token_ids) == len(text) + 2
	seg_ids = [0] * len(token_ids)
	'''
	# print (data[2])
	# print (data['text'])
	# token_ids = data['token_ids']
	token_ids = data[0]

	# seg_ids = data['seg_ids']
	seg_ids = data[1]
	# import pdb
	# pdb.set_trace()
	sub_preds = model(token_ids.to(device),
	seg_ids.to(device))
	sub_preds = sub_preds.detach().cpu().numpy() # [1, maxlen, 2]
	# print(sub_preds[0,])
	start = np.where(sub_preds[0, :, 0] > 0.5)[0]
	end = np.where(sub_preds[0, :, 1] > 0.5)[0]
	# print(start, end)
	tmp_print = []
	subjects = []
	for i in start:
	j = end[end >= i]
	if len(j) > 0:
	j = j[0]
	subjects.append((i, j))
	tmp_print.append(data[2][i - 1: j])

	if subjects:
	spoes = []
	# print (len(subjects)) #只有2
	token_ids = np.repeat(token_ids, len(subjects), 0) # [len_subjects, seqlen]
	# print(token_ids.shape)
	seg_ids = np.repeat(seg_ids, len(subjects), 0)
	subjects = np.array(subjects) # [len_subjects, 2]
	# 传入subject 抽取object和predicate
	_, object_preds = model(token_ids.to(device),
	seg_ids.to(device),
	torch.LongTensor(subjects).to(device))
	object_preds = object_preds.detach().cpu().numpy()
	# print(object_preds.shape)
	for sub, obj_pred in zip(subjects, object_preds):
	# obj_pred [maxlen, 55, 2]
	start = np.where(obj_pred[:, :, 0] > 0.3)
	end = np.where(obj_pred[:, :, 1] > 0.3)
	for _start, predicate1 in zip(*start):
	for _end, predicate2 in zip(*end):
	if _start <= _end and predicate1 == predicate2:
	spoes.append(
	((sub[0] - 1, sub[1] - 1), predicate1, (_start - 1, _end - 1))
	)
	break
	# print (spoes)
	return [(data[2][s[0]:s[1] + 1], id2predicate[str(p)], data[2][o[0]:o[1] + 1]) for s, p, o in spoes]
	else:
	return []


	def evaluate(valid_data, valid_load, model, device):
	"""评估函数，计算f1、precision、recall
	"""
	# F1 = []
	# P = []
	# Re = []
	X, Y, Z = 1e-10, 1e-10, 1e-10
	f = open("./data/CMED/dev_pred.json", 'w', encoding='utf-8')
	pbar = tqdm()
	# for d in data:
	# with torch.no_grad:
	# print (type(valid_load))
	# return
	for idx, data in tqdm(enumerate(valid_load)):

	input = data[0], data[1], data[2]['text'][0]
	# print(input)
	# input = data[0], data[1], valid_data[idx]['text'], valid_data[idx]['triple_list']
	R = extract_spoes(input, model, device)
	# print ('R:',R)
	T = valid_data[idx]['triple_list']
	'''
	tri = data[3]
	#tri = tuple(tri)
	T = []
	for tris in tri:
	temp = tuple()
	for i in tris:
	temp += i
	T.append(temp)
	'''
	# print ('tri:',tri)
	# print ('tri:',temp_tri)
	R = set(R)
	# print ('R',R)
	T = set(T)
	# print('T', R)
	X += len(R & T)
	Y += len(R)
	Z += len(T)
	f1, precision, recall = 2 * X / (Y + Z), X / Y, X / Z
	# F1.append(f1)
	# P.append(precision)
	# Re.append(recall)
	pbar.update()
	pbar.set_description(
	'F1: %.5f, \tPrecision: %.5f, \tRecall: %.5f' % (f1, precision, recall)
	)

	if f1 > 0.5:
	s = json.dumps({
	'text': valid_data[idx]['text'],
	'triple_list': list(T),
	'triple_list_pred': list(R),
	'new': list(R - T),
	'lack': list(T - R),
	}, ensure_ascii=False, indent=4)
	f.write(s + '\n')
	pbar.close()
	f.close()
	return f1, precision, recall


	'''
	def evaluate(data, model, device):
	"""评估函数，计算f1、precision、recall
	"""
	X, Y, Z = 1e-10, 1e-10, 1e-10
	f = open("/home/jason/EXP/NLP/triple_test/data/CMED/dev_pred.json", 'w', encoding='utf-8')
	pbar = tqdm()
	for d in data:
	R = extract_spoes(d['text'], model, device)

	T = d['triple_list']
	#print (T)
	R = set(R)
	#print ('R',R)
	T = set(T)

	#T = set()
	#for item in T1:
	# for i in item:
	# T.add(i)

	#print ('T',T)
	X += len(R & T)
	Y += len(R)
	Z += len(T)
	f1, precision, recall = 2 * X / (Y + Z), X / Y, X / Z
	pbar.update()
	pbar.set_description(
	'f1: %.5f, precision: %.5f, recall: %.5f' % (f1, precision, recall)
	)

	if f1 > 0.5:

	s = json.dumps({
	'text': d['text'],
	'triple_list': list(T),
	'triple_list_pred': list(R),
	'new': list(R - T),
	'lack': list(T - R),
	}, ensure_ascii=False, indent=4)
	f.write(s + '\n')
	pbar.close()
	f.close()
	return f1, precision, recall
	'''
	import sys
	import os
	class Logger(object):
	def __init__(self,fileN="default.log"):
	self.terminal = sys.stdout
	self.log = open(fileN,"a")
	def write(self,message):
	self.terminal.write(message)
	self.log.write(message)
	def flush(self):
	pass

	# def FocalLoss(input, target ,gamma=2,weight=None,reduction='mean'):
	# # def __init__(self,gamma=2,weight=None,reduction='mean'):
	# # super(FocalLoss, self).__init__()
	# # self.gamma = gamma
	# # self.weight = weight
	# # self.reduction = reduction
	# # def forward(self, output, target):
	# out_target = torch.stack([input[i,t] for i.type(torch.bool),t.type(torch.bool) in enumerate(target)])
	# probs = torch.sigmoid(out_target)
	# focal_weight = torch.pow(1-probs,gamma=2)
	#
	# ce_loss = F.cross_entropy(input,target,weight=None,reduction='none')
	# focal_loss = focal_weight*ce_loss
	#
	# if reduction == 'mean':
	# focal_loss = (focal_loss/focal_weight.sum()).sum()
	# elif reduction == 'sum':
	# focal_loss = focal_loss.sum()
	#
	# return focal_loss
	# class FocalLoss(nn.Module):
	#
	# def __init__(self, weight=None, reduction='mean', gamma=0, eps=1e-7):
	# super(FocalLoss, self).__init__()
	# self.gamma = gamma
	# self.eps = eps
	# self.ce = torch.nn.CrossEntropyLoss(weight=weight, reduction=reduction)
	#
	# def forward(self, input, target):
	# logp = self.ce(input, target)
	# print('logp',logp)
	# p = torch.exp(-logp)
	# loss = (1 - p) ** self.gamma * logp
	# return loss.mean()

	# def Dice_loss(inputs,target,beta=1,smooth=1e-5):
	# n,c,h = inputs.size()
	# nt,ht,wt = target.size()
	# if n!= nt and h!=wt:
	# inputs = F.interpolate(inputs,size=(ht,wt),mode="bilinear",align_corners=True)
	# temp_imputs = torch.softmax(inputs.transpose(1,2).transpose(2,3).contiguous().view(n,-1,c),-1)
	# temp_target = target.view(n,-1,ct)
	#
	# #......................
	# #ice loss
	# #......................
	# tp = torch.sum(temp_target[...,:-1]*temp_imputs,axis=[0,1])
	# fp = torch.sum(temp_imputs,axis=[0,1])-tp
	# fn = torch.sum(temp_target[...,:-1],axis=[0,1])-tp
	#
	# score = ((1+beta*2)tp+smooth)/((1+beta*2)tp+beta*2fn+fp+smooth)
	# dice_loss = 1-torch.mean(score)
	# return dice_loss


	# def dice_coeff(pred, target):
	# smooth = 1.
	# num = pred.size(0)
	# m1 = pred.view(num, -1) # Flatten
	# m2 = target.view(num, -1) # Flatten
	# intersection = (m1 * m2).sum()
	#
	# return (2. * intersection + smooth) / (m1.sum() + m2.sum() + smooth)


	# def train(model, train_loader, optimizer, epoches, device):
	# # model.train()
	# torch.backends.cudnn.enabled = False
	# for _ in range(epoches):
	# print('epoch: ', _ + 1)
	# start = time.time()
	# train_loss_sum = 0.0
	# for batch_idx, x in tqdm(enumerate(train_loader)):
	# # token_ids, seg_ids, sub_ids = x[0].to(device), x[1].to(device), x[2].to(device)
	# token_ids, seg_ids, sub_ids = x[0].to(device), x[1].to(device), x[2].to(device)
	# # tokens_words, masks_out, head = x[5].to(device), x[6].to(device), x[7].to(device)
	# # print (token_ids.shape)
	#
	# mask = (token_ids > 0).float()
	# mask = mask.to(device) # zero-mask
	# sub_labels, obj_labels = x[3].float().to(device), x[4].float().to(device)
	# sub_preds, obj_preds = model(token_ids, seg_ids, sub_ids)
	# # (batch_size, maxlen, 2), (batch_size, maxlen, 55, 2)
	#
	# #计算loss
	# smooth = 1
	# intersection = sub_labels * sub_preds
	# sub_dice_eff = (2 * intersection.sum(1) + smooth) / (sub_preds.sum(1) + sub_labels.sum(1) + smooth)
	# # print(sub_dice_eff)
	# smooth = 1
	# # intersection2 = obj_labels * obj_preds
	# # obj_dice_eff = (2 * intersection2.sum(1) + smooth) / (obj_preds.sum(1) + obj_labels.sum(1) + smooth)
	# # # print(obj_dice_eff)
	# # beta = 1
	# # smooth = 1e-5
	# # p = torch.sigmoid(sub_preds)
	# # tp = torch.sum(sub_labels[..., :-1] * p, axis=[0, 1])
	# # # print(tp)
	# # fp = torch.sum(p, axis=[0, 1]) - tp
	# # # print(fp)
	# # fn = torch.sum(sub_labels[..., :-1], axis=[0, 1]) - tp
	# # score = ((1 + beta ** 2) * tp + smooth) / ((1 + beta ** 2) * tp + beta ** 2 * fn + fp + smooth)
	# # sub_dice_loss = 1-torch.mean(score)
	# # # print(sub_dice_loss)
	# # ce_loss_sub = F.binary_cross_entropy(sub_preds, sub_labels, reduction='none') # [bs, ml, 2]
	# # p_t = psub_labels + (1-p)(1-sub_labels)
	# # gamma = 2
	# # loss_sub= ce_loss_sub((1-p_t)*gamma)
	#
	# q = torch.sigmoid(obj_preds)
	# # print(q)
	# tp = torch.sum(obj_labels[..., :-1] * q, axis=[0, 1])
	# # print(tp)
	# fp = torch.sum(q, axis=[0, 1]) - tp
	# # print(fp)
	# fn = torch.sum(obj_labels[..., :-1], axis=[0, 1]) - tp
	# score = ((1 + beta ** 2) * tp + smooth) / ((1 + beta ** 2) * tp + beta ** 2 * fn + fp + smooth)
	# obj_dice_loss = 1 - torch.mean(score)
	# # print(obj_dice_loss)

	# loss_sub = torch.mean(loss_sub, 2) # (batch_size, maxlen)
	# loss_sub = torch.sum(loss_sub * mask) / torch.sum(mask)
	# # print('loss_sub:',loss_sub)
	# q = torch.sigmoid(obj_preds)
	# ce_loss_obj = F.binary_cross_entropy(obj_preds, obj_labels, reduction='none') # [bs, ml, 55, 2]
	# q_t = q * obj_labels + (1 - q) * (1 - obj_labels)
	# gamma = 2
	# loss_obj = ce_loss_obj * ((1 - q_t) ** gamma)
	# loss_obj = torch.sum(torch.mean(loss_obj, 3), 2) # (bs, maxlen)
	# loss_obj = torch.sum(loss_obj * mask) / torch.sum(mask)
	# loss = loss_sub + loss_obj
	# loss_sub = dice_coeff(sub_preds, sub_labels)
	# loss_obj = dice_coeff(obj_preds, obj_labels)
	# loss = loss_sub+ loss_obj
	# # 计算loss
	# loss_sub = F.binary_cross_entropy(sub_preds, sub_labels, reduction='none') # [bs, ml, 2]
	# loss_sub = torch.mean(loss_sub, 2) # (batch_size, maxlen)
	# loss_sub = torch.sum(loss_sub * mask) / torch.sum(mask)
	# loss_obj = F.binary_cross_entropy(obj_preds, obj_labels, reduction='none') # [bs, ml, 55, 2]
	# loss_obj = torch.sum(torch.mean(loss_obj, 3), 2) # (bs, maxlen)
	# loss_obj = torch.sum(loss_obj * mask) / torch.sum(mask)
	# loss = loss_sub + loss_obj
	# optimizer.zero_grad()
	#
	# loss.backward()
	# optimizer.step()
	# train_loss_sum += loss.cpu().item()
	# if (batch_idx + 1) % 31 == 0:
	# print('loss: ', train_loss_sum / (batch_idx + 1), 'time: ', time.time() - start)
	#
	# torch.save(net.state_dict(), "./checkpoints/best_re.pth")
	#
	# with torch.no_grad():
	# # model.eval()
	# # print (valid_data[:5])
	# val_f1, pre, rec = evaluate(valid_data, valid_loader, net, device)
	#
	# print('F1_score: %.5f, Precision: %.5f, Recall: %.5f' % (val_f1, pre, rec))
	# # sys.stdout = Logger('./datalog.txt')
	# re = tuple((val_f1, pre, rec))
	# with open("./result_Dice_loss.json","a",encoding='utf-8') as f:
	# json.dump(re,f,indent=4,ensure_ascii=True)
	# # print("f1, pre, rec: ", val_f1, pre, rec)
	class FocalLoss(nn.Module):

	def __init__(self, alpha=1, gamma=2, size_average=True, ignore_index=255):
	super(FocalLoss, self).__init__()
	self.alpha = alpha
	self.gamma = gamma
	self.ignore_index = ignore_index
	self.size_average = size_average

	def forward(self, inputs, targets):
	ce_loss = F.class_entropy(inputs, targets, reduction='none',ignore_index=self.ignore_index)
	pt = torch.exp(-ce_loss)
	focal_loss = self.alpha * (1 - pt) ** self.gamma * ce_loss
	return focal_loss.sum()

	def train(model, train_loader, optimizer, epoches, device):
	# model.train()
	torch.backends.cudnn.enabled = False
	list = []
	for _ in range(epoches):
	# f = open("./test.txt", 'w+', encoding='utf-8')
	print('epoch: ', _ + 1)
	start = time.time()
	train_loss_sum = 0.0
	for batch_idx, x in tqdm(enumerate(train_loader)):
	# token_ids, seg_ids, sub_ids = x[0].to(device), x[1].to(device), x[2].to(device)
	token_ids, seg_ids, sub_ids = x[0].to(device), x[1].to(device), x[2].to(device)
	# tokens_words, masks_out, head = x[5].to(device), x[6].to(device), x[7].to(device)
	# print (token_ids.shape)

	mask = (token_ids > 0).float()
	mask = mask.to(device) # zero-mask
	sub_labels, obj_labels = x[3].float().to(device), x[4].float().to(device)
	sub_preds, obj_preds = model(token_ids, seg_ids, sub_ids)
	# (batch_size, maxlen, 2), (batch_size, maxlen, 55, 2)

	# 计算loss
	smooth = 1
	intersection2 = obj_labels * obj_preds
	obj_dice_eff = (2 * intersection2.sum(1) + smooth) / (obj_preds.sum(1) + obj_labels.sum(1) + smooth)
	# print(obj_dice_eff)
	beta = 1
	smooth = 1e-5
	p = torch.sigmoid(sub_preds)
	tp = torch.sum(sub_labels[..., :-1] * p, axis=[0, 1])
	# print(tp)
	fp = torch.sum(p, axis=[0, 1]) - tp
	# print(fp)
	fn = torch.sum(sub_labels[..., :-1], axis=[0, 1]) - tp
	score = ((1 + beta ** 2) * tp + smooth) / ((1 + beta ** 2) * tp + beta ** 2 * fn + fp + smooth)
	sub_dice_loss = 1-torch.mean(score)
	# print(sub_dice_loss)
	ce_loss_sub = F.binary_cross_entropy(sub_preds, sub_labels, reduction='none') # [bs, ml, 2]
	p_t = psub_labels + (1-p)(1-sub_labels)
	gamma = 2
	loss_sub= ce_loss_sub((1-p_t)*gamma)

	q = torch.sigmoid(obj_preds)
	# print(q)
	tp = torch.sum(obj_labels[..., :-1] * q, axis=[0, 1])
	# print(tp)
	fp = torch.sum(q, axis=[0, 1]) - tp
	# print(fp)
	fn = torch.sum(obj_labels[..., :-1], axis=[0, 1]) - tp
	score = ((1 + beta ** 2) * tp + smooth) / ((1 + beta ** 2) * tp + beta ** 2 * fn + fp + smooth)
	obj_dice_loss = 1 - torch.mean(score)
	# print(obj_dice_loss)
	loss_sub = torch.mean(loss_sub, 2) # (batch_size, maxlen)
	loss_sub = torch.sum(loss_sub * mask) / torch.sum(mask)
	# print('loss_sub:',loss_sub)
	q = torch.sigmoid(obj_preds)
	ce_loss_obj = F.binary_cross_entropy(obj_preds, obj_labels, reduction='none') # [bs, ml, 55, 2]
	q_t = q * obj_labels + (1 - q) * (1 - obj_labels)
	gamma = 2
	loss_obj = ce_loss_obj * ((1 - q_t) ** gamma)
	loss_obj = torch.sum(torch.mean(loss_obj, 3), 2) # (bs, maxlen)
	loss_obj = torch.sum(loss_obj * mask) / torch.sum(mask)

	# jiaochashang
	# loss_sub = F.binary_cross_entropy(sub_preds, sub_labels, reduction='none') # [bs, ml, 2]
	# loss_sub = torch.mean(loss_sub, 2) # (batch_size, maxlen)
	# loss_sub = torch.sum(loss_sub * mask) / torch.sum(mask)
	# loss_obj = F.binary_cross_entropy(obj_preds, obj_labels, reduction='none') # [bs, ml, 55, 2]
	# loss_obj = torch.sum(torch.mean(loss_obj, 3), 2) # (bs, maxlen)
	# loss_obj = torch.sum(loss_obj * mask) / torch.sum(mask)
	loss = loss_sub + loss_obj
	optimizer.zero_grad()

	loss.backward()

	optimizer.step()
	train_loss_sum += loss.cpu().item()

	if (batch_idx + 1) % 31 == 0:
	print('loss: ', train_loss_sum / (batch_idx + 1), 'time: ', time.time() - start)
	list.append(train_loss_sum / (batch_idx + 1))
	torch.save(net.state_dict(), "./checkpoints/best_re.pth")

	with torch.no_grad():
	# model.eval()
	# print (valid_data[:5])
	val_f1, pre, rec = evaluate(valid_data, valid_loader, net, device)
	print('F1_score: %.5f, Precision: %.5f, Recall: %.5f' % (val_f1, pre, rec))
	# print("f1, pre, rec: ", val_f1, pre, rec)
	print(list)

	# LOGGER = set_logging(name='test', level=logging.INFO, verbose=True)


	if __name__ == '__main__':
	# net.load_state_dict(torch.load("RE/data/bert_re.pth"))
	train(net, train_loader, optimizer, 600, DEVICE)