1、读取txt文件时(refnms代码里面的voc单词txt),是一行一个单词,所以用以下方法读取的时候,读到的单词中会包含"\n"即换行符:
token_path = '/home/wj/code/ref_nms/cache/std_vocab_{}.txt'.format(dataset_splitby) noun_tokens = open(token_path) # 用下面两种方式逐行读取token for token in noun_tokens: # 或者: for token in noun_tokens.readlines():
加入下面代码加入,去除换行符:
for token in noun_tokens: #for token in noun_tokens.readlines(): token=token.strip('\n') # 去除换行符