自然语言处理 Paddle NLP - 信息抽取技术及应用

本文主要是介绍自然语言处理 Paddle NLP - 信息抽取技术及应用，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

1.什么是信息抽取

即自动从无结构或半结构的文本中抽取出结构化信息的任务(病历抽取)

2.实体抽取
3.关系抽取
4.事件抽取

信息抽取和知识图谱是一个上下游的关系。抽取的结果，可以组装成知识图谱（一种存储知识的结构）

医疗、金融、法律，三大行业用得比较多

从问诊中抽取信息

贷款审核，大量的纸质、DPF文件，需要将里面的信息进行匹配审核

根据抽取结果在不在原文中对信息抽取分类
这次我们只关注抽取式，不在原文中的情况需要参考生成方法

抽取式分类

信息抽取的通用评测指标，所有的信息抽取都可以用它评
Precision：抽取出来的结果，抽出来10个，5个对的，就是 50%
Recall：关注模型漏了哪些东西，指标0~1，数值越高，模型越好
F1：Precision和Recall的综合平均，是两个的综合反映

抽取模型的关键要素：解码设计

从一段文本中抽取出文本内容，并识别为预定义的类别

一般是 BIO 解码方式 + CRF 模型结构

复杂的实体抽取，无法用 BIO 直接解决（用到关系抽取）
复杂实体抽取中的问题1：重叠嵌套

复杂实体抽取中的问题2：不连续

从文本中抽取出一对实体和预定义的关系类型，得到包含语义信息的实体关系三元组关系是有方向的，抽取的两个实体一般称作头实体（HeadEntity）和尾实体（TailEntity）

关系分类是关系抽取的第二步

解码设计
训练集需要人工标注或其它标注
简单关系抽取

复杂关系抽取，将 CRF 升级成 Sigmoid，判断大于 0.5 是一个类别，小于则不是

实体对组合

效果最好的模型，可以预测很多个类别

SPO 主谓宾

从一段文本中抽取出预定义的事件触发词和事件要素，组合为相应的结构化信息除了事件，实际应用中信息抽取的结果可能更加复杂，但都可以拆成关系抽取

这篇关于自然语言处理 Paddle NLP - 信息抽取技术及应用的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Java教程