论文浅尝｜《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》

本文主要是介绍论文浅尝｜《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

导读

这是一篇来自斯坦福大学计算机系的论文，发表于2011年，题目是《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》，聚焦于通过提取科学论文的关键点来分析研究动态。

选题背景

我们可以根据研究社区发表的科技论文看出其研究动态、领域间的技术传播、某一话题的研究焦点向研究工具的转变等。为了找寻领域内技术驱动和领域驱动之间的平衡点，我们需要更加细粒度的分析手段。

基于此，本文提出了需要从科技论文中抽取的三个关键点：

焦点（FOCUS）：文章的主要贡献
技术（TECHNIQUE）：文章中使用的方法或工具
领域（DOMAIN）：文章的应用领域

⚠️注意： 原文的“community”和“domain”的区分。“community”指较宽的领域，如计算机科学、统计学等；“domain”则是较为细化的，如中文分词、命名实体识别等。

数据与实验

数据集

ACL Anthology数据集，以计算语言学领域为例，使用其中从1965年到2009年的15016篇论文的标题和摘要。

方法

匹配句子依赖树中的语义模式进行概念的抽取，并使用自举方法（bootstrapping）学习更多模式。
之所以不使用词袋式的方法，如主题模型，是因为仅能识别主题或领域，但不能标记其中不同的交叉部分。

实验一：短语抽取-模式匹配和学习

（1）模式匹配

对象： 论文题目和摘要
方法： 使用斯坦福解析器（Stanford Parser）生成句子的依赖树。句法树示例
数据准备：

为了进行测试，在三个类别手工标记了474篇摘要。
设计种子模式：焦点13个，技术7个，领域15个。
对于子领域，对于论文全文使用LDA算法并手动标注，共计100个主题，并使用了其中的72个主题。
模式示例：

针对题目的句法依赖分析的特例：
若无法提取，则全部标注为“焦点”。
若可以提取“技术”，则将剩余部分标注为“领域”。

（2）基于短语的学习模式

从已经提取的关键词回溯其父树，统计各模式出现的频率，取每一个类别的前k个(k=2)模式作为补充。
此学习模式仅适用于技术和领域两个方面，在学习中对这两个类别进行50次迭代，并停用其中的常见短语。
在这里插入图片描述

实验二：计算领域影响力

从论文a中抽取的短语p，对于领域c在技术t方面的影响的分数为：
在这里插入图片描述
计算领域c1对领域c2在技术t方面的影响（ya表示论文发表的年份，D是所有论文的集合），其中C(a2,a1)是基于假设的加权函数。如果a2引用了a1，那么其值为1；否则值为λ（本研究取值为0.5）：

领域c1对c2在某一年的影响，将所有文章中的所有词语得分求和：
在这里插入图片描述
领域c1对领域c2以及其他所有领域的影响力的计算公式如下：

结果

1. 提取结果

包含从子树提取的全部短语：焦点-64041个、技术-38220个、领域-46771个。

2. 不同抽取方法的F1、Recall、Precision
在这里插入图片描述
（1）种子模式；（2）种子模式+学习模式；（3）基线方法（基于词频的tf-idf）；（4）注释者间的一致性。

3. 领域影响力和受欢迎程度随时间的变化
领域影响力不同于一个领域在特定年份的受欢迎程度
在这里插入图片描述

4. 影响力最高的领域以及相应的技术短语以及得分

5. 第一列中的领域受到第二列中的领域的影响最大

贡献

提出了科学论文关键点的新分类，即焦点、技术、领域三分类。
通过将语义模式与句子依赖树匹配的方法来提取论文关键点，并使用bootstrapping学习模式。
提出了一项研究领域相互影响的指标，即一个研究领域的关键方面作为技术被其他研究领域所采纳。
使用从计算语言学领域论文中提取的三个关键点进行案例研究，既验证了系统的结果，也展示计算语言学子领域的研究动向和总体影响的新结果。
引入了标注有三个类别的论文摘要数据集。

这篇关于论文浅尝｜《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

C/C++教程

论文浅尝｜《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》

导读

选题背景

数据与实验

数据集

方法

实验一：短语抽取-模式匹配和学习

（1）模式匹配

（2）基于短语的学习模式

实验二：计算领域影响力

结果

贡献

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯

论文浅尝｜《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》

导读

选题背景

数据与实验

数据集

方法

实验一：短语抽取-模式匹配和学习

（1） 模式匹配

（2） 基于短语的学习模式

实验二：计算领域影响力

结果

贡献

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯

（1）模式匹配

（2）基于短语的学习模式