这是一篇来自斯坦福大学计算机系的论文,发表于2011年,题目是《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》,聚焦于通过提取科学论文的关键点来分析研究动态。
我们可以根据研究社区发表的科技论文看出其研究动态、领域间的技术传播、某一话题的研究焦点向研究工具的转变等。为了找寻领域内技术驱动和领域驱动之间的平衡点,我们需要更加细粒度的分析手段。
基于此,本文提出了需要从科技论文中抽取的三个关键点:
⚠️注意: 原文的“community”和“domain”的区分。“community”指较宽的领域,如计算机科学、统计学等;“domain”则是较为细化的,如中文分词、命名实体识别等。
ACL Anthology数据集,以计算语言学领域为例,使用其中从1965年到2009年的15016篇论文的标题和摘要。
匹配句子依赖树中的语义模式进行概念的抽取,并使用自举方法(bootstrapping)学习更多模式。
之所以不使用词袋式的方法,如主题模型,是因为仅能识别主题或领域,但不能标记其中不同的交叉部分。
对象: 论文题目和摘要
方法: 使用斯坦福解析器(Stanford Parser)生成句子的依赖树。
数据准备:
从已经提取的关键词回溯其父树,统计各模式出现的频率,取每一个类别的前k个(k=2)模式作为补充。
此学习模式仅适用于技术和领域两个方面,在学习中对这两个类别进行50次迭代,并停用其中的常见短语。
从论文a中抽取的短语p,对于领域c在技术t方面的影响的分数为:
计算领域c1对领域c2在技术t方面的影响(ya表示论文发表的年份,D是所有论文的集合),其中C(a2,a1)是基于假设的加权函数。如果a2引用了a1,那么其值为1;否则值为λ(本研究取值为0.5):
领域c1对c2在某一年的影响,将所有文章中的所有词语得分求和:
领域c1对领域c2以及其他所有领域的影响力的计算公式如下:
1. 提取结果
包含从子树提取的全部短语:焦点-64041个、技术-38220个、领域-46771个。
2. 不同抽取方法的F1、Recall、Precision
(1) 种子模式;(2) 种子模式+学习模式;(3) 基线方法(基于词频的tf-idf);(4) 注释者间的一致性。
3. 领域影响力和受欢迎程度随时间的变化
领域影响力不同于一个领域在特定年份的受欢迎程度
4. 影响力最高的领域以及相应的技术短语以及得分
5. 第一列中的领域受到第二列中的领域的影响最大