本节包括:
项目背景介绍
兴趣点图谱建设
• 节点挖掘
• 关系挖掘
兴趣点图谱应用
项目背景-推荐基本范式
项目背景-推荐不准
搜索使用:词粒度进行召回,但是排序阶段,能够利用完整query排序,因此搜索可以使用basic粒度分词做召回。
eg: 王宝强马蓉离婚,会把同时包含‘王宝强’、‘马蓉’和‘离婚’的文章排在前面
推荐使用:词粒度进行召回,但是排序阶段,用户模型把文章中词关系丢失,分别作为兴趣点累计,因此推荐使用词粒度是不合理的。
eg:王宝强马蓉离婚,会分别累计‘王宝强’和‘马蓉’两个兴趣点。
项目背景-信息茧房
项目背景-内容理解相关研究
个性化推荐要求
• 推荐系统需要积累用户模型,因此需要保留文章上下文,语义粒度要完整
• 除了抽取原文出现的兴趣点外,需要了解用户背后的消费动机,因此需要有推理能力
兴趣点图谱
Part1 兴趣点图谱建设
兴趣点挖掘
改进:
1)有监督方式:将基于对齐、pattern挖掘到的兴趣点作为训练样本,通过有监督方式提升效果
2)统一框架挖掘兴趣点:提出了一个GCTSP-Net框架来统一挖掘概念、事件、话题多种类型兴趣点
关系挖掘-上下位关系挖掘
分类-概念
方法:根据共现次数计算
概念-实体
方法:根据共现次数计算
缺点:准确率低,文章中会有大量的对比性实体,会引入噪音
改进:
1)监督学习的方式,提升准确率
2)自动化样本标注:利用用户的同session行为准备正样本,借鉴word2vec的思路,随机生成负样本
事件-话题
方法:Common Pattern Discovery (CPD)
事件1: “周杰伦|开|演唱会 ”
事件2: “泰勒斯威夫特|开|演唱会 ”
话题 => “歌手|开|演唱会 ”
关系挖掘-关联关系挖掘
方法:利用实体共现计算实体之间关联关系,篇章级共现和搜索级共现
缺点:
1)未共现的实体PAIR认为是无关联
2)共现次数少,通过共现计算关联度偏差大
改进:
1)实体向量化,可以计算任意实体PAR关联度
2)有监督训练提升效果,样本准备:高共现数据作为正样本, 随机负采样,控制正负样本比例
Part2 兴趣点图谱应用
内容理解
召回1:关系召回(包含上下位关系) 雷凌->省油家用车
召回2:语义召回 (缺失上下位关系)
句子级隐式语义召回
耗油5升->省油家用车
词语级显式语义召回 召回的候选太多,计算超时
匹配1:双塔 VS MatchPyramid
内容理解