一周论文 | 关于远程监督,我们来推荐几篇值得读的论文

08-19 15:25 首页 机器之心

说起关系抽取,就不得不提远程监督(distant supervision),将已有的知识库(比如 freebase)对应到丰富的非结构化数据中(比如新闻文本),从而生成大量的训练数据,从而训练出一个效果不错的关系抽取器。提到远程监督,下面的这篇工作就不得不提:


[1] Distant supervision for relation extraction without labeled data 


本文并非第一篇提出远程监督概念的 paper,但是第一个将远程监督概念应用到关系抽取任务中,并且提出了一个著名的假设。 


If two entities have a relationship in a known knowledge base, then all sentences that mention these two entities will express that relationship in some way. 


这个假设非常的大,其实很多的共现 entities 都没有什么关系,仅仅是出现在同一个句子中;而有的 entities 之间的关系其实并不仅仅只有一种,可能有多种,比如奥巴马和美国的关系,可能是 born in,也可能是 is the president of 的关系。 


基于这个假设条件下的关系抽取工作通常都存在两个明显的弱点: 


1. 基于文献 [1] 给出的假设,训练集会产生大量的 wrong labels,比如两个实体有多种关系或者根本在这句话中没有任何关系,这样的训练数据会对关系抽取器产生影响。 


2. NLP 工具带来的误差,比如 NER,比如 Parsing 等,越多的 feature engineering 就会带来越多的误差,在整个任务的 pipeline 上会产生误差的传播和积累,从而影响后续关系抽取的精度。 


关于问题(1)中 wrong labels 的问题,有的工作将关系抽取定义为一个 Multi-instance Multi-label 学习问题,比如工作 Multi-instance Multi-label Learning for Relation Extraction ,训练集中的每个 instance 都可能是一种 label。


而有的工作则是将问题定义为 Multi-instance Single-label 问题,假设共现的 entity 对之间只存在一种关系或者没有关系,一组包括同一对 entities 的 instances 定义为一个 Bag,每一个 Bag 具有一个 label,最终训练的目标是优化 Bag Label 的准确率。第一种假设更加接近于实际情况,研究难度也相对更大一些。 


关于问题(2)中的 pipeline 问题,用深度学习的思路来替代特征工程是一个非常自然的想法,用 word embedding 来表示句子中的 entity 和 word,用 RNN 或者 CNN 以及各种 RNN 和 CNN 的变种模型来对句子进行建模,将训练句子表示成一个 sentence vector,然后进行关系分类,近几年有几个工作都是类似的思路,比如:


[3] Relation Classification via Convolutional Deep Neural Network 

[4] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks 

[5] Neural Relation Extraction with Selective Attention over Instances 

[6] Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions


其中 [3] 是用 CNN 对句子进行建模然后进行分类学习,在表示中针对 entity 的位置定义了一种 position embedding,如图 1:

▲ 图 1:用 CNN 来建模句子


[4] 是 [3] 的改进工作,对 CNN 的 pooling 进行了专门的改进,如图 2:


▲ 图 2:PCNN 是文献 [3] 中 CNN 的改进版


[5] 的工作是在 [4] 的基础上采用了 attention 模型,对每个 Bag 中的 instance 进行了权重的学习,label 正确的 instance 贡献更多的力量,label 不正确的 instance 贡献就低,从而提高了分类的准确率,如图 3:

▲ 图 3:基于 attention 的关系分类模型


[6] 是在 [4] [5] 的基础上添加了 entity 的描述信息来辅助学习 entity 的表示,从而提高了准确率,如图 4:

▲ 图 4:利用了 entity 的辅助信息来提升效果


用深度学习来进行解决特征表示的问题效果非常明显,但解决 pipeline 误差传播和积累的问题,其实有一个天然的思路就是 joint learning,将多个 step 的学习整合为同一个 task,从而降低中间过程的误差。近几年有以下几个工作可以关注一下:


[7] Modeling Joint Entity and Relation Extraction with Table Representation 

[8] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases 

[9] Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme


[7] 的工作和 [9] 的工作有一些类似的地方,都是将整个任务转化为一种序列标注任务,用自定义的标签重新定义了句子的实体和关系。[9] 的工作是 ACL 2017 的 outstanding paper,用了近几年流行的 seq2seq 来生成和推理标签,效果会比传统的 crf 等算法更好。

▲ 图 5:文献 [7] 的标注方法


▲ 图 6:文献 [9] 的标注方法


[8] 的工作是将 entity 和 relation 分别映射在两个向量空间中,然后联合起来对 entity 和 relaiton 进行推理。如图 7:


▲ 图 7:CoType 模型图


关系抽取是一类经典的 NLP 任务,也是构建高质量知识图谱的基础,针对关系抽取的研究工作非常多,远程监督是研究中的热点方法,本文收集了一些代表性的工作,即将上线的 PaperWeekly 社区将会推出一个【论文集】的功能,社区用户可以根据自己感兴趣的 topic,收集相关的 paper,我们也会不定期地放出更多精彩的 topic related 的 paper,每篇 paper 都会有用户的笔记、讨论、论文相关的数据集和开源代码, 敬请期待!


参考文献:


在 PaperWeekly 微信公众号后台回复 “远程监督”,即可一键下载所有论文。


[1] Distant supervision for relation extraction without labeled data 

[2] Multi-instance Multi-label Learning for Relation Extraction 

[3] Relation Classification via Convolutional Deep Neural Network 

[4] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks 

[5] Neural Relation Extraction with Selective Attention over Instances 

[6] Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions 

[7] Modeling Joint Entity and Relation Extraction with Table Representation 

[8] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases 

[9] Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme


???


PaperWeekly 希望能让更多优质内容以更短路径到达读者群体,缩短读者寻找资源的成本,让知识真正流动起来。


如果你也想分享你的最新科研成果、学习心得亦或技术干货,欢迎在 PaperWeekly 微信公众号后台点击 “投稿通道” 菜单进行投稿。


关于 PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


首页 - 机器之心 的更多文章: