学界 | 自然语言处理领域的前沿技术:EMNLP 2017最佳论文公布

08-19 15:25 首页 机器之心

机器之心报道

参与:路雪、蒋思源


EMNLP 是自然语言处理领域的顶级会议,EMNLP 2017 将于 9 月 7 日至 11 日在丹麦哥本哈根召开。本次 EMNLP 共录用 323 篇论文,包括 216 篇长论文和 107 篇短论文。今日,EMNLP 2017 最佳论文出炉,在这篇文章中我们对获奖论文进行了摘要介绍。


8 月 16 日,由中国中文信息学会青年工作委员会主办,搜狗搜索承办的「自然语言处理前沿技术研讨会暨 EMNLP 2017 论文报告会」在中科院软件所举行。报告会邀请了国内部分被录用论文的作者报告其研究成果,探讨自然语言处理领域的前沿技术。


18 位来自中科院、清华、北大、哈工大等科研机构和高校的研究人员、老师、同学分享和展示了他们的论文(论文列表附在文后)。整场报告会分为四个部分:文本摘要及情感分析、机器翻译、信息抽取及自动问答、文本分析及表示学习。演讲者和台下观众进行了很好的互动,共同探讨自然语言处理领域的新技术。



现场论文展示


除了国内展示的这些精彩论文,EMNLP 2017 也于今日公布了最佳论文,包括最佳长论文、最佳短论文和最佳资源论文三个奖项。机器之心对获奖论文进行了编译介绍。


最佳长论文:


  • 论文: Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints

  • 作者:Jieyu Zhao、Tianlu Wang、Mark Yatskar、Vicente Ordonez 和 Kai-Wei Chang

  • 地址:https://arxiv.org/abs/1707.09457 


  • 论文:Depression and Self-Harm Risk Assessment in Online Forums

  • 作者:Andrew Yates, Arman Cohan 和 Nazli Goharian. 


最佳短论文:


  • 论文:Natural Language Does Not Emerge ‘Naturally’ in Multi-Agent Dialog

  • 作者:Satwik Kottur, José Moura, Stefan Lee 和 Dhruv Batra

  • 地址:https://arxiv.org/abs/1706.08502 


最佳资源论文:


  • 论文:Bringing Structure into Summaries: Crowdsourcing a Benchmark Corpus of Concept Maps

  • 作者:Tobias Falke 和 Iryna Gurevych. 

  • 地址:https://arxiv.org/abs/1704.04452 


最佳长论文:Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints


摘要:支持从网上收集图像的自然语言越来越多地用于定义丰富的视觉识别问题。这些任务使用结构化预测模型以利用视觉输入和同现标签的关联性,但是这种关联性经常编码了网站语料库中的社会偏见。在本论文中,我们研究了与多标签目标分类和视觉语义角色标注(visual semantic role labeling)相关联的数据和模型。我们发现(a)这些任务的数据集包含严重的性别偏见,(b)在这些数据集上训练的模型放大了这些偏见。例如,在训练集中,做饭涉及到女性的概率要比男性高33%,而训练后的模型在测试集上将这一概率放大到了68%。我们建议可以注入用于校准现有结构化预测模型的语料库级约束,并基于拉格朗日松弛设计一种算法以进行群体推断。我们的方法几乎在识别任务上没有性能损失,但是降低了偏见放大的数量级,在多标签分类和视觉语义角色标注任务上分别降低了47.5%和40.5%。


最佳短论文:Natural Language Does Not Emerge ‘Naturally’ in Multi-Agent Dialog


摘要:近期大量研究提出适用于合作多智能体群(cooperative multi-agent population)通信协议的端到端学习技术,同时还发现智能体开发的协议中出现基础的人类可翻译的语言,这种语言是在无人类监督的情况下学得的!


在本论文中,我们将 Task & Talk reference 游戏作为对两个智能体进行测试的平台,展示了一串「负」结果最终生成了一个「正」结果,这证明尽管智能体创造的大部分语言是有效的(即可获取近乎完美的任务奖励),但这些语言显然不可翻译或合成。本质上,我们发现自然语言不是「自然」出现的,尽管人们可能从近期文献中获取自然语言的出现很容易的假象。我们讨论的是如何使创造出的语言随着两个智能体更多的交流限制而变得越来越像自然语言。


最佳资源论文:Bringing Structure into Summaries: Crowdsourcing a Benchmark Corpus of Concept Maps


摘要:概念图(concept map)可用于准确呈现重要信息和理清大型文档集的结构。因此,我们研究了一种多文档摘要的方法,它以概念图的形式生成摘要。但是,目前仍缺乏适用于该任务的评估数据集。为了填补这个鸿沟,我们展示了一个新建的概念图语料库,它概述了教育主题的异质网页文档集。该语料库使用新型的众包方法创建,该方法帮助我们高效确定大型文档集中的重要元素。除语料库外,我们还发布了一个基线系统,并提出一项评估协议,以促进该领域的进一步研究。


自然语言处理前沿技术研讨会暨EMNLP 2017论文报告会展示论文列表:


  • 论文:Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video

  • 作者: Haoran Li, Junnan Zhu, Cong Ma, Jiajun Zhang and Chengqing Zong


  • 论文:Affinity-Preserving Random Walk for Multi-Document Summarization

  • 作者: Kexiang Wang, Tianyu Liu, Zhifang Sui and Baobao Chang


  • 论文:A Question Answering Approach for Emotion Cause Extraction

  • 作者: Lin Gui, Jiannan Hu, Yulan He, Ruifeng Xu, Lu Qin and Jiachen Du


  • 论文:Towards a Universal Sentiment Classifier in Multiple languages

  • 作者: Kui Xu and Xiaojun Wan


  • 论文:Sentiment Lexicon Construction with Representation Learning Based on Hierarchical Sentiment Supervision

  • 作者: Leyi Wang and Rui Xia


  • 论文:Translating Phrases in Neural Machine Translation

  • 作者: Xing Wang, Zhaopeng Tu, Deyi Xiong and Min Zhang


  • 论文:Neural Machine Translation with Word Predictions

  • 作者: Rongxiang Weng, Shujian Huang, Zaixiang Zheng, XIN-YU DAI and Jiajun CHEN


  • 论文:Towards Bidirectional Hierarchical Representations for Attention-based Neural Machine Translation

  • 作者: Baosong Yang, Derek F. Wong, Tong Xiao, Lidia S. Chao and Jingbo Zhu


  • 论文:EarthMovers Distance Minimization for Unsupervised Bilingual Lexicon Induction

  • 作者:Meng Zhang, Yang Liu, Huanbo Luan and Maosong Sun


  • 论文:Incorporating Relation Paths in Neural Relation Extraction

  • 作者: Wenyuan Zeng, Yankai Lin, Zhiyuan Liu and Maosong Sun


  • 论文:End-to-End Neural Relation Extraction with Global Optimization

  • 作者: Meishan Zhang, Yue Zhang and Guohong Fu


  • 论文:Reasoning with Heterogeneous Knowledge for Commonsense Machine Comprehension

  • 作者:Hongyu Lin, Le Sun and Xianpei Han


  • 论文:Learning to Predict Charges for Criminal Cases with Legal Basis

  • 作者: Bingfeng Luo, Yansong Feng, Jianbo Xu, Xiang Zhang and Dongyan Zhao


  • 论文:Neural Response Generation via GAN with an Approximate Embedding Layer

  • 作者: Zhen Xu, Bingquan Liu, Baoxun Wang, Chengjie SUN, Xiaolong Wang, Zhuoran Wang and Chao Qi


  • 论文:Part-of-Speech Tagging for Twitter with Adversarial Neural Networks

  • 作者:Tao Gui, Qi Zhang, Haoran Huang, Minlong Peng and Xuanjing Huang


  • 论文:Chinese Zero Pronoun Resolution with Deep Memory Network

  • 作者:Qingyu Yin, Yu Zhang, Weinan Zhang and Ting Liu


  • 论文:Ngram2vec: Learning Improved Word Representations from Ngram Co-occurrence Statistics

  • 作者:Zhe Zhao, Tao Liu, Shen Li, Bofang Li and Xiaoyong Du


  • 论文:Idiom-Aware Compositional Distributed Semantics

  • 作者:Pengfei Liu, Kaiyu Qian, Xipeng Qiu and Xuanjing Huang 




本文为机器之心编译,转载请联系本公众号获得授权

?------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com


首页 - 机器之心 的更多文章: