计算机信息工程学院学术报告(20170516)
报告一:2017年5月16日上午 8:00-10:00
地点:计算机信息工程学院三楼物联网实验室
报告人:张奇副教授(复旦大学)
报告题目:深度学习中无标记和弱标记数据应用
个人简介:
张奇,复旦大学计算机科学技术学院,副教授,博士生导师, 主要研究领域为自然语言处理与信息检索。在ACM Transactions、IJCAI、AAAI、SIGIR、ACL、EMNLP等自然语言处理和信息检索领域著名学术期刊和会议上发表论文40余篇。承担10余项国家自然科学基金、国家863计划、国家科技支撑计划和国际合作项目。担任中国中文信息学会青年工作委员会执行委员、WSDM 2015 Local Chair。长期担任包括SIGIR、IJCAI、ACL、EMNLP、TKDE等自然语言处理和人工智能领域重要国际刊物和会议的审稿人。2016年获得了钱伟长中文信息处理科学技术奖——汉王青年创新奖。
报告简介:
近年来深度学习相关方法在自然语言处理领域应用越来越广泛,在很多任务上取得了很好的效果。但是深度学习方法通常需要大量的有标注数据集合进行训练。然而无标记数据和弱标记数据却相对容易获得。因此,如何在深度学习算法中利用无标记数据和弱标记数据受到了越来越多的关注。在本次报告中,我们将介绍利用无标记和弱标记数据的深度学习算法,以及在自然语言处理中相关应用。
报告二:2017年5月16日上午 8:00-10:00
地点:计算机信息工程学院二楼会议室
报告人:苏劲松副教授(厦门大学)
报告题目:从序列到拓扑结构:融入非序列结构编码器的神经网络机器翻译
个人简介:
苏劲松,副教授副教授。2011年毕业于中国科学院计算技术研究所,获得工学博士学位。主要研究方向是自然语言处理,机器翻译。目前承担国家自然科学面上基金、福建省自然科学基金等项目,已发表CCF推荐列表论文20余篇,其中多篇发表于IJCAI,AAAI,ACL,EMNLP,COLING等人工智能、自然语言处理权威会议。
报告简介:
近年来,基于注意机制的序列到序列神经网络机器翻译模型成为了学术界和产业界关注的热点。但是,该模型框架在参数学习,上下文建模等方面存在缺陷。本报告首先介绍传统的基于注意机制的序列到序列神经网络机器翻译模型,并对其存在的缺陷进行分析;随后介绍两种融入非序列结构编码器的神经网络机器翻译模型:词图到序列的神经网络机器翻译模型,层次到序列的神经网络机器翻译模型。两种模型基于不同拓扑结构来进行编码器语义建模,较好地解决现有模型框架存在的缺陷。大规模实验结果和分析证明这两种模型的有效性。
报告三:2017年5月16日上午 10:00-12:00
地点:计算机信息工程学院三楼物联网实验室
报告人:毛先领博士(北京理工大学)
报告题目:Similarity-preserved Hashing Schemas for Probability Distributions
个人简介:
毛先领,男,北京理工大学讲师,2013年于北京大学获理学博士学位,ACM TIST 和EMNLP等国际期刊会议评审人。已在AAAI,IJCAI, TKDE, CIKM, EMNLP, COLING等国际期刊会议上发表10余篇论文。主要研究机器学习与网络数据挖掘,具体研究Topic Modeling和Learn to Hashing等。目前承担和参与国家自然科学基金、863、自科基金重点等项目。曾在新加坡国立大学访问研究一年。
报告简介:
To compare the similarity of probability distributions, the information-theoretically motivated metrics like Kullback-Leibler divergence (KL) and Jensen-Shannon divergence (JSD) are often more reasonable compared with metrics for vectors like Euclidean and angular distance. However, existing similarity-preserved hashing algorithms cannot support the information-theoretically motivated metrics for probability distributions. In this talk, we will introduce several novel hashing schemes for approximate nearest neighbors search in high-dimensional probability distributions. Furthermore, extensive empirical evaluations well illustrate the effectiveness of the proposed hashing schemas on six public image datasets and two text datasets, in terms of mean Average Precision, Precision@N and Precision-Recall curve.
报告四:2017年5月16日上午 10:00-12:00
地点:计算机信息工程学院二楼会议室
报告人:陈竹敏副教授(厦门大学)
报告题目:多文档自动摘要技术
个人简介:
陈竹敏,山东大学,博士,副教授,硕士生导师。信息检索专委会委员,医疗健康与生物信息处理专委会委员,社会媒体处理专委会委员,中文信息学会青年工作委员会委员。目前主要从事信息检索、大数据处理、健康计算等方面的研究。承担国家自然科学基金、山东省自然科学基金等项目8项,在SIGIR, WWW, CIKM, COLING, WSDM等国际会议,及TOIS, JASIST, IRJ, JCST等国际期刊上发表论文50余篇。
报告简介:
文档自动摘要是一个重要的研究课题,其目标是对同一主题的多个文档自动产生一个简明扼要、覆盖主要观点的摘要。文档自动摘要属于自然语言处理、机器学习和数据挖掘的交叉范畴,是解决信息超载的有效手段之一。本报告将介绍我们近期在抽取式多文档自动摘要方面的研究工作。目前大多数摘要方法把句子评分和句子选择作为两个独立的过程,存在一定的局限性。因此第一个工作将介绍一种将句子的重要性和冗余性同时建模的方法,通过直接计算当前句子与已经选择的句子集合的相对重要性来实现自动文摘。当前深度学习在自然语言处理方面的应用成为研究热点,因此第二个工作将介绍一种基于上下文关系进行自动摘要的神经网络模型。该模型利用两层的注意力神经网络,即词语级的卷积神经网络和句子级的循环神经网络,来实现自动文摘。