讲习班简介

随着大数据、深度学习和计算能力的快速发展,特别是近年来的预训练模型技术突破,自然语言处理性能取得了令人瞩目的成绩,前沿热点层出不穷,受到学术界和产业界的广泛关注。为进一步普及最新前沿动态,推动国内技术发展,发展基础理论与应用,定于2021年7月22日至25日在京举办第十六届中国中文信息学会暑期学校暨《前沿技术讲习班》(CIPS ATT)。暑期学校/讲习班以预训练模型为主题,邀请了来自国内外研究第一线的知名青年专家学者系统讲述基础理论和方法及其在各大任务上的应用的前沿动态,为感兴趣的学者、学生和工程师提供系统学习和交流的机会,快速了解这些前沿方向的基本概念、研究内容和发展趋势。


日程安排

CIPS ATT 23

7月22日

08:30-09:00

讲习班开幕

09:00-12:00

车万翔:自然语言处理:基于预训练模型的方法(1)

14:00-17:00

崔一鸣:自然语言处理:基于预训练模型的方法(2)

7月23日

09:00-10:30

董力:跨语言预训练模型

10:30-12:00

孙宇:跨模态预训练模型

14:00-15:30

刘知远:融入知识的预训练模型

15:30-17:00

杨植麟:面向生成的预训练模型

CIPS ATT 24

7月24日

09:00-10:30

邱锡鹏:预训练模型在NLP基础任务中的应用

10:30-12:00

赵海:预训练模型在机器阅读理解任务中的应用

14:00-15:30

李磊、王明轩:机器翻译的预训练方法

15:30-17:00

黄民烈:预训练模型在对话系统中的应用

7月25日

09:00-10:30

赵鑫、陈旭:预训练模型在推荐系统中的应用

10:30-12:00

郭嘉丰、范意兴:预训练模型在信息检索中的应用

14:00-15:30

兰艳艳:学术论文写作的一些体会

15:30-17:00

刘康、韩先培:Research:the Good, the Bad and the Ugly

17:00-18:00

学术研究主题论坛



特邀讲者

报告题目:预训练语言模型:理论、方法与应用

报告人:车万翔 崔一鸣

报告摘要:

以GPT、BERT为代表的预训练模型的出现,打开了自然语言处理的新篇章。“预训练+精调”也已经成为自然语言处理的新范式。本次报告在介绍自然语言处理、深度学习等基本概念的基础上,重点介绍基于预训练模型的自然语言处理技术。本次报告包括基础知识、预训练词向量和预训练模型三大部分。基础知识部分介绍自然语言处理和深度学习的基础知识和基本工具;预训练词向量部分介绍静态词向量和动态词向量的预训练方法及应用方法;预训练模型部分首先介绍几种典型的预训练语言模型及应用,以及预训练模型的最新进展。本次报告除了介绍理论知识之外,还将结合具体代码进行深入介绍,对理论有更深刻的理解,达到理论和实践的统一。


个人介绍:

车万翔博士,哈尔滨工业大学计算机学院长聘教授、博士生导师,社会计算与信息检索研究中心副主任。教育部青年长江学者,黑龙江省“龙江学者”青年学者,斯坦福大学访问学者,2019年入选黑龙江省首批“头雁计划”团队成员。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;中国计算机学会高级会员、曾任YOCSEF哈尔滨主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文50余篇,其中AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引用4,400余次(Google Scholar数据),H-index值为37。出版教材 2 部,译著 2 部。目前承担2030“新一代人工智能”重大项目课题、国家自然科学基金等多项科研项目。负责研发的语言技术平台(LTP)已被600余家单位共享,提供的在线“语言云”服务已有用户1万余人,并授权给百度、腾讯、华为等公司使用。2018、2019连续两年获CoNLL国际评测第1名。2020年获黑龙江省青年科技奖;2015、2016连续两年获Google Focused Research Award(谷歌专注研究奖);2016年,获黑龙江省科技进步一等奖(排名第2);2012年,获黑龙江省技术发明奖二等奖(排名第2);2010年获中国中文信息学会“钱伟长”中文信息处理科学技术奖一等奖(排名第2)、首届汉王青年创新奖(个人)等多项奖励。2017年,所主讲的MOOC课程《高级语言程序设计(Python)》获国家精品在线开放课程。

崔一鸣,科大讯飞北京研究院副院长、资深级主管研究员。毕业于哈尔滨工业大学,获工学学士和硕士学位,并继续攻读博士学位。主要从事阅读理解、问答系统、预训练模型等自然语言处理相关领域的研究工作,并致力于推动中文机器阅读理解、中文预训练模型的研究与发展。相关研究成果在多个机器翻译、机器阅读理解、自然语言理解评测中获得冠军,相关开源项目已在GitHub获得8000以上Stars。在高水平国际会议上发表论文30余篇,其中包括ACL、EMNLP、NAACL、AAAI、COLING等。担任EMNLP 2021和NLPCC 2021领域主席,担任NLP和AI主流国际会议以及TNNLS、TKDD、JCSL、TASLP等国际ESI期刊审稿人。


报告题目:跨语言预训练模型

报告人:董力

报告摘要:

语言模型预训练极大推动了多语言研究,使高资源语言的标注数据可以帮助提升低资源语言,减小了模型国际化的代价。本次报告介绍跨语言预训练的最新研究进展与趋势,对当前跨语言预训练方法、微调技术进行梳理。同时,本报告介绍了跨语言文本理解与生成的常用评测方式。此外,对当前跨语言预训练研究面临的挑战进行了探讨。


个人介绍:

董力,微软亚洲研究院自然语言处理组研究员。博士毕业于爱丁堡大学。现主要从事大规模语言模型预训练,研究方向为自然语言表示学习。参与研发了UniLM(统一理解、生成预训练)、InfoXLM(跨语言预训练)、XNLG(跨语言生成预训练)、DeltaLM(跨语言生成预训练)、MiniLM(预训练模型压缩)、AdaLM(预训练模型领域适应)等一系列模型。曾获得AAAI-2021 Best Paper Runner Up、2019 AAAI/ACM SIGAI Doctoral Dissertation Award Runner Up、ACL-2018 Best Paper Honourable Mention。多次担任ACL、EMNLP、NAACL等会议领域主席。


报告题目:跨模态预训练模型

报告人:孙宇

报告摘要:

随着大规模自监督技术在NLP各个任务上取得了显著的效果提升,以视觉-语言为主的跨模态预训练(Vision-language cross-modal Pre-training)也受到了越来越多的关注,大幅提升了诸如视觉问答、跨模态检索等跨模态任务的效果。当前,跨模态预训练技术主要通过对NLP预训练技术进行跨模态的扩展,构建在多模态上下文基础上的单模态预测(视觉区域预测、语言模型等)、跨模态语义对齐等预训练任务,在大规模跨模态对齐数据上学习跨模态的联合语义表示。融合跨模态知识、跨模态对抗训练、多个模态统一建模等是跨模态预训练的新思路。本报告针对语言-视觉、语言-语音跨模态预训练,介绍该领域最新的进展和趋势。


个人介绍:

孙宇,百度杰出架构师、百度文心(ERNIE)语义理解技术与平台负责人。主要研究领域包括自然语言理解、对话系统、深度学习、信息检索等。领导研发了百度语义理解技术与平台文心(ERNIE)、百度搜索引擎关键核心技术语义匹配SimNet等业界领先技术,相关成果广泛应用于搜索引擎、信息流、智能音箱、地图等产品,显著改善亿万网民用户体验。取得包括国际权威的通用语言理解评估基准GLUE、全球规模最大的语义评测SemEval等评测世界冠军十余项,在ACL、NAACL、AAAI等会议发表论文十余篇,发表国内外相关专利七十余项,相关论文被Paper Digest评为AAAI 2020最具影响力的学术论文之一。荣获世界人工智能大会最高奖项 SAIL 奖、中国人工智能学会优秀科技成果奖、中国电子学会科技进步一等奖等奖项。


报告题目:知识指导的预训练语言模型

报告人:刘知远

报告摘要:

近年来深度学习成为自然语言处理关键技术,特别是2018年以来的预训练语言模型显著提升了自然语言处理的整体性能。作为典型的数据驱动方法,以预训练语言模型为代表的深度学习仍然面临可解释性不强、鲁棒性差等难题,如何将人类积累的大量语言知识和世界知识引入模型,是改进深度学习性能的重要方向,同时也面临很多挑战。本报告将系统介绍知识指导的预训练语言模型的最新进展与趋势。


个人介绍:

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。已在ACL、EMNLP、AAAI、IJCAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇,Google Scholar统计引用1.4万次。曾获教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,入选国家万人计划青年拔尖人才、北京智源研究院青年科学家、2020年Elsevier中国高被引学者、中国科学青年人才托举工程。


报告题目:面向生成的预训练模型

报告人:杨植麟

报告摘要:

自然语言处理任务有几种主要类别:自然语言理解和分类任务、无条件生成任务、有条件生成任务。流行的预训练架构包含几种主要范式:基于编码器架构的BERT范式、基于解码器架构的GPT范式、基于混合架构的范式。本次报告将探讨如何在纷繁复杂的任务体系和架构体系当中寻找统一的解决方案,其中将重点讨论「生成理解一体化」的思想,讨论基于生成的方式如何统一预训练和微调任务。同时,本次报告还将讨论基于生成的思想在少样本学习、知识探测、诗歌生成等下游任务的应用,以及基于生成的预训练模型在工业界对话理解场景的落地案例。


个人介绍:

杨植麟博士是循环智能(Recurrent AI)联合创始人;曾在自然语言理解、半监督学习、少样本学习等30多个AI任务上取得世界第一(state-of-the-art),引用数超过7000;其作为第一作者发明的XLNet在20项任务上超越Google BERT,是2019年全球引用最高的同行评审NLP论文,入选AI顶级会议NeurIPS 2019口头报告(录用率千分之五);其发明的Transformer-XL是首个全面超越RNN的注意力语言模型,是ACL 2019引用最高的论文。他曾获得Forbes Asia 30 under 30、西贝尔学者、英伟达学者、智源青年科学家等荣誉;与多名图灵奖得主合作发表论文。本科毕业于清华大学,博士毕业于卡内基梅隆大学。


报告题目:预训练模型在NLP基础任务中的应用

报告人:邱锡鹏

报告摘要:

本报告将介绍预训练模型在NLP基础任务上的应用,包括中文分词、词性标注、命名实体识别、文本分类等。本报告分为三个部分:1)如何在下游任务精调预训练模型;2)在NLP基础任务上的应用;3)重点介绍一种统一生成框架,可以用来解决众多NLP基础任务。


个人介绍:

邱锡鹏,复旦大学计算机学院教授,国家优青获得者,于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,发表CCF A/B类论文70余篇,获得ACL 2017杰出论文奖(CCF A类)、CCL 2019最佳论文奖,有4篇论文入选PaperDigest发布的IJCAI/ACL/EMNLP的最有影响力论文(各会议每年10篇)。出版开源专著《神经网络与深度学习》,Github关注数1.4万,豆瓣评分9.3分。主持开发了开源框架FudanNLP和FastNLP,已被国内外数百家单位使用。2015年入选首届中国科协青年人才托举工程项目,2018年获钱伟长中文信息处理科学技术奖青年创新奖一等奖,2020-2021年连续两年入选由清华-中国工程院知识智能联合研究中心发布的"AI 2000人工智能全球最具影响力提名学者"等。培养学生曾获中国中文信息学会优博、中国人工智能学会优博、上海市优博、微软学者、百度奖学金等。


报告题目:预训练模型在机器阅读理解任务中的应用

报告人:赵海

报告摘要:

语言模型在早期的统计自然语言处理上曾发挥核心作用,作为核心组件广泛用于语音识别和统计机器翻译。深度学习引入自然语言处理以后,基于低维分布式向量表示的词嵌入大行其道,也取得了显著成果。在2017年以后,以ELMo和BERT为代表的上下文依赖语言模型快速崛起,它继承了语言模型的训练方式,同时具有整句级的编码和词嵌入表示形式。由于对于算力要求较高,这类模型提出了新的预训练-微调的工作方式,因此特别称之为预训练语言模型。各类预训练语言模型已在包括各类语言结构分析(如句法、语义分析)以及机器翻译、机器阅读理解等任务上的巨大性能提升。其中,机器阅读理解是深度学习下的自然语言理解领域在最近几年才引入的新型任务,它已经被证明特别依赖于有效的编码器和语言表示。这个报告中我们将探讨语言模型、表示对于机器阅读理解的技术性影响,包括技术演化的时间线、现状和挑战,特别是最近一年来最新进展和一些个人新的思考。


个人介绍:

上海交通大学计算机科学与工程系教授、博士生导师。研究兴趣自然语言处理和相关深度学习。发表论文130篇,其中近年来CCF-A论文近40篇。Google scholar引用计数约4500次。ACM专业会员,中国计算机学会自然语言处理专委会委员,上海市计算机学会人工智能专委副主任,2014起PACLIC指导委员会委员。ACL-2016的出版事务主席、ACL-2017程序委员会Parsing领域主席,ACL-2018,2019程序委员会的形态和分词领域高级主席。旗舰机器阅读理解国际排行榜RACE、SQuAD2.0等第一名并首超人工成绩。


报告题目:机器翻译的预训练方法

报告人:李磊 王明轩

 

报告摘要:

预训练-细调已经成为自然语言处理中的重要方法。预训练通常使用大规模容易获取的原始文本,而非需人工标注的数据。如何在神经网络机器翻译中利用预训练方法来提升翻译能力?直接将预训练好的BERT等语言模型应用于机器翻译很难获得预期。本次讲座将围绕单语预训练、多语言预训练、多模态预训练三个方面来介绍机器翻译中利用预训练提升的最新进展。预训练在机器翻译中需要达到三个目标:设计有效目标从而适应翻译任务;充分利用大量单语和有限双语、文本和不同模态数据;拉近跨语言跨任务表示。通过预训练和细调方法,在双语翻译,多语言联合翻译(包括zero-shot场景),语音翻译,图像辅助翻译等不同翻译场景都取得了显著提升。


个人介绍:

李磊,字节跳动人工智能实验室总监。本科博士分别毕业于上海交通大学和卡耐基梅隆大学计算机系。曾任加州大学伯克利分校作博士后研究员和百度美国深度学习实验室少帅科学家。曾获2012年美国计算机学会SIGKDD最佳博士论文第二名、2017年吴文俊人工智能技术发明二等奖、2017年CCF杰出演讲者、2019年CCF青竹奖。在机器学习、数据挖掘和自然语言处理领域于国际顶级学术会议发表论文100余篇,拥有二十余项技术发明专利。担任CCF自然语言处理专委委员和EMNLP, NeurIPS, AAAI, IJCAI, KDD等多个会议组委成员和领域主席。

王明轩,字节跳动人工智能实验室资深研究员,博士毕业于中国科学院计算技术研究所,主要研究方向为机器翻译。主导研发了火山翻译系统,服务全球过亿用户,并多次带领团队在 WMT 机器翻译评测中拿到过冠军。在 ACL、EMNLP、NAACL 等相关领域发表论文 30 多篇。担任CCF自然语言处理专委委员和国内外多个会议组委成员。


报告题目:基于预训练模型的对话系统

报告人:黄民烈

报告摘要:

基于大数据、大模型的开放域对话系统是当前自然语言处理领域研究的热点之一。Meena、blender、plato等对话系统的推出,让研究者们看到了突破传统对话建模瓶颈的希望。讲者将围绕基于预训练模型的对话系统,阐述其中重要的问题、挑战,以及最新的方法,特别是大数据、大模型下的框架和任务设计。


个人介绍:

黄民烈博士,清华大学计算机科学与技术系长聘副教授,智能技术与系统实验室副主任,中文信息学会自然语言生成与智能写作专委会副主任。IEEE、CCF高级会员。 他的研究领域为自然语言处理,特别是自然语言生成、对话系统、阅读理解等。曾获得中国人工智能学会吴文俊人工智能科技进步奖一等奖(排名第一),中文信息学会汉王青年创新奖,阿里巴巴创新合作研究奖,获得国家自然科学基金重点项目资助。多次获得国际主流会议的最佳论文或提名(IJCAI、ACL、SIGDIAL等)。研发对话系统平台ConvLab和ConvLab2,多次组织国内外有影响力的对话系统评测与竞赛(DSTC8,DSTC9),获得NTCIR 2017年组织的短文本对话生成评测冠军。担任顶级期刊TNNLS(SCI一区,影响因子>11)编委,顶级期刊TACL的编委,顶级会议ACL 2021 Diversity&Inclusion联合主席,ACL 2021资深领域主席(SAC),EMNLP 2021研讨会联合主席,多次担任ACL/EMNLP的领域主席。 他的主页位于http://coai.cs.tsinghua.edu.cn/hml/。


报告题目:预训练模型在推荐系统中的应用

报告人:赵鑫 陈旭

报告摘要:

近年来,预训练模型在多个研究领域得到了广泛应用。本次报告将聚焦预训练模型在推荐系统领域的应用,对最近几年的相关研究进行简要梳理和回顾,主要报告内容集中在以下几个方面。(一)基础背景:预训练模型和推荐系统的相关背景知识;(二)预训练模型在推荐系统中应用的动机和挑战:为什么预训练模型在推荐系统领域受到广泛关注,应用过程中的主要难点是什么。(三)预训练模型在推荐系统中的应用策略和相关方法:如何更好地利用推荐系统中用户的行为数据、设计更好的模型架构和学习算法。(四)预训练模型在推荐系统中应用的未来展望:该领域亟待解决的问题和未来的发展方向。


个人介绍:

赵鑫,现为中国人民大学高瓴人工智能学院长聘副教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文80余篇。荣获2020年吴文俊人工智能优秀青年奖、ECIR’21时间检验奖(Test of Time Award)等,入选中国科协青年人才托举工程、北京智源青年科学家。

陈旭,现为中国人民大学高瓴人工智能学院准聘助理教授。博士毕业于清华大学,博士期间曾在佐治亚理工学院进行交流访问,博士毕业后曾在英国伦敦大学学院担任博士后研究员,于2020年加入中国人民大学。其主要研究方向为推荐系统,强化学习,因果推断等。曾在SIGIR、TOIS、WWW、WSDM、CIKM、AAAI等信息检索领域顶级会议和期刊发表论文30余篇。曾获得The Web Conference 2018 最佳论文提名奖、AIRS 2017 最佳论文奖。


报告题目:预训练模型在信息检索中的应用

报告人:郭嘉丰 范意兴

报告摘要:

近年来,伴随着深度学习技术的发展,信息检索与自然语言处理技术的融合越来越深入,预训练模型作为自然语言处理领域的重要方法,在信息检索中也获得了广泛使用。本次报告将聚焦在预训练模型在信息检索中的应用,对最近几年的相关研究进行系统的梳理和回顾。报告的主要内容包括:1)基础背景:信息检索的相关背景知识介绍;2)预训练模型在检索召回阶段的应用:包括预训练模型在传统稀疏检索框架下的应用以及基于预训练模型的稠密检索方法;3)预训练模型在重排序阶段的应用:包括基于预训练模型的表示学习、交互学习建模方法与模型加速,以及基于生成模型的排序建模等;4)面向信息检索的预训练模型设计:如何构建满足信息检索任务需求的自监督学习任务,进一步提升信息检索的性能。


个人介绍:

郭嘉丰,博士生导师,中科院计算技术研究所研究员,中国科学院大学岗位教授,现任中科院网络数据科学与技术重点实验室常务副主任,国家优青获得者,中科院青促会优秀会员,北京智源学者,联想青年科学家。长期从事智能信息检索与大数据分析方向研究。发表学术论文100余篇,Google Scholar累计引用7000余次,获得CIKM 2011最佳论文奖,SIGIR 2012最佳学生论文奖, CIKM 2017最佳论文Runner-up奖。担任本领域国际重要学术期刊ACM TOIS、IRJ编委以及主要国际会议的程序委员会高级评审委员、委员等。相关成果获得2020年国家技术发明二等奖(待批)、2012年国家科技进步二等奖、2012年中国中文信息学会 “钱伟长中文信息处理科学技术奖——汉王青年创新奖”一等奖。

范意兴,博士,中科院计算所助理研究员,主要研究内容包括信息检索、自然语言处理等,在国际顶级学术会议SIGIR、WWW、CIKM、ACL等发表论文30余篇,获得了2017年CIKM最佳论文Runner Up奖,2018年中国中文信息学会优秀博士论文奖,2019年CCIR最佳论文奖。开发了深度文本匹配工具MatchZoo,在开源平台Github中得到研究人员的广泛使用与认可。曾获得中科院院长优秀奖,入选中国科协青年人才托举工程、中国科学院青年创新促进会会员,担任CIPS信息检索专委会委员、CIPS青年工作委员会委员、以及国内外多个会议组委成员。


报告题目:学术论文写作的一些体会

报告人:兰艳艳

报告摘要:

报告将结合作者的个人研究背景和经历,介绍学术论文写作的一些体会,包括逻辑的重要性,3W2H写作法则,论文的润色技巧,复盘与提高等。


个人介绍:

兰艳艳,目前在清华大学智能产业研究院任研究员,曾任中科院计算所研究员,博士生导师。兰艳艳博士的研究方向为信息检索,机器学习和自然语言处理,在人工智能和机器学习领域重要国际期刊和会议上发表论文80 余篇。曾获SIGIR最佳学生论文奖、CIKM最佳论文Runner-Up奖。入选中国科学院青年创新促进会优秀会员,北京市智源人工智能研究院青年科学家,获得中文信息学会钱伟长中文信息处理科学技术奖一等奖。


报告题目:Research:the Good, the Bad and the Ugly

报告人:刘康 韩先培

报告摘要:

对于刚入门的同学来说,科研之路无疑是曲折和迷茫的。Good科研方法让你仰望星空,Bad科研方法让你在仰望星空的时候避免掉入水坑,Ugly科研故事让你前进路上潇洒从容。本报告将介绍两位讲者在30多年(求和得出)科研经历中遇到过、看到过、听到过的Good、Bad、Ugly的科研方法(包括但不限于其中的故事、心态、理念、方法等),希望对于同学们的学习、科研和生活有所帮助。


个人介绍:

刘康,中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师。研究领域包括自然语言处理、文本信息抽取、知识图谱、问答系统等,同时也涉及模式识别与机器学习方面的基础研究。在自然语言处理、知识工程等领域国际重要会议和期刊发表多篇学术论文,Google Scholar引用9000余次。曾获COLING 2014最佳论文奖、Google Focused Research Award、中国中文信息学会“汉王青年创新一等奖”、中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖、北京市科学技术进步一等奖等多项学术奖励。目前兼任Pattern Recognition期刊的Associate Editor、TACL编委、中国中文信息学会语言与知识计算专委会秘书长等学术职务,入选北京智源人工智能研究院青年科学家,也曾任ACL、EMNLP、CIKM、ISWC、EACL等国际高水平学术会议(Senior)Area Chair/Senior PC member。作为项目负责人获得国家自然科学基金委优秀青年基金支持。

韩先培,中国科学院软件研究所中文信息处理实验室/计算机科学国家重点实验室研究员,博士生导师。主要研究方向为信息抽取、知识图谱、语义解析以及智能问答系统。承担和参与中科院先导、科技创新2030、自科重点等十余项课题。在ACL、SIGIR、IJCAI、AAAI等重要国际会议发表论文60余篇。担任中国中文信息学会理事,语言与知识计算专业委员会副主任。入选科协青托、北京智源青科、软件所杰青等,获中国中文信息学会汉王青年创新奖及科学技术奖一等奖。



组织信息

大会主席:

  • 马少平 清华大学
  • 孙 乐 中国科学院软件研究所

学术主席:

  • 刘知远 清华大学
  • 车万翔 哈尔滨工业大学
  • 张家俊 中科院自动化所