由中国中文信息学会主办的第十七届暑期学校暨《前沿技术讲习班》(CIPS ATT)将于2022年7月28 日- 31日举行,因受疫情影响本届讲习班采用线上参加的形式进行。讲习班以可信自然语言处理与信息检索、预训练模型为主题,邀请了来自国内外研究第一线的知名青年专家学者,系统讲述基础理论和方法及其应用的前沿动态,为感兴趣的学者、学生和工程师提供系统学习和交流的机会。
CIPS ATT 30 |
||
7月28日 |
||
09:00-12:00 |
牟力立、刘祥根:神经符号方法在自然语言处理领域的研究进展 |
|
14:00-17:00 |
屠可伟:自然语言处理中符号和统计方法的神经网络化 |
|
18:00-19:00 |
线上答疑交流 |
|
7月29日 |
||
09:00-12:00 |
吴方照:联邦学习的攻与防 |
|
14:00-17:00 |
张奇、桂韬:自然语言处理算法鲁棒性研究 |
|
18:00-19:00 |
线上答疑交流 |
|
CIPS ATT 31 |
||
7月30日 |
||
09:00-12:00 |
邱锡鹏:迈向大规模高效自然语言处理 |
|
14:00-17:00 |
刘知远:Delta Tuning:大模型的小参数高效微调 |
|
18:00-19:00 |
线上答疑交流 |
|
7月31日 |
||
09:00-12:00 |
车万翔:基于预训练模型的对话语言理解 |
|
14:00-17:00 |
侯璐:预训练语言模型的压缩和加速 |
|
18:00-19:00 |
线上答疑交流 |
报告题目:神经符号方法在自然语言处理领域的研究进展报告人:牟力立 刘祥根 |
![]()
![]() |
近年来,深度学习方法在自然语言处理领域的诸多任务中取得了显著的成果。然而,深度学习模型的预测过程通常是黑箱的,缺乏必要的可解释性。神经符号方法(Neuro-symbolism)结合不同人工智能流派(即连接主义和符号主义)的计算范式,既保持了神经网络强大的拟合能力又引入了符号的可解释性,是人工智能领域的研究热点。本次报告将介绍神经符号化方法在自然语言处理领域的研究进展,涵盖了自然语言理解(NLU)和自然语言生成(NLG)两大部分。对于自然语言理解的相关任务,我们将其中的符号推理建模为潜在的离散变量的计算过程,并使用强化学习及其松弛算法进行模型优化;对于自然语言生成,我们将其建模为符号操作(包括规则转换和字词编辑)序列的决策过程,从而完成对自然语言的生成过程。本次报告将介绍在上述神经符号框架下的多种应用场景,包括语义解析、句法结构归纳、信息提取、抽象规则学习和受约束的句子生成等。
牟力立,加拿大阿尔伯塔大学计算机系助理教授。2012年和2017年分别于北京大学取得理学士学位和博士学位;之后在加拿大滑铁卢大学从事博士后研究工作。研究兴趣包括基于深度学习的自然语言处理和程序语言处理。他在顶级会议和期刊发表50余篇论文,包括ACL、EMNLP、TACL、ICML、NeurIPS、ICLR、AAAI和IJCAI。曾于EMNLP-IJCNLP'19 and ACL'20会议中作讲习班报告。
刘祥根,四川大学计算机学院副研究员;2021年于清华大学博士毕业;2019年-2020年于美国伊利诺伊大学香槟分校联合培养。2021年被四川大学引进特聘副研究员。刘祥根的主要研究方向包括深度神经网络的基础理论及其在自然语言处理和生物信息学领域的应用。他在中国计算机学会(CCF)A类国际会议论文(ICML,ACL,IJCAI)和 SCI 检索学术论文十余篇,参与国家自然科学基金面上项目1项,先后担任 ICML、 IJCAI、 ACL、EMNLP、NeurIPS、AAAI、ACM MM、ICLR等 CCF A 类国际会议的程序会员会委员或审稿人,并多次在著名国际会议上做学术报告。
报告题目:自然语言处理中符号和统计方法的神经网络化报告人:屠可伟 |
![]() |
深度学习和神经网络方法已成为自然语言处理领域的主流方法,但传统的符号规则和统计学习方法仍然具有一些独特的优点。在本次报告中,我将讨论把符号和统计方法与神经网络方法相结合,使其相互取长补短的一些近期工作。首先,我将介绍如何把正则表达式转化为两种新型的神经网络用于文本分类和槽填充。其次,我将介绍如何利用神经网络技术无监督地学习句法规则和形式文法。最后,我将介绍如何把统计建模和推理方法转化为图神经网络,并将其应用于依存分析、序列标注等任务。
上海科技大学信息科学与技术学院长聘副教授、研究员、博士生导师。于上海交通大学计算机科学与工程系获学士和硕士学位;于美国爱荷华州立大学获计算机科学博士学位;曾在美国加州大学洛杉矶分校统计系与计算机系从事博士后。研究方向包括自然语言处理、机器学习等人工智能领域,目前侧重于研究将符号、统计和神经方法相结合用于语言结构的表示、学习与应用。发表论文八十多篇,主要发表于ACL、EMNLP、NAACL、AAAI等顶级会议。担任NLP和AI领域多个顶级会议程序委员会委员、EMNLP、AAAI等会议的领域主席、ACL Rolling Review执行编辑。
报告题目:联邦学习的攻与防报告人:吴方照 |
![]() |
联邦学习是一种重要的隐私保护技术,可以在不收集数据的情况下协同学习AI模型,实现数据的“可用不可见”。然而,联邦学习的数据和训练都分散在大量的clients上,模型的学习过程很不可控,使得联邦学习极容易被攻击,安全性风险很高。在此次报告中,我将介绍针对联邦学习的各个种类的攻击和防御技术及其代表方法,以及我们在这一领域的研究和思考。
微软亚洲研究院主管研究员,本科和博士均毕业于清华大学电子系。在Nature Communications, ACL, KDD, WWW, SIGIR, EMNLP等期刊和会议发表学术论文百余篇,被引用3200多次,H-index 33。曾获 NLPCC 2019优秀论文奖,WSDM 2019 Outstanding PC 和 AAAI 2021 Best SPC。AAAI 2022 领域主席,中国计算机学会高级会员。目前在微软亚洲研究院从事负责任AI、用户隐私保护、推荐系统、自然语言处理等方面的研究和实践。研究成果在 Microsoft News、Bing Ads 等多个微软产品中得到应用。
报告题目:自然语言处理算法鲁棒性研究报告人:张奇 桂韬 |
![]() ![]() |
深度神经网络在几乎全部自然语言处理任务中都取得了非常好的效果,在包括阅读理解在内很多任务的标准评测集合上达到了超越人类的准确性。然而,我们在实际应用中确发现,在真实场景中很多模型的效果大打折扣,所获得精度甚至远远低于传统机器学习方法。近年来的很多研究也表明,深度神经网络模型在仅仅添加了很小的扰动的样本上,其预测效果也很可能出现大幅度下降。模型鲁棒性的研究也因此受到越来越多的关注。在本次报告中,将针对自然语言处理算法的鲁棒性问题,在语料构建、文本表示、模型分析、鲁棒性评测以及鲁棒性提升等方面的最新研究进行介绍。
张奇,复旦大学计算科学技术学院教授、博士生导师,中国中文信息学会理事。主要研究方向是自然语言处理和信息检索。以第一作者或通讯作者发表论文共100 余篇,被引用次数4500余次。获得WSDM最佳论文提名奖、COLING最佳论文提名奖。作为第二译者翻译专著《现代信息检索》。获得上海市科技进步二等奖、教育部科技进步二等奖、ACM 上海新星提名奖、IBM Faculty Award、中国中文信息学会钱伟长中文信息处理科学技术奖--汉王青年创新一等奖。 桂韬,复旦大学现代语言学研究院青年副研究员、硕士生导师。研究领域为自然语言处理、信息抽取和鲁棒模型。兼任中国中文信息学会青年工作委员会委员、NLPR Information Extraction Special Issue 主编。在高水平国际学术期刊和会议上发表了30余篇论文,主持华为、海康威视、悟道、微软等多个基金项目。担任 TPAMI、ACL、EMNLP、AAAI、IJCAI 等著名期刊/会议程序委员会委员或审稿人。曾获中国中文信息学会优秀博士论文奖、COLING2018 领域主席推荐奖、NLPCC2019 亮点论文奖、复旦大学“学术之星”特等奖,入选第七届“中国科协青年人才托举工程”。
报告题目:迈向大规模高效自然语言处理报告人:邱锡鹏 |
![]() |
近期超大规模预训练模型将很多NLP任务的准确率提升到了前所未有的高度,但是大模型的主要缺点是在参数、训练、推理、部署方面都存在效率问题。在本报告中,我们主要关注于模型效率,并介绍如何通过模型设计、早退、标签学习、统一模型、黑箱优化等维度来提升模型效率。
邱锡鹏,复旦大学计算机学院教授,国家优青获得者,于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,发表CCF A/B类论文70余篇,获得ACL 2017杰出论文奖(CCF A类)、CCL 2019最佳论文奖、《中国科学:技术科学》2021年度高影响力论文奖,有4篇论文入选PaperDigest发布的IJCAI/ACL/EMNLP的最有影响力论文(各会议每年10篇)。出版开源专著《神经网络与深度学习》,Github关注数1.5万,豆瓣评分9.4分。主持开发了开源框架FudanNLP和FastNLP,已被国内外数百家单位使用。2015年入选首届中国科协青年人才托举工程项目,2018年获钱伟长中文信息处理科学技术奖青年创新奖一等奖,2020获第四届上海高校青年教师教学竞赛优等奖,2021年获首届上海市计算机学会教学成果奖一等奖(第一完成人)等。培养学生多次获得一级学会优博、微软学者、百度奖学金等。
报告题目:Delta Tuning:大模型的小参数高效微调报告人:刘知远 |
![]() |
近年来深度学习成为自然语言处理关键技术,特别是2018年以来的预训练语言模型,显著提升了自然语言处理整体性能。如何更好地激发大规模预训练模型在下游任务上的效果,是广泛关注的研究课题。但是,随着模型规模增大,如何微调大模型参数适配下游任务,变得越来越困难。最近,参数高效微调(Parameter-Efficient Learning,或者 Delta Tuning)通过固定大模型参数不动,只微调非常少的参数(Delta),就可以达到与全参数微调相当的效果,取得了很多突破性进展。本报告将介绍大模型的小参数高效微调方法、前沿动态以及未来展望。
刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。已在ACL、EMNLP、AAAI、IJCAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇,Google Scholar统计引用1.4万次。曾获教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,入选国家万人计划青年拔尖人才、北京智源研究院青年科学家、2020年Elsevier中国高被引学者、中国科学青年人才托举工程。
报告题目:基于预训练模型的对话语言理解报告人:车万翔 |
![]() |
任务型对话系统已经受到工业界和学术界广泛的关注。对话语言理解(DLU)是任务型对话系统中最核心的组件,近些年来发展非常迅速。本次报告首先会对DLU领域近年的发展,尤其是基于预训练模型的方法进行回顾和总结,然后给出DLU领域未来的发展趋势。
车万翔,哈尔滨工业大学计算学部长聘教授、博士生导师,人工智能研究院副院长,社会计算与信息检索研究中心副主任。黑龙江省“龙江学者”青年学者,斯坦福大学访问学者。现任中国中文信息学会理事、计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;中国计算机学会高级会员、曾任YOCSEF哈尔滨主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文200余篇,其中AAAI 2013年的文章获得了最佳论文提名奖。出版教材 4 部,译著 2 部。目前承担2030“新一代人工智能”重大项目课题、国家自然科学基金等多项科研项目。曾获2020年黑龙江省青年科技奖等多个奖项。
报告题目:预训练语言模型的压缩和加速报告人:侯璐 |
![]() |
基于 Transformer 的预训练语言模型在多种NLP下游任务上取得了SOTA的效果。本报告首先回顾语言模型的基本概念和最近几年业界典型的预训练语言模型以及它们的应用场景。巨大的参数量和极高的推理成本阻碍了这些模型在边缘设备或云上的部署。本报告然后梳理近期预训练语言模型压缩和推理加速方法和优缺点,并重点介绍报告人在该研究领域的一些最新进展,包括使用知识蒸馏、动态网络和网络量化(包括量化训练、并行后量化以及生成模型的量化)等对预训练语言模型进行极致压缩和加速的算法与落地情况。最后,本报告会展望未来的研究方向并简单介绍一下最新的多模态预训练大模型悟空(FILIP)。
侯璐博士,2019年于香港科技大学获得博士学位,师从机器学习组的James Kwok教授。目前在华为诺亚方舟实验室语音语义组担任高级研究员,目前主要从事NLP和多模态大模型预训练和压缩加速的研究和落地工作。