SMP 2022 大模型技术论坛

论坛概况

论坛时间：8月21日14:00-16:00

论坛简介：2018年以来预训练语言模型技术将深度学习成功用于大规模无标注数据的自监督学习，显著提升了自然语言处理等任务的性能，人工智能进入大模型时代。大模型既需要高效并行计算的支持，也为机器学习带来全新的范式，更为NLP等场景应用开辟广泛的探索空间。本次论坛邀请大模型相关的青年学者，共同探讨大模型在训练、微调和应用方面的前沿技术与关键问题。

论坛安排：

时间	内容	主持人
14:00-14:20	大规模预训练模型的高效参数学习林衍凯腾讯微信模式识别中心研究员	刘知远清华大学
14:20-14:40	LiBai（李白）: 让大模型训练变得更容易袁进辉一流科技创始人&CEO
14:40-15:00	大规模预训练模型的高效训练与压缩韩旭清华大学计算机系博士后
15:00-15:20	大模型鲁棒彩票假设：寻找更稀疏、更鲁棒的大模型桂韬复旦大学青年副研究员
15:20-15:40	基于预训练的代码表征与生成王雅圣华为诺亚方舟实验室高级研究员
15:40-16:00	Q&A

论坛主席：刘知远（清华大学计算机系副教授）

主席简介：刘知远，清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理、知识图谱和社会计算。2011年获得清华大学博士学位，已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇，Google Scholar统计引用超过20,000次。曾获教育部自然科学一等奖（第2完成人）、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖（第2完成人）、中国中文信息学会汉王青年创新奖，入选国家万人计划青年拔尖人才、北京智源研究院青年科学家、2020年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。担任中文信息学会青年工作委员会主任，中文信息学会社会媒体处理专委会秘书长，期刊AI Open副主编，ACL、EMNLP、WWW、CIKM、COLING领域主席。

刘知远清华大学副教授

论坛嘉宾

林衍凯腾讯微信模式识别中心研究员

报告主题：大规模预训练模型的高效参数学习 Parameter-Efficient Tuning for Large-scale Pretrained Models

报告摘要：近年来，预训练语言模型成为自然语言处理领域广受关注的研究课题。从ELMO、GPT、BERT到最新发布的T5、GPT3等，超大规模预训练模型进一步地展示了其令人瞩目的小样本、推理等能力，为自然语言处理研究提供了一种全新的范式。然而，大预训练模型的资源占用严重阻碍了其落地到实际场景。如何高效地激发大规模预训练模型在下游任务上的效果成为学术界和工业界共同关注的问题。最近，高效参数学习（Parameter-Efficient Tuning）取得了很多突破性进展，该技术可以通过调整少量参数可以将大规模预训练模型快速适配到下游任务中，有效地解决了预训练模型的一大难题。本报告将介绍大规模预训练模型的高效学习方法的前沿动态和目前面临的挑战问题。

嘉宾简介：林衍凯，腾讯微信模式识别中心研究员，毕业于清华大学计算机系自然语言处理与社会人文计算实验室。研究方向包括预训练模型、信息抽取、知识图谱等。目前已在人工智能、自然语言处理等领域的著名国际会议IJCAI，AAAI，EMNLP，ACL发表相关论文30余篇，Google Scholar统计引用数超过6000。曾获2020年教育部自然科学一等奖（第3完成人）。

袁进辉清华大学博士

报告主题：LiBai（李白）: 让大模型训练变得更容易

报告摘要：大模型对计算和内存资源提出了巨大的挑战，训练成本也急剧上升，分布式训练则成为广大开发者的必然选择。但是分布式训练的门槛太高，即便拥有充足的计算资源，也可能因为搞不定分布式训练而望洋兴叹。如何加速模型训练效率，让更多工程师可以使用、研究大模型成为当务之急。问题是，市面上那么多支持分布式训练的模型库，选哪个最合适？近期，由一流科技团队研发的以高效性起家的国产开源深度学习框架 OneFlow 上线了 LiBai（李白）模型库，这个新生代模型库覆盖了 Hugging Face、Megatron-LM、DeepSpeed、FairSeq 这些所有主流 Transformer 库的优点，分布式训练性能优秀，全局视角编程最大程度降低了分布式使用门槛。这次我将分享LiBai背后的技术。 LiBai 模型库地址：https://github.com/Oneflow-Inc/libai

嘉宾简介：2008年于清华大学计算机系获得工学博士学位（优秀博士学位论文奖），2008~2011年在清华大学计算机系从事计算神经科学方面的博士后研究，原微软亚洲研究院主管研究员（院长特别奖获得者），于2017年创立北京一流科技有限公司，致力于打造新一代深度学习框架OneFlow。兼任之江实验室天枢开源开放平台架构师，北京智源人工智能研究院大模型技术委员会委员。

桂韬复旦大学副研究员

报告主题：大模型鲁棒彩票假设：寻找更稀疏、更鲁棒的大模型

报告摘要：「彩票假说」指出神经网络可能存在准确率和原始网络相近的彩票网络，即中奖子网络。我们发现预训练语言模型能够被挖掘出更多具有特殊能力的彩票网络。借助稀疏优化理论，我们首次发现预训练语言模型中隐藏着更加鲁棒的彩票网络，这些子网络表现出了比原始网络更加优秀的鲁棒性。进一步，我们提出鲁棒「早鸟彩票」方法，从训练初期提取出结构化稀疏的鲁棒彩票，并使用该彩票进行高效地鲁棒提升训练。

嘉宾简介：桂韬，复旦大学现代语言学研究院青年副研究员、硕士生导师。研究领域为自然语言处理、信息抽取和鲁棒模型。兼任中国中文信息学会青年工作委员会委员、NLPR Information Extraction Special Issue 主编。在高水平国际学术期刊和会议上发表了30余篇论文，主持华为、海康威视、悟道、微软等多个基金项目。担任 TPAMI、ACL、EMNLP、AAAI、IJCAI 等著名期刊/会议程序委员会委员或审稿人。曾获中国中文信息学会优秀博士论文奖、COLING2018 领域主席推荐奖、NLPCC2019 亮点论文奖、复旦大学“学术之星”特等奖，入选第七届“中国科协青年人才托举工程”。

韩旭清华大学博士后

报告主题：大规模预训练模型的高效训练与压缩

报告摘要：近年来，大规模预训练模型在各类自然语言处理任务上取得了显著的性能提升，但其规模庞大的参数在计算与存储上始终困扰着研究人员，使得大规模预训练模型并未在实际工作中广泛运用。本报告面向大规模预训练模型的高效构建与应用，从系统优化和算法优化两方面入手介绍大模型的训练加速与模型压缩，助力研究人员实现较低的计算资源驱动大模型的丰富模型知识。

嘉宾简介：韩旭，清华大学计算机系博士后，毕业于清华大学计算机系自然语言处理与社会人文计算实验室，研究方向为预训练模型、信息抽取、知识图谱等。目前已在人工智能、自然语言处理等领域的国际会议及期刊上发表论文20余篇，Google Scholar统计引用数超过3000，在Github上开源OpenKE、OpenNRE、OpenBMB等项目，累计获得超过1万星标收藏，入选2022年度博士后创新人才支持计划。

王雅圣华为诺亚方舟实验室高级研究员

报告主题：基于预训练的代码表征与生成

报告摘要：基于预训练的文本表征技术以及生成技术在自然语言处理中获得了极大的发展，特别是基于如GPT-3等大模型展示出惊人的理解力与创造力，并且开始在软件工程领域中发挥重要作用。本次报告介绍华为诺亚方舟实验室在程序语言表征以及生成预训练模型方向上的研究与落地，包括在华为全栈软硬件上完成的大规模预训练语言模型【盘古alpha】基础上推出的函数级代码生成模型【盘古 Coder】。

嘉宾简介：王雅圣，华为诺亚方舟实验室高级研究员，主要研究方向为自然语言处理，对话系统，大规模预训练语言模型训练及服务，下游应用，在ACL, EMNLP, AAAI等人工智能或自然语言处理相关会议上发表多篇论文，长期在华为从事自然语言处理以及预训练模型的研究和落地工作，深度参与了华为盘古系列大模型项目，主导相关的下游落地应用。