SMP 2021 模型鲁棒性与可解释论坛

论坛概况

论坛时间：待定

论坛形式：专家报告

论坛简介：近年来，随着深度神经网络特别是大规模预训练方法的广泛应用，自然语言处理任务的效果都大幅度提升。甚至在一些任务上，很多算法的精度超越了人类。然而，近期的研究却发现，现有算法在处理与训练样本有微小变化的数据时的表现却下降得非常迅速。为什么会出现这种现象？模型为什么进行这样的决策？模型学习到了什么？如何评价模型的鲁棒性？等等问题近两年引起了越来越多学术界和工业界的广泛关注。在本次论坛中我们将针对围绕模型的鲁棒性和可解释性开展讨论。

论坛主席：张奇（复旦大学计算科学技术学院教授）

主席简介：张奇，复旦大学计算科学技术学院教授、博士生导师。主要研究方向是自然语言处理和信息检索。以第一作者或通讯作者发表论文共100 余篇，包括ACL、SIGIR、ICML、NIPS等。获得WSDM最佳论文提名奖、COLING最佳论文提名奖。作为第二译者翻译专著《现代信息检索》。获得上海市科技进步二等奖、教育部科技进步二等奖、ACM 上海新星提名奖、IBM Faculty Award、中国中文信息学会青年创新一等奖。

论坛嘉宾

刘知远清华大学计算机系副教授

报告主题：知识指导的文本攻击与防御

报告摘要：近年来深度学习成为自然语言处理关键技术，作为典型的数据驱动方法，深度学习面临可解释性不强、鲁棒性差的难题，容易受到对抗攻击、后门攻击等威胁。这些攻击方法可以帮助理解深度学习的缺点，并进行有针对性的改进。如何将人类积累的大量语言知识和世界知识引入文本攻击与防御，是改进深度学习性能的重要思路。该报告将介绍知识指导的文本攻击与防御的最新进展与趋势。

嘉宾简介：刘知远，清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011年获得清华大学博士学位，已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇，Google Scholar统计引用超过14,000次。曾获教育部自然科学一等奖（第2完成人）、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖（第2完成人）、中国中文信息学会汉王青年创新奖，入选国家万人计划青年拔尖人才、北京智源研究院青年科学家、2020年Elsevier中国高被引学者、中国科学青年人才托举工程。担任中文信息学会青年工作委员会主任，中文信息学会社会媒体处理专委会秘书长，ACL、EMNLP、WWW、CIKM、COLING领域主席。

吴苑斌华东师范大学计算机学院副教授

报告主题：面向数据的解释性分析

报告摘要：在机器学习系统中，模型与数据是两个关键要素。理解数据分布与模型预测间的联系可以帮助我们更好理解机器决策过程，完成标注纠偏，特征筛选，数据压缩等任务，是统计模型可解释性长久以来的研究课题。本报告将介绍以样本为中心的模型解释性分析方法，以及它们在自然语言处理任务中的应用。

嘉宾简介：吴苑斌，华东师范大学计算机学院副教授。主要研究方向为结构化学习，模型可解释性。2012年获得复旦大学博士学位。主要研究工作发表于ACL，EMNLP, ICML, NeurIPS等国际期刊和会议。

张煦尧中科院自动化所博士

报告主题：开放环境鲁棒模式识别

报告摘要：随着深度学习技术的发展，诸多模式识别任务的识别精度获得不断提升，在一些任务上甚至超越了人的水平。单从识别精度的角度来看，模式识别似乎已经是一个被解决了的问题。然而，高精度的模式识别系统在实际应用中依旧会出现不稳定和不可靠的现象。因此，开放环境下的鲁棒性成为制约模式识别技术发展的新瓶颈。实际上，在大部分模式识别模型和算法背后蕴含着三个基础假设：封闭世界假设、独立同分布假设、以及大数据假设，直接或间接影响了模式识别系统的鲁棒性。本报告从打破三个基础假设的角度出发，探索提升模式识别系统鲁棒性的途径。

嘉宾简介：张煦尧，中科院自动化所模式识别国家重点实验室副研究员。2008年获武汉大学计算数学学士学位，湖北省优秀学士论文。2013年获中科院自动化所模式识别与智能系统博士学位，中国计算机学会优秀博士论文。2012年加拿大模式识别与机器智能中心访问学者。2015年深度学习发源地蒙特利尔大学访问学者。主要研究兴趣包括：模式识别、机器学习、文字识别、以及深度学习，在国际期刊和会议上发表论文70余篇，包括PIEEE, TPAMI, IJCV, CVPR, ICCV等。入选第四届中国科协青年人才托举工程，第十届吴文俊人工智能优秀青年奖。

韩先培中国科学院软件研究所博士

报告主题：知识渊博还是经验猜测？大规模预训练语言模型作为知识库的反思

报告摘要：近年来，已有诸多研究将大规模PLMs作为知识来源，并探索从PLMs中抽取事实知识或支撑下游的诸多智能任务。本报告对从PLMs中抽取事实知识的三种代表性范式进行了系统实验分析，发现：（1）对于Prompt-based Retrieval，我们发现Prompt会给预测带来严重的偏差。先前数据集上的评测结果无法真实反映预训练模型检索事实型知识的能力，而现有Prompt搜索算法只是让Prompt更好的拟合了测试集的答案分布，而非具备更强的抽取能力。（2）对于Case-based Analogy，我们发现加入示范性的样例只能帮助预训练模型更好地识别尾实体的类别，而不能更好地定位事实型知识。（3）对于Context-based Inference，我们发现检索得到的上下文会通过显式或者隐式地泄露答案来提供额外信息。本文的发现揭示了PLMs能够取得知识性能的原因和潜在的预测机制，并且有力地质疑了先前预训练模型可作为事实型知识库的结论。上述发现可以为相关研究提供结论支撑，并为其它领域的未来研究方向提供参照。

嘉宾简介：韩先培，中国科学院软件研究所中文信息处理实验室/计算机科学国家重点实验室研究员，博士生导师。主要研究方向为信息抽取、知识图谱、语义解析以及智能问答系统。承担和参与中科院先导科技专项、科技创新2030—“新一代人工智能”重大项目课题、自然科学基金重点等十余项课题。在ACL、SIGIR、IJCAI、AAAI等重要国际会议发表论文60余篇。担任中国中文信息学会理事，语言与知识计算专业委员会副主任。入选科协青托、北京智源青年科学家、软件所杰青等，获中国中文信息学会汉王青年创新奖及科学技术奖一等奖。

桂韬复旦大学现代语言学研究院博士

报告主题：信息抽取任务的鲁棒性问题发现与性能提升

报告摘要：信息抽取是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。近几年，深度学习模型在信息抽取实验数据集上的取得了惊人的表现，但我们在实际应用中却发现这些模型面临鲁棒性差的难题。复旦大学发布的 TextFlint 鲁棒性验证平台可以很好地为模型的鲁棒性问题把脉分析。该报告将介绍如何利用 TextFlint 发现模型鲁棒性问题并提出相应的解决方案。

嘉宾简介：桂韬，复旦大学现代语言学研究院青年副研究员。主要研究方向为信息抽取、鲁棒模型和可解释分析。2021年获得复旦大学博士学位，已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文20余篇。曾获2019 百度奖学金、2020 IBM 奖学金、2019&&2020 国家奖学金、复旦大学“学术之星”特等奖、COLING2018 领域主席推荐奖、NLPCC2019 亮点论文奖。担任TPAMI、ACL、EMNLP、AAAI、IJCAI等国际著名会议期刊程序委员会成员和审稿人。