大语言模型的机制可解释性

摘要:尽管大语言模型在人工智能多个领域显示出极强的通用性,但理解其内部机制仍缺乏可规模化的手段和理论,这给下一代大模型的设计和优化带来了挑战。自2023年以来,机制可解释性(Mechanistic Interpretability)为大语言模型的规模化可解释性带来全新的活力。机制可解释性主要是利用稀疏自编码器技术提取大模型中数千万个高度可解释特征,为分析大模型的行为和机理提供了很好的工具。本次报告将介绍我们在大语言模型可解释性方面的研究进展,并展望可解释性技术对大模型训练数据、幻觉、安全性等重要问题的结合点。


简介:邱锡鹏,复旦大学计算机学院教授,担任中国中文信息学会大模型与生成专委会副主任、上海市计算机学会自然语言处理专委会主任,主要研究方向为自然语言处理基础模型和算法,发表CCF-A/B类论文100余篇,引用2万余次,入选中国高被引学者和全球前2%顶尖科学家榜单,曾获中国科协青年人才托举工程、国家优青等项目,获钱伟长中文信息处理科学技术奖一等奖(第一完成人),入选教育部“高校计算机专业优秀教师奖励计划”,上海市计算机学会青年科技英才,两次获得上海市计算机学会教学成果奖一等奖;主持研发的大模型MOSS已经成为国内影响力最大的开源大语言模型之一。著作《神经网络与深度学习》被上百家高校作为教材。