从语言大模型到代码大模型
摘要:由自然语言处理技术孕育而生的大模型已经成为人工智能领域的一个重要突破。这些模型通过大规模语言数据训练,能够实现对文本的深度理解和生成。然而,大模型的应用远远超过文本处理,其在代码上也展现出巨大的潜力,进而衍生出了代码大模型。代码大模型可以学习和理解各种编程语言,完成代码生成、摘要等典型编程任务,极大提高了开发效率。与此同时,代码所具备的高度结构化、可执行以及长距离依赖等特性,又反哺了对语言的理解和生成,提升了大模型逻辑推理、工具调用以及复杂问题分解与规划等能力。本报告将系统介绍语言大模型和代码大模型的基本概念、发展历程、技术原理以及应用场景。
简介:车万翔,哈尔滨工业大学计算学部长聘教授/博士生导师,人工智能研究院副院长,国家级青年人才,龙江学者“青年学者”,斯坦福大学访问学者。现任中国中文信息学会理事、计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;国际顶级会议ACL 2025程序委员会共同主席。承担国家自然科学基金重点项目、2030“新一代人工智能”重大项目课题等多项科研项目。著有《自然语言处理:基于预训练模型的方法》一书。曾获AAAI 2013最佳论文提名奖。负责研发的语言技术平台(LTP)已授权给百度、腾讯、华为等公司付费使用。2016年获黑龙江省科技进步一等奖(排名第2),2020年获黑龙江省青年科技奖。