面向继续预训练的高效数据方法
摘要:近年来,大语言模型的研发受到了广泛关注,一般包括预训练与后训练两个阶段,其中预训练阶段是建立模型能力的关键。本次报告将聚焦预训练与继续预训练过程的基本技术路线,将针对其中涉及的数据工程方法展开讨论。除了介绍如何高效利用已有数据外,还将介绍大规模合成数据在继续预训练中的应用方法。特别地,我们将以Llama 3为例,完整介绍继续预训练所涉及的数据工程方法。
简介:文继荣,中国人民大学信息学院院长、高瓴人工智能学院执行院长,曾任微软亚洲研究院高级研究员和互联网搜索与挖掘组主任。长期从事人工智能和大数据领域的研究工作,近年来尤其专注于大模型相关的研究和应用。入选国家海外高层次人才计划、北京市卓越青年科学家计划等。担任北京市第十四届政协常委、中央统战部党外知识分子建言献策专家组专家、第八届教育部科技委委员、中国计算机学会常务理事、SIGIR 2020程序委员会主席等。