大规模多模态预训练模型

摘要:“GPT-3”的出现让人们意识到了大规模通用预训练语言模型在各种文本相关的人工智能应用中的重要性。事实上,人类在表达和理解信息时也往往采用多模态的方式,数字世界中大量的信息是以多模态的形式存在的,仅通过文字进行复杂语义理解尚有一定的局限性。联合多模态数据进行预训练可以更接近真实物理世界,完成更为复杂的任务。我们将简要介绍我们在大规模图文融合预训练、融合结构的预训练等几个方面的探索。


窦志成,教授,博导,中国人民大学高瓴人工智能学院副院长,北京智源人工智能研究院“智能信息检索与挖掘”方向项目经理,基于大数据文科综合训练国家级虚拟仿真实验教学中心执行主任。2018至2014年在微软亚洲研究院工作,2014年开始在中国人民大学任教。主要研究方向为智能信息检索、自然语言处理、大数据分析。已在国际知名学术会议和期刊上(如SIGIR、WWW、CIKM、WSDM、ACL、EMNLP、TKDE等)发表论文50余篇,获SIGIR 2013最佳论文提名奖,AIRS 2012最佳论文奖。曾担任信息检索领域顶级会议SIGIR的程序委员会主席(2019短文),亚洲信息检索学术会议AIRS大会主席(2016)、程序委员会主席(2017)和执委会主席(2018),全国信息检索学术会议CCIR程序委员会主席(2020)等。任多个国际学术会议和期刊的程序委员会委员和审稿人,任中国计算机学会大数据专家委员会副秘书长、中文信息学会信息检索专委会执行委员。除学术研究外,窦志成教授还乐于将研究想法实现成可运行的系统,亲自动手开发了包括时事探针(http://playbigdata.ruc.edu.cn/)在内的多个系统,拥有多项发明专利。