视觉语言学习的新进展:定位与导航
摘要:现代控制系统(如机械臂、无人汽车等)通常依赖于多模态感知数据(包括视觉、语言、触觉、听觉等)来决定下一步的行为。语言和视觉是最广泛使用的两种模态,其中语言语句可以为控制系统提供指令性信息,而视觉数据具有获取较易、信息量大的特点。本报告将介绍本实验室近年来在视觉语言学习方面的研究进展,包括多种形态(三元组、短语、语句等)的自然语言指令在视觉数据中的定位,以及视觉全景图和语言指令下的智能导航技术。我们将展示基于高阶语义概念库的相关新技术、基于全局一致性的语义事件的时空定位、基于空域轨迹先验的视觉语言导航算法等工作。
简介:穆亚东,北京大学研究员、长聘副教授、博士生导师,先后在北京大学获得理学学士和理学博士学位。曾在新加坡国立大学、美国哥伦比亚大学、华为香港诺亚方舟实验室、美国电话电报公司研究院(AT&T Labs)担任研究职位,主要研究领域为计算机视觉和机器学习,入选中组部2016年“千人计划”青年项目,在国际主流会议和期刊发表论文90余篇,其中在CVPR/ICML/NeurIPS等中国计算机学会论文推荐列表A类会议和T-PAMI等IEEE汇刊发表论文超过50篇,申请PCT/美国/中国专利20余项。获得陕西省自然科学一等奖和国际会议SIGIR最佳论文提名奖。担任多媒体领域旗舰期刊IEEE Transactions on Multimedia的编委,多次担任计算机视觉领域顶级会议(如CVPR、ACM Multimedia)的领域主席。近期研究工作包括视觉语言学习、机械臂抓取、结构化物体姿态估计与运动合成、基础神经网络设计、神经符号计算等。