开放知识获取:从启发式规则到端到端Bootstrapping网络

近年来,神经网络在有监督信息抽取方面取得了飞速进展。然而,有监督信息抽取仍然需要人工定义抽取模型、依赖大量标注语料,如何快速、轻量、自学习式的获取开放知识仍是一个难题。传统的Bootstrapping技术可以声明式的获取开放式知识,却受制于其对规则的依赖、启发式的模型、以及多步的迭代过程。在本报告中,我们将探索如何结合神经网络和Bootstrapping技术,构建一个端到端的Bootstrapping网络,包括:(1)如何在启发式Bootstrapping过程中引入可学习组件;(2)如何构建可端到端知识获取的Bootstrapping Network;(3)如何使用Self-learning技术对Bootstrapping Network进行高效学习。上述技术可以为大规模、高性能的开放知识获取提供轻量、快速、敏捷的模型,同时也探索了知识获取从命令式技术到声明式技术的转变。


简介:韩先培,中国科学院软件研究所中文信息处理实验室/计算机科学国家重点实验室研究员,博士生导师。主要研究方向为信息抽取、知识图谱、语义解析以及智能问答系统。在ACL、SIGIR、IJCAI、AAAI等重要国际会议发表论文60余篇。承担和参与自然科学基金重点、自然科学基金面上、国家重点研发专项、863计划等十余项课题。韩先培目前担任中国中文信息学会理事,语言与知识计算专业委员会副主任。入选中国科协青年人才托举计划、中国科学院青促会会员、北京智源研究院自然语言处理方向青年科学家、中国科学院软件研究所杰出青年人才发展专项计划,2016获得中国中文信息学会汉王青年创新奖。