SMP 2019“中国法研杯”中文法律阅读理解比赛


第八届全国社会媒体处理大会 “中国法研杯” 司法人工智能挑战赛之中文法律阅读比赛(SMP-CJRC 2019)

简介

欢迎来到SMP2019“中国法研杯”司法人工智能挑战赛之中文法律阅读理解比赛(The Chinese Judicial Reading Comprehension Challenge, SMP2019-CJRC)。
第八届全国社会媒体处理大会(The Eighth China National Conference on Social Media Processing)将于2019年8月16-18日在深圳召开。全国社会媒体处理大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。全国社会媒体处理大会每年举办一次,现已成为社会媒体处理的重要学术活动。第八届全国社会媒体处理大会(SMP 2019)由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学(深圳)承办。
在本届SMP会议上,我们将举办中文法律阅读理解比赛(SMP-CJRC 2019)。近年来,深度学习和自然语言处理技术在以SQuAD为代表的机器阅读理解比赛中取得了巨大突破,同时也开始在智慧司法领域崭露头角,受到了学术界和产业界的广泛关注。为了促进智慧司法相关技术的发展,同时将阅读理解技术实际应用到产业界,我们提出了中文法律阅读理解比赛。旨在通过阅读理解技术,辅助法官、律师以及普通大众更方便的获取所需信息。
本届中文法律阅读理解比赛由中国中文信息学会社会媒体处理专委会、中国司法大数据研究院主办,科大讯飞股份有限公司、哈尔滨工业大学联合承办,科大讯飞股份有限公司提供奖金。
欢迎对阅读理解和智慧司法感兴趣的个人和团体积极报名参赛!

评测内容

评测任务概述

裁判文书中包含了丰富的案件信息,比如时间、地点、人物关系等等,通过机器智能化地阅读理解裁判文书,可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。本次比赛是首次基于中文裁判文书的阅读理解比赛,属于篇章片段抽取型阅读理解比赛(Span-Extraction Machine Reading Comprehension)。为了增加问题的多样性,参考英文阅读理解比赛SQuAD和CoQA,本比赛增加了拒答以及是否类(YES/NO)问题(样例见图1)。鉴于民事和刑事裁判文书在事实描述部分差异性较大,相应的问题类型也不尽相同,为了能同时兼顾这两种裁判文书,从而覆盖大多数裁判文书,本次比赛会设置民事和刑事两类测试集。
比赛行程划分为两个阶段,第一阶段根据开发集的测试结果排名,第二阶段根据测试集的测试结果排名。比赛最终成绩计算方式:最终成绩 = 第一阶段的成绩 * 0.3 + 第二阶段的成绩 * 0.7

图1 数据样例。前三个问题的回答属于篇章的一个片段,第四个属于是否类问题,最后一个属于拒答问题,即在篇章找不到可以回答该问题的片段

评价指标

本次比赛采用与CoQA比赛一致的宏平均(macro-average F1)进行评估。
对于每个问题,需要与N个标准回答计算得到N个F1,并取最大值作为其F1值。然而在评估人类表现(Human Performance)的时候,每个标准回答需要与N-1个其它标准回答计算F1值。为了更公平地对比指标,需要把N个标准回答按照N-1一组的方式分成N组,最终每个问题的F1值为这N组F1的平均值。整个数据集的F1值为所有数据F1的平均值。计算公式如下:

其中,InterSec计算预测回答与标准回答的交集(以字为单位),Countref表示标准回答数目(3个),max部分取预测回答与每个标准回答(除当前标准回答外,目的是与评估人类水平的方法一致)F1值的最大值。最终得分为民事和刑事测试集宏平均F1的平均值。

数据集说明

本次技术评测使用的数据集由科大讯飞提供,数据主要来源于裁判文书网,其中包含刑事和民事一审裁判文书。训练集约包含4万个问题,开发集和测试集各约5000个问题。对于开发集和测试集,每个问题包含3个人工标注参考答案。开发集和测试集又均包含民事和刑事两部分数据。

重要日期

注册报名:5月13日开启报名,报名网站http://cail.cipsc.org.cn/ ,敬请关注!

事件

时间

报名

2019513-2019630

训练数据发布

2019515

比赛第一阶段

2019516-2019715

比赛第二阶段

2019716-2019725

评测结束

2019726

撰写技术报告

2019727-2019813

SMP2019大会期间召开研讨会

2019816-2019818

奖励

一等奖1名:20000元
二等奖2名:10000元
三等奖4名:5000元

评测委员会

评测指导委员会:

许建峰 最高人民法院信息中心主任
王珩 中国司法大数据研究院总经理
刘挺 哈尔滨工业大学教授、哈工大人工智能研究院副院长
林鸿飞 大连理工大学教授、大连理工信息检索研究室主任
王士进 河北省讯飞人工智能研究院院长、科大讯飞研究院副院长
刘知远 清华大学计算机系副教授

评测主席:

伍大勇 科大讯飞研究院副院长

评测副主席:

胡振 中国司法大数据研究院
刘铭 哈尔滨工业大学
崔一鸣 科大讯飞

评测委员:

王宝鑫 科大讯飞
霍天翔 中国司法大数据研究院
段兴义 科大讯飞
王梓玥 科大讯飞
马文涛 科大讯飞

联系方式

如有任何与本次技术评测相关的疑问,请随时联系评测委员会。
邮箱:rdg_cail2019_rc@iflytek.com

致谢

主办方:中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)、中国司法大数据研究院
承办方:科大讯飞股份有限公司(iFLYTEK)、哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)
赞助方:科大讯飞股份有限公司

详细内容,请扫描二维码