第八届全国社会媒体处理大会"拓尔思杯"中文隐式情感分析评测(SMP-ECISA 2019)

社媒派SMP 今天

欢迎来到SMP2019"拓尔思杯"中文隐式情感分析评测

The Evaluation of Chinese Implicit Sentiment Analysis, SMP-ECISA 2019


第八届全国社会媒体处理大会(SMP2019) 将于2019年8月16日—18日在深圳召开。全国社会媒体处理大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究 与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术 会议交流体验。全国社会媒体处理大会每年举办一次,现已成为社会媒体处理的重要学术活动。第八届全国社会媒体处理大会(SMP2019)由中国中文信息学 会社会媒体处理专委会主办,哈尔滨工业大学(深圳)承办。

在本届SMP 会议上,我们将举办"拓尔思杯"中文隐式情感分析评测(SMP-ECISA2019)。近年来,显式情感分析已经取得了良好的进展与丰硕的成果,但对隐式情感分析研究 仍处于起步阶段。隐式情感分析作为情感分析的重要组成部分,其研究成果将有助于更全面、更精确地提升在线文本情感分析的性能,可为文本表示学习、自然语言 理解、用户建模、知识嵌入等方面研究起到积极的推动作用,也可进一步促进基于文本情感分析相关领域的应用和产业的快速发展。

本届"拓尔思杯"中文隐式情感分析评测由中国中文信息学会社会媒体处理专委会主办,山西大学计算机与信息技术学院承办并提供数据集,拓尔思信息技术股份有限公司提供丰厚的的奖励:一等奖奖金 11000 元、二等奖5000 元、 三等奖 3000元,旨在促进中文隐式情感分析相关研究的发展,为本领域的学术研究人员和产业界从业人员提供一个良好的沟通平台。

热烈欢迎对中文隐式情感分析感兴趣的个人和团队积极报名参赛!

 

评测内容

评测任务概述

本届"拓尔思杯"中文隐式情感分析评测任务为中文隐式情感句识别与情感分类。任务描述如下:

文 本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。从文本的语言表达层面,依照是否含有显式情感词,可分为显式情感分析和隐式情 感分析。显式文本情感分析作为该领域的基础性研究,已有大量的相关研究成果。然而,在日常表达中,人们在对客观事物体验及其行为所反映出的情感是丰富而抽 象的,除采用显式情感词表达情感外,还采用客观陈述或者修辞方式来隐式地表达自己的情感。根据我们对收集的文本数据的标注结果,隐式情感句占总情感句的15%-20%左右。我们将隐式情感定义为:“不含有显式情感词,但表达了主观情感的语言片段”,并将其划分为事实型隐式情感和修辞型隐式情感。其中,修辞型隐式情感又可细分为隐喻/比喻型、反问型以及反讽型。本次评测任务中,仅针对隐式情感的识别与情感倾向性分类。

【中文隐式情感句示例】

1你们公司一年的销售额也赶不上我们一个月的。(贬义隐式情感)

2有种活着诗里的感觉:烟笼寒水月笼沙,夜泊秦淮近酒家。(褒义隐式情感)

我去的时候,客栈标间大多开价100元一间,还价到70元住下。(不含情感)

 

数据集说明

本次技术评测使用的数据集由山西大学提供,数据来源主要包括微博、旅游网站、产品论坛,主要领域/主题包括但不限于:春晚、雾霾、乐视、国考、旅游、端午节等。

本次评测中,我们将使用一个大规模情感词典,过滤掉所有包含显式情感词的文本。对这类不含显式情感词的数据进行标注,将数据标注为:褒义隐式情感、贬义隐式情感以及不含情感倾向的句子。评测数据以切分句子的篇章形式发布,保留了完整的上下文内容信息。

训练数据集包括篇章12,664 篇,其中标注数据14,774句,褒义、贬义隐式情感句分别为3,828、3,957句,不含情感句为6,989句。验证集包括篇章4,391篇,其中标 注数据5,143句,褒义、贬义隐式情感句分别为1,232、1,358句,不含情感句为2,553句。测试数据集包括篇章6,380篇,其中标注数据 3,800句,褒义、贬义隐式情感句为919和979句,不含情感句为1,902句。其余为混淆数据,混淆数据不作为测点,在最终结果评测时会预先去除。

数据集以xml格式发布,内容形式为:

<Doc ID="5">

<SentenceID="1">因为你是老太太</Sentence>

<SentenceID="2"label="1">看完了,满满的回忆,很多那个时代的元素</Sentence>

</Doc>

红色加粗为标记句子,含有完整的上下文,标签为:0-不含情感,1-褒义隐式情感,2-贬义隐式情感。

 

评价指标

宏平均准确率(P)、召回率(R)及F1值。

 

重要日期

424日:发布评测方案,开始报名

55日:发布训练集和验证集

714日:发布评测集,提交最终结果(1天之内完成)

725日:评测结束,公布结果

726日:开始撰写评测报告

816-18日:SMP2019大会期间召开SMP-ECISA 2019技术评测论坛(颁奖+技术报告)

 

竞赛规则与提交物

    1.   所有参赛选手都必须在评测管理系统biendata.com中注册。

    2.    参赛选手在管理系统中组队,每支队伍最多不超过10名队员。

    3.   每支队伍需指定一名队长,名称不超过15个字符。

    4.   每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格。

    5.   各参赛单位可以开放地获取除承办方提供的数据之外的训练及开发数据。

    6.   评测时,承办方给定带有混淆数据的测试集,各参评单位运行参赛系统并提交全部句子结果,承办方再从提交结果中去除混淆数据后得出最终的评测结果。

    7.   提交物:每支队伍需在提交最终结果截止时间之前,提交评测集的最终结果。最终结果文件命名为队伍名称-final.txt”,格式形如:

 

篇章号-句子号               标签

各列以制表符\t进行间隔,标签类别同训练集。

 

注意:提交的结果文件必须是无BOM的UTF-8格式文本文件;文件中不要有多余的空格。

 

奖励

    ·        一等奖1名:11000元

    ·        二等奖2名:每名5000元

    ·        三等奖3名:每名3000元

    ·        全部获奖队伍均可获得由中国中文信息学会社会媒体处理专委会(CIPS-SMP)颁发的获奖证书,并被邀请在SMP2019大会举办的技术评测论坛上进行汇报交流。

 

参赛系统

所有参赛队伍在竞赛平台biendata中注册、组队、下载数据集等。评测相关信息也将在竞赛平台中发布。

系统网址:

http://biendata.com/competition/smpecisa2019/

 

组织者

主办单位:

中国中文信息学会社会媒体处理专业委员会

承办单位:

山西大学计算机与信息技术学院

赞助单位:

拓尔思信息技术股份有限公司

 

评测委员会

评测指导:

                哈尔滨工业大学

林鸿飞            大连理工大学

徐睿峰            哈尔滨工业大学(深圳)

评测主席:

王素格            山西大学

评测委员:

                中科院自动化所

魏忠钰            复旦大学

赵妍妍            哈尔滨工业大学

               山西大学

 

联系方式

如有任何与本次技术评测相关疑问,请随时联系评测委员会。

邮箱:liaojian_reg@163.com

 

致谢

感谢拓尔思信息技术股份有限公司为本次评测提供的赞助!

感谢人工智能竞赛平台Biendata为本次评测提供平台支持!

 


    已同步到看一看

    发送中

    微信扫一扫
    关注该公众号