北京信息科技大学-智能信息处理研究所
Institute of Intelligent Information Processing, Beijing Information Science & Technology University

学员活动

当前位置:首页  学员活动 

CMRC2018经验分享

作者:张禹尧、王胜    来源:智能信息处理研究所    发表时间:2018-10-08 09:36:55


         2018930日,智能信息处理研究所举行国庆节前最后一次例会。会上,张禹尧同学对CMRC2018阅读理解评测进行了经验介绍:

Attention——1.jpg

本次阅读理解评测的任务是“篇章片段抽取型阅读理解”(Span-Extraction Reading Comprehension) 根据给定的一个文档和一个问题,参赛者需要建立模型从该文档中抽取出问题的答案,其中答案是篇章中的某个连续片段(即预测答案在篇章中的起始位置和终止位置,并把对应的文本抽取出来)。

Attentions_1.jpg

此次任务的数据均来自中文维基百科,数据规模如下图所示:

Attentions_2.jpg

评价指标如下:

Attentions_3_.jpg

以上为CMRC2018任务的基本信息,下面,给出这次参赛模型的介绍。

Attentions_4.jpg

数据预处理部分,这里主要做了4个工作,除了基本的答案标注和分词外,还引入了命名实体识别,并手工提取了两个特征,来一定程度上消除分词所带来的UNK问题。

Attentions_5.jpg

本次参赛的模型经过了多轮的改进,最终达到了一个较为满意的成绩。Base-Model的设计如下图所示。

Attentions_6.jpg

经过多轮的设计改进后,最终模型如下:

Attentions_7.jpg

模型融合部分,选择使用了5个模型进行融合,将每个模型预测的结果相加,然后取最大值作为最终的预测结果,过程如下图所示。

Attentions_8.jpg

介绍完模型之后,又对Attention机制进行了相关介绍,分享了Attention的基本内容(包括提出、使用方式、基本类型等)。

Attention_2.jpg

此次分享为大家在自然语言处理竞赛方面进行了基础扫盲,同学们也对阅读理解测评有了一定的了解。同学们表示这次例会提升了自己参与竞赛的热情与信心,也有助于提升研究所的竞赛与氛围与水平。