招标网站建设申请,深圳哪家网站设计比较好,想做电商怎么入手,美食网站建设的可行性赛题题目
通用信息抽取任务评测
将多种不同的信息抽取任务用统一的通用框架进行描述#xff0c;着重考察相关技术方面在面对新的、未知的信息抽取任务与范式时的适应和迁移能力。
赛题介绍
信息抽取旨在将非结构化文本中的信息进行结构化#xff0c;是自然语言处理的基础…赛题题目
通用信息抽取任务评测
将多种不同的信息抽取任务用统一的通用框架进行描述着重考察相关技术方面在面对新的、未知的信息抽取任务与范式时的适应和迁移能力。
赛题介绍
信息抽取旨在将非结构化文本中的信息进行结构化是自然语言处理的基础技术和重要研究领域。一直受到学术界和工业界的广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务。难以评估相关技术与方法在通用场景和任务下的抽取性能。 为此中国科学院软件研究所百度公司与千言开源数据集项目联合发起业界首个通用信息抽取评测。千言通用信息抽取竞赛 本榜单是千言通用信息抽取的常规赛版本。面对NLP开发者长期报名和提交。不设置截止提交时间任务设置与该竞赛保持一致**不局限于传统的单任务信息抽取的评测范式而是将多种不同的信息抽取任务用统一的通用框架进行描述**着重考察相关技术方法在面对新的、未知的信息抽取任务与范式时的适应与迁移能力从而满足当下信息抽取领域快速迭代、快速迁移的实际需求更贴近实际业务应用。 ———————————————————————— 信息抽取任务旨在根据特定的抽取需求从非结构化文本中自动抽取结构化信息。其中特定的抽取需求是指抽取任务中的抽取框架抽要由抽取类别人物名称、公司名称、企业上市事件及目标结构实体、关系、事件等组成。本任务为中文信息抽取任务即按照特定的抽取框架sss,从给定的一组自由文本xxx中抽取出所有符合抽取需求的信息结构YYY.(实体、关系、事件记录等对于同一输入文本不同的抽取框架会抽取不同的信息结构如下
抽取框架示例金融事件抽取
输入文本text
宁波容百新能源科技股份有限公司(简称“容百科技”证券代码688005)在科创板上市。
抽取需求 事件定义
企业通过证券交易所首次公开向投资者增发股票以期募集用于企业发展资金的过程。 上市企业 于 上市时间 在 上市板块 上市一共融资 融资金额。
论元定义
上市企业是指所发行的股票经过国务院或者国务院授权的证券管理部门批准在证券交易所上市交易的股份有限公司。上市时间指证券管理部门在证券交易所上市交易的时间上市板块是指主板、中小板、创业板、其他。融资金额是指上市企业通过“上市”这一行为融到的总资本 ——————————————————————
抽取框架示例2 东奥事件抽取
输入文本text
2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌
抽取需求 抽取框架3人物信息
输入文本
2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌
抽取需求 示例输出3 示例框架4对话情感抽取 数据集介绍
本评测的数据及抽取框架主要来自于千言数据平台和百度通用信息抽取的应用案例本文评测构建了多领域多场景下的多种抽取框架包含医疗、法律、金融等领域和实体抽取、关系抽取、事件抽取等多种抽取任务。以期评测现有技术对通用领域下的信息抽取能力以及对新任务、场景的迁移能力。参赛者可以通过已有模型以及千言平台公开课获得的数据集进行快速数据构建和现有模型的迁移。 同时评测鼓励参赛者使用公开的可获取的数据集和知识库数据通过半监督、远距离监督等形式构建训练数据。 数据集组成主要包含两个部分
6个Seen Schema已知框架 主要来自千言平台与AI Studio平台上可获取的数据参赛者可根据平台数据构建模型该赛道主要评测现有技术基于标记数据构建模型的能力。 4个Unseen Schema未知框架 主要来自百度数据的抽取案例评测方仅提供少量的验证数据用与参赛者进行抽取需求确认和模型验证该赛道主要评测现有技术面向新的抽取需求的迁移能力 本次评测数据分为三次发布 Seen Schema定义文件、验证数据。 该部分数据主要来源于千言数据集平台中的各类数据。每一个Schema 包含结构和类型定义并提供少量验证数据。验证数据用于帮助参赛选手确认标注规范例如标注边界等。Unseen Schema定义和少量对应的验证数据。 每一个Schema 包**含结构和类型定义并提供少量验证数据。**验证数据用于帮助参赛选手确认标注规范例如标注边界等。测试集数据(最终测试集)。 参赛者需要对纯文本数据及对应的抽取需求同时包含seen和unseen进行信息抽取最后提交抽取结果。
数据说明
抽取框架定义
抽取框架定义文件为YAML格式包含了不同任务的抽取形式和标签定义。每个抽取框架文件包含实体、关系和事件等定义信息。 训练集文件
不同抽取框架的训练集文件为一个jsonlines文件文件中的一行是一个训练实例包含输入文本X抽取框架Sschema和目标结构Yentity、relation、event。数据样例如下 { “text”: “宁波容百新能源科技股份有限公司(简称“容百科技”证券代码688005)在科创板上市实控人白厚善的资本术也浮出水面也引来各路资本加持。”, “entity”: [], “relation”: [], “event”: [ { “type”: “上市”, “text”: “上市”, “args”: [ {“type”: “上市板块”, “offset”: [38, 39, 40], “text”: “科创板”}, {“type”: “上市企业”, “offset”: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14], “text”: “宁波容百新能源科技股份有限公司”} ] } ], “schema”: “金融信息” } 训练文件中每个实例包含的常用字段为
text 输入文本scheme对应的抽取框架entity 实体标注结果relation 关系标注结果event事件标注结果
测试集文件 测试文件中每个实例包含的常用字段
text 输入文本scheme对应的抽取框架id 抽取实例id
提交格式
模型预测结果以编码为UTF-8的jsonlines的文件格式提交到AI Studio平台进行在线评分实时排名。文件中一行为一个json对象是一个实例的预测结果样例如下所示。选手需针对所有测试样例提交结果若无输出结果则目标结构entity、relation、event列表为空。
评测内容
本次大赛基于抽取系统从输入序列中抽取的输出记录进行评价。我们将不同范式的抽取任务统一表示成不同的多元组并对集合去重的结果进行评价评测脚本自动将提交格式中的输出结果转化为多元组并进行评价评价形式可能包括二元组与三元组。
多元组中所涉及的基本元素包括 文本块抽取结果span,以字符串形式出现不需要对应的offset) 表示类型的标签例如实体类型、事件类型 表示关联关系的标签例如关系类型、事件论元类型 具体来讲评测的多元组具体包含 Span类型标签代表性的抽取任务包括有实体抽取任务实体提及span实体类型、事件触发词识别任务触发词span事件类型 关联关系标签Span1Span2代表性的抽取任务包括有关系抽取任务(关系类型, 主体span, 客体span、情感三元组情感极性意见对象span情感表达span 类型标签关联关系标签Span代表性的抽取任务包括有事件论元识别事件类型论元角色论元span 请注意本次评测主要关注于信息的抽取而非标注。因此对于同一段文本中出现多次的相同信息我们将去重后进行评价。例如对于同一段输入文本中出现有多次相同的特定实体模型仅需要输出一个二元组即可输出多个相同的二元组评价脚本将自动去重。
评价指标 总体打分 经验
慢慢的将这个比赛挖掘透彻通过问题形式完成该比赛一个月完成一个都是进步慢慢的积累自己的比赛经验。