当前位置: 首页 > news >正文

讷河做网站公司wordpress表单模板

讷河做网站公司,wordpress表单模板,wordpress 加载文件太多,养生类网站源码背景与简介 信息抽取#xff08;information extraction#xff09;是指#xff0c;从非结构化或半结构化数据#xff08;如自然语言文本#xff09;中自动识别、提取并组织出结构化信息。通常包含多个子任务#xff0c;例如#xff1a;命名实体识别#xff08;NERinformation extraction是指从非结构化或半结构化数据如自然语言文本中自动识别、提取并组织出结构化信息。通常包含多个子任务例如命名实体识别NER、关系抽取RE、事件抽取EE。由于任务目标的多样性如实体、关系、事件和情感等、文本结构的异构性如片段、三元组、记录等以及特定应用需求的多变性传统的信息抽取方法往往针对特定任务或领域进行优化难以在跨任务或跨领域的情境中迁移和泛化。 随着大语言模型的发展通用信息抽取大模型逐渐成为主流。此类模型将不同任务和领域统一为端到端的框架并能够在未见过的数据或领域上展现出较好的性能。然而当前主流的通用信息抽取大模型通常规模较大这些模型在本地部署时面临推理速度较慢、计算资源受限等问题难以满足实际应用的需求。为应对上述挑战飞桨团队基于开源模型和高质量数据集开发了通用信息抽取大模型PP-UIE。PP-UIE借鉴了百度UIE的建模思想旨在支持中英文信息抽取任务。模型涵盖命名实体识别NER、关系抽取RE和事件抽取EE等任务提供0.5B、1.5B、7B和14B四个版本以适应不同场景中的需求。同时模型在零样本预测能力上在多个数据集包含 Boson、CLUENER、CCIR2021等常见数据集相比传统UIE-Base模型的抽取效果大幅度得到提升具备更好的实用价值。 产品亮点 1. 效果更佳的零样本信息抽取能力PP-UIE具备强零样本学习能力能快速适应新任务和数据相比UIE-Base模型在 通用领域、新闻领域等多个数据上效果抽取效果平均提升66% 相比开源信息抽取大模型YaYi-UIE在F1指标上提高18.3个百分点相比DeepSeek-R1-Distill-Qwen-14B 在F1指标上提高25.8个百分点。同时PP-UIE具备更好小样本能力只需要1-10条样本就可以快速提升模型在特定业务上的效果相比传统的信息抽取模型大幅降低数据标注成本。 2. 强大的长文档信息抽取能力PP-UIE具备处理长文本能力能跨越多个段落或句子识别关键信息形成完整理解。该能力对于大型文档等复杂文本尤为重要传统的UIE-Base模型只能支持 256 个Token长度的文本抽取而PP-UIE可以支持8192个Token长度文档的信息抽取支持的文本长度提升3 2倍。 3. 完备的大模型信息抽取定制能力本模型基于PaddleNLP 3.0提供模块化、可定制化的训练和推理流程支持灵活调整以满足不同需求。训练效率较LLama-Factory提升1.8倍 。 同时在推理阶段PaddleNLP 3.0还为用户提供了便捷的调用方式助力用户快速完成模型的部署与实际应用。 欢迎开发者前往开源项目主页直接体验 https://github.com/PaddlePaddle/PaddleNLP 亮点一 效果更佳的零样本信息抽取能力 信息抽取任务中要获取高质量的标注数据不仅成本高昂而且耗时长。为了应对这一挑战PaddleNLP开发的通用信息抽取大模型特别强化了零样本Zero-shot学习的能力旨在通过少量甚至没有标注数据的支持实现快速冷启动和高效迁移学习。 下表为模型在各数据集的零样本zero-shot和小样本few-shot能力。 从表格中可以看出随着模型规模的增大无论是零样本zero-shot能力还是小样本few-shot能力都有显著提升。具体来说 在零样本zero-shot任务中模型的表现随着规模的增加逐步提高。例如PP-UIE-0.5B模型在CMeEE数据集中F1分数为0.479而PP-UIE-14B模型的F1分数则达到了0.556显示出明显的提升。 抽取内容嫌疑人,案发城市,资损金额输出贺某,孙某,杞县阳堌镇北村,杞县,3700多元,1300元在小样本few-shot任务中随着模型参数的增大F1值也呈现出相应的增长。PP-UIE-14B在CMeEE数据集中少样本条件下的F1达到了0.588优于其他规模较小的模型。PP-UIE通过在输入数据前增加对应输出格式和输出内容样例提升模型的输出准确性和格式规范性。 抽取内容身体部位zero-shot输出肾上腺皮质,肾上腺皮质,肾上腺皮质few-shot输出肾上腺皮质综上所述模型的规模与其在零样本和小样本任务中的表现成正比增大模型规模能够显著提高其性能。 PP-UIE系列 zero-shot和Few-Shot样例 同时我们和开源的信息抽取大模型YaYi-13B、DeepSeek-R1-Distill-Qwen-14B进行了效果对比测试下表为不同数据集领域中zero-shot的效果对比 综合来看PP-UIE-0.5B在零样本任务中的整体表现明显超过YaYi-UIE-13B 和DeepSeek-R1-Distill-Qwen-14B说明PP-UIE-0.5B具有更强的零样本学习能力且PP-UIE-0.5B可以大幅降低推理部署成本。 亮点二 长跨度的信息抽取能力 当前用户面临着前所未有的海量文本数据其中不乏长篇文章、报告和文档。因此用户对于长文信息抽取的必要性愈发凸显。在此背景下PP-UIE系列模型凭借其长文能力为用户提供长文信息抽取的高效工具。PP-UIE能跨越多个段落或句子识别关键信息形成对文本内容的完整理解。传统的UIE-Base模型在处理文本时存在局限性只能支持256个Token长度的文本抽取这大大限制了其在处理长文本时的应用。而 PP-UIE 则突破了这一限制可以支持8192个Token长度的文档级别的信息抽取使得长文档信息抽取能力得到大幅提升。这一改进使得 PP-UIE 在处理复杂文本时更加高效、准确具有广泛的应用前景。 抽取内容嫌疑人,案发城市,资损金额输出贺某,孙某,杞县阳堌镇北村,杞县,3700多元,1300元抽取内容时间,公司,财务数据,业务输出2023年10月18日,摩根士丹利,2023年第三季度,72亿美元,18%,165亿美元,145亿美元,14%,88亿美元,12%,全球财富管理市场,高净值客户市场,北美和欧洲市场,高净值客户,并购和IPO业务,美国联邦储备系统美联储,债券交易业务,债券交易收入,同比下降了8%,人工智能AI,数字化金融,科技创新基金,绿色债券,环境、社会和治理ESG投资,绿色金融产品,清洁能源项目,可再生能源,碳排放减排技术,高盛集团,瑞士信贷,花旗银行,全球信用卡和零售银行业务,亚洲市场,中国,印度,新兴市场,全球高净值客户,大数据,人工智能亮点三 完备的大模型信息抽取定制能力 对于基础的信息抽取任务PP-UIE系列模型可以直接上手高效完成信息抽取。然而面对更为复杂或特定领域的任务场景我们强烈推荐利用轻定制功能即仅需标注少量数据即可对模型进行微调以进一步提高模型效果。PaddleNLP 为通用信息抽取大模型提供了完整的、可定制化的训练和推理全流程使用户能够根据具体应用需求灵活调整模型实现更高效、更精准的信息抽取任务。相较于LLama-FactoryPaddleNLP在训练效率上实现了1.8倍的提升特别针对7B模型进一步展示了其在大模型精调上的卓越性能。 1. 定制自己的训练数据集 步骤1准备语料并标注 首先需要准备相应的预标注文本预标注文本中一行代表一条数据并保存为txt以下格式 2022年语言与智能技术竞赛由中国中文信息学会和中国计算机学会联合主办百度公司、中国中文信息学会评测工作委员会和中国计算机学会自然语言处理专委会承办已连续举办4届成为全球最热门的中文NLP赛事之一。我们推荐使用数据标注平台doccano进行数据标注标注方法的详细介绍请参考doccano数据标注指南。标注完成后在doccano平台上导出文件。 · doccano数据标注指南 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/application/doccano.md 步骤2数据集格式转换 在doccano平台上导出的json格式的文件通常不能直接用来模型微调。PaddleNLP也打通了从标注到训练的通道即doccano导出数据后可通过doccano.py脚本轻松将数据转换为输入模型时需要的形式实现无缝衔接。 --doccano_file your/data/path \--save_dir ./data \--splits 0.8 0.2 0 \--schema_lang ch执行以上脚本进行数据转换执行后会在./data目录下生成训练/验证/测试集文件。 2. 模型微调 推荐使用大模型精调对模型进行微调。只需输入模型、数据集等就可以高效快速地进行微调和模型压缩等任务可以一键启动多卡训练、混合精度训练、梯度累积、断点重启、日志显示等功能并且针对训练过程的通用训练配置做了封装比如优化器、学习率调度等。 使用下面的命令使用paddlenlp/PP-UIE-1.5B作为预训练模型进行模型微调将微调后的模型保存至指定路径中。 如果在GPU环境中使用可以指定gpus参数进行多卡训练 # 返回llm目录python -u -m paddle.distributed.launch --gpus 0,1 run_finetune.py ./config/qwen/sft_argument.jsonsft_argument.json的参考配置如下 model_name_or_path: paddlenlp/PP-UIE-1.5B,dataset_name_or_path: ./application/information_extraction/data,output_dir: ./checkpoints/ie_ckpts,per_device_train_batch_size: 1,gradient_accumulation_steps: 1,per_device_eval_batch_size: 1,eval_accumulation_steps:8,num_train_epochs: 3,learning_rate: 3e-05,warmup_steps: 30,logging_steps: 1,evaluation_strategy: epoch,save_strategy: epoch,src_length: 1024,max_length: 2048,fp16: true,fp16_opt_level: O2,do_train: true,do_eval: true,disable_tqdm: true,load_best_model_at_end: true,eval_with_do_generation: false,metric_for_best_model: accuracy,recompute: false,save_total_limit: 1,tensor_parallel_degree: 1,pipeline_parallel_degree: 1,sharding: stage2,zero_padding: false,unified_checkpoint: true,use_flash_attention: false}3. 定制模型一键推理 PaddleNLP提供了两种可选的方式对模型进行推理 1使用 PaddleNLP的高性能 predictor进行快速推理 内置全环节融合算子策略支持 Weight Only INT8及 INT4推理支持权重、激活、Cache KV 进行 INT8、FP8量化的推理支持动态图推理和静态图推理两种方式 python predict/predictor.py \--model_name_or_path paddlenlp/PP-UIE-1.5B \--dtype float16 \--data_file ./application/information_extraction/data/test.json \--output_file ./output.json \--src_length 512 \--max_length 20 \--batch_size 4 \更多关于predictor.py的配置参数说明请参考大模型推理教程 https://paddlenlp.readthedocs.io/zh/latest/llm/docs/predict/inference.html** 2使用taskflow进行快速推理 paddlenlp.Taskflow支持装载定制模型通过task_path指定模型权重文件的路径路径下需要包含训练好的模型权重文件 from paddlenlp import Taskflow schema {竞赛名称: [主办方, 承办方, 已举办次数]}# 设定抽取目标和定制化模型权重路径 my_ie Taskflow(information_extraction, schemaschema, modelpaddlenlp/PP-UIE-1.5B,precision bfloat16, task_path./checkpoints/ie_ckpts) pprint(my_ie(2022年语言与智能技术竞赛由中国中文信息学会和中国计算机学会联合主办百度公司、中国中文信息学会评测工作委员会和中国计算机学会自然语言处理专委会承办已连续举办4届成为全球最热门的中文NLP赛事之一。))[{竞赛名称: [{relations: {主办方: [{text: 中国中文信息学会,中国计算机学会}],已举办次数: [{text: 4}],承办方: [{text: 百度公司,中国中文信息学会评测工作委员会,中国计算机学会自然语言处理专委会}]},text: 2022年语言与智能技术竞赛}]}]· 飞桨星河社区教程链接 https://aistudio.baidu.com/projectdetail/8796056 · PaddleNLP 链接 https://github.com/PaddlePaddle/PaddleNLP 为了帮助您迅速且深入地了解PP-UIE并熟练掌握实际操作技巧百度高级研发工程师为您详细解读从通用信息抽取大模型 PP-UIE在多场景任务下的信息抽取能力课程视频点击链接入群即可观看另外我们还为您开展《PP-UIE信息抽取》实战营助力实操PP-UIE进行信息抽取报名即可免费获得项目消耗算力限时一周名额有限先到先得:https://www.wjx.top/vm/mBKC6pb.aspx?udsid611062
http://www.dnsts.com.cn/news/122101.html

相关文章:

  • 自己制作视频app软件灰色关键词排名优化
  • 大连零基础网站建设教学电话国家高新技术企业管理工作网
  • 校园网站建设毕业设计电子网站建设维护
  • 织梦建站模板做漂亮的网站
  • 叶榭网站建设设计专业
  • 浙江 网站备案wordpress添加背景图片
  • 环保企业网站模板个人网站首页布局
  • 公司网站做的很烂做网站优化需要做什么
  • 什么网站可以做直播电商系统开发商
  • 湖南省建设监理协会网站react怎么做pc网站
  • 西安城乡住房建设厅网站首页南阳东莞网站建设公司哪家好
  • 免费商城版网站潍坊门户网站建设
  • 做网站用虚拟主机怎么样做音乐网站需要什么
  • 沈阳网站哪家公司做的好深圳 网站 传播
  • 二手网站建设组建小型信息系统网络
  • 阿里云里做网站能上百度首页么网站备案 公司注销
  • 网站如何做监控直播网站图片被盗连怎么办
  • 网站页脚设计代码wordpress 主页地址函数
  • 微信网站开发设计比较好的家装设计网站
  • 企业网站改版新闻如何做网站结构及栏目策划
  • 网站登录入口网页厦门关键词优化企业
  • 苏州那家公司做网站好.net开发微信网站
  • 免费网站软件免费下载安装mvc 做网站
  • 南充网站建设hulingwl免费小程序开发制作
  • 购物网站的建设时间商丘公司做网站
  • 网站美工设计培训学校北京网站优化流程
  • 平价建网站适合乡镇的小型加工厂
  • 去哪里做网站百度关键词搜索排名代发
  • 青岛网站推广优化营销网站建设大概费用
  • 快速将网站seo网站开发职业技能简历