彩票网站链接怎么做,ui设计的作用,网站建设公司广告,丹寇服饰官方网站内容安全与系统构建加速#xff0c;助力解决生成式AI时代的双重挑战 0. 前言1. PRCV 20241.1 大会简介1.2 生成式 Al 时代的内容安全与系统构建加速 2. 生成式 AI2.1 生成模型2.2 生成模型与判别模型的区别2.3 生成模型的发展 3. GAI 内容安全3.1 GAI 时代内容安全挑战3.2 图像… 内容安全与系统构建加速助力解决生成式AI时代的双重挑战 0. 前言1. PRCV 20241.1 大会简介1.2 生成式 Al 时代的内容安全与系统构建加速 2. 生成式 AI2.1 生成模型2.2 生成模型与判别模型的区别2.3 生成模型的发展 3. GAI 内容安全3.1 GAI 时代内容安全挑战3.2 图像篡改检测3.3 人脸伪造图像检测 4. GAI 系统构建加速4.1 GAI 时代系统构建挑战4.2 TextIn 大模型加速器 小结 0. 前言
生成式 AI 迅速发展的时代面临着内容安全与系统构建的双重挑战。一方面基于虚假图片所引发的欺诈事件日益增多给社会带来了严重的负面影响因此我们必须高度关注人工智能的安全性解决人工智能发展过程中的各种安全挑战以实现人工智能的持续健康发展。另一方面训练大模型过程中低质量或不准确的数据会严重影响模型的训练和性能通过应用性能的智能文档处理能够自动化数据清洗、格式转换和信息提取为模型提供高质量的训练数据推动生成式AI技术的发展。 在本文中我们将回顾来自合合信息的郭丰俊博士在第七届中国模式识别与计算机视觉大会中关于图像内容安全和智能文档处理推动系统构建加速的思考与探索并介绍在生成式 AI 时代下文档智能处理技术面临的挑战和研究进展。
1. PRCV 2024
1.1 大会简介
近日第七届中国模式识别与计算机视觉大会 (The 7th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2024) 在乌鲁木齐成功举办。此次大会由中国自动化学会 (CAA)、中国图象图形学学会 (CSIG、中国人工智能学会 (CAAI) 和中国计算机学会 (CCF) 共同主办由新疆大学承办是国内顶级的模式识别和计算机视觉领域学术盛会。PRCV 2024 汇聚了国内外模式识别和计算机视觉领域的众多科研工作者及工业界同行交流最新的理论研究成果与技术进展。 此次会议加强了模式识别和计算机视觉领域学术界和企业界进行深入的“产学研”交流与合作从而进一步推动模式识别与计算机视觉领域的协同创新。
1.2 生成式 Al 时代的内容安全与系统构建加速
近年来随着生成式人工智能 (Generative Artificial Intelligence, GAI) 技术的迅猛发展基于虚假图片所引发的欺诈事件也日益增多给社会带来了严重的负面影响。这些虚假图像不仅误导了公众的认知还可能对个人、企业和社会造成经济损失和信任危机。因此确保图像内容的安全性变得尤为重要。在计算机视觉领域研究和发展能够识别和防范虚假图像的技术已成为一个紧迫的课题。随着生成伪造图像问题的日益突出图像内容安全的研究将为保护信息真实性和维护社会信任提供重要支持。 另一方面智能文档处理系统基于自然语言处理 (Natuarl Language Processing, NLP) 和机器学习 (Machine Learning, ML) 算法能够自动理解、生成和转换文档内容使得系统在处理大量文本信息时能够实现快速分类、信息提取及内容生成从而大幅降低人工干预的需求帮助研发人员加速大模型系统的构建和训练过程推动生成式AI技术的发展。 合合信息图像算法研发总监郭丰俊博士在 PRCV 2024 上受邀发表了题为《生成式AI时代的内容安全与系统构建加速》的演讲分享了图像内容安全和智能文档处理推动系统构建加速方面的最新研究成果和应用实践助力解决生成式 AI 时代的双重挑战。
2. 生成式 AI
生成式人工智能 (Generative Artificial Intelligence, GAI) 是一种人工智能方法旨在通过学习训练数据的分布模型来生成新的、原创的数据。人工智能生成内容 (Artificial Intelligence Generated Content, AIGC) 是生成式人工智能的一个具体应用和实现方式是指利用人工智能技术生成各种形式的内容如文字、图像、音频和视频等。
2.1 生成模型
生成模型 (Generative Model) 是机器学习的一个分支通过训练模型以生成与给定数据集类似的新数据换句话说模型通过学习训练数据的分布特征生成与之类似但又不完全相同的新数据。 假设有一个包含猫图片的数据集如果在该数据集上训练一个生成模型以捕捉图像中像素之间的复杂关系。然后我们可以利用该模型进行采样生成原始数据集中不存在的逼真(猫)图像如下图所示。 为了构建生成模型我们需要一个包含许多我们要生成的实例的数据集这被称为训练数据 (training data)其中每一个数据点称为一个观测值 (observation)。 每个观测值由许多特征 (features) 组成对于图像生成问题特征通常是各个像素的像素值对于文本生成问题特征通常是单词或字母组合。我们的目标是构建一个模型可以生成看起来像是使用与原始数据相同规则创建的新特征集。对于图像生成来说这是一个非常困难的任务不仅由于生成的图像需要具有真实世界的特征和细节包括纹理、颜色、形状等同时图像生成模型通常需要大量的训练数据来学习图像的特征和分布。 生成模型还必须是概率性的 (probabilistic)而不是确定性的 (deterministic)因为我们希望能够采样出具有不同变化的输出而不是每次得到相同的输出对于图像数据而言生成的图像应该具有不同的风格、角度和变化而不是仅仅复制训练数据中的图像。如果我们的模型仅仅是一个固定的计算例如在训练数据集中每个像素的平均值那么它就不是生成模型生成模型必须包含一个影响模型生成的随机因素。 换句话说我们假设存在某种未知的概率分布其可以解释图像在训练数据集中存在(或不存在)的合理性。生成模型的目标是构建一个尽可能精确地模仿这个分布的模型然后从中进行采样生成看起来像是原始训练集中可能包含的新的、独特的样本数据。
2.2 生成模型与判别模型的区别
为了了解生成模型及其重要性首先需要介绍判别模型。假设我们有一个绘画的数据集其中包含莫奈与一些其他艺术家的画作。通过使用足够的数据可以训练一个判别模型以预测给定的画作是否由莫奈绘制。判别模型能够学到画作中的颜色、形状和纹理特征以便判断画作是否由莫奈所绘制对于具有莫奈画作特征的绘画模型会相应地增加其预测权重。下图展示了判别模型的构建过程 在构建判别模型时训练数据中的每个观测值都有一个标签 (label)。对于二分类问题比如上述画作鉴别器将莫奈的画作标记为 1非莫奈的画作标记为 0。然后判别模型学习如何区分这两组画作并预测新数据样本属于标签 1 的概率即样本是由莫奈绘制的概率。 而生成模型不需要数据集带有标签因为生成模型关注的是生成新图像而非试图预测给定图像的标签。接下来使用公式正式定义生成模型和判别模型。
判别模型估计 p ( y ∣ x ) p(y|x) p(y∣x)即在给定输入 x x x 的情况下输出 y y y 的概率。其中 y y y 是标签 x x x 是观测值生成模型估计 p ( x ) p(x) p(x)即生成给定输入 x x x 的观测值的概率而不考虑标签判别模型关注如何根据观测值来预测标签而生成模型关注如何根据概率分布来生成观测值在判别模型中可以使用逻辑回归、支持向量机等算法来构建模型。而在生成模型中常使用生成对抗网络 (Generative Adversarial Networks, GAN) 或扩散模型等算法来生成新的观测值
总结而言判别模型和生成模型是两种不同的机器学习方法。判别模型通过观测值预测标签而生成模型通过学习数据分布来生成新的观测值。 生成模型估计 p ( x ) p(x) p(x)即生成观测值 x x x 的概率。也就是说生成模型旨在对观测值 x x x 进行建模从所学分布中进行采样可以生成新的观测值。
2.3 生成模型的发展
数年来判别模型一直是推动机器学习发展的主要动力。这是因为相对于判别问题相应的生成问题通常更难解决。例如训练一个模型预测一幅画是否是莫奈所作比起训练一个模型来生成莫奈风格的画作要容易得多同样训练一个模型来预测一篇小说是否是莎士比亚所写比起构建一个模型来生成一篇莎士比亚风格的小说要容易得多。 近来随着机器学习技术的发展解决生成问题变得不再遥不可及。通过将机器学习应用于构建生成模型的新颖应用得到了快速发展。下图展示了图像生成模型在面部图像生成方面的研究进展。 除了更容易解决的优势之外判别模型在实际问题中的应用也比生成模型更广泛。例如能够预测给定视网膜图像是否隐含青光眼迹象的模型对医疗领域具有重要作用但能够生成眼部图片的模型可能并无作用。 但随着越来越多的公司开始提供面向特定业务问题的生成服务生成模型的应用范围正在快速扩展。例如只需提供特定的主题材料就可以通过 API 访问生成原创博客文章的服务还可以生成在不同场景下的产品图像或者编写与品牌和目标信息相匹配的社交媒体内容和广告文案。同时生成式 AI 在游戏设计和电影制作等行业也逐渐得到应用。
3. GAI 内容安全
在 PRCV 2024 上合合信息主要分享了 AI 图像安全技术方案的重点技术包括图像篡改检测和人脸伪造检测技术以应对日益频发的恶意 P 图、生成式造假和等现象。
3.1 GAI 时代内容安全挑战
随着生成式人工智能 (Generative Artificial Intelligence, GAI)技术的迅速发展伪造数据的数量和可定制性也日益增加人们对技术革新带来的美好生活倍感期待的同时也增加了对于人工智能安全问题的担忧例如有诈骗分子通过生成篡改内容欺骗受害者如何有效破解信息安全难题、保障内容安全成为当前的重要议题。 图像作为信息的主要载体之一图像内容安全在计算机视觉领域的重要性日益突出。例如在金融行业银行移动开户、信用卡申办和保险理赔等场景中身份信息核查是银行、保险等业务场景中的首要项利用 GAI 技术攻击者可以快速生成虚假的姓名、地址和电话号码等身份信息这些篡改身份信息不仅与真实信息相似还可以根据特定需求进行调整使得识别变得更加困难为个人和企业带来巨大的资金损失与潜在风险同样在汽车交易、运输等业务中涉及大量驾驶证、行驶证真实性核查利用 GAI 技术生成的证件在外观和细节上几乎无法与真实证件区分这使得不法分子能够轻松利用这些篡改证件进行非法活动行驶证涉及到车辆买卖合法性行驶证造假与核查难题给相关企业造成了相当高的经济损失风险再比如在财务审批过程中对网约车订单、付款截图、航空行程单、酒店流水等各类报销佐证单据的真实性检验是一项重要任务企业在面对这些篡改票据时往往难以识别进一步增加了虚假发票和收据生成带来的财务欺诈风险。 由于篡改手段的多样性以及隐蔽性当前的篡改检测任务面临着诸多复杂的难题。首先篡改手段多种多样从简单的像素替换到复杂的图像合成攻击者可以采用不同的策略来掩盖其篡改行为。这使得检测系统很难建立起有效的识别标准。其次篡改的隐蔽性使得篡改痕迹往往微弱甚至在仔细审查的情况下也难以察觉。更为棘手的是篡改图像与原始图像在内容和形式上可能高度相似这种相似性进一步增加了识别的难度。 因此这些因素对检测方法的精度和泛化能力提出了严峻的挑战。检测系统不仅需要在面对明显篡改时保持高精度还必须具备足够的泛化能力以适应多变的篡改方式。这要求研究人员不断改进和创新检测技术力求在不断变化的环境中有效识别出篡改内容以保护信息的真实性和可靠性。
3.2 图像篡改检测
图像篡改检测是指给定一张图片输入到篡改检测模型中能够判别这张图像是否被篡改并且定位出篡改图像的篡改区域。 考虑到伪造和篡改的技术也在快速更新合合信息提出了基于小样本在线增量学习的篡改检测模型以快速响应客户需求融合空域与频域关系、知识蒸馏和教师-学生网络等方法提升 CNN Tamper Detector 性能检测 RGB 域和噪声域存在痕迹的篡改能够在像素级识别证件、票据等各类重要的商业材料中的 PS 痕迹。
与证照篡改检测相比截图的背景没有纹路和底色整个截图没有光照差异难以通过拍照时产生的成像差异进行篡改痕迹判断现有的视觉模型通常难以充分发掘原始图像和篡改图像的细粒度差异特征。尽管视觉模型在处理普通图像上表现出色但当面临具有细粒度差异的原始图像和篡改图像时它们往往难以有效地进行区分。这是因为篡改操作可能只会对截图进行轻微的修改这些细节变化对于传统的视觉模型而言很难捕捉到。截图篡改主要分为四种类型
复制移动图像中的某个区域从一个地方复制到另一个地方拼接两张毫不相干的图像拼接成为一张新图像擦除擦除图像中的某些关键信息重打印在擦除的基础上编辑上新的文本内容
针对这些问题在传统卷积神经网络后引入两种不同解码器包括基于降维的解码器 LightHam 和基于注意力的解码器 EANet不同形式的解码器的引入令模型可以较好的解决各种场景下的篡改形式从而捕捉到细粒度的视觉差异增强模型泛化能力。截图篡改检测可检测包括转账记录、交易记录、聊天记录等多种截图。 应用合合信息的通用篡改检测技术不仅能够保障信息的真实性通用篡改检测可防止信息被篡改或伪造确保信息的真实性和完整性同时也可以防止欺诈行为保障用户的合法权益。 同时合合信息积极参与学术界交流在 2023 年文档分析与识别国际会议 (International Conference on Document Analysis and Recognition, ICDAR) 的挑战赛中获得了文档篡改检测技术竞赛的冠军同时与中国信通院、中国图象图形学学会等机构联合发布了《文本图像篡改检测系统技术要求》团体标准能够推动相关技术更好的落地应用。 3.3 人脸伪造图像检测
人脸伪造图像检测是一个快速发展的领域旨在识别和验证人脸图像的真实性以防止欺诈和虚假信息传播。但随着人脸伪造技术的不断演进检测模型需适应各种生成方法如生成对抗网络、Deepfake 和扩散模型等确保能够识别不同类型的人脸伪造图像。 合合信息构建的人脸伪造图像检测系统利用前沿的深度学习技术基于大量 Deepfake 实际样图训练具备优秀的泛化识别表现能够快速而准确地检测单人图像中的人脸伪造行为。通过深度学习算法的高级特征提取和分析系统能够识别贴图、面部重演、Deepfake 人脸替换等各种伪造行为同时具备高效的实时处理能力能够在短时间内对上传的人脸图像进行检测和分析及时给出检测结果满足快速反应和处理的需求。 目前合合信息提出的伪造人脸检测模型已与一些央企及金融机构展开落地合作相关产品也可以在线体验例如使用伪造人脸检测识别使用 Stable Diffusion 生成人脸图像模型能够准确给出图像“是伪造”的结论。
4. GAI 系统构建加速
4.1 GAI 时代系统构建挑战
在生成式 AI 时代大模型的构建面临诸多挑战和问题。其中数据来源和质量的限制成为大模型进一步提高性能的主要障碍。高质量、丰富多样的数据集对于模型的训练至关重要但在某些领域合适的数据可能非常稀缺从而影响模型的性能和公正性。此外模型的复杂度和训练难度显著增加往往导致开发和优化的过程变得及其繁琐。以上这些因素共同制约生成式 AI 的进一步发展和应用。
4.2 TextIn 大模型加速器
合合信息 TextIn 是一个文档处理服务平台其中包含了大量具有不同应用场景的产品同时针对上述大模型构建过程中的问题新增了通用文档解析和文本向量模型用于加速大模型的构建与训练。
利用强大的文字识别和文档理解能力通用文档解析能够将任意格式、版式的文档(图片、PDF、Doc/Docx 等)高效、精准解析为大模型能够理解的 Markdown 格式并按常见的阅读顺序进行还原赋能大语言模型的数据清洗和文档问答任务能够帮助研发人员加速大模型系统的构建和训练过程将文档中的内容更好的结构化为段落、图像、表格和章节等便于后续操作的元素。支持标准的金融报告、论文、企业招投标文件、合同、文书、工程图纸等文档内容兼容扫描文档和电子 PDF 文件。 合合信息研发的通用文档解析通过应用计算机视觉、自然语言处理等人工智能技术对文档图像进行自动化处理、分析和识别的过程可以帮助用户快速高效地对文档图像信息展开深入的分析和理解实现对文档中的重要信息进行提取。同时在处理大量文档的情况下可以显著地减少人力成本和时间成本提高文档处理的准确度和效果防止出现错误或遗漏等问题。 具体来说通用文档解析框架主要包括以下方面
文档图像预处理在进行文档图像处理之前对文档图像进行预处理和优化其主要用于解决文档图像中存在的噪声、变形和失真等问题以提高文档图像的质量和稳定性包括图像去噪、切边增强、弯曲矫正和摩尔纹去除等文档图像分析利用计算机视觉技术对文档图像信息进行分析、理解和处理其主要用于文档图像的识别、分类和提取等方面包括文档图像文字识别和提取、清晰化和增强和文档数据信息分析等文档解析与识别对文档进行结构化分析、编码、识别的提取可以实现对文档中信息的自动识别和提取从而提高文档处理效率和准确性包括结构化分析、语义理解与编码、文字识别 (Optical Character Recognition, OCR) 和表格识别等版面分析与还原对文档版面进行结构化分析、理解和编码然后对分析结果中的各个对象进行矫正、拼接和还原实现文档版面的恢复和重构主要用于自动化识别、分割和提取文档中重要信息的位置和排版等包括版面结构分析、对象识别、区域分割和版面纠正、拼接、重构等文档信息抽取与理解从文档中自动提取出关键信息并对文档信息进行理解和推理应用于自动化分析、推理和应用文档信息等包括关键字提取、实体识别和文本分类等 将解析后的数据应用于下游问答任务能够显著提高结果的准确性例如在检索增强生成 (Retrieval Augmented Generation, RAG) 模型架构中通过在生成文本之前先检索相关的信息增强了生成的质量和准确性。RAG 通常分为两个阶段首先模型检索相关文档然后基于这些文档生成答案或文本使得生成的内容不仅基于模型的训练知识还结合了特定的信息从而提高了响应的相关性和信息丰富度。在下图中可以看到通用文档解析得到的信息能够显著提升问答系统和对话生成等任务中大模型的表现。 小结
合合信息是一家深耕智能文字识别和商业大数据领域的公司主要的平台产品包括智能文字识别服务平台和商业大数据技术与资产平台其中智能文字识别服务平台 TextIn 提供高精准度的智能文字识别引擎及场景化产品支持多种部署方式提升文档处理流程的效率例如光学字符识别 (Optical Character Recognition, OCR)、图像切边增强、PS 篡改检测以及图像矫正等。 在生成式 AI 时代模型具备快速响应用户需求的能力能够实现即时生成与交互。但不准确数据会影响模型的表现导致生成内容不可靠同时随着伴随内容生成的便利也出现了虚假信息、版权问题等安全挑战。本文通过回顾郭博士在郭丰俊博士在第七届中国模式识别与计算机视觉大会中的报告介绍了合合信息关于文档和证件等数据的伪造检测技术以及能够用于加速大模型系统的构建和训练过程的文档处理服务平台。