当前位置: 首页 > news >正文

云建站步骤专业网站建设团队

云建站步骤,专业网站建设团队,网站开发html5技术,怎么免费做网站不要域名矢量搜索是一种信息检索方法#xff0c;它使用内容的数字表示形式来执行搜索方案。 由于内容是数字而不是纯文本#xff0c;因此搜索引擎会匹配与查询最相似的矢量#xff0c;而不需要匹配确切的字词。本文简要介绍了 Azure AI 搜索中的矢量支持。 其中还解释了与其他 Azure… 矢量搜索是一种信息检索方法它使用内容的数字表示形式来执行搜索方案。 由于内容是数字而不是纯文本因此搜索引擎会匹配与查询最相似的矢量而不需要匹配确切的字词。本文简要介绍了 Azure AI 搜索中的矢量支持。 其中还解释了与其他 Azure 服务的集成以及与矢量搜索开发相关的术语和概念 关注TechLead分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验同济本复旦硕复旦机器人智能实验室成员阿里云认证的资深架构师项目管理专业人士上亿营收AI产品研发负责人。 Azure AI 搜索中的矢量搜索是什么 矢量搜索是一项新功能用于从搜索索引为矢量嵌入编制索引以及存储和检索矢量嵌入。 可以使用它来助力相似性搜索、多模式搜索、推荐引擎或实现检索增强生成 (RAG) 体系结构的应用程序。 下图显示了矢量搜索的索引编制和查询工作流。 在索引编制端可以准备包含嵌入的源文档。 尽管集成矢量化目前是作为公共预览版提供的但正式版 Azure AI 搜索不会生成嵌入。 如果你需要遵守非预览版功能策略则你的解决方案应包含对 Azure OpenAI 或其他模型的调用这些模型可以将图像、音频、文本和其他内容转换为矢量表示形式。 将_矢量字段_添加到 Azure AI 搜索上的索引定义中。 使用包含矢量的文档有效负载加载索引。 索引现在可供查询。 在查询端可以在客户端应用程序中收集查询输入。 添加一个用于将输入转换为矢量的步骤然后将矢量查询发送到 Azure AI 搜索上的索引以进行相似性搜索。 Azure AI 搜索在结果中返回包含所请求的 k 个最近邻域 (kNN) 的文档。 可以将矢量数据与字母数字内容一起作为文档中的字段编制索引。 矢量查询可以单独发出也可以与筛选器和其他查询类型包括同一搜索请求中的字词查询混合搜索和语义排名结合发出。 可用性和定价 矢量搜索作为所有区域中所有 Azure AI 搜索层级的一部分提供不收取额外的费用。 备注 在 2019 年 1 月 1 日之前创建的一些较旧搜索服务部署在不支持矢量工作负载的基础结构上。 如果你在尝试将矢量字段添加到架构时收到错误则原因是服务已过时。 在这种情况下必须创建新的搜索服务来试用矢量功能。 矢量搜索支持哪些方案 矢量搜索适合的方案包括 对文本进行矢量搜索。 使用嵌入模型例如 OpenAI 嵌入或开源模型例如 SBERT对文本进行编码并使用同样编码为矢量的查询检索文档。 跨不同数据类型进行矢量搜索多模式。 对图像、文本、音频和视频甚至它们的混合形式进行编码例如使用 CLIP 等模型并对它们执行相似性搜索。 多语言搜索。 使用多语言嵌入模型在单个矢量空间中以多种语言表示文档以查找文档无论它们采用哪种语言。 混合搜索。 矢量搜索是在字段级别实现的这意味着你可以生成包含矢量字段和可搜索文本字段的查询。 查询将并行执行结果将合并为单个响应。 可选添加[语义排名]以使用为必应提供支持的相同语言模型进行 L2 重新排名从而获得更高的准确度。 筛选的矢量搜索。 查询请求可以包含矢量查询和[筛选表达式]。 筛选器适用于文本和数字字段可用于元数据筛选并且在根据筛选条件包含或排除搜索文档时非常有用。 尽管矢量字段本身不可筛选但你可以设置可筛选的文本或数字字段。 搜索引擎可以在执行矢量查询之前或之后处理筛选器。 矢量数据库。 使用 Azure AI 搜索作为矢量存储来充当大型语言模型 (LLM) 或其他应用程序的长期内存或外部知识库。 例如对于检索增强生成 (RAG) 应用程序可以将 Azure AI 搜索用作 [Azure 机器学习提示流中的_矢量索引_]。 可以使用其他 Azure 服务来提供嵌入和数据存储。 Azure OpenAI 提供嵌入模型。 演示和示例针对 [text-embedding-ada-002] 和其他模型。 我们建议使用 Azure OpenAI 来生成文本嵌入。 [图像检索矢量化图像 API预览版]支持图像内容的矢量化。 我们建议使用此 API 来生成图像嵌入。 Azure AI 搜索可以自动为来自两个数据源的矢量数据编制索引[Azure Blob 索引器]和 [Azure Cosmos DB for NoSQL 索引器]。 LangChain 是用于开发由语言模型提供支持的应用程序的框架。 使用 Azure AI 搜索矢量存储集成可以简化使用 LLM 的、将 Azure AI 搜索用作矢量数据存储的应用程序的创建。 语义内核是一个轻型 SDK可用于将 AI 大型语言模型 (LLM) 与传统编程语言集成。 它很适合用于在将输入发送到嵌入模型的较大工作流中对大型文档进行分块。 矢量搜索概念 如果你不熟悉矢量本部分将解释一些核心概念。 关于矢量搜索 矢量搜索是一种信息检索方法其中的文档和查询表示为矢量而不是纯文本。 在矢量搜索中机器学习模型生成源输入可以是文本、图像、音频或视频内容的矢量表示形式。 使用内容的数学表示形式可为搜索方案提供共同的基础。 如果所有内容都是矢量则查询可以在矢量空间中查找匹配项即使关联的原始内容与查询位于不同的媒体中或采用不同的语言。 为何使用矢量搜索 矢量可以使用机器学习模型来捕获上下文中单词和短语的含义而不是仅仅依赖于词法分析和单个查询字词的匹配因而克服了传统的基于关键字的搜索的局限性。 通过捕获查询的意图即使文档中不存在确切的字词矢量搜索也可以返回符合用户需求的更相关结果。 此外矢量搜索可应用于不同类型的内容例如图像和视频而不仅仅是文本。 这使得新的搜索体验成为可能例如多语言应用程序中的多模式搜索或跨语言搜索。 嵌入和矢量化 _嵌入_是内容或查询的一种特定矢量表示形式它们由捕获文本语义或其他内容例如图像的表示形式的机器学习模型创建。 自然语言机器学习模型已基于大量的数据进行训练可以识别单词之间的模式和关系。 在训练过程中他们会试着在一个称为_编码器_的中间步骤中将任何输入表示为实数矢量。 训练完成后可以修改这些语言模型使中间矢量表示形式成为模型的输出。 生成的嵌入是高维矢量其中具有相似含义的单词在矢量空间中距离更近如了解嵌入 (Azure OpenAI)中所述。 矢量搜索在检索相关信息方面的有效性取决于嵌入模型将文档和查询的含义提取到结果矢量中的有效性。 最佳模型已基于其所代表的数据类型进行了全面的训练。 你可以评估现有模型例如 Azure OpenAI text-embedding-ada-002引入自己的、已直接在问题空间中训练的模型或者微调通用模型。 Azure AI 搜索不会对你选择的模型施加限制因此请选择最适合你的数据的模型。 若要为矢量搜索创建有效的嵌入必须考虑到输入大小限制。 我们建议在生成嵌入之前按照数据分块准则进行操作。 这种最佳做法可确保嵌入准确捕获相关信息并实现更高效的矢量搜索。 什么是嵌入空间 _嵌入空间_是矢量查询的语料库。 在搜索索引中它是填充了来自同一嵌入模型的嵌入的所有矢量字段。 机器学习模型通过将各个单词、短语或文档用于自然语言处理、图像或其他形式的数据映射到由实数表示高维空间中的坐标矢量组成的表示形式来创建嵌入空间。 在此嵌入空间中相似的项位置相互靠近而不相似的项位置相距较远。 例如谈论不同种类的狗的文档将在嵌入空间中紧密聚类到一起。 有关猫的文档也会相互接近但与狗的聚类相距较远不过它们仍属于动物的邻域。 云计算等不同的概念则与此有很大的差异。 在实践中这些嵌入空间是抽象的没有明确定义的、人类可解释的含义但核心思想保持不变。 最近邻域搜索 在矢量搜索中搜索引擎将搜索嵌入空间中的矢量以识别那些接近查询矢量的矢量。 此技术称为_最近邻域搜索_。 最近邻域有助于量化项之间的相似性。 矢量高度相似性表明原始数据也相似。 为了帮助实现快速的最近邻域搜索搜索引擎将执行优化或采用数据结构或数据分区来减少搜索空间。 每种矢量搜索算法都会提供不同的方法来解决此问题并权衡不同的特征例如延迟、吞吐量、召回率和内存。 为了计算相似性相似性指标提供了用于计算此距离的机制。 Azure AI 搜索目前支持以下算法 分层可导航小世界 (HNSW)HNSW 是一种领先的 ANN 算法它已针对数据分布未知或可能频繁变化的高召回率、低延迟应用程序进行优化。 它将高维数据点组织成分层图形结构从而实现快速且可缩放的相似性搜索同时允许在搜索准确度和计算成本之间进行可优化的权衡。 由于该算法要求所有数据点都驻留在内存中以便能够快速随机访问因此它会消耗[矢量索引大小]配额。 穷举 K 最近邻域KNN计算查询矢量与所有数据点之间的距离。 这是一种计算密集型算法因此最适合较小的数据集。 由于该算法不要求快速随机访问数据点因此不消耗矢量索引大小配额。 但是该算法将提供全局最近邻域集。 在索引定义中可以指定一种或多种算法然后为每个矢量字段指定要使用的算法 [创建矢量索引]以指定索引和字段中的算法。 对于穷举 KNN请使用面向任一 REST API 版本的 [2023-11-01]、[2023-10-01-Preview]或 Azure SDK Beta 版库。 在索引创建过程中用于初始化索引的算法参数是不可变的并且在索引生成后无法更改。 但是可以修改影响查询时特征 (efSearch) 的参数。 此外指定 HNSW 算法的字段还支持使用[查询请求]参数 exhaustive: true 执行穷举 KNN 搜索。 但是反过来则不适用。 如果针对 exhaustiveKnn 将某个字段编制索引则无法在查询中使用 HNSW因为实现高效搜索的其他数据结构不存在。 近似最近邻域 近似最近邻域搜索 (ANN) 是一种用于在矢量空间中查找匹配项的算法。 此类算法采用不同的数据结构或数据分区方法来显著减少搜索空间以加速查询处理。 ANN 算法牺牲了一些准确度但提供了可缩放且更快的近似最近邻域检索这使得它们非常适合用于在现代信息检索应用程序中平衡准确度和效率。 你可以调整算法的参数以微调搜索应用程序的召回率、延迟、内存和磁盘占用空间要求。 Azure AI 搜索将 HNSW 用于其 ANN 算法。 关注TechLead分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验同济本复旦硕复旦机器人智能实验室成员阿里云认证的资深架构师项目管理专业人士上亿营收AI产品研发负责人。
http://www.dnsts.com.cn/news/102616.html

相关文章:

  • 建设银行英文网站建设教育信息网站工作总结
  • 如何制作一个php网站源码建设微信商城网站的公司
  • 郑州百度网站快速优化佛山品牌网站建设
  • 制作网站教学网站建站建设工作总结
  • 可以做两个网站指向同一个域名wordpress哪个php版本好
  • 苏州企业网站建站dnf怎么做钓鱼网站
  • 网站开发的技术总结荆州网站推广怎么做
  • 网站建设开发的规划流程wordpress评论代码
  • 软件专业做学校网站论文怎么选题公司文化形象设计公司
  • 网站导航栏原型图怎么做用手机怎样制作网站
  • 新手自己做网站百度营稍
  • 北京恒伟网站建设河北建设集团
  • 平面设计和网站建设哪个好idc网站建设
  • 西安做网站南通公司鄂州第一网
  • 官方网站建设制作平台如何查找网站建设时间
  • 办网站怎么办如何改wordpress的title
  • 建设公司网站的目的网站内容由什么组成部分组成部分
  • 移动微网站建设关键词优化怎样
  • 不用关网站备案怎么免费搭建网站
  • 网站建设现状深圳关键词首页排名
  • 南昌哪家网站开发公司好wordpress 企业站点
  • 网站信息化建设建议网址大全有用吗
  • 关于网站建设申请十大免费软件下载大全
  • vps网站设置哪个网站域名便宜
  • 恩施建设网站WordPress如何获取logo
  • 怎么看一个网站是否是外包做的wordpress建双语网站
  • 易思企业网站管理系统带娃儿做的工作网站
  • 2015帝国cms网站企业网络设计方案预算
  • 地方网站做相亲赢利点在哪里区块链交易网站建设
  • 网站开发还有哪些网页布局怎么设计