当前位置：首页 > news >正文

新网如何建设网站广州网站seo营销模板

news 2026/2/3 22:44:56

新网如何建设网站,广州网站seo营销模板,官方网站拼多多,佛山新网站建设报价一、前言这篇文章将带领读者探索数据库的多样化解决方案及其演进历程#xff0c;特别关注向量数据库的重要性和在实际项目中的应用。通过深入剖析腾讯云向量数据库及其在金融信用数据库分析中的实战运用#xff0c;为读者提供全面而实用的指南#xff0c;帮助他们理解、…一、前言这篇文章将带领读者探索数据库的多样化解决方案及其演进历程特别关注向量数据库的重要性和在实际项目中的应用。通过深入剖析腾讯云向量数据库及其在金融信用数据库分析中的实战运用为读者提供全面而实用的指南帮助他们理解、应用和掌握这一技术领域的关键要点。二、数据库的分类种类现代数据库发展呈现多样化趋势从传统的关系型和NoSQL数据库到云数据库、云原生数据库和向量数据库每种都针对特定需求提供定制化解决方案。随着技术不断进步数据库领域持续创新满足不断变化的需求。 2.1 演进中的数据库多样化解决方案应对不断变化的需求当谈到数据库时我们可以看到不断的演变和创新。传统自建数据库常常是基于关系型数据库如MySQL、PostgreSQL或者NoSQL数据库比如MongoDB、Cassandra构建的。这些数据库早期主要用于存储结构化数据并且在企业和应用程序中广泛使用。随着云计算的兴起云数据库应运而生它们为用户提供了更灵活、可扩展和易管理的解决方案。云数据库包括各种服务例如Amazon RDS、Google Cloud SQL和Azure Database它们可以自动化管理和调整数据库的容量和性能并且提供了高可用性和灾难恢复功能。而云原生数据库则更专注于在云原生环境下构建和部署的数据库解决方案。这些数据库通常是容器化的利用了云原生技术如Kubernetes来实现更高的弹性、可扩展性和可靠性。另一个重要的趋势是向量数据库的兴起。这些数据库专注于高维度和复杂数据的处理比如图像、文本和音频等数据。向量数据库如Milvus、Faiss采用向量索引技术可以更高效地处理和查询大规模的向量数据这在人工智能、机器学习和大数据分析领域有着广泛的应用。 2.2 什么是向量数据库需要更加完善一下更具体一点向量数据库是一种专门用于处理高维度向量数据的数据库类型。它们设计用于存储、索引和高效查询包含向量信息的数据集。这些向量可能代表文本、图像、音频等非结构化或半结构化数据也可能是从机器学习和深度学习模型中提取的特征。向量数据库通常采用特定的向量索引结构和算法以便高效地存储和检索向量数据。它们的设计目标是使得在高维空间中进行相似度搜索或者聚类等操作更加高效并且能够应对大规模的向量数据集。这些数据库在人工智能、推荐系统、图像识别、自然语言处理等领域有着广泛的应用。它们可以加速相似向量的快速搜索从而支持诸如推荐算法、相似图片搜索、文本相似度匹配等应用。 Milvus 和 Faiss 是一些知名的向量数据库。矢量数据库的重要性源于它们处理大规模高维数据集和执行快速相似性搜索的能力。传统的关系数据库由于结构不灵活且缺乏针对相似性搜索而定制的专门索引技术因此不适合此类数据。相比之下矢量数据库采用一系列专门设计的索引结构和算法旨在有效处理高维数据并实现快速的最近邻搜索。 2.3 为什么向量数据库如此重要呢首先开发人员能够将生成的嵌入向量索引到向量数据库中。这一举措使得通过查询相似向量来找到相关资产成为可能。此外向量数据库提供了一种使嵌入模型高效运行的途径。它利用了复杂的查询语言整合了资源管理、安全控制、可扩展性、容错能力以及高效信息检索等数据库功能从而提升了应用程序开发的效率。更重要的是向量数据库对于开发人员创造独特的应用体验至关重要。举例来说用户可以通过在智能手机上拍摄照片来搜索相似的图像这得益于向量数据库的支持。此外开发人员能够利用其他类型的机器学习模型从图像和扫描文档等内容中自动提取元数据。他们可以将这些元数据与向量一同编入索引以实现对关键字和向量的混合搜索。而通过将语义理解纳入相关性排名中也能够改善搜索结果。举个例子像ChatGPT这样的新模型属于生成式人工智能的创新范畴。这些模型不仅可以生成文本还能够管理复杂的人类对话。有些模型甚至可以在多种模式下运行比如有些模型可以根据用户描述的场景生成符合描述内容的图像。然而生成式模型容易造成幻觉这可能会导致聊天机器人向用户传递错误信息。这时向量数据库就可以弥补生成式人工智能模型的这一缺陷。它为生成式人工智能聊天机器人提供了外部知识库确保它们提供的信息是可信赖的。 2.4 向量数据库是如何工作的我们都大致了解传统数据库是如何工作的——它们将字符串、数字和其他类型的标量数据存储在行和列中。然而向量数据库则基于向量操作因此它的优化和查询方式有着很大的不同。在传统数据库中通常我们会查询数据库中数值与我们查询条件完全匹配的行。而在向量数据库中我们会应用相似度度量来寻找与我们查询条件最相似的向量。向量数据库采用了一系列不同的算法这些算法都参与了近似最近邻ANN搜索。这些算法通过哈希、量化或基于图的搜索来优化搜索过程。这些算法被组装成一个流水线能够快速准确地检索查询向量的邻居。由于向量数据库提供的是近似结果我们需要权衡的主要是准确性和速度。结果越准确查询速度就越慢。然而一个良好的系统可以在几乎完美的准确性下提供超快速的搜索。以下是向量数据库的常见流程向量数据库流程索引向量数据库使用诸如 PQ、LSH 或 HNSW 等算法对向量进行索引。这一步将向量映射到数据结构以加速搜索过程。查询向量数据库将索引的查询向量与数据集中的索引向量进行比较通过特定索引使用的相似性度量来确定最近的邻居。后处理在某些情况下向量数据库从数据集中检索最终的最近邻居并对其进行后处理以返回最终结果。此步骤可能包括使用不同的相似性度量对最近邻居进行重新排序。三、腾讯云向量数据库 3.1 什么是腾讯云向量数据库腾讯云向量数据库Tencent Cloud VectorDB是一款全托管的自研企业级分布式数据库服务专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法单索引支持10亿级向量规模可支持百万级 QPS 及毫秒级查询延迟。腾讯云向量数据库不仅能为大模型提供外部知识库提高大模型回答的准确性还可广泛应用于推荐系统、NLP 服务、计算机视觉、智能客服等 AI 领域。 3.2 腾讯云向量数据库优势腾讯云向量数据库Tencent Cloud VectorDB作为一种专门存储和检索向量数据的服务提供给用户在高性能、高可用、大规模、低成本、简单易用、稳定可靠等方面体现出显著优势。为了更加言简意赅可以直接看我做成的脑图更加直观的感受腾讯云向量数据库优势高性能向量数据库单索引支持10亿级向量数据规模可支持百万级 QPS 及毫秒级查询延迟。高可用向量数据库提供多副本高可用特性其多可用区和三节点的架构可用性可达99.99%显著提高系统的可靠性和容错性确保数据库在面临节点故障和负载变化等挑战时仍能正常运行。大规模向量数据库架构支持水平扩展单实例可支持百万级 QPS轻松满足 AI 场景下的向量存储与检索需求。低成本只需在管理控制台按照指引简单操作几个步骤即可快速创建向量数据库实例全流程平台托管无需进行任何安装、部署和运维操作有效减少机器成本、运维成本和人力成本开销。简单易用支持丰富的向量检索能力。用户通过 HTTP API 或者 SDK 接口即可快速操作数据库开发效率高。同时控制台提供了完善的数据管理和监控能力操作简单便捷。稳定可靠向量数据库源自腾讯集团自研的向量检索引擎 OLAMA近40个业务线上稳定运行日均处理的搜索请求高达千亿次服务连续性、稳定性有保障。Embedding 功能向量数据库的 Embedding 功能会自动将原始文本进行转换生成对应的向量数据并插入数据库或进行相似性检索实现了文本到向量数据的一体化转换减少了用户的操作步骤极大降低了使用门槛。 3.3 腾讯云向量数据库现阶段落地项目当下腾讯云向量数据库成为腾讯企业内外广泛采用的首选。内部各应用产品纷纷依托腾讯云向量数据库实现高效数据管理与应用助力业务发展。外部行业也不例外大量产品纷纷选择腾讯云向量数据库充分利用其优势。这种趋势呈现出愈发增长的态势已经成为当今技术发展中的一大亮点体现了腾讯云向量数据库在业界的卓越地位。腾讯云向量数据库现阶段腾讯集团内部 40业务接入 1600亿次请求/天 1000外部用户接入。四、腾讯云向量数据库实战金融信用数据库分析金融分析案例重要 4.1 前期准备 4.1.1 采购腾讯云向量数据库在腾讯云产品页面搜索向量数据库或者直接点击新产品中的向量数据库。进入到腾讯云向量数据库首页后点击立即体验在进入创建实例页面中依次选择配置的地域信息规格等信息。详细的信息参照下图如果没有创建的一些配置可以根据下图的提示进行提前创建。注意所申请的免费体验实例最长使用时间为1个月1个月到期后会被回收。 4.1.2 登陆腾讯云向量数据库根据自身情况开启外网访问权限如果是生产环境不建议开启只需要自己使用内网即可本文为了测试演示开启了外网访问权限。开启外网访问权限后点击实例ID进入详情页面如下图点击登录按钮。进入到向量数据库登录界面如图需要账号和密码账号默认是root密码是向量数据库配置上图中的密钥。 4.1.3 腾讯云向量数据库 SDK 准备我们以 Python 环境为案例执行如下命令可直接安装最新版本。 pip install tcvectordb执行如下图所示 4.2 案例数据库开发流程 4.2.1 创建数据库使用如下的代码进行创建数据库 import tcvectordb from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency# 创建数据库连接对象 client tcvectordb.VectorDBClient(urlhttp://lb-*******.ap-guangzhou.tencentclb.com:50000, usernameroot, keyG283v2GaQRJG3vk******, read_consistencyReadConsistency.EVENTUAL_CONSISTENCY, timeout30)# 创建数据库 db client.create_database(database_namet_vectordb_demo_01)print(db.database_name)4.2.2 创建集合 # 第一步设计索引 index Index(FilterIndex(nameid, field_typeFieldType.String, index_typeIndexType.PRIMARY_KEY),VectorIndex(namevector, dimension768, index_typeIndexType.HNSW,metric_typeMetricType.COSINE, paramsHNSWParams(m16, efconstruction200)),)ebd Embedding(vector_fieldvector, fieldtext, modelEmbeddingModel.BGE_BASE_ZH)# 第二步创建 Collection coll db.create_collection(nameloan_data_analysis,shard1,replicas0,descriptionthis is a collection of test embedding,embeddingebd,indexindex) print(vars(coll))4.2.3 导入数据 import tcvectordb from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency from tcvectordb.model.enum import FieldType, IndexType, MetricType, EmbeddingModel from tcvectordb.model.index import Index, VectorIndex, FilterIndex, HNSWParams from tcvectordb.model.collection import Embedding, UpdateQuery from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency from tcvectordb.model.document import Document, Filter, SearchParams# # 创建数据库连接对象 client tcvectordb.VectorDBClient(urlhttp://lb-******.clb.ap-guangzhou.tencentclb.com:50000, usernameroot, keyG283v2******, read_consistencyReadConsistency.EVENTUAL_CONSISTENCY, timeout30)# 指定写入原始文本的数据库与集合 db client.database(t_vectordb_demo_01) coll db.collection(loan_data_analysis)# 写入数据可能存在一定延迟 # 1. 支持动态 Schema除了 id、text 字段必须写入可以写入其他任意字段text 字段为创建集合时设置的文本字段名 # 2. upsert 会执行覆盖写若文档id已存在则新数据会直接覆盖原有数据(删除原有数据再插入新数据) # 3. 参数 build_index 为 True指写入数据同时重新创建索引。 res coll.upsert(documents[Document(id1077501,text1077501:10 years,authorRENT,bookName5000,page36,funded_amnt5000,funded_amnt_inv4975,int_rate10.65,installment162.87,gradeB,sub_gradeB2,emp_title,emp_length10 years,home_ownershipRENT),Document(id1077430,text1314167: 1 year,authorRENT,bookName2500,page60,funded_amnt2500,funded_amnt_inv2500,int_rate15.27,installment59.83,gradeC,sub_gradeC4,emp_titleRyder,emp_length 1 year,home_ownershipRENT)],build_indexTrue )注意 1. 支持动态 Schema除了 id、text 字段必须写入可以写入其他任意字段text 字段为创建集合时设置的文本字段名 2. upsert 会执行覆盖写若文档id已存在则新数据会直接覆盖原有数据(删除原有数据再插入新数据) 3. 参数 build_index 为 True指写入数据同时重新创建索引。插入测试数据后我们返回到腾讯云向量数据库中查看数据如下图所示我们可以批量导入下面类似的数据库进入数据库 4.2.3 读取数据读取数据我们使用的是query的方法功能基于精确匹配的查询方式query()用于精确查找与查询条件完全匹配的向量具体支持如下功能。支持根据主键 idDocument ID搭配自定义的标量字段的 Filter 表达式一并检索。支持指定查询起始位置 offset 和返回数量 limit实现数据 SCAN 能力。 # Set filter filter_paramFilter(Filter.In(text,[year, years]))# query doc_list coll.query(document_ids[1077501,1077430], retrieve_vectorTrue, filterfilter_param, limit2, offset0, output_fields[text,author])for doc in doc_list:print(doc)取出的向量数据如下 4.2.4 数据分析将变量转换为其适当的数据类型某些变量不是其适当的数据类型需要进行预处理以转换为正确的格式。我们定义了一些函数来帮助自动化这个过程。用于将变量转换为其适当数据类型的函数如下所示。 # 将术语列转换为数字数据类型def term_numeric(df, column):df[column] pd.to_numeric(df[column].str.replace( months, ))term_numeric(data, term)#converting emp-length to numeric datatype def emp_length_convert(df, column):df[column] df[column].str.replace(\ years, )df[column] df[column].str.replace( 1 year, str(0))df[column] df[column].str.replace( years, )df[column] df[column].str.replace( year, )df[column] pd.to_numeric(df[column])df[column].fillna(value 0, inplace True)# 预处理日期列def date_columns(df, column):# store current monthtoday_date pd.to_datetime(2020-08-01)# convert to datetime formatdf[column] pd.to_datetime(df[column], format %b-%y)# calculate the difference in months and add to a new columndf[mths_since_ column] round(pd.to_numeric((today_date - df[column]) / np.timedelta64(1, M)))# make any resulting -ve values to be equal to the max datedf[mths_since_ column] df[mths_since_ column].apply(lambda x: df[mths_since_ column].max() if x 0 else x)# drop the original date columndf.drop(columns [column], inplace True)目标列的预处理我们数据集中的目标列是贷款状态其中包含不同的唯一值。这些值将需要转换为二进制。即对于不良借款人为0对于良好借款人为1。在我们的案例中不良借款人的定义是指在我们的目标列中属于以下情况的人员已冲销违约逾期31-120天不符合信用政策的状态已冲销。其余被分类为良好借款人。 # 基于loan_status列创建一个新列这将是我们的目标变量 data[good_bad] np.where(data.loc[:, loan_status].isin([Charged Off, Default, Late (31-120 days),Does not meet the credit policy. Status:Charged Off]), 0, 1) # Drop the original loan_status column data.drop(columns [loan_status], inplace True)分析获取证据权重WOE和信息价值信用风险模型通常需要是可解释和易于理解的。为了实现这一点所有独立变量都必须是分类的。由于一些变量是连续的我们将采用证据权重Weight of Evidence的概念。证据权重将帮助我们将连续变量转换为分类特征。连续变量被分为不同区间并基于它们的证据权重创建新的变量。此外信息价值帮助我们确定哪个特征在预测中是有用的。下面列出了独立变量的信息价值。信息价值小于0.02的变量将不会被包含在模型中因为它们没有预测能力 Information value of term is 0.035478 Information value of int_rate is 0.347724 Information value of grade is 0.281145 Information value of emp_length is 0.007174 Information value of home_ownership is 0.017952 Information value of annual_inc is 0.037998 Information value of verification_status is 0.033377 Information value of pymnt_plan is 0.000309 Information value of purpose is 0.028333 Information value of addr_state is 0.010291 Information value of dti is 0.041026 Information value of delinq_2yrs is 0.001039 Information value of inq_last_6mths is 0.040454 Information value of mths_since_last_delinq is 0.002487 Information value of open_acc is 0.004499 Information value of pub_rec is 0.000504 Information value of revol_util is 0.008858 Information value of initial_list_status is 0.011513 Information value of out_prncp is 0.703375 Information value of total_pymnt is 0.515794 Information value of total_rec_int is 0.011108 Information value of last_pymnt_amnt is 1.491828我们训练集中目标列的类别标签存在不平衡正如下面的条形图所示。使用这种不平衡的数据来训练我们的模型会导致其偏向于预测具有大多数标签的类别。为了防止这种情况我使用了随机过采样来增加目标列中少数类别的观察数量。需要注意的是这个过程仅在训练数据上执行。从上述图中我们可以清晰的看出对于不良借款人为0对于良好借款人为1的最终结果。五、文末总结这篇文章提供了对数据库分类和腾讯云向量数据库的深入了解。它探讨了向量数据库的重要性以及其在不断变化的需求下的应用。通过介绍腾讯云向量数据库的优势和实际项目落地情况文章展示了其在金融信用数据库分析中的实战应用。这篇文章全面介绍了腾讯云向量数据库的重要性、工作原理以及在实际项目中的应用为读者提供了深入了解和实际操作的指导。六、推荐参考文献 AIGC 时代的数据管理 - 向量数据库扫码即可阅读

查看全文

http://www.dnsts.com.cn/news/259651.html