当前位置: 首页 > news >正文

手机模板的网站哪个好辽阳网站建设企业

手机模板的网站哪个好,辽阳网站建设企业,淘宝客做网站推广,电商插件 wordpressElasticsearch 中管道 文章目录 Elasticsearch 中管道1、管道( Ingest Pipeline)1.**管道描述**2.**处理器(Processors)**(1)**`attachment`处理器**(2)**`remove`处理器**3.**整体流程**4.**应用场景**示例:如何使用该管道总结2、如何设置`attachment`处理器取出`指定…Elasticsearch 中管道 文章目录 Elasticsearch 中管道1、管道( Ingest Pipeline)1.**管道描述**2.**处理器(Processors)**(1)**`attachment`处理器**(2)**`remove`处理器** 3.**整体流程**4.**应用场景**示例:如何使用该管道总结 2、如何设置`attachment`处理器取出`指定`字段如何设置`attachment`处理器不取出`title`字段示例:不导出`title` 解释:其他可能提取的字段:总结: 3、`properties`参数类型1. **content**(文件内容)2.**标题**3. **author**(作者)4. **content_type**(文件类型)5. **language**(语言)6.**关键词**(关键词)7.**日期**(创建或修改日期)8. **content_length**(内容长度)9. **page_count**(页数)10.**名称**(文件名)11. **other_fields**(其他元数据字段)总结 4、自定义`properties`参数类型**1.使用映射(Mapping)定义字段类型****1.后处理(Post-Processing)** 5、修改 Ingest Pipeline 的步骤示例:修改一个摄取管道示例 1:修改描述和添加处理器示例2:仅更新某个处理器 处理器类型验证修改删除 Ingest Pipeline总结 6、 Java 客户端对管道的增、删、改、查操作1.添加依赖2.创建Elasticsearch客户端3.增、删、改、查操作示例3.1 增加管道3.2 修改管道3.3 删除项目3.4 查询项目 4. 完整示例程序总结注意事项 1、管道( Ingest Pipeline) 请求请求PUT /_ingest/pipeline/attachment是在Elasticsearch中创建一个Ingest Pipeline,用于处理文档中的附件(如PDF、Word、TXT等),提取出其中的文本内容和元数据,并删除原始的附件数据。具体解释如下: 1.管道描述 "description": "提取附件信息"表明该Pipeline的目的是从上传的文件数据中提取内容和元数据。 2.处理器(Processors) 这个Pipeline包含两个处理器,分别是attachmentCPU和removeCPU。 (1)attachment处理器 {"attachment": {"field": "content","ignore_missing": true} }处理器:attachment基于Elasticsearch的Ingest Attachment Processor插件,它的作用是从指定字段中提取文件内容作用和元数据。这里指定的字段是content,该字段通常是包含附件文件的Base64编码数据,比如PDF、Word或者TXT文件的内容。内容提取:该处理器会解析content字段中存储的附件,并提取: 文本内容(attachment.content)文件类型(attachment.content_type)语言(attachment.language)作者(attachment.author,如果文件中有的话)文件大小(attachment.content_length)等元数据 ignore_missing: true:如果content字段不存在或者为空,处理器不会报错,但是会忽略这个字段并继续执行。这很实用,因为文档某些可能没有附件,你不希望整个处理过程缺少因为字段而失败。(2)remove处理器 {"remove": {"field": "content"} }作用:该处理器会在attachment处理器提取完数据后,删除原始的content字段,对Base64编码的文件数据。这样可以减少存储空间的占用,因为在提取完文本内容和元数据之后,通常不再需要保存原始的Base64数据。3.整体流程 这个Pipeline的执行流程是: 提取文件内容和元数据:首先,attachment处理器从content字段中提取附件的内容和相关元数据,存储在新的attachment字段中。删除原始的Base64数据文件:接着,remove处理器会删除原始的content字段,确保只保留提取出的文本和元数据,减少存储空间。4.应用场景 可能的Pipeline主要用于处理包含文件附件的文档,比如你有一个PDF文件或Word文档,想要提取其中的文本并进行全面的搜索或分析。典型的使用场景包括: 全文搜索:您可以对提取出的文件内容进行全文搜索,而不需要保留原始的文件数据。文件元数据存储:您可以存储并查询文件的元数据(如作者、文件类型、文件大小等),用于过滤或分析。示例:如何使用该管道 创建管道(如本例中已经完成) PUT /_ingest/pipeline/attachment {"description": "提取附件信息","processors": [{"attachment": {"field": "content","ignore_missing": true}},{"remove": {"field": "content"}}] }上传文件并进行处理 上传一个文件的Base64编码内容并通过该Pipeline进行处理: POST /my_index/_doc?pipeline=attachment {"content": "BASE64_ENCODED_FILE_CONTENT" }存储的文档内容:执行成功后,Elasticsearch会存储提取出的attachment字段(文件内容和元数据),而不会保存原始的content字段。 文档的索引可能看起来像这样: {"_index": "my_index","_id": "1","_source": {"attachment": {"content": "This is the extracted text from the file...","content_type": "application/pdf","language": "en","author": "Author Name","content_length": 12345}} }总结 这个Pipeline的作用是从文档中的附件(如PDF、Word、TXT文件等)提取内容和元数据,进而删除原始的Base64编码数据,以优化存储并为全文搜索等操作做好准备。 2、如何设置attachment处理器取出指定字段 在Elasticsearch的attachment处理器中,如果您不想提取文档属性中的标题(title),可以通过properties参数来控制要提取哪些字段。**properties**参数允许您指定只提取某些元数据字段,避免提取不需要的字段(如title) 。 如何设置attachment处理器不取出title字段 您可以在attachment处理器的配置中使用properties参数,明确指定需要提取的字段,并排除不需要的title字段。 示例:不导出title PUT /_ingest/pipeline/attachment {"description": "提取附件信息,不包括标题","processors": [{"attachment": {"field": "content","properties": ["content", "content_type", "language", "author", "content_length"],"ignore_missing": true}},{"remove": {"field": "content"}}] }解释: properties:该参数定义了要提取的具体字段。在示例中, properties被设置为: content: 文件实际文本内容content_type: 文件的 MIME 类型(如application/pdf)language: 文件语言author: 文件的作者content_length: 文件内容长度(字节数) 通过明确指定这些字段,attachment处理器只会提取你需要的字段,不会提取title字段。 其他可能提取的字段: 如果您想进一步控制其他可能的元数据字段,以下是attachment处理器支持的常见字段列表: content: 文件实际文本内容content_type: 文件类型(如application/pdf、application/msword等)language: 文件的语言(如en、fr)。author: 文档的作者(如果存在)。title: 文档的标题(如果存在)。date: 文章创建日期keywords: 文档中可能存在的关键词。content_length: 文件内容的字节数总结: 通过在attachment处理器中使用properties参数,您可以精确控制哪些字段会被提取。如果您不需要提取文件的title,只需要在properties中修复即可,就像上面的例子那样明确指定所需的其他字段。 3、properties参数类型 在Elasticsearch的Ingest Attachment Processor中,当你不指定properties参数时,它默认会提取文件的所有可用元数据属性,如title(标题)、author(作者)、content_type(文件类型)等。这些元数据会存储在生成的attachment字段中。 来说,取出的元数据存储在不同的字段中,每个字段对应不同的元数据类型,存储的数据类型根据属性的内容取不同。以下是主要元数据属性对应其类型: 1. content(文件内容) 類型:string 说明: 提取出文件的实际内容。 示例 : "content": "This is the text extracted from the file..."2.标题 类型:string或null 说明:提取出的文档标题(如果存在)。在很多
http://www.dnsts.com.cn/news/64730.html

相关文章:

  • 南昌网站建设规划方案怎么做符合seo的网站
  • 怎样建自己的网站wordpress影院404
  • 网站的推广和宣传工作如何做django 企业网站开发
  • seo站内站怎么做网站分类有哪几类
  • 网站上怎样做超链接国外ui设计网站
  • 网站开发都是使用框架吗wordpress google字体 插件
  • 嘉陵 建设 摩托车官方网站会员管理系统功能
  • 食品包装设计网站如何做网站呢
  • angularjs 网站开发超级门户博客版wordpress主题
  • 怎样免费个人网站建设郑州上海做网站的公司有哪些
  • 广州萝岗网站建设搜索引擎网站提交入口
  • 网站做二级域名销售类电商网站如何做优化
  • 山东省建设厅网站查建设主题网站步骤
  • 茂名住房和城乡建设部网站做公司网站需要多少钱
  • 网站建设选题网站仿制 个人
  • 优秀电商网站设计网站建设维护 知乎
  • 什么网站做任务seo数据统计分析工具有哪些
  • wordpress调用站点标题哪个网站可以做excel
  • 揭阳做网站网站建设推广有没有
  • 网站开发源代码修改无锡网站推广优化费用
  • 艺术学校网站模板自助定制网站开发公司
  • 做网站的关键性技术有哪些主机免费云服务器如何
  • 台州网站建设优化网站建设运营维护合同
  • 合肥网站制作方案网站建设销售话术开场白
  • 马卡龙网站建设方案知春路网站建设
  • 网站外包哪家公司好图片转换成网址链接
  • 营销网站的案例分析找网站推广
  • 建个地方门户网站要多少钱如何选择网站定制公司
  • 盐山网站建设价格优化教育培训
  • 互粉的网站是怎么做的建一个网上商城需要多少钱