微网站和wap,北京建设工程招标信息网站,seo是什么意思如何实现,wordpress是不是做网页
目录
一、引言
二、图片特征抽取#xff08;image-feature-extraction#xff09;
2.1 概述
2.2 google/ViT
2.3 pipeline参数
2.3.1 pipeline对象实例化参数
2.3.2 pipeline对象使用参数
2.4 pipeline实战
2.5 模型排名
三、总结 一、引言
pi…
目录
一、引言
二、图片特征抽取image-feature-extraction
2.1 概述
2.2 google/ViT
2.3 pipeline参数
2.3.1 pipeline对象实例化参数
2.3.2 pipeline对象使用参数
2.4 pipeline实战
2.5 模型排名
三、总结 一、引言
pipeline管道是huggingface transformers库中一种极简方式使用大模型推理的抽象将所有大模型分为音频Audio、计算机视觉Computer vision、自然语言处理NLP、多模态Multimodal等4大类28小类任务tasks。共计覆盖32万个模型 今天介绍多模态的第三篇图片特征抽取image-feature-extraction在huggingface库内有300个图片特征抽取image-feature-extraction模型。
二、图片特征抽取image-feature-extraction
2.1 概述
图片特征抽取image-feature-extraction用途非常广泛指将图片、视频抽帧等多模态内容向量化在图片视频内容相似比对、推荐模型、迁移学习、检索排序、RAG等场景非常常用。 常用的图片特征抽取方法从最早期的CNN到对比学习SimCLR、clip再到ViT经过多年发展已将可以较为准确将图片转化为特征向量用于下游业务。
2.2 google/ViT
以google在2021年6月3日发布的Vision Transformer (ViT)为例传统的图片识别通过CNN卷机神经网络提取图片信息ViT将Transformer技术应用到图片分类上开启了Transformer应用于计算机视觉的先河。该模型也是图片特征抽取image-feature-extraction任务的默认模型google/vit-base-patch16-224 ViT视觉transformer主要原理首先将图片切分成大小相等的块序列分辨率为16*16对每个图片块进行线性嵌入添加位置信息通过喂入一个标准的transformer encoder结构进行特征交叉后送入到MLP层通过增加额外的分类标记构建分类任务完成网络构造。详细论文
2.3 pipeline参数
2.3.1 pipeline对象实例化参数 modelPreTrainedModel或TFPreTrainedModel— 管道将使用其进行预测的模型。 对于 PyTorch这需要从PreTrainedModel继承对于 TensorFlow这需要从TFPreTrainedModel继承。image_processor ( BaseImageProcessor ) — 管道将使用的图像处理器来为模型编码数据。此对象继承自 BaseImageProcessor。modelcardstr或ModelCard可选 — 属于此管道模型的模型卡。frameworkstr可选— 要使用的框架pt适用于 PyTorch 或tfTensorFlow。必须安装指定的框架。taskstr默认为— 管道的任务标识符。num_workersint可选默认为 8— 当管道将使用DataLoader传递数据集时在 Pytorch 模型的 GPU 上时要使用的工作者数量。batch_sizeint可选默认为 1— 当管道将使用DataLoader传递数据集时在 Pytorch 模型的 GPU 上时要使用的批次的大小对于推理来说这并不总是有益的请阅读使用管道进行批处理。args_parserArgumentHandler可选 - 引用负责解析提供的管道参数的对象。deviceint可选默认为 -1— CPU/GPU 支持的设备序号。将其设置为 -1 将利用 CPU设置为正数将在关联的 CUDA 设备 ID 上运行模型。您可以传递本机torch.device或str太torch_dtypestr或torch.dtype可选 - 直接发送model_kwargs只是一种更简单的快捷方式以使用此模型的可用精度torch.float16torch.bfloat16...或autobinary_outputbool可选默认为False——标志指示管道的输出是否应以序列化格式即 pickle或原始输出数据例如文本进行。image_processor_kwargsdict可选 - 传递给图像处理器的关键字参数的附加词典例如 {“size”{“height”100“width”100}}poolbool可选默认为False— 是否返回池化输出。如果是False模型将返回原始隐藏状态。 2.3.2 pipeline对象使用参数 imagesstr、或——管道处理三种类型的图像List[str]PIL.ImageList[PIL.Image] 包含指向图像的 http 链接的字符串包含图像本地路径的字符串直接在 PIL 中加载的图像管道可以接受单张图片或一批图片然后必须以字符串形式传递。一批图片必须全部采用相同的格式全部为 http 链接、全部为本地路径或全部为 PIL 图片。 timeout可选float默认为 None— 等待从网络获取图像的最长时间以秒为单位。如果为 None则不使用超时并且调用可能会永远阻塞。 2.4 pipeline实战
基于pipeline的图片特征抽取image-feature-extraction任务采用google/vit-base-patch16-224进行文本特征抽取代码如下
import os
os.environ[HF_ENDPOINT] https://hf-mirror.com
os.environ[CUDA_VISIBLE_DEVICES] 2from transformers import pipeline
feature_extractor pipeline(feature-extraction, frameworkpt, modelfacebook/bart-base)
text Transformers is an awesome library!outputfeature_extractor(text,return_tensors pt)
print(output)
执行后自动下载模型文件并进行识别 2.5 模型排名
在huggingface上我们将图片特征抽取image-feature-extraction模型按下载量从高到低排序总计400个模型vit排名第一。
三、总结
本文对transformers之pipeline的图片特征抽取image-feature-extraction从概述、技术原理、pipeline参数、pipeline实战、模型排名等方面进行介绍读者可以基于pipeline使用文中的2行代码极简的使用多模态中的图片特征抽取image-feature-extraction模型。 期待您的3连关注如何还有时间欢迎阅读我的其他文章
《Transformers-Pipeline概述》
【人工智能】Transformers之Pipeline概述30w大模型极简应用
《Transformers-Pipeline 第一章音频Audio篇》
【人工智能】Transformers之Pipeline一音频分类audio-classification
【人工智能】Transformers之Pipeline二自动语音识别automatic-speech-recognition
【人工智能】Transformers之Pipeline三文本转音频text-to-audio/text-to-speech
【人工智能】Transformers之Pipeline四零样本音频分类zero-shot-audio-classification
《Transformers-Pipeline 第二章计算机视觉CV篇》
【人工智能】Transformers之Pipeline五深度估计depth-estimation
【人工智能】Transformers之Pipeline六图像分类image-classification
【人工智能】Transformers之Pipeline七图像分割image-segmentation
【人工智能】Transformers之Pipeline八图生图image-to-image
【人工智能】Transformers之Pipeline九物体检测object-detection
【人工智能】Transformers之Pipeline十视频分类video-classification
【人工智能】Transformers之Pipeline十一零样本图片分类zero-shot-image-classification
【人工智能】Transformers之Pipeline十二零样本物体检测zero-shot-object-detection
《Transformers-Pipeline 第三章自然语言处理NLP篇》
【人工智能】Transformers之Pipeline十三填充蒙版fill-mask
【人工智能】Transformers之Pipeline十四问答question-answering
【人工智能】Transformers之Pipeline十五总结summarization
【人工智能】Transformers之Pipeline十六表格问答table-question-answering
【人工智能】Transformers之Pipeline十七文本分类text-classification
【人工智能】Transformers之Pipeline十八文本生成text-generation
【人工智能】Transformers之Pipeline十九文生文text2text-generation
【人工智能】Transformers之Pipeline二十令牌分类token-classification
【人工智能】Transformers之Pipeline二十一翻译translation
【人工智能】Transformers之Pipeline二十二零样本文本分类zero-shot-classification
《Transformers-Pipeline 第四章多模态Multimodal篇》
【人工智能】Transformers之Pipeline二十三文档问答document-question-answering
【人工智能】Transformers之Pipeline二十四特征抽取feature-extraction
【人工智能】Transformers之Pipeline二十五图片特征抽取image-feature-extraction
【人工智能】Transformers之Pipeline二十六图片转文本image-to-text
【人工智能】Transformers之Pipeline二十七掩码生成mask-generation
【人工智能】Transformers之Pipeline二十八视觉问答visual-question-answering