重庆最大的本地交流网站,万网上买了域名怎么建设网站,网站添加ico图标,上海网站设计公司推荐亿企邦目录
前言
text2vec开源项目
核心能力
文本向量表示模型
本地试用
安装依赖
下载模型到本地#xff08;如果你的网络能直接从huggingface上拉取文件#xff0c;可跳过#xff09;
运行试验代码 前言 在上一篇文章中介绍了#xff0c;如何从不同格式的文件里提取…目录
前言
text2vec开源项目
核心能力
文本向量表示模型
本地试用
安装依赖
下载模型到本地如果你的网络能直接从huggingface上拉取文件可跳过
运行试验代码 前言 在上一篇文章中介绍了如何从不同格式的文件里提取文本信息。
本篇文章将介绍如何将提取出的文本信息转换为vector以便后续基于vector做相似性检索。
文档向量化工具一Apache Tika介绍https://mp.csdn.net/mp_blog/creation/editor/134488150
text2vec开源项目
text2vec是github上很受欢迎的一个开源项目。
text2vecText to Vector。 【GitHub地址】 https://github.com/shibing624/text2vec 【开源协议】 Apache-2.0 license 核心能力
Text to Vector, Get Sentence Embeddings. 文本向量化把文本(包括词、句子、段落)表征为向量矩阵。
text2vec实现了
Word2VecRankBM25BERTSentence-BERTCoSENT
等多种文本表征、文本相似度计算模型并在文本语义匹配相似度计算任务上比较了各模型的效果。
文本向量表示模型
Word2Vec通过腾讯AI Lab开源的大规模高质量中文词向量数据800万中文词轻量版 (文件名light_Tencent_AILab_ChineseEmbedding.bin 密码: tawe实现词向量检索本项目实现了句子词向量求平均的word2vec向量表示SBERT(Sentence-BERT)权衡性能和效率的句向量表示模型训练时通过有监督训练BERT和softmax分类函数文本匹配预测时直接取句子向量做余弦句子表征方法本项目基于PyTorch复现了Sentence-BERT模型的训练和预测CoSENT(Cosine Sentence)CoSENT模型提出了一种排序的损失函数使训练过程更贴近预测模型收敛速度和效果比Sentence-BERT更好本项目基于PyTorch实现了CoSENT模型的训练和预测BGE(BAAI general embedding)BGE模型按照retromae方法进行预训练参考论文再使用对比学习finetune微调训练模型本项目基于PyTorch实现了BGE模型的微调训练和预测
本地试用 推荐用conda管理python环境 conda create -n py3.9 python3.9 // 安装一个python3.9的环境 安装依赖 conda install -c pytorch pytorch pip install -U text2vec 下载模型到本地如果你的网络能直接从huggingface上拉取文件可跳过
https://huggingface.co/shibing624/text2vec-base-chinese/tree/main 本地建立一个文件夹名字是shibing624/text2vec-base-chinese 手动点击逐个下载文件到此文件夹 运行试验代码
# 设置huggingface以offline模式运行从本地加载我们刚才下载的模型数据
HF_DATASETS_OFFLINE1 TRANSFORMERS_OFFLINE1
from text2vec import SentenceModelm SentenceModel(model_name_or_path/xxxxxxxx绝对路径xxxxxxx/shibing624/text2vec-base-chinese)m.encode(如何更换花呗绑定银行卡)
运行效果