欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 名人名企 > 向量嵌入技术(中)

向量嵌入技术(中)

2025/9/26 22:40:45 来源:https://blog.csdn.net/qq_60245590/article/details/148509769  浏览:    关键词:向量嵌入技术(中)

稀疏嵌入+密集嵌入→混合检索

稀疏嵌入 vs 密集嵌入

稀疏嵌入,每个维度语义相对独立

密集嵌入,每个维度语义相关性更强

 

 

密集嵌入 → Float Vector (最常见实现)

稀疏嵌入 → Binary Vector (简化形式) 或 Sparse Float Vector (带权重形式)

BGE – M3

https://huggingface.co/BAAI/bge-m3

BGE-M3 的英文全称是BAAI General Embedding - Multi - Functionality, Multi - Linguality, Multi - Granularity ,其中 BGE 为 BAAI General Embedding(智源通用嵌入模型 ),M3 代表 Multi - Functionality(多功能性 )、Multi - Linguality(多语言性 )、Multi - Granularity(多粒度性 ) ,该模型由北京智源人工智能研究院开发,是具备多语言、多功能、多粒度特征的语义向量模型 。

为什么叫作M3?
• 多功能性(Multi-Functionality):BGE-M3模型集成了密集检索、稀疏检索和
多向量检索3种功能,能够灵活应对不同的检索需求。
• 多语言性(Multi-Linguality):BGE-M3模型支持超过100种语言,具备强大
的多语言和跨语言检索能力。
• 多粒度性(Multi-Granularity):BGE-M3模型能够处理从短句到长达8192个
token的长文档,满足不同长度文本的处理需求。

官方文档Usage教程

Install:

git clone https://github.com/FlagOpen/FlagEmbedding.git
cd FlagEmbedding
pip install -e .

or:

pip install -U FlagEmbedding

测试代码

from FlagEmbedding import BGEM3FlagModeldef main():model = BGEM3FlagModel("BAAI/bge-m3", use_fp16=False)passage = ["猢狲施展烈焰拳,击退妖怪;随后开启金刚体,抵挡神兵攻击。"]# 编码文本,获取稀疏嵌入和密集嵌入passage_embeddings = model.encode(passage,return_sparse=True,     # 返回稀疏嵌入return_dense=True,      # 返回密集嵌入return_colbert_vecs=True  # 返回多向量嵌入)# 分别提取稀疏嵌入、密集嵌入和多向量嵌入dense_vecs = passage_embeddings["dense_vecs"]sparse_vecs = passage_embeddings["lexical_weights"]colbert_vecs = passage_embeddings["colbert_vecs"]# 展示稀疏嵌入和密集嵌入的示例print("密集嵌入维度:", dense_vecs[0].shape)print("密集嵌入前10维:", dense_vecs[0][:10])  # 仅显示前10维print("稀疏嵌入总长度:", len(sparse_vecs[0]))print("稀疏嵌入前10个非零值:", list(sparse_vecs[0].items())[:10])  # 仅显示前10个非零值print("多向量嵌入维度:", colbert_vecs[0].shape) print("多向量嵌入前2个:", colbert_vecs[0][:2])  # 仅显示前2个多向量嵌入if __name__ == '__main__':main()

 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词