适合做中文embedding的大模型」 - Reddo

bge-large-zh
bge-large-zh为文本生成低维密集向量,用于检索、分类等任务

bge-large-zh 是一种文本嵌入模型,能够将任何文本映射到低维密集向量,可用于检索、分类、聚类或语义搜索等任务,也可用于向量数据库中的 LLM。它具有多种使用方式,如通过 FlagEmbedding、Sentence-Transformers、Langchain 或 HuggingFace Transformers 进行使用。

bge-large-zh 团队可将文本映射到向量,应用广泛

HqWu-HITCS
HqWu-HITCS致力于收集和梳理中文大语言模型相关资料

HqWu-HITCS 团队专注于收集和整理中文大语言模型(LLM)相关的开源模型、应用、数据集及教程等资料

该团队专注于收集和整理开源中文大语言模型相关资料

智源研究院
智源研究院专注人工智能领域研究,推动大模型评测方法与工具研发

智源研究院是落实‘北京智源行动计划’的重要举措,致力于人工智能领域的研究,推动大模型评测方法与工具的研发,下设多个研究中心,开展前沿探索,建设 AI 生态圈,加快 AI 前沿技术落地

智源研究院发布了登顶 MTEB 的 BGE 系列 Embedding 模型

合合信息
合合信息智能文字识别与理解的一站式服务平台

合合信息是一家专注于人工智能及大数据科技的企业,在 OCR、人工智能、手写识别、图像处理及自动图像增强等领域达到世界领先水平,旗下有多款知名产品。

合合信息的 embedding 模型在 MTEB 中文榜单中登顶,具有资源占用小、向量维度灵活等优点,应用场景广泛

bge-large-en
bge-large-enFlagEmbedding 可将任何文本映射到低维密集向量

bge-large-en 是由 BAAI 开发的一种文本嵌入模型,它可以将任何文本映射到低维密集向量,用于检索、分类、聚类或语义搜索等任务。该模型在 MTEB 和 C-MTEB 基准测试中取得了优异的成绩,并且可以通过 FlagEmbedding 库进行使用。

bge-large-en 是由 BAAI 开发的文本嵌入模型,可将任何文本映射到低维密集向量,用于多种任务,在 MTEB 和 C-MTEB 基准测试中表现优异。

clip-ViT-B-32-multilingual-v1
clip-ViT-B-32-multilingual-v1多语言版本的 OpenAI CLIP-ViT-B32 模型

这是一个多语言版本的 OpenAI CLIP-ViT-B32 模型,可将文本(50 多种语言)和图像映射到公共密集向量空间,使图像和匹配的文本接近。该模型可用于图像搜索和多语言零样本图像分类。

团队的 clip-ViT-B-32-multilingual-v1 模型可将文本和图像映射到公共密集向量空间,用于图像搜索和多语言零样本图像分类

multi-qa-mpnet-base-dot-v1
multi-qa-mpnet-base-dot-v1语义搜索模型

这是一个 sentence-transformers 模型,用于语义搜索。它将句子和段落映射到 768 维密集向量空间,经过在 215M 个(问题,答案)对上的训练。该模型可用于查询和文档的编码,并计算它们之间的点积得分,以找到相关文档。

团队的 multi-qa-mpnet-base-dot-v1 模型能将中文词或文本映射为向量表示,适合做中文 embedding

chinese-roberta-wwm-ext-large
chinese-roberta-wwm-ext-largeChinese pre-trained BERT with Whole Word Mask...

这是一个基于谷歌研究的 BERT 开发的中文预训练模型,采用了全词掩码技术,旨在加速中文自然语言处理。它由 HFL 团队提供,相关资源还包括 Chinese BERT 系列、Chinese MacBERT、Chinese ELECTRA、Chinese XLNet 等。

Chinese-roberta-wwm-ext-large 是基于谷歌研究的 BERT 开发的中文预训练模型,采用全词掩码技术,适合中文词或文本映射为向量表示,也适合做中文 embedding,能加速中文自然语言处理。

Llama2-Chinese-13b-Chat
Llama2-Chinese-13b-Chat专注于 Llama2 模型在中文方面的优化和上层建设

Llama2-Chinese-13b-Chat 是 FlagAlpha 基于大规模中文数据,从预训练开始对 Llama2 模型进行中文能力的持续迭代升级的成果。该社区热忱欢迎对大模型 LLM 充满热情的开发者和研究者加入,共同推动 Llama2 模型在中文领域的发展。

该团队基于大规模中文数据对 Llama2 模型进行了中文能力的持续迭代升级,具备较强的中文对话能力

LaBSE
LaBSE多语言句子嵌入模型

LaBSE 是一个将 109 种语言映射到共享向量空间的模型,它是[LaBSE](https://tfhub.dev/google/LaBSE/1)模型到 PyTorch 的移植。通过安装 sentence-transformers,使用该模型变得简单。它在句子嵌入基准测试中表现出色,具有完整的模型架构。

LaBSE 模型将 109 种语言映射到共享向量空间,支持中文嵌入。

multilingual-e5-large-instruct
multilingual-e5-large-instruct多语言 E5 大型指令模型

multilingual-e5-large-instruct 是一个具有 24 层和 1024 嵌入大小的模型。它通过对比预训练和微调等阶段进行训练,支持多种语言,并在 MTEB 基准评估中表现出色。该模型可用于文本嵌入任务,如文本检索和语义相似度。

多语言 e5 大型指令模型支持多种语言,可用于文本嵌入任务。

ChatLaw-Text2Vec
ChatLaw-Text2Vec法律相关文本相似度计算模型

ChatLaw-Text2Vec 是一个用于法律相关文本相似度计算的模型,可用于制作向量数据库等。它利用大量全国案例库数据集进行训练,能够提供准确的文本相似度计算结果。

服务法律专业人士,利用全国案例库数据集训练,用于制作向量数据库等,能提供准确的文本相似度计算结果

text2vec-base-chinese
text2vec-base-chinese将句子映射到 768 维密集向量空间

这是一个基于 CoSENT 方法训练的模型,可用于句子嵌入、文本匹配或语义搜索等任务。它在中文 STS-B 数据上进行训练,并在中文各 NLI 测试集上评估达到较好效果。

中文 embedding 模型 text2vec-base-chinese,可用于句子嵌入、文本匹配和语义搜索等任务

BGE-M3
BGE-M3多语言、多功能、多粒度的文本嵌入模型

BGE-M3 是智源发布的通用语义向量模型,支持超过 100 种语言,具备领先的多语言、跨语言检索能力,能够处理不同粒度的输入文本,集成了稠密检索、稀疏检索、多向量检索三种检索功能。

团队开发了多种语言文本检索模型, 并且支持跨语言检索

multi-qa-MiniLM-L6-cos-v1
multi-qa-MiniLM-L6-cos-v1语义搜索的句子嵌入模型

这是一个由 Hugging Face 开发的句子嵌入模型,旨在用于语义搜索。它将句子和段落映射到 384 维的密集向量空间,并在 215M 个(问题,答案)对的数据集上进行了训练。该模型可以用于计算句子之间的相似度,从而实现语义搜索。

团队开发的 multi-qa-MiniLM-L6-cos-v1 模型可用于中文词或文本的向量表示和中文 embedding

moka-ai
moka-ai专注于自然语言处理技术

moka-ai 专注于自然语言处理技术,研发推出了 M3E 中文 Embedding 模型。该模型在大规模句对数据集上训练,支持中英双语的同质文本相似度计算和异质文本检索等功能,未来还将支持代码检索。

moka-ai 专注于自然语言处理技术,其 M3E 模型在句对数据集上训练,具有中英双语的文本相似度计算和检索功能。

gte-large
gte-largeGeneral Text Embeddings (GTE) model

gte-large 是由 Alibaba DAMO Academy 训练的通用文本嵌入模型,基于 BERT 框架,在大规模相关文本对语料库上训练,可应用于信息检索、语义文本相似度、文本重排等下游任务。

该团队的 gte-large 模型是基于 BERT 框架的文本嵌入模型,可用于信息检索等任务

bert-base-chinese
bert-base-chinese预训练的中文语言模型

bert-base-chinese 是由 HuggingFace 团队开发的预训练语言模型,适用于中文。它基于 BERT 架构,通过在大量中文文本上进行无监督学习,模型学习到了语言的统计规律和语义表示。该模型可以用于多种自然语言处理任务,如文本分类、情感分析、命名实体识别等。

基于 BERT 架构的中文预训练语言模型,适用于中文,可以用于多种自然语言处理任务。

bce-reranker-base_v1
bce-reranker-base_v1Bilingual and Crosslingual Embedding for RAG

BCEmbedding 是网易有道开发的双语和跨语种语义表征算法模型库,包含 EmbeddingModel 和 RerankerModel 两类基础模型。EmbeddingModel 用于生成语义向量,RerankerModel 用于优化搜索结果和排序任务。BCEmbedding 在双语和跨语种场景中表现出色,具有高效、精确的语义检索能力,广泛应用于有道的多种产品中。

团队开发的 BCEmbedding 是一种包含 EmbeddingModel 和 RerankerModel 两类基础模型的双语和跨语种语义表征算法模型库,具有高效、精确的语义检索能力,广泛应用于有道的多种产品中,在双语和跨语种场景中表现出色,契合搜索要求。

M3E
M3E多模态、多粒度的中文 Embedding 模型

M3E 是一种多模态、多粒度的中文 Embedding 模型,融合了文本、语音、图像等多种模态信息。它通过大规模的中文句对数据集进行训练,支持中英双语的同质文本相似度计算和异质文本检索等功能,未来还将支持代码检索。

M3E 是多模态中文 Embedding 模型,支持中英双语文本相似度计算和异质检索

all-MiniLM-L6-v2
all-MiniLM-L6-v2将句子和段落映射到 384 维密集向量空间

这是一个 sentence-transformers 模型,可用于聚类或语义搜索等任务。它使用了大量的句子对数据集进行自监督对比学习训练,旨在成为句子和短段落的编码器,输出捕捉语义信息的向量。

具有大量参数和复杂结构,能处理海量数据和复杂任务;可用于聚类和语义搜索等任务,可以将句子和段落映射到 384 维密集向量空间

Luotuo
Luotuo开源中文大语言模型

Luotuo 是由商汤科技和华中科技大学开源的中文语言模型,基于 LLaMA、Stanford Alpaca 等完成,单卡就能完成训练部署。

该团队基于 LLaMA 等,适合做中文词或文本的向量表示,且致力于开源中文大语言模型,适合做中文 embedding。

UAE-Large-V1
UAE-Large-V1优化的文本嵌入模型

UAE-Large-V1 是一款强大的文本嵌入模型,可用于多种任务,如非检索任务和检索任务。它在 MTEB 排行榜上取得了优异成绩,具有高准确性和性能。该模型提供了多种使用方式,包括通过 angle_emb 和 sentence transformer 进行编码。

UAE-Large-V1 是文本嵌入模型,可用于多种任务,在 MTEB 排行榜表现优异;是根据中文语言特点定制的大型语言模型。

BELLE-7B-2M
BELLE-7B-2MBloom-Enhanced Large Language model Engine

BELLE-7B-2M 是基于 Bloomz-7b1-mt 并结合 2M 中文数据和 5 万条英文数据训练的模型,具有较好的中文指令理解和响应生成能力。它可用于多种自然语言处理任务,如文本生成、问答等。

BELLE-7B-2M 是基于 Bloomz-7b1-mt 训练的中文 NLP 模型,可用于多种自然语言处理任务。

PandaLLM
PandaLLM开源海外中文大语言模型项目

PandaLLM 是一个开源的海外中文大语言模型项目,致力于探索大模型的整个技术栈,推动中文自然语言处理领域的创新和合作。

PandaLLM 是开源的海外中文大语言模型项目,推动自然语言处理创新,利用 GitHub Actions 自动化工作流程。

bge-base-en-v15
bge-base-en-v15

bge-base-en-v1.5 是 BAAI 开发的一种文本嵌入模型,具有多种功能和应用场景。它可以用于句子表示、检索相关文章、计算相似度等任务。该模型在 MTEB 和 C-MTEB 基准测试中取得了优异的成绩。

团队开发的 bge-base-en-v1.5 是文本嵌入模型,能处理多语言多粒度检索等任务,在基准测试中排名靠前。

chinese-bert-wwm-ext
chinese-bert-wwm-extChinese pre-trained BERT with Whole Word Mask...

这是一个基于谷歌研究的 BERT 开发的中文预训练模型,采用了全词掩码技术,旨在加速中文自然语言处理。它由 HFL 团队开发,相关资源还包括 Chinese BERT 系列、Chinese MacBERT、Chinese ELECTRA、Chinese XLNet 等。

团队开发的 Chinese BERT-wwm 基于 BERT 且采用全词掩码技术,旨在加速中文自然语言处理

bloom-1b1-zh
bloom-1b1-zh传统中文增强型 BLOOM 语言模型

BLOOM-zh 是由 MediaTek Research 开发的具有增强传统中文能力的语言模型,它基于 Transformer 架构,版本为 2.0.0。该模型训练于大量的传统中文文本数据,可用于多种自然语言处理任务。

BLOOM-zh 是基于 Transformer 架构的中文语言模型,训练于大量中文文本数据,可用于多种自然语言处理任务。

jina-embeddings-v2-base-zh
jina-embeddings-v2-base-zh支持中英双语的文本向量模型

jina-embeddings-v2-base-zh 是由 Jina AI 训练的文本嵌入模型,支持中英双语,序列长度可达 8192。它基于 BERT 架构,采用了 ALiBi 技术,旨在提供高性能的单语言和跨语言应用。该模型在文档检索等任务中表现出色,并提供了多种使用方式和替代方案。

该团队的 jina-embeddings-v2-base-zh 模型是基于 BERT 的中英双语文本嵌入模型,支持中英双语,序列长度可达 8192,在文档检索等任务中表现出色,适用于中文词或文本映射为向量表示和中文 embedding。

acge_text_embedding
acge_text_embedding国产自研的文本向量化模型

acge_text_embedding 是一款国产自研的文本向量化模型,运用了俄罗斯套娃表征学习框架,创建了嵌套的、多粒度的表示向量,能够适应不同计算资源的需求,并可以无缝地适应大多数表示学习框架。

acge_text_embedding 是一款中文词或文本向量化模型

mxbai-embed-large-v1
mxbai-embed-large-v1The crispy sentence embedding family from mix...

mxbai-embed-large-v1 是 mixedbread ai 提供的一种句子嵌入模型,支持多种方式生成句子嵌入,包括 sentence-transformers、Transformers、Transformers.js 和 API。该模型在 MTEB 上取得了 SOTA 性能,并且支持 Matryoshka 表示学习和二进制量化,可显著降低内存使用。

mxbai-embed-large-v1 是一种句子嵌入模型,支持多种方式生成句子嵌入。