声音克隆模型」 - Reddo

PlayHT
PlayHTAI 语音生成器,提供超 600 种 AI 声音

PlayHT 是一款 AI 语音生成器,使用先进的 AI 技术将文字转换为真实语音,支持多种语言和用途,可下载为 MP3 和 WAV 文件。它提供超过 600 种 AI 声音,包括多种语言和口音,适用于视频、音频出版、故事讲述、对话 AI 等多种场景。

PlayHT 是一款 AI 语音生成器,可实现文字到语音的转换,且提供声音克隆功能。

Resemble
ResembleAI 语音生成器,几秒钟内生成逼真语音

Resemble AI 是一家加拿大的 AI 语音初创公司,提供语音克隆、语音转换、多语言支持等功能,可应用于客户服务、游戏、娱乐等领域。其专业级语音克隆几乎与原始声音无异,还具备实时检测深度伪造音频的能力。

Resemble 是一家提供语音克隆、语音转换等功能的 AI 语音初创公司。

GPT-SoVITS
GPT-SoVITS强大的少样本语音转换与语音合成 Web 用户界面

GPT-SoVITS 是一个具有强大功能的少样本语音转换与语音合成 Web 用户界面。它支持零样本文本到语音转换,只需输入 5 秒的声音样本即可体验。还支持少样本 TTS,仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。此外,它还具有跨语言支持,目前支持英语、日语和中文。集成了声音伴奏分离、自动训练集分割、中文自动语音识别和文本标注等工具,协助初学者创建训练数据集和 GPT/SoVITS 模型。

GPT-SoVITS 具有声音克隆功能,且它是一个少样本语音转换与语音合成 Web 用户界面。

魔音工坊
魔音工坊一款媲美真人的 AI 配音软件,为您轻松配出好声音。

魔音工坊是一款先进的配音工具和高效多人音频协同创作工具,集成了先进的深度学习技术,可智能将文字转换成语音,支持多种语言和语音风格。它广泛应用于视频配音、新闻播报、有声书、有声电台、外语出海等多种配音场景,拥有 800 多款声音、1000 多种风格,更有众多明星大咖声音入驻,简单易用、轻松上手。

魔音工坊是集成深度学习技术的配音工具,可智能转换文字语音,支持多种语言和风格,广泛用于配音场景,拥有多种声音和风格。

OpenVoiceV2
OpenVoiceV2文本转语音模型

OpenVoiceV2 是 myshell-ai 推出的一款文本转语音模型,具有准确的音色克隆、灵活的语音风格控制和零样本跨语言语音克隆等功能。它支持多种语言,包括英语、西班牙语、法语、中文、日语和韩语。用户可以通过官网提供的服务进行快速使用,也可以在 Linux 系统上进行安装和开发。

声音克隆功能是 OpenVoiceV2 最显著的特点之一,技术邻域为机器学习,适用于 Linux 系统。

PaddleSpeech
PaddleSpeech利用 PaddleSpeech 实现声音克隆与 AI 鬼畜视频制作

PaddleSpeech 是百度智能云的声音克隆技术,使用语音转换算法。它可以通过采集和分析目标声音的特征,生成与目标声音相似或相同的声音。PaddleSpeech 提供了丰富的语音处理算法和工具,为声音克隆的实现提供了强有力的支持。

PaddleSpeech 是百度智能云的声音克隆技术,使用语音转换算法,提供了丰富的语音处理算法和工具,支持声音克隆和语音合成等功能。

bark-voice-cloning
bark-voice-cloning语音克隆模型

bark-voice-cloning 是一个处理 HuBERT 模型输出的模型,可将其转化为与 bark 文本到语音兼容的语义标记,用于语音克隆等多种应用。

团队提供声音克隆功能,是机器学习模型,与语音克隆相关。

clone-voice
clone-voice声音克隆工具,使用人类音色进行文字语音合成或声音转换

clone-voice 是一款声音克隆工具,可使用任何人类音色,将文字合成为使用该音色说话的声音,或转换声音。支持多种语言,可在线录制声音,操作简单。提供预编译版和源码部署,预编译版双击 app.exe 打开 web 界面即可使用,源码版需配置环境。模型 xtts 仅可用于学习研究,不可用于商业。

可使用任何人类音色将文字合成为使用该音色说话或将声音转换,操作简单,提供预编译版和源码部署。

百度智能云
百度智能云云智一体深入产业

百度智能云是百度旗下的云计算品牌,提供全栈的大模型服务,包括建设咨询、场景设计、效果调优、应用定制、效果运营和技术培训等,旨在帮助企业快速实现 AI 原生应用创新和业务收益落地。

团队提供全栈大模型服务,包括声音克隆技术和产品,属于机器学习模型

Replicate
Replicate一行代码运行AI模型

Replicate是一个开源AI模型托管云平台,用户可以通过API运行和微调开源模型,并大规模部署自定义模型。平台支持图像、语言等多种模型的微调和部署,提供自动扩展和按需付费的服务。

Replicate 是一个开源 AI 模型托管云平台,提供了全面的声音克隆模型服务。

CO-FIT
CO-FIT服务于新系列智能穿戴手表的专属应用

CO-FIT 是一款全新设计和开发的应用,用于同步智能穿戴手表记录的步数、卡路里、里程、心率、血压、睡眠和运动等数据。其新设计的 UI 可更直观地显示数据,绑定并授权后,还能将手机的来电和短信推送到手表上,避免信息丢失。

团队提供声音克隆功能,且该功能属于机器学习模型的应用

VoiceEngine
VoiceEngine利用文本输入和音频样本生成相似声音的技术

VoiceEngine 是 OpenAI 推出的声音克隆技术,通过文本输入和 15 秒音频样本生成相似声音。它由文本到语音模型驱动,能预测最可能的声音,并采用扩散过程生成音频。该模型已开发一年多,早期用于内部测试,帮助理解技术前沿。安全是首要任务,合作伙伴需遵守使用政策,禁止未经同意的模仿,并要求向听众披露 AI 生成的声音。

VoiceEngine 是 OpenAI 推出的声音克隆技术,能通过文本和音频样本生成相似声音,属于机器学习模型,与语音合成相关

XTTS-v1
XTTS-v1Voice generation model that clones voices int...

XTTS-v1 是一款语音生成模型,只需 6 秒的音频片段即可克隆声音到不同语言。它基于 Tortoise 构建,具有重要的模型变化,使跨语言语音克隆和多语言语音生成变得超级容易。目前支持 14 种语言,包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文和日语。

XTTS-v1 是语音克隆模型,支持多语言克隆,基于 Tortoise 构建,团队信息注明时间和产品。

Respeecher
RespeecherVoice cloning for filmmakers and creators

Respeecher 是一家专注于语音克隆技术的公司,为电影制作人、创作者等提供高质量的语音解决方案。其技术融合了前沿的公共模型和专有技术,能够从任何源材料中提供出色的结果。Respeecher 还注重声音的真实性和情感表达,致力于为用户带来沉浸式的体验。

Respeecher 专注于语音克隆技术,其产品包括为影视、游戏、广告等提供语音克隆服务,且融合了前沿的公共模型和专有技术。

模型服务灵积
模型服务灵积提供集成大模型的 API 服务

模型服务灵积是阿里云的轻量化声音克隆模型服务,通过真人语音数据训练生成定制语音合成模型,为用户的品牌或角色合成清晰自然的声音。它提供灵活、易用的模型 API 服务,让各种模态模型的能力方便地为 AI 开发者所用,开发者不仅可以直接集成大模型的强大能力,也可以对模型进行训练微调,实现模型定制化。

模型服务灵积 DashScope 是阿里云推出的轻量化声音克隆模型服务,通过真人语音数据训练生成定制语音合成模型,为用户的品牌或角色合成清晰自然的声音。

VoiceConversionWebUI
VoiceConversionWebUI基于 VITS 的语音转换框架

VoiceConversionWebUI 是一个集模型训练、推理、音频处理为一体的 AI 语音克隆工具,具有简单易用的网页界面。它使用 top1 检索替换输入源特征为训练集特征来杜绝音色泄漏,即便在相对较差的显卡上也能快速训练,使用少量数据进行训练也能得到较好结果。此外,它还支持模型融合来改变音色,可调用 UVR5 模型来快速分离人声和伴奏。

VoiceConversionWebUI 是集模型训练、推理、音频处理为一体的 AI 语音克隆工具,包含声音克隆功能、机器学习模型。

Voicery
Voicery提供高质量的声音合成技术

Voicery 是一家提供声音合成技术的公司,包括声音克隆,为企业和开发者提供解决方案。其产品工作原理是通过训练深度神经网络来模仿配音演员的声音,能够传达精心设计的情感,可应用于多种场景,如汽车、语音助手、呼叫中心、有声读物等。

提供声音克隆技术,通过训练深度神经网络模仿配音演员声音,应用于多种领域,Voicery 是机器学习模型

metavoice-1B-v01
metavoice-1B-v011.2B 参数基础模型,用于 TTS(文本到语音)

MetaVoice-1B 是一个 1.2B 参数的基础模型,在 100K 小时的语音上进行训练,用于 TTS(文本到语音)。它具有以下优先级:情感语音节奏和语调,支持语音克隆微调,对美国和英国声音的零样本克隆,支持长格式合成。该模型在 Apache 2.0 许可证下发布,可以无限制使用。

MetaVoice-1B 具有语音克隆微调的功能,是用于 TTS 的 1.2B 参数基础模型,训练于 100K 小时语音。

Reecho睿声
Reecho睿声探索生成式语音的无限可能

Reecho 睿声是一个超拟真语音合成与瞬时克隆平台,由浙江大学机器学习博士后团队领衔研发。它可以理解文本上下文,以与真人几乎无异的拟真度、表现力、情感、韵律和音色来基于文本生成人声音频,并且支持以极短样本进行无需训练的瞬时语音克隆,或使用较长样本进行精益求精的专业语音克隆。Reecho 睿声还提供了声音社区,用户可以在这里自由分享克隆声音角色、有声作品、剧本模板、使用心得等内容。

Reecho 睿声是超拟真语音合成与瞬时克隆平台,由浙江大学机器学习博士后团队领衔研发,可理解文本上下文生成人声音频,支持瞬时与专业语音克隆,并提供声音社区。

Real-Time-Voice-Cloning
Real-Time-Voice-Cloning5 秒内克隆您的声音并生成任意语音内容

这是一个支持将文字转换为克隆人声音的项目,通过深度学习框架实现,可在 5 秒内克隆声音并生成任意语音。它具有多种功能,如支持中文、PyTorch 等,可在 Windows 和 Linux 系统上运行,且易于使用。

提供文字转克隆人声音服务,通过深度学习框架实现,具备易用性

so-vits-svc-40-models
so-vits-svc-40-models由 so-vits-svc-4.0 训练的模型

这是一个由 TachibanaKimika 在 Hugging Face 上发布的模型集合,包含了多个角色的语音模型,如 sora、riri、hibiki 等。这些模型经过训练,可以用于语音合成等任务。

团队提供了多角色语音合成模型,且经训练可用于语音合成等任务,符合搜索要求

奇妙问
奇妙问为企业打造高智商、高颜值、智能交互数字人

奇妙问是南京小问智能科技有限公司旗下品牌,提供一站式交互数字人解决方案。其数字人具有高颜值外表、动听的声音、个性化克隆等特点,搭载自研大模型“序列猴子”,支持十亿、百亿、千亿级别参数规模,满足大中小各类企业诉求。

团队名称为奇妙问,其数字人具有个性化克隆等特点,搭载的自研大模型支持多种参数规模,自研即表明属于机器学习模型

iFLYTEK
iFLYTEK用人工智能建设美好世界

科大讯飞是一家专注于人工智能领域的公司,致力于语音识别、语音合成、声音克隆等技术的研究与应用。其产品涵盖教育、医疗、城市、工业、金融、客服、汽车、营销、企业数字化、家庭等多个行业,为用户提供智能语音交互、智能办公、智能翻译等服务。

科大讯飞致力于语音识别、合成和克隆等技术的研究与应用,其产品涵盖多个行业,提供多种智能服务。

metahuman-stream
metahuman-stream实时交互流式数字人,实现音视频同步对话

这是一个基于 Ernerf 模型的实时流式数字人项目,支持多种数字人模型,如 ernerf、musetalk、wav2lip 等,还支持声音克隆、多种音频特征驱动、全身视频拼接、rtmp 和 webrtc 等功能,基本可以达到商用效果。

团队的metahuman-stream产品是基于Ernerf模型的实时流式数字人项目,支持声音克隆等多种功能。

KitsAI
KitsAIYour Voice, Your Future: Monetize your talent...

KitsAI 是一个 AI 声音生成和免费 AI 声音训练平台,让音乐人使用和创建 AI 声音。主要功能包括 AI 声音转换、克隆、文字转语音、声音分离等。它与艺术家和创作者直接合作,以正式授权他们的 AI 声音模型。

团队提供声音克隆功能,且其产品属于人工智能模型,同时涉及语音合成相关技术。

奇妙元
奇妙元一站式数字人视频制作&直播平台

奇妙元是一家专注于数字人短视频和直播服务的公司,提供多种类型的数字人、百种语言选择,可节省超 80%的时间和预算。其拥有 4 种超前沿的克隆与定制服务,包括真人形象克隆、声音克隆、3D 数字人定制和企业 IP 形象激活。此外,还能一键文本转视频,轻松批量制作数字人视频。

该团队提供了声音克隆功能,且其各项业务均表明属于机器学习模型

zsxkib
zsxkib提供优质声音克隆解决方案。

专注于声音克隆技术和模型的团队。

团队专注于声音克隆技术和模型,提供声音克隆解决方案

EleveLabs
EleveLabs让所有人都可以用任何语言和声音访问内容

EleveLabs 是一家成立于 2022 年的 AI 语音合成软件研发商,总部位于伦敦。其使命是让所有人都可以用任何语言和声音访问内容。该公司拥有先进的 Generative AI 技术,能够创建逼真的语音,适用于视频、播客、有声读物等多种场景。

EleveLabs 是 AI 语音合成软件研发商,提供多种 AI 音频资源和声音克隆功能

VidAU
VidAUAI 驱动的视频生成平台

VidAU 是一个 AI-powered 的视频和音频生成平台,提供多种 AI 工具,适用于各种视频编辑场景。它可以简化内容创作的整个过程,帮助用户更快地制作出高质量的视频。该平台拥有超过 20,000 个真实案例,用户反馈良好。

团队提供 AI 头像发言人等多种功能,利用 AI 技术创建高质量视频,可简化创作过程

FakeYou
FakeYou深度伪造文本到语音服务

提供深度伪造文本到语音服务,包括语音生成、视频生成等多种功能

团队提供深度伪造文本到语音服务,包括语音生成、视频生成等多种功能,属于机器学习模型。

OpenAI
OpenAICreating safe AGI that benefits all of humani...

OpenAI 是一家专注于人工智能研究的公司,致力于开发和推广先进的人工智能技术,以实现安全、有益的通用人工智能。其产品包括 GPT-4、ChatGPT 等,可应用于多个领域,如自然语言处理、计算机视觉等。

OpenAI 开发的产品包括 ChatGPT 等,可应用于自然语言处理等领域,且是人工智能研究公司,致力于开发先进技术。

全能文字转语音
全能文字转语音专业的文字语音合成软件

全能文字转语音是一款智能配音软件,支持文字转语音、视频转语音、语音转文字等功能,具备多种语音类型和背景音乐,可设置声音参数、多音字、插入间隔和多人播报,还能实现视频、音频、图片等格式的转换,提供文字、图片、文档翻译功能,操作简单,界面简洁,适用于多种场景。

提供文字转语音等功能,具备多种语音类型和背景音乐,可设置声音参数等。

ChatTTS
ChatTTS文本到语音项目,实现逼真对话模拟

ChatTTS 是一个专为对话场景设计的文本到语音模型,支持中英双语,可生成自然流畅的语音

提供自然流畅的语音服务,支持中英双语,但未提及声音克隆功能。

阿里云机器学习 PAI 团队
阿里云机器学习 PAI 团队提供轻量化、高性价比的云原生机器学习平台

阿里云机器学习 PAI 团队推出自研 Prompt 美化器 BeautifulPrompt,服务 Stable Diffusion。该团队还打造了机器学习平台 PAI,涵盖多个功能模块,支持千亿特征、万亿样本规模加速训练,应用场景广泛。

阿里云机器学习 PAI 团队打造了 PAI 平台,支持大规模样本训练。团队还推出自研 Prompt 美化器 BeautifulPrompt,与 Stable Diffusion 结合。

XTTS-v2
XTTS-v2Voice generation model that clones voices int...

XTTS-v2 是一种语音生成模型,只需 6 秒的音频片段即可将声音克隆到不同语言。它支持 17 种语言,具有语音克隆、情感和风格转移、跨语言语音克隆、多语言语音生成等功能。该模型还在架构、稳定性、韵律和音频质量等方面进行了改进。

XTTS-v2 是语音生成模型,只需 6 秒音频片段就能克隆声音,还支持多种功能并在多个方面有改进。

Voicify.AI
Voicify.AI用 AI 翻唱创作高质量音乐

Voicify.AI 是一款 AI 音乐创作工具,提供上百个社区上传的 AI 声音模型,支持克隆用户声音,能在几秒钟内制作出高质量的 AI 翻唱作品。

Voicify.AI 是一款提供上百个社区上传的 AI 声音模型的工具,支持克隆用户声音,符合要求。

小文智能
小文智能提供智能客服解决方案,助力企业提升服务质量和效率

小文智能专注于智能客服领域,提供声音克隆软件技术。其智能客服系统基于人工智能技术,能够理解客户问题并提供准确答案和解决方案,提升客户满意度和业务成单率。该系统具备强大的数据分析能力,可实时收集和处理客户数据,为企业提供决策支持。此外,小文智能还关注智能外呼、AI 音频质检等技术,为企业提供全方位的智能客服解决方案。

小文智能是智能客服团队,提供声音克隆技术和全方位客服解决方案。

中米AI
中米AI专注 AI 技术,提供 AI 语音克隆知识和应用

中米 AI 是一个专注于 AI 技术的团队,致力于提供关于 AI 语音克隆的知识和应用。团队在该领域拥有丰富的经验和专业知识,通过不断的研究和创新,为用户提供高质量的 AI 语音克隆解决方案。

中米 AI 是专注 AI 技术的团队,提供声音克隆解决方案,其产品稀土开发者大会 2024 是技术大会。

MARS5TTS
MARS5TTS开源 TTS 模型,可复制 140 多种语言的表演

MARS5TTS 是 CAMB.AI 的开源 TTS 模型,采用两阶段 AR-NAR 管道,具有独特的新型 NAR 组件。只需 5 秒音频和文本片段,就能生成语音,适用于体育评论、动漫等多种场景。可通过标点和大写来引导韵律,还支持通过提供参考音频的转录进行深度克隆。

团队提供的开源 TTS 模型可复制多种语言表演,支持深度克隆,属于机器学习模型。

RVCModels
RVCModels提供多种 RVC 模型

RVCModels 是 Hugging Face 上的一个项目,提供了多种适用于 AI 应用的 RVC 语音模型。用户可以在该项目中找到各种不同类型的模型,包括歌手、商业人士、政治家、虚构角色等。此外,项目还提供了一些教程和示例,帮助用户更好地了解和使用这些模型。

团队名称明确显示提供声音克隆技术,且语音模型隶属于机器学习,为 AI 应用产品。

AssemblyAI
AssemblyAI语音 AI 模型,超人类准确性

AssemblyAI 专注于语音 AI 模型,其模型具有超人类的准确性,包括语音转文本、说话人检测、情感分析、章节检测、PII 编辑等功能。易于集成,定价灵活,始终保持最新,提供 24/7 客户支持。

团队提供语音转文本等多种功能的语音 AI 模型,训练于多语种数据,且易于集成。

spkrec-ecapa-voxceleb
spkrec-ecapa-voxceleb基于 SpeechBrain 的语音识别模型

这是一个基于 SpeechBrain 的语音识别模型,可用于提取说话人嵌入和进行说话人验证。它采用了 ECAPA-TDNN 模型结构,并在 Voxceleb 1+Voxceleb2 训练数据上进行了训练。该模型具有高效的计算性能和良好的识别准确率。

该团队提供的是基于 SpeechBrain 的语音识别模型,可用于说话人验证和提取说话人嵌入,未明确提及声音克隆功能,属于机器学习模型。

tts-tacotron2-ljspeech
tts-tacotron2-ljspeechText-to-Speech with Tacotron2 trained on LJSp...

这是一个基于 SpeechBrain 的文本到语音(TTS)模型,使用 Tacotron2 在 LJSpeech 上进行训练。它可以将输入的短文本转换为输出的频谱图,然后通过声码器(如 HiFIGAN)生成最终的波形。该模型提供了安装和使用的详细说明,并且可以在 GPU 上进行推理。

团队信息提到它可实现短文本到语音的转换,使用了机器学习相关技术

ModelScope
ModelScope轻量化声音克隆服务

ModelScope 是阿里云推出的服务,通过真人语音数据训练生成定制语音合成模型。它基于多阶段文本到视频生成扩散模型,输入描述文本,返回符合文本描述的视频,仅支持英文输入。模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成,整体模型参数约 17 亿。

ModelScope 是阿里云推出的服务,通过真人语音数据训练生成定制语音合成模型,支持多模态生成,其差异...服务对象为需要定制语音合成的用户。

audiogen-medium
audiogen-mediumText-to-Audio 音频生成模型

audiogen-medium 是一个基于文本生成音频的自回归 Transformer LM 模型。它在原始音频波形上学习离散表示,使用 EnCodec 令牌化器。该模型具有快速生成音频的能力,同时能达到与原始模型相似的性能。

团队提供基于文本生成音频的模型,支持声音克隆,且团队明确表示提供语音合成相关服务。

speaker-diarization-30
speaker-diarization-30自动语音识别

speaker-diarization-3.0 是一个用于语音识别的模型,它可以对音频文件进行处理,输出说话人的分割信息。该模型基于 pyannote.audio 开发,经过了大量数据集的训练,具有较高的准确性和可靠性。

这是一个基于机器学习的语音识别模型,处理音频文件并输出说话人分割信息。