「声音克隆模型」 - Reddo

PlayHT 是一款 AI 语音生成器,使用先进的 AI 技术将文字转换为真实语音,支持多种语言和用途,可下载为 MP3 和 WAV 文件。它提供超过 600 种 AI 声音,包括多种语言和口音,适用于视频、音频出版、故事讲述、对话 AI 等多种场景。
PlayHT 是一款 AI 语音生成器,可实现文字到语音的转换,且提供声音克隆功能。

Resemble AI 是一家加拿大的 AI 语音初创公司,提供语音克隆、语音转换、多语言支持等功能,可应用于客户服务、游戏、娱乐等领域。其专业级语音克隆几乎与原始声音无异,还具备实时检测深度伪造音频的能力。
Resemble 是一家提供语音克隆、语音转换等功能的 AI 语音初创公司。
GPT-SoVITS 是一个具有强大功能的少样本语音转换与语音合成 Web 用户界面。它支持零样本文本到语音转换,只需输入 5 秒的声音样本即可体验。还支持少样本 TTS,仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。此外,它还具有跨语言支持,目前支持英语、日语和中文。集成了声音伴奏分离、自动训练集分割、中文自动语音识别和文本标注等工具,协助初学者创建训练数据集和 GPT/SoVITS 模型。
GPT-SoVITS 具有声音克隆功能,且它是一个少样本语音转换与语音合成 Web 用户界面。
魔音工坊是一款先进的配音工具和高效多人音频协同创作工具,集成了先进的深度学习技术,可智能将文字转换成语音,支持多种语言和语音风格。它广泛应用于视频配音、新闻播报、有声书、有声电台、外语出海等多种配音场景,拥有 800 多款声音、1000 多种风格,更有众多明星大咖声音入驻,简单易用、轻松上手。
魔音工坊是集成深度学习技术的配音工具,可智能转换文字语音,支持多种语言和风格,广泛用于配音场景,拥有多种声音和风格。

OpenVoiceV2 是 myshell-ai 推出的一款文本转语音模型,具有准确的音色克隆、灵活的语音风格控制和零样本跨语言语音克隆等功能。它支持多种语言,包括英语、西班牙语、法语、中文、日语和韩语。用户可以通过官网提供的服务进行快速使用,也可以在 Linux 系统上进行安装和开发。
声音克隆功能是 OpenVoiceV2 最显著的特点之一,技术邻域为机器学习,适用于 Linux 系统。
PaddleSpeech 是百度智能云的声音克隆技术,使用语音转换算法。它可以通过采集和分析目标声音的特征,生成与目标声音相似或相同的声音。PaddleSpeech 提供了丰富的语音处理算法和工具,为声音克隆的实现提供了强有力的支持。
PaddleSpeech 是百度智能云的声音克隆技术,使用语音转换算法,提供了丰富的语音处理算法和工具,支持声音克隆和语音合成等功能。

bark-voice-cloning 是一个处理 HuBERT 模型输出的模型,可将其转化为与 bark 文本到语音兼容的语义标记,用于语音克隆等多种应用。
团队提供声音克隆功能,是机器学习模型,与语音克隆相关。
clone-voice 是一款声音克隆工具,可使用任何人类音色,将文字合成为使用该音色说话的声音,或转换声音。支持多种语言,可在线录制声音,操作简单。提供预编译版和源码部署,预编译版双击 app.exe 打开 web 界面即可使用,源码版需配置环境。模型 xtts 仅可用于学习研究,不可用于商业。
可使用任何人类音色将文字合成为使用该音色说话或将声音转换,操作简单,提供预编译版和源码部署。
百度智能云是百度旗下的云计算品牌,提供全栈的大模型服务,包括建设咨询、场景设计、效果调优、应用定制、效果运营和技术培训等,旨在帮助企业快速实现 AI 原生应用创新和业务收益落地。
团队提供全栈大模型服务,包括声音克隆技术和产品,属于机器学习模型
Replicate是一个开源AI模型托管云平台,用户可以通过API运行和微调开源模型,并大规模部署自定义模型。平台支持图像、语言等多种模型的微调和部署,提供自动扩展和按需付费的服务。
Replicate 是一个开源 AI 模型托管云平台,提供了全面的声音克隆模型服务。
CO-FIT 是一款全新设计和开发的应用,用于同步智能穿戴手表记录的步数、卡路里、里程、心率、血压、睡眠和运动等数据。其新设计的 UI 可更直观地显示数据,绑定并授权后,还能将手机的来电和短信推送到手表上,避免信息丢失。
团队提供声音克隆功能,且该功能属于机器学习模型的应用
VoiceEngine 是 OpenAI 推出的声音克隆技术,通过文本输入和 15 秒音频样本生成相似声音。它由文本到语音模型驱动,能预测最可能的声音,并采用扩散过程生成音频。该模型已开发一年多,早期用于内部测试,帮助理解技术前沿。安全是首要任务,合作伙伴需遵守使用政策,禁止未经同意的模仿,并要求向听众披露 AI 生成的声音。
VoiceEngine 是 OpenAI 推出的声音克隆技术,能通过文本和音频样本生成相似声音,属于机器学习模型,与语音合成相关

XTTS-v1 是一款语音生成模型,只需 6 秒的音频片段即可克隆声音到不同语言。它基于 Tortoise 构建,具有重要的模型变化,使跨语言语音克隆和多语言语音生成变得超级容易。目前支持 14 种语言,包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文和日语。
XTTS-v1 是语音克隆模型,支持多语言克隆,基于 Tortoise 构建,团队信息注明时间和产品。
Respeecher 是一家专注于语音克隆技术的公司,为电影制作人、创作者等提供高质量的语音解决方案。其技术融合了前沿的公共模型和专有技术,能够从任何源材料中提供出色的结果。Respeecher 还注重声音的真实性和情感表达,致力于为用户带来沉浸式的体验。
Respeecher 专注于语音克隆技术,其产品包括为影视、游戏、广告等提供语音克隆服务,且融合了前沿的公共模型和专有技术。
模型服务灵积是阿里云的轻量化声音克隆模型服务,通过真人语音数据训练生成定制语音合成模型,为用户的品牌或角色合成清晰自然的声音。它提供灵活、易用的模型 API 服务,让各种模态模型的能力方便地为 AI 开发者所用,开发者不仅可以直接集成大模型的强大能力,也可以对模型进行训练微调,实现模型定制化。
模型服务灵积 DashScope 是阿里云推出的轻量化声音克隆模型服务,通过真人语音数据训练生成定制语音合成模型,为用户的品牌或角色合成清晰自然的声音。
VoiceConversionWebUI 是一个集模型训练、推理、音频处理为一体的 AI 语音克隆工具,具有简单易用的网页界面。它使用 top1 检索替换输入源特征为训练集特征来杜绝音色泄漏,即便在相对较差的显卡上也能快速训练,使用少量数据进行训练也能得到较好结果。此外,它还支持模型融合来改变音色,可调用 UVR5 模型来快速分离人声和伴奏。
VoiceConversionWebUI 是集模型训练、推理、音频处理为一体的 AI 语音克隆工具,包含声音克隆功能、机器学习模型。
Voicery 是一家提供声音合成技术的公司,包括声音克隆,为企业和开发者提供解决方案。其产品工作原理是通过训练深度神经网络来模仿配音演员的声音,能够传达精心设计的情感,可应用于多种场景,如汽车、语音助手、呼叫中心、有声读物等。
提供声音克隆技术,通过训练深度神经网络模仿配音演员声音,应用于多种领域,Voicery 是机器学习模型

MetaVoice-1B 是一个 1.2B 参数的基础模型,在 100K 小时的语音上进行训练,用于 TTS(文本到语音)。它具有以下优先级:情感语音节奏和语调,支持语音克隆微调,对美国和英国声音的零样本克隆,支持长格式合成。该模型在 Apache 2.0 许可证下发布,可以无限制使用。
MetaVoice-1B 具有语音克隆微调的功能,是用于 TTS 的 1.2B 参数基础模型,训练于 100K 小时语音。

Reecho 睿声是一个超拟真语音合成与瞬时克隆平台,由浙江大学机器学习博士后团队领衔研发。它可以理解文本上下文,以与真人几乎无异的拟真度、表现力、情感、韵律和音色来基于文本生成人声音频,并且支持以极短样本进行无需训练的瞬时语音克隆,或使用较长样本进行精益求精的专业语音克隆。Reecho 睿声还提供了声音社区,用户可以在这里自由分享克隆声音角色、有声作品、剧本模板、使用心得等内容。
Reecho 睿声是超拟真语音合成与瞬时克隆平台,由浙江大学机器学习博士后团队领衔研发,可理解文本上下文生成人声音频,支持瞬时与专业语音克隆,并提供声音社区。
这是一个支持将文字转换为克隆人声音的项目,通过深度学习框架实现,可在 5 秒内克隆声音并生成任意语音。它具有多种功能,如支持中文、PyTorch 等,可在 Windows 和 Linux 系统上运行,且易于使用。
提供文字转克隆人声音服务,通过深度学习框架实现,具备易用性
这是一个由 TachibanaKimika 在 Hugging Face 上发布的模型集合,包含了多个角色的语音模型,如 sora、riri、hibiki 等。这些模型经过训练,可以用于语音合成等任务。
团队提供了多角色语音合成模型,且经训练可用于语音合成等任务,符合搜索要求
奇妙问是南京小问智能科技有限公司旗下品牌,提供一站式交互数字人解决方案。其数字人具有高颜值外表、动听的声音、个性化克隆等特点,搭载自研大模型“序列猴子”,支持十亿、百亿、千亿级别参数规模,满足大中小各类企业诉求。
团队名称为奇妙问,其数字人具有个性化克隆等特点,搭载的自研大模型支持多种参数规模,自研即表明属于机器学习模型

科大讯飞是一家专注于人工智能领域的公司,致力于语音识别、语音合成、声音克隆等技术的研究与应用。其产品涵盖教育、医疗、城市、工业、金融、客服、汽车、营销、企业数字化、家庭等多个行业,为用户提供智能语音交互、智能办公、智能翻译等服务。
科大讯飞致力于语音识别、合成和克隆等技术的研究与应用,其产品涵盖多个行业,提供多种智能服务。
这是一个基于 Ernerf 模型的实时流式数字人项目,支持多种数字人模型,如 ernerf、musetalk、wav2lip 等,还支持声音克隆、多种音频特征驱动、全身视频拼接、rtmp 和 webrtc 等功能,基本可以达到商用效果。
团队的metahuman-stream产品是基于Ernerf模型的实时流式数字人项目,支持声音克隆等多种功能。

KitsAI 是一个 AI 声音生成和免费 AI 声音训练平台,让音乐人使用和创建 AI 声音。主要功能包括 AI 声音转换、克隆、文字转语音、声音分离等。它与艺术家和创作者直接合作,以正式授权他们的 AI 声音模型。
团队提供声音克隆功能,且其产品属于人工智能模型,同时涉及语音合成相关技术。

奇妙元是一家专注于数字人短视频和直播服务的公司,提供多种类型的数字人、百种语言选择,可节省超 80%的时间和预算。其拥有 4 种超前沿的克隆与定制服务,包括真人形象克隆、声音克隆、3D 数字人定制和企业 IP 形象激活。此外,还能一键文本转视频,轻松批量制作数字人视频。
该团队提供了声音克隆功能,且其各项业务均表明属于机器学习模型
EleveLabs 是一家成立于 2022 年的 AI 语音合成软件研发商,总部位于伦敦。其使命是让所有人都可以用任何语言和声音访问内容。该公司拥有先进的 Generative AI 技术,能够创建逼真的语音,适用于视频、播客、有声读物等多种场景。
EleveLabs 是 AI 语音合成软件研发商,提供多种 AI 音频资源和声音克隆功能

VidAU 是一个 AI-powered 的视频和音频生成平台,提供多种 AI 工具,适用于各种视频编辑场景。它可以简化内容创作的整个过程,帮助用户更快地制作出高质量的视频。该平台拥有超过 20,000 个真实案例,用户反馈良好。
团队提供 AI 头像发言人等多种功能,利用 AI 技术创建高质量视频,可简化创作过程

OpenAI 是一家专注于人工智能研究的公司,致力于开发和推广先进的人工智能技术,以实现安全、有益的通用人工智能。其产品包括 GPT-4、ChatGPT 等,可应用于多个领域,如自然语言处理、计算机视觉等。
OpenAI 开发的产品包括 ChatGPT 等,可应用于自然语言处理等领域,且是人工智能研究公司,致力于开发先进技术。

全能文字转语音是一款智能配音软件,支持文字转语音、视频转语音、语音转文字等功能,具备多种语音类型和背景音乐,可设置声音参数、多音字、插入间隔和多人播报,还能实现视频、音频、图片等格式的转换,提供文字、图片、文档翻译功能,操作简单,界面简洁,适用于多种场景。
提供文字转语音等功能,具备多种语音类型和背景音乐,可设置声音参数等。
阿里云机器学习 PAI 团队推出自研 Prompt 美化器 BeautifulPrompt,服务 Stable Diffusion。该团队还打造了机器学习平台 PAI,涵盖多个功能模块,支持千亿特征、万亿样本规模加速训练,应用场景广泛。
阿里云机器学习 PAI 团队打造了 PAI 平台,支持大规模样本训练。团队还推出自研 Prompt 美化器 BeautifulPrompt,与 Stable Diffusion 结合。

XTTS-v2 是一种语音生成模型,只需 6 秒的音频片段即可将声音克隆到不同语言。它支持 17 种语言,具有语音克隆、情感和风格转移、跨语言语音克隆、多语言语音生成等功能。该模型还在架构、稳定性、韵律和音频质量等方面进行了改进。
XTTS-v2 是语音生成模型,只需 6 秒音频片段就能克隆声音,还支持多种功能并在多个方面有改进。
Voicify.AI 是一款 AI 音乐创作工具,提供上百个社区上传的 AI 声音模型,支持克隆用户声音,能在几秒钟内制作出高质量的 AI 翻唱作品。
Voicify.AI 是一款提供上百个社区上传的 AI 声音模型的工具,支持克隆用户声音,符合要求。

小文智能专注于智能客服领域,提供声音克隆软件技术。其智能客服系统基于人工智能技术,能够理解客户问题并提供准确答案和解决方案,提升客户满意度和业务成单率。该系统具备强大的数据分析能力,可实时收集和处理客户数据,为企业提供决策支持。此外,小文智能还关注智能外呼、AI 音频质检等技术,为企业提供全方位的智能客服解决方案。
小文智能是智能客服团队,提供声音克隆技术和全方位客服解决方案。
中米 AI 是一个专注于 AI 技术的团队,致力于提供关于 AI 语音克隆的知识和应用。团队在该领域拥有丰富的经验和专业知识,通过不断的研究和创新,为用户提供高质量的 AI 语音克隆解决方案。
中米 AI 是专注 AI 技术的团队,提供声音克隆解决方案,其产品稀土开发者大会 2024 是技术大会。

MARS5TTS 是 CAMB.AI 的开源 TTS 模型,采用两阶段 AR-NAR 管道,具有独特的新型 NAR 组件。只需 5 秒音频和文本片段,就能生成语音,适用于体育评论、动漫等多种场景。可通过标点和大写来引导韵律,还支持通过提供参考音频的转录进行深度克隆。
团队提供的开源 TTS 模型可复制多种语言表演,支持深度克隆,属于机器学习模型。

RVCModels 是 Hugging Face 上的一个项目,提供了多种适用于 AI 应用的 RVC 语音模型。用户可以在该项目中找到各种不同类型的模型,包括歌手、商业人士、政治家、虚构角色等。此外,项目还提供了一些教程和示例,帮助用户更好地了解和使用这些模型。
团队名称明确显示提供声音克隆技术,且语音模型隶属于机器学习,为 AI 应用产品。

AssemblyAI 专注于语音 AI 模型,其模型具有超人类的准确性,包括语音转文本、说话人检测、情感分析、章节检测、PII 编辑等功能。易于集成,定价灵活,始终保持最新,提供 24/7 客户支持。
团队提供语音转文本等多种功能的语音 AI 模型,训练于多语种数据,且易于集成。

这是一个基于 SpeechBrain 的语音识别模型,可用于提取说话人嵌入和进行说话人验证。它采用了 ECAPA-TDNN 模型结构,并在 Voxceleb 1+Voxceleb2 训练数据上进行了训练。该模型具有高效的计算性能和良好的识别准确率。
该团队提供的是基于 SpeechBrain 的语音识别模型,可用于说话人验证和提取说话人嵌入,未明确提及声音克隆功能,属于机器学习模型。

这是一个基于 SpeechBrain 的文本到语音(TTS)模型,使用 Tacotron2 在 LJSpeech 上进行训练。它可以将输入的短文本转换为输出的频谱图,然后通过声码器(如 HiFIGAN)生成最终的波形。该模型提供了安装和使用的详细说明,并且可以在 GPU 上进行推理。
团队信息提到它可实现短文本到语音的转换,使用了机器学习相关技术
ModelScope 是阿里云推出的服务,通过真人语音数据训练生成定制语音合成模型。它基于多阶段文本到视频生成扩散模型,输入描述文本,返回符合文本描述的视频,仅支持英文输入。模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成,整体模型参数约 17 亿。
ModelScope 是阿里云推出的服务,通过真人语音数据训练生成定制语音合成模型,支持多模态生成,其差异...服务对象为需要定制语音合成的用户。

audiogen-medium 是一个基于文本生成音频的自回归 Transformer LM 模型。它在原始音频波形上学习离散表示,使用 EnCodec 令牌化器。该模型具有快速生成音频的能力,同时能达到与原始模型相似的性能。
团队提供基于文本生成音频的模型,支持声音克隆,且团队明确表示提供语音合成相关服务。

speaker-diarization-3.0 是一个用于语音识别的模型,它可以对音频文件进行处理,输出说话人的分割信息。该模型基于 pyannote.audio 开发,经过了大量数据集的训练,具有较高的准确性和可靠性。
这是一个基于机器学习的语音识别模型,处理音频文件并输出说话人分割信息。