低成本 tts 方案
自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:
- 推理时间尽量实时(100 字符/10s)
多音色支持
目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
有没有比较低成本的方案推荐?基本没有。
买个显卡自己部署模型,加内网穿透
你到底是要克隆音色还是要 tts ?
tts 最低成本的应该就是直接调用系统的 tts ,
克隆音色需要 AI 算力,就没有便宜的,一个小工具搞什么克隆音色,#3 说的对 调用系统 TTS 是最方便的。
前段时间才做过: www.hesudu.com/t/1153662#reply0
不过移动端支持其实挺一般的,具体得自己试试另外就是 edge 浏览器有一套在线的 tts 有不少 github 开源的库可以直接调用。但是这种不一定能非常长期的使用。
搜 edge_tts我是 Mac mini 4 当副机,跑 GPT-SoVITS ,也就 3G 显存左右吧,看你要不要并行,并行还会多一点
我没说清楚,是自定义音色的 tts, 单纯 tts 是很便宜
自定义音色的 tts, 单纯 tts 是很便宜
fish speech 、cosyvioce ( vllm ),本地部署,3060
我的显卡是 A770 16g 然后调整不好一直是 cpu
VibeVoice 实现 90 分钟、多角色播客生成,拓展语音合成新边界 这个怎么样
没看到自定义的需求,打扰了😂
用 f5-tts ,在 windows 电脑上跑,自带加速引擎,速度特别香
VibeVoice 听说显存要占十多 G ,没有音色,当普通 TTS 用,成本也太高了,适合公司用吧
自定义音色可以用 fish.audio
f5-tts 之前实测过太慢了
买个有 4G 显存 3050 显卡的二手笔记本,基本上可以稳定高效跑 GPT-SoVITS
github.com/RVC-Boss/GPT-SoVITS
github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
TTS 用上面的,SVC 用下面的,没上手用过,只是有所耳闻配置最简单是 indextts,1066 batch2 能跑两章小说 batch3 一章,多音字直接拼音替换
阿里音色克隆免费的吧.
minimax 一个音色 10 块钱,合成声音的话 4 元/1w 汉字
StyleTTS+Vocos ,开源的非自回归模型,可以直接部署在 cpu 服务器上,4090 上训练大概要一周左右。但是年头有点久了,效果比不上 cosyvoice/indextts 这些
微调 Kokoro TTS 吧,满足你的需求,速度快,可自定义音色(微调音色 pt 文件)
自己调模型 github.com/benjaminwan/ChineseTtsTflite
自己搭完就会发现还是云服务便宜
想自己写一个 html 的静态电子请柬,微信上发给别人。内容比较长,涉及一些流程和注意事项之类的(可以不看,但得有🫠),只是发图片的话不太方便。至于域名链接啥的无所谓。 国内有…
写在最前面: 想要听听大佬们对我们这款产品的看法(有没市场前景啦)、意见(还可以怎么改加哪些功能等等)、体验提 bug ,统统都可以。 产品已经上线挺长一段时间了,但是还是需要…
team 数据备份,加上测试环境提供存储 不需要什么花里胡哨的功能,支持 raid1 ,smb ,iscsi 和 nfs 就行了。 估计是个 nas 都支持,所以双盘位最便宜的…