先别注册了,最新版本地址:https://www.ffxm.cn/ztnr-7-1-1.html
碎碎念
Hello 大家,好久不见!转眼24年1月就要完了。整个一月份也没有更新几篇推文,在坚持生产输出这件事情上做的很不好。不过好在也没有闲着。一月份完成了自己网站的改版;个人知识付费中心也初步搭建起来,基本可以投入使用。后面有机会会向大家介绍~
言归正传,今天要给大家分享的是我自己开发的一个 Openai TTS 文本转语音小工具。之前在《[color=var(--weui-LINK)]个人律师如何利用“数字人分身”为自媒体IP打造赋能》这篇文章当中提到过 Openai TTS ,当时给大家分享了一个网站在线使用它的文本转语音服务,但问题是可能因为网站服务器的原因,有时候合成语音会很慢,偶尔网站也会打不开;更可恶的是每次都要重新填秘钥,我真的很烦~😡
所以在想,有没有这种本地的工具软件可以直接调用 Openai Api 生成音频。一番检索后虽有所发现,可多是基于 Python 开发,使用时需要安装 Python 解释器,配置各种环境变量,非常的麻烦,所以才有了自己写一个小工具的想法。看看 UI 先:
软件长这样~
一、什么是 Openai TTS
Openai TTS是基于先进的深度学习技术开发的文本转语音系统。它能够将文本信息转换为流畅自然、接近人声的语音输出。这意味着无论是新闻文章、书籍内容,还是日常沟通的文本,都可以通过这个工具“说出来”。
1. 收费
Openai TTS提供了以下两种收费方式,这是因为有两个音频生成模型。tts-1模型和tts-1-hd模型,前者提供最低的延迟,但音频质量低于后者;而实际上根据我在写这个小工具过程中的测试,中文环境下两个音频模型生成的结果基本没有什么差别。
TTS $0.015 / 1K characters
TTS HD $0.030 / 1K characters
而效果相差不大的 ElevenLabs 价格却是 Openai TTS 的两倍。而且 Openai 注册即送五美金额度,如果只用 tts-1 模型的话,大概可以生成 33 万字符。使用完了之后可以重新注册账号,所以几乎等于免费使用。
2. 特点语音自然流畅
在我目前所接触过的商用TTS模型当中,Openai 生成的语音是最接近真人的,相对其他模型其听起来更加自然、流畅,能够很好地模仿人类的语音模式,包括语调、停顿、强调等。唯一美中不足的是中文发音有时候会有港腔或者是外国人腔调,但瑕不掩瑜。
多样化的语音选择
Openai TTS 提供了 alloy、echo、fable、onyx、nova、shimmer 六个发音角色,有男性音声,也有女性音声,用户可以选择不同的语音类型和口音,满足不同场景和需求。
高效的转换速度
与传统的 TTS 技术相比,Openai TTS在保证语音质量的同时,大幅提升了转换效率,几乎可以实现即时转换。
多种音频输出格式
Openai TTS 默认响应格式为 .mp3 ,但也可以使用 .opus、.aac或.flac等其他格式。
- Opus:用于互联网流媒体和通信,低延迟。
- AAC:用于数字音频压缩,YouTube、Android、iOS 首选。
- FLAC:用于无损音频压缩。
3. 应用
TTS 技术的应用非常广泛,比如教育领域、新闻媒体领域、企业客服、个人日常阅读等等。但当前最广泛的应用还是自媒体短视频配音的生产,如前文所述历史文章中提到的用 TTS 为口播视频配音。
二、我写的TTS小工具
今天分享的 Openai TTS 文本转语音工具是我基于 Openai API 开发的一款 Windows 本地文本转语音软件,用户只需要简单的配置即可将文本转成音频。用户仅需填入 API 密钥即可快速生成,免去安装各种环境支持的烦恼。
但也有 1.. 限制:
三、使用教程
1. 获取 api 秘钥填入软件
填写秘钥
填入秘钥后,软件会将秘钥数据保存至本地软件数据目录,下次启动后会自动读取,不用每次都填写。
关于如何获取秘钥可以看我前文中提到的文章,里面有详细的教程,或者大家也可以访问我的网站搜索。
网址:withlaw.cn
2. 配置其他控制参数
主要是模型、发音角色、响应格式和语速。
模型有 tts-1 和 tts-1-hd 两种选择,一个生成更快,一个音频质量更高,但实测没什么区别。
配置语音参数
输出格式默认是mp3,大家也可以根据自己的需要选择opus、aac或flac等,没有特别需求默认mp3即可,其他格式生成完成后不支持播放。
另外关于语速的问题,只能是 0.25-4.0 之间的值,默认1.0,有需求可以放心大胆的调整,乱输也不会出错~
最后要说说发音角色,Openai TTS提供了以下六个选项。大家可以试听一下:
alloy-男:声音比较年轻,语调比较自然
[backcolor=var(--APPMSGCARD-BG)]
alloy-男,刚性兑付,4秒
echo-男:像外国人在说中文,有点别扭
[backcolor=var(--APPMSGCARD-BG)]
echo-男,刚性兑付,4秒
fable-男:声音偏年轻,比前一个更自然
[backcolor=var(--APPMSGCARD-BG)]
fable-男,刚性兑付,4秒
onyx-男:Chatgpt app 对话用的就是这个
[backcolor=var(--APPMSGCARD-BG)]
onyx-男,刚性兑付,4秒
nova-女:语调比较奇怪,感觉在Rap
[backcolor=var(--APPMSGCARD-BG)]
nova-女,刚性兑付,4秒
shimmer-女:相对前一个正常许多
[backcolor=var(--APPMSGCARD-BG)]
shimmer-女,刚性兑付,4秒
3. 输入待转文本
双击文本框自动清除声明文本,直接手动输入或者粘贴你需要转换成语音的文本即可。
输入文本
声明:声明是一定要看的哦~
4. 点击生成音频
输入文本后,点击下方的 一键合成音频 等待几秒钟即生成完成。
生成音频
5. 试听导出音频
“显示台”提示生成完成后,播放音频和导出音频按钮会解锁,如果生成的是mp3格式的音频,则点击播放音频即可听到刚刚生成的文本音频,试听无误后可导出音频到指定目录。其他格式的音频暂不支持点击播放,只可以导出。
试听导出
注意:导出音频之前你可以右上角处设置导出目录,设置不正确的会默认导出到桌面。
导出的文件名为当前日期时间.格式,如20240128170155.mp3
四、软件获取公众号后台回复 “Openaitts” 获取下载链接~
🤤小付又有什么坏心眼呢,只是想涨涨粉罢了~ 🤤
碎碎念-Again
研究这些小工具,虽然没有什么技术难度,但是真的有够折腾[更多是被自己的强迫症逼的吧,时间都花在调试输出上了~]。好在我真的是一个喜欢折腾的人,生命不息,折腾不止。尊嘟很享受那种一点点完善一个作品的感觉,好上头!
不过还是要告诫一下自己:要分清主次矛盾哇,当下还是要少花些时间在这些业外的探索上面……
😭默默念三遍😭:
我是学法的!我是学法的!我是学法的!
念完立个flag:
年后发布难产了1年+的[自动化网络核查助手]。
亮点:
·自动完成非诉业务中的网络核查PDF底稿保存;
·支持自助添加网站,自助配置核查规则;
·本地化运行,核查过程可视化,清晰感受自动化的妙趣;
·其他的……[能发出来再亮吧]
字体小点,看的人就少一点,翻车丢脸就少一点~