原创工具分享:OpenAI TTS文本转语音工具,让文字“说话”

[自主开发] 原创工具分享:OpenAI TTS文本转语音工具,让文字“说话”

原创工具分享:OpenAI TTS文本转语音工具,让文字“说话”
资源价格 0 L币
资源大小: 1.58 MB
下载次数: 72次
人气: 2343
提取码:GXDF
有效期/时长 永久有效自购买之日起计算,VIP不限
立即购买

先别注册了,最新版本地址:https://www.ffxm.cn/ztnr-7-1-1.html


碎碎念


Hello 大家,好久不见!转眼24年1月就要完了。整个一月份也没有更新几篇推文,在坚持生产输出这件事情上做的很不好。不过好在也没有闲着。一月份完成了自己网站的改版;个人知识付费中心也初步搭建起来,基本可以投入使用。后面有机会会向大家介绍~


言归正传,今天要给大家分享的是我自己开发的一个 Openai TTS 文本转语音小工具。之前在《[color=var(--weui-LINK)]个人律师如何利用“数字人分身”为自媒体IP打造赋能》这篇文章当中提到过 Openai TTS ,当时给大家分享了一个网站在线使用它的文本转语音服务,但问题是可能因为网站服务器的原因,有时候合成语音会很慢,偶尔网站也会打不开;更可恶的是每次都要重新填秘钥,我真的很烦~😡


所以在想,有没有这种本地的工具软件可以直接调用 Openai Api 生成音频。一番检索后虽有所发现,可多是基于 Python 开发,使用时需要安装 Python 解释器,配置各种环境变量,非常的麻烦,所以才有了自己写一个小工具的想法。看看 UI 先:


640.jpg

软件长这样~


一、什么是 Openai TTS


Openai TTS是基于先进的深度学习技术开发的文本转语音系统。它能够将文本信息转换为流畅自然、接近人声的语音输出。这意味着无论是新闻文章、书籍内容,还是日常沟通的文本,都可以通过这个工具“说出来”。


1. 收费


Openai TTS提供了以下两种收费方式,这是因为有两个音频生成模型。tts-1模型和tts-1-hd模型,前者提供最低的延迟,但音频质量低于后者;而实际上根据我在写这个小工具过程中的测试,中文环境下两个音频模型生成的结果基本没有什么差别。


TTS $0.015 / 1K characters

TTS HD $0.030 / 1K characters


而效果相差不大的 ElevenLabs 价格却是 Openai TTS 的两倍。而且 Openai 注册即送五美金额度,如果只用 tts-1 模型的话,大概可以生成 33 万字符。使用完了之后可以重新注册账号,所以几乎等于免费使用



2. 特点语音自然流畅


在我目前所接触过的商用TTS模型当中,Openai 生成的语音是最接近真人的,相对其他模型其听起来更加自然、流畅,能够很好地模仿人类的语音模式,包括语调、停顿、强调等。唯一美中不足的是中文发音有时候会有港腔或者是外国人腔调,但瑕不掩瑜


多样化的语音选择


Openai TTS 提供了 alloy、echo、fable、onyx、nova、shimmer 六个发音角色,有男性音声,也有女性音声,用户可以选择不同的语音类型和口音,满足不同场景和需求。


高效的转换速度


与传统的 TTS 技术相比,Openai TTS在保证语音质量的同时,大幅提升了转换效率,几乎可以实现即时转换。


多种音频输出格式


Openai TTS 默认响应格式为 .mp3 ,但也可以使用 .opus、.aac或.flac等其他格式。

  • Opus:用于互联网流媒体和通信,低延迟。
  • AAC:用于数字音频压缩,YouTube、Android、iOS 首选。
  • FLAC:用于无损音频压缩。

3. 应用


TTS 技术的应用非常广泛,比如教育领域、新闻媒体领域、企业客服、个人日常阅读等等。但当前最广泛的应用还是自媒体短视频配音的生产,如前文所述历史文章中提到的用 TTS 为口播视频配音。


二、我写的TTS小工具


今天分享的 Openai TTS 文本转语音工具是我基于 Openai API 开发的一款 Windows 本地文本转语音软件,用户只需要简单的配置即可将文本转成音频。用户仅需填入 API 密钥即可快速生成,免去安装各种环境支持的烦恼。


但也有 1.. 限制

  • 网络环境必须可以访问 Openai 网站

  • 仅供 Windows 系统使用[跨平台开发真不会🥴]


三、使用教程

1. 获取 api 秘钥填入软件

640.jpg
填写秘钥


填入秘钥后,软件会将秘钥数据保存至本地软件数据目录,下次启动后会自动读取,不用每次都填写。

关于如何获取秘钥可以看我前文中提到的文章,里面有详细的教程,或者大家也可以访问我的网站搜索。

网址:withlaw.cn


2. 配置其他控制参数


主要是模型、发音角色、响应格式和语速。

模型有 tts-1 和 tts-1-hd 两种选择,一个生成更快,一个音频质量更高,但实测没什么区别。


640.jpg
配置语音参数


输出格式默认是mp3,大家也可以根据自己的需要选择opus、aac或flac等,没有特别需求默认mp3即可,其他格式生成完成后不支持播放。

另外关于语速的问题,只能是 0.25-4.0 之间的值,默认1.0,有需求可以放心大胆的调整,乱输也不会出错~

最后要说说发音角色,Openai TTS提供了以下六个选项。大家可以试听一下:


alloy-男:声音比较年轻,语调比较自然

[backcolor=var(--APPMSGCARD-BG)]alloy-男,刚性兑付,4秒

echo-男:像外国人在说中文,有点别扭

[backcolor=var(--APPMSGCARD-BG)]echo-男,刚性兑付,4秒

fable-男:声音偏年轻,比前一个更自然

[backcolor=var(--APPMSGCARD-BG)]fable-男,刚性兑付,4秒

onyx-男:Chatgpt app 对话用的就是这个

[backcolor=var(--APPMSGCARD-BG)]onyx-男,刚性兑付,4秒

nova-女:语调比较奇怪,感觉在Rap

[backcolor=var(--APPMSGCARD-BG)]nova-女,刚性兑付,4秒

shimmer-女:相对前一个正常许多

[backcolor=var(--APPMSGCARD-BG)]shimmer-女,刚性兑付,4秒

3. 输入待转文本


双击文本框自动清除声明文本,直接手动输入或者粘贴你需要转换成语音的文本即可。


640.jpg
输入文本

声明:明是一定要看的哦~

4. 点击生成音频


输入文本后,点击下方的 一键合成音频 等待几秒钟即生成完成。


640.jpg
生成音频


5. 试听导出音频


“显示台”提示生成完成后,播放音频和导出音频按钮会解锁,如果生成的是mp3格式的音频,则点击播放音频即可听到刚刚生成的文本音频,试听无误后可导出音频到指定目录。其他格式的音频暂不支持点击播放,只可以导出。


640.jpg

试听导出

注意:导出音频之前你可以右上角处设置导出目录,设置不正确的会默认导出到桌面。

导出的文件名为当前日期时间.格式,如20240128170155.mp3

四、软件获取

公众号后台回复 “Openaitts” 获取下载链接~

🤤小付又有什么坏心眼呢,只是想涨涨粉罢了~ 🤤

碎碎念-Again


研究这些小工具,虽然没有什么技术难度,但是真的有够折腾[更多是被自己的强迫症逼的吧,时间都花在调试输出上了~]。好在我真的是一个喜欢折腾的人,生命不息,折腾不止。尊嘟很享受那种一点点完善一个作品的感觉,好上头!

不过还是要告诫一下自己:要分清主次矛盾哇,当下还是要少花些时间在这些业外的探索上面……

😭默默念三遍😭:

我是学法的!我是学法的!我是学法的


念完立个flag:


年后发布难产了1年+的[自动化网络核查助手]。

亮点:
·自动完成非诉业务中的网络核查PDF底稿保存;

·支持自助添加网站,自助配置核查规则;

·本地化运行,核查过程可视化,清晰感受自动化的妙趣;

·其他的……[能发出来再亮吧]

字体小点,看的人就少一点,翻车丢脸就少一点~



所有评论 1
    yanlida 2024-3-1 10:44:28
    不能用,我魔法正常,生成几百秒也不出音频
您需要登录后才可以回档 登录 | 立即注册