VPot 提供了多种开放能力,包括文字转语音、语音转文字、视频/音频处理、字幕提取、配音角色定制等,支持多语言、多角色自由选择,以及无字数限制的创作自由度。
核心能力
- 文字转语音:内置微软与 Edge 公共接口,覆盖普通话、粤语、英语、日语、韩语等,角色丰富,语速可调,合成即听,支持导出 MP3。
- 语音转文字与字幕:可将音频转写为文本,支持 SRT 字幕导入/导出,便于剪辑与校对。
- 视频/音频处理:支持音频文件管理、试听对比、重命名与自选保存目录,提升整理效率。
- 配音角色定制:可创建与管理角色,设置停顿、多音字;通过 微软 Azure 密钥接入更多音色,实现多角色演绎。
- 长文本与无限制:实测支持 3万+ 字章节,单次可输出约 1.5–2 小时 音频;界面简洁、即开即用