跳至主要內容

音频转文字

2023年11月5日大约 2 分钟推荐评价横评

音频转文字

付费服务不在本文考虑范围内。

移动端

移动端自然不用多说,语音转文字但凡是个正常输入法都能干。对于中文,一般国产输入法的质量会好点,gboard 效果比较差。

录音转文字:

桌面端

微软

如果使用 windows 10/11,当然选择微软自家的语音输入,按 Win + H 即可(通过调输入法选择语言)。中文识别准确率在 2022 之前较一般,现在不错。

这里有一个 trick,可以用它识别音频。

autosrt

对于需要输入音频,输出 srt 字幕的场合,可以用 autosrt 跑本地模型。

autosrt 在 linux 下是一个不错的选择。具体地:

archlinux
paru -S whisper.cpp ffmpeg  # 可执行文件在 `/usr/bin/whisper.cpp`
git clone git@github.com:lxl66566/autosrt.git
cd autosrt && python main.py

然后遵循 readme,下载一个模型(我选择了 ggml-small-q5_1 181.3 MB),填入 GUI 即可。

VSCode

VSCode 居然支持语音输入了!(src)这是我没想到的。你需要:

  1. 安装插件 VS Code Speech - MicrosoftChinese (Simplified, China) language support for VS Code Speech - Microsoft
  2. 在设置中添加一行 "accessibility.voice.speechLanguage": "zh-CN",

实测识别准确率还是不错的。这下 Linux 也有即开即用的 voice2text 了,而且由于我本身就用 vscode 写日记,所以还挺好的。

不过有几个问题:

  1. 不方便多语言切换,得去设置里改。
  2. 不支持 NixOS,因为 NixOS 不遵守 fhs,找不到 libasound。

CapsWriter

一款语音输入工具,但是使用它需要购买阿里云的 API。因此不推荐。

云端

通义听悟

腾讯云

每月 10h 免费时长,基本够用。

懒得看文档了,左边有个 功能体验,上传录音,选择 不带时间戳 即可。

whisper

实际上上述 autosrt 就是使用 whisper 模型放本地跑,只不过用 python 写了个小前端而已。在 huggingface 上也可以在线用,不过速度比本地还要慢。(可以理解,又不是做慈善)

whisper.jax

在线演示,据说比 whisper 快 70 倍

incredibly-fast-whisper

基于 Whisper Large v3 模型。有一个在线 demo 可以用。

groq

groq 有一定免费额度,是一个在线模型运行 playground。需要代理,不支持香港节点。