无需联网,直接在本地运行的开源语音识别模型:Moonshine,上线不到一周就在 GitHub 上揽获 1.4k Star!
受到用户如此的追捧,得益于其三个特点——更小、更快、更准。
更小:Moonshine 可以部署在本地设备,甚至是可穿戴设备上,实现断网运行。
更快:在处理小于10秒的音频时,Moonshine的速度是 Whisper 的5倍。
更准:在 OpenASR 数据集上,Moonshine 的平均词错误率比 Whisper 更低。【图1】
以上优势源于其计算需求与输入音频的长度成比例,因此更适合处理对话、会议、演讲等现场场景。
具体来说,Moonshine 基于以下技术:
- 编码器-解码器架构:采用基于 Transformer 的模型结构,编码器负责处理输入语音信号,解码器生成相应文本输出。
- 旋转位置嵌入(RoPE):相比传统的绝对位置嵌入,RoPE 可以更好地捕捉序列元素的相对位置,有助于增强模型对时间序列的理解。
- 可变长度处理:Moonshine 的编码器支持处理不同长度的语音片段,无需零填充,显著降低不必要的计算,提高了处理效率。
- 大规模训练:模型在大量公开 ASR 数据集以及内部数据上训练,并使用先进的数据增强和预处理技术,使模型具备更强的泛化能力。