无需联网,直接在本地运行的开源语音识别模型:Moonshine,上线不到一周就在 GitHub 上揽获 1.4k Star!

受到用户如此的追捧,得益于其三个特点——更小、更快、更准。

更小:Moonshine 可以部署在本地设备,甚至是可穿戴设备上,实现断网运行。

更快:在处理小于10秒的音频时,Moonshine的速度是 Whisper 的5倍。

更准:在 OpenASR 数据集上,Moonshine 的平均词错误率比 Whisper 更低。【图1】

以上优势源于其计算需求与输入音频的长度成比例,因此更适合处理对话、会议、演讲等现场场景。

具体来说,Moonshine 基于以下技术:

  • 编码器-解码器架构:采用基于 Transformer 的模型结构,编码器负责处理输入语音信号,解码器生成相应文本输出。
  • 旋转位置嵌入(RoPE):相比传统的绝对位置嵌入,RoPE 可以更好地捕捉序列元素的相对位置,有助于增强模型对时间序列的理解。
  • 可变长度处理:Moonshine 的编码器支持处理不同长度的语音片段,无需零填充,显著降低不必要的计算,提高了处理效率。
  • 大规模训练:模型在大量公开 ASR 数据集以及内部数据上训练,并使用先进的数据增强和预处理技术,使模型具备更强的泛化能力。

感兴趣的小伙伴可以点击:8328f46f0c4baf6b90c5020f006324ab_MD5.jpg网页链接
论文:8328f46f0c4baf6b90c5020f006324ab_MD5.jpg网页链接收起

Avatar photo

By YXI.AI

Leave a Reply

Your email address will not be published. Required fields are marked *