5
Whisper来自OpenAI,是一个语音识别系统,可以转录和翻译口语文本。该程序能够识别多种语言。
OpenAI Whisper:转录和翻译文本
Whisper是OpenAI的自动语音识别系统,采用编码器-解码器变压器架构。该人工智能系统经过68万小时互联网多语言、多任务监控数据的训练。这有助于提高对口音、背景噪音和技术语言的鲁棒性。
- 口语文本可以被转录为多种语言,也可以从这些语言翻译成英语。
- Whisper架构是一种简单的端到端方法,以编码器-解码器变换器的形式实现。输入信号被分成30秒的片段,转换为对数梅尔频谱,然后转发到编码器。
- 解码器经过训练,可以预测与特殊标记混合的相应文本标签,并执行语言识别、短语级时间戳等任务。
- 由于Whisper是在一个庞大且多样化的数据集上训练的,而不是针对特定数据集进行调优的,因此它比其他模型更稳定、更准确。
- Whisper音频数据集约有三分之一是非英语语言。此外,Whisper交替训练以原始语言转录或翻译成英语的任务。这种方法对于学习语言到文本的翻译特别有效。
多种型号可供选择
Whisper有五种不同的型号,可在本地计算机上使用。此外,Whisper还提供托管版本的API。但是,这会产生相关费用,具体取决于转录的长度。提供以下模型大小:
- Tiny:约4000万个参数,仅英语,所需的VRAM内存大小为1GB,相对速度为32倍
- 基础版:超过7000万个参数,仅英语,1GB VRAM内存,相对速度为16倍
- 小型:约2.5亿个参数,仅英语,需要2GB的VRAM内存,速度是的6倍
- 中等:约7.7亿个参数,仅英语,需要5GB的VRAM内存,2倍相对速度
- 大:超过15亿个参数,多种语言,10GB的VRAM内存,1倍相对速度
- Whisper将录制的音频数据分成30秒的部分。它将它们转换为频谱图,然后将其传递给编码器。
- 结论:Whisper是Google语音转文本的免费开源替代方案。这款基于人工智能的语音识别系统能够识别输入语言,将口语文本转录为约100种语言,正确插入标点符号并翻译转录文本。