Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rocket domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: 函数 _load_textdomain_just_in_time 的调用方法不正确soledad 域的翻译加载触发过早。这通常表示插件或主题中的某些代码运行过早。翻译应在 init 操作或之后加载。 请查阅调试 WordPress来获取更多信息。 (这个消息是在 6.7.0 版本添加的。) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114
什么是OpenAI Whisper?如何使用 - Practical Tips

什么是OpenAI Whisper?如何使用

by Corinna

Whisper来自OpenAI,是一个语音识别系统,可以转录和翻译口语文本。该程序能够识别多种语言。

OpenAI Whisper:转录和翻译文本

Whisper是OpenAI的自动语音识别系统,采用编码器-解码器变压器架构。该人工智能系统经过68万小时互联网多语言、多任务监控数据的训练。这有助于提高对口音、背景噪音和技术语言的鲁棒性。

  • 口语文本可以被转录为多种语言,也可以从这些语言翻译成英语。

  • Whisper架构是一种简单的端到端方法,以编码器-解码器变换器的形式实现。输入信号被分成30秒的片段,转换为对数梅尔频谱,然后转发到编码器。

  • 解码器经过训练,可以预测与特殊标记混合的相应文本标签,并执行语言识别、短语级时间戳等任务。

  • 由于Whisper是在一个庞大且多样化的数据集上训练的,而不是针对特定数据集进行调优的,因此它比其他模型更稳定、更准确。

  • Whisper音频数据集约有三分之一是非英语语言。此外,Whisper交替训练以原始语言转录或翻译成英语的任务。这种方法对于学习语言到文本的翻译特别有效。

多种型号可供选择

Whisper有五种不同的型号,可在本地计算机上使用。此外,Whisper还提供托管版本的API。但是,这会产生相关费用,具体取决于转录的长度。提供以下模型大小:

  • Tiny:约4000万个参数,仅英语,所需的VRAM内存大小为1GB,相对速度为32倍

  • 基础版:超过7000万个参数,仅英语,1GB VRAM内存,相对速度为16倍

  • 小型:约2.5亿个参数,仅英语,需要2GB的VRAM内存,速度是

    的6倍

  • 中等:约7.7亿个参数,仅英语,需要5GB的VRAM内存,2倍相对速度

  • 大:超过15亿个参数,多种语言,10GB的VRAM内存,1倍相对速度

  • Whisper将录制的音频数据分成30秒的部分。它将它们转换为频谱图,然后将其传递给编码器。

  • 结论:Whisper是Google语音转文本的免费开源替代方案。这款基于人工智能的语音识别系统能够识别输入语言,将口语文本转录为约100种语言,正确插入标点符号并翻译转录文本。

Related Articles

Leave a Comment