Что такое OpenAI Whisper? Как им пользоваться

Whisper от OpenAI — это система распознавания речи, которая позволяет транскрибировать и переводить устные тексты. Программа может работать со многими языками

OpenAI Whisper: транскрибирование и перевод текстов

Whisper — это система автоматического распознавания речи от OpenAI с архитектурой кодер-декодер-трансформер. Система искусственного интеллекта была обучена на 680 000 часов многоязычных и многозадачных данных, полученных из Интернета. Это должно повысить устойчивость к акцентам, фоновому шуму и техническому языку.

Разговорные тексты можно транскрибировать на нескольких языках, а также переводить с этих языков на английский.

Архитектура Whisper представляет собой простой сквозной подход, реализованный в виде кодера-декодера-трансформатора. Входной сигнал разбивается на 30-секундные отрезки, преобразуется в спектрограмму лог-мела, а затем направляется на кодер.

Декодер обучается предсказывать соответствующую маркировку текста, смешивать его с определенными лексемами и выполнять такие задачи, как идентификация языка, маркировка времени на уровне фразы.

Поскольку Whisper обучался на большом и разнообразном наборе данных, а не настраивался под конкретный набор, он работает более надежно и безошибочно, чем другие модели.

Около трети аудиоданных Whisper не на английском языке. Кроме того, на Whisper попеременно возлагается задача транскрибирования на языке оригинала или перевода на английский. Такой подход особенно эффективен при обучении переводу с языка на текст.

Множество размеров моделей на выбор

Whisper доступен в пяти различных размерах моделей, которые используются на локальном компьютере. Существует также API для хостинговой версии Whisper. Однако в этом случае расходы зависят от длины транскрипции. Предлагаются следующие размеры моделей:

Tiny: около 40 миллионов параметров, язык только английский, требуемый объем памяти VRAM 1 гигабайт, относительная скорость 32x

Base: более 70 миллионов параметров, язык только английский, объем памяти VRAM 1 гигабайт, относительная скорость 16x

Small: около 250 миллионов параметров, язык только английский, требуется 2 гигабайта VRAM-памяти, относительная скорость 6x

Medium: около 770 миллионов параметров, язык только английский, требуется 5 гигабайт памяти VRAM, относительная скорость 2x

Large: более 1,5 миллиарда параметров, несколько языков, 10 гигабайт памяти VRAM, относительная скорость 1х

Whisper разбивает записанные аудиоданные на 30-секундные отрезки. Они преобразуются в спектрограмму, а затем передаются на кодер

Вывод: Whisper — это бесплатная альтернатива Google Speech-to-Text с открытым исходным кодом. Система распознавания речи, основанная на искусственном интеллекте, определяет язык ввода, транскрибирует устный текст на около 100 языков, правильно расставляет знаки препинания и переводит транскрибированные тексты.

Что такое OpenAI Whisper? Как им пользоваться

OpenAI Whisper: транскрибирование и перевод текстов

Множество размеров моделей на выбор

Разблокировка Facebook — вот как это работает

Где я могу найти серийный номер своего MacBook?

Related Articles

Leave a Comment Cancel Reply