4
Whisper от OpenAI — это система распознавания речи, которая позволяет транскрибировать и переводить устные тексты. Программа может работать со многими языками
OpenAI Whisper: транскрибирование и перевод текстов
Whisper — это система автоматического распознавания речи от OpenAI с архитектурой кодер-декодер-трансформер. Система искусственного интеллекта была обучена на 680 000 часов многоязычных и многозадачных данных, полученных из Интернета. Это должно повысить устойчивость к акцентам, фоновому шуму и техническому языку.
- Разговорные тексты можно транскрибировать на нескольких языках, а также переводить с этих языков на английский.
- Архитектура Whisper представляет собой простой сквозной подход, реализованный в виде кодера-декодера-трансформатора. Входной сигнал разбивается на 30-секундные отрезки, преобразуется в спектрограмму лог-мела, а затем направляется на кодер.
- Декодер обучается предсказывать соответствующую маркировку текста, смешивать его с определенными лексемами и выполнять такие задачи, как идентификация языка, маркировка времени на уровне фразы.
- Поскольку Whisper обучался на большом и разнообразном наборе данных, а не настраивался под конкретный набор, он работает более надежно и безошибочно, чем другие модели.
- Около трети аудиоданных Whisper не на английском языке. Кроме того, на Whisper попеременно возлагается задача транскрибирования на языке оригинала или перевода на английский. Такой подход особенно эффективен при обучении переводу с языка на текст.
Множество размеров моделей на выбор
Whisper доступен в пяти различных размерах моделей, которые используются на локальном компьютере. Существует также API для хостинговой версии Whisper. Однако в этом случае расходы зависят от длины транскрипции. Предлагаются следующие размеры моделей:
- Tiny: около 40 миллионов параметров, язык только английский, требуемый объем памяти VRAM 1 гигабайт, относительная скорость 32x
- Base: более 70 миллионов параметров, язык только английский, объем памяти VRAM 1 гигабайт, относительная скорость 16x
- Small: около 250 миллионов параметров, язык только английский, требуется 2 гигабайта VRAM-памяти, относительная скорость 6x
- Medium: около 770 миллионов параметров, язык только английский, требуется 5 гигабайт памяти VRAM, относительная скорость 2x
- Large: более 1,5 миллиарда параметров, несколько языков, 10 гигабайт памяти VRAM, относительная скорость 1х
- Whisper разбивает записанные аудиоданные на 30-секундные отрезки. Они преобразуются в спектрограмму, а затем передаются на кодер
- Вывод: Whisper — это бесплатная альтернатива Google Speech-to-Text с открытым исходным кодом. Система распознавания речи, основанная на искусственном интеллекте, определяет язык ввода, транскрибирует устный текст на около 100 языков, правильно расставляет знаки препинания и переводит транскрибированные тексты.