Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rocket domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the mailchimp-for-wp domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: Функция _load_textdomain_just_in_time вызвана неправильно. Загрузка перевода для домена soledad была запущена слишком рано. Обычно это индикатор того, что какой-то код в плагине или теме запускается слишком рано. Переводы должны загружаться при выполнении действия init или позже. Дополнительную информацию можно найти на странице «Отладка в WordPress». (Это сообщение было добавлено в версии 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114
Что такое OpenAI Whisper? Как им пользоваться - Practical Tips

Что такое OpenAI Whisper? Как им пользоваться

by Flo

Whisper от OpenAI — это система распознавания речи, которая позволяет транскрибировать и переводить устные тексты. Программа может работать со многими языками

OpenAI Whisper: транскрибирование и перевод текстов

Whisper — это система автоматического распознавания речи от OpenAI с архитектурой кодер-декодер-трансформер. Система искусственного интеллекта была обучена на 680 000 часов многоязычных и многозадачных данных, полученных из Интернета. Это должно повысить устойчивость к акцентам, фоновому шуму и техническому языку.

  • Разговорные тексты можно транскрибировать на нескольких языках, а также переводить с этих языков на английский.

  • Архитектура Whisper представляет собой простой сквозной подход, реализованный в виде кодера-декодера-трансформатора. Входной сигнал разбивается на 30-секундные отрезки, преобразуется в спектрограмму лог-мела, а затем направляется на кодер.

  • Декодер обучается предсказывать соответствующую маркировку текста, смешивать его с определенными лексемами и выполнять такие задачи, как идентификация языка, маркировка времени на уровне фразы.

  • Поскольку Whisper обучался на большом и разнообразном наборе данных, а не настраивался под конкретный набор, он работает более надежно и безошибочно, чем другие модели.

  • Около трети аудиоданных Whisper не на английском языке. Кроме того, на Whisper попеременно возлагается задача транскрибирования на языке оригинала или перевода на английский. Такой подход особенно эффективен при обучении переводу с языка на текст.

Множество размеров моделей на выбор

Whisper доступен в пяти различных размерах моделей, которые используются на локальном компьютере. Существует также API для хостинговой версии Whisper. Однако в этом случае расходы зависят от длины транскрипции. Предлагаются следующие размеры моделей:

  • Tiny: около 40 миллионов параметров, язык только английский, требуемый объем памяти VRAM 1 гигабайт, относительная скорость 32x

  • Base: более 70 миллионов параметров, язык только английский, объем памяти VRAM 1 гигабайт, относительная скорость 16x

  • Small: около 250 миллионов параметров, язык только английский, требуется 2 гигабайта VRAM-памяти, относительная скорость 6x

  • Medium: около 770 миллионов параметров, язык только английский, требуется 5 гигабайт памяти VRAM, относительная скорость 2x

  • Large: более 1,5 миллиарда параметров, несколько языков, 10 гигабайт памяти VRAM, относительная скорость 1х

  • Whisper разбивает записанные аудиоданные на 30-секундные отрезки. Они преобразуются в спектрограмму, а затем передаются на кодер

  • Вывод: Whisper — это бесплатная альтернатива Google Speech-to-Text с открытым исходным кодом. Система распознавания речи, основанная на искусственном интеллекте, определяет язык ввода, транскрибирует устный текст на около 100 языков, правильно расставляет знаки препинания и переводит транскрибированные тексты.

Related Articles

Leave a Comment