Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rocket domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: Функцията _load_textdomain_just_in_time е извикана погрешно. Зареждането на преводите за домейна soledad беше задействано твърде рано. Това обикновено показва, че някой код в разширението или темата се изпълнява твърде рано. Преводите трябва да бъдат заредени при действието init или по-късно. За повече информация вижте Debugging in WordPress. (Това съобщение беше добавено във версия 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114
Какво е OpenAI Whisper? Как да го използвате - Practical Tips

Какво е OpenAI Whisper? Как да го използвате

by Michaela

Whisper от OpenAI е система за разпознаване на реч, която ви позволява да транскрибирате и превеждате говорими текстове. Програмата може да работи с много езици

OpenAI Whisper: транскрибиране и превод на текстове

Whisper е система за автоматично разпознаване на реч от OpenAI с архитектура енкодер-декодер-трансформатор. Системата с изкуствен интелект е обучена върху 680 000 часа многоезични и многозадачни наблюдавани данни от интернет. Това би трябвало да доведе до подобрена устойчивост срещу акценти, фонов шум и технически език.

  • Изговорените текстове могат да бъдат транскрибирани на няколко езика, както и преводът от тези езици на английски език.

  • Архитектурата на Whisper е прост подход от край до край, реализиран като енкодер-декодер-трансформатор. Входният сигнал се разделя на 30-секундни участъци, преобразува се в лог-мел спектрограма и след това се препраща към енкодер.

  • Декодерът се обучава да предсказва подходящото етикетиране на текста, да го смесва със специфични лексеми и да изпълнява задачи като идентификация на езика, маркиране на времето на ниво фраза.

  • Тъй като Whisper е обучен върху голям и разнообразен набор от данни, а не е настроен за конкретен такъв, той работи по-стабилно и без грешки в сравнение с други модели.

  • Около една трета от набора от аудио данни на Whisper не е на английски език. Освен това на Whisper последователно се възлага задачата да транскрибира на оригиналния език или да превежда на английски. Този подход е особено ефективен при изучаването на превод от език на текст.

Многобройни размери на моделите за избор

Whisper се предлага в пет различни моделни размера, които се използват на локален компютър. Съществува и API за хоствана версия на Whisper. Тук обаче се начисляват разходи в зависимост от дължината на транскрипцията. Предлагат се следните размери на модела:

  • Малък: около 40 милиона параметри, език само английски, необходим размер на VRAM паметта 1 гигабайт, относителна скорост 32x

  • Base: над 70 милиона параметъра, език само английски, необходима памет VRAM 1 гигабайт, относителна скорост 16x

  • Small: около 250 милиона параметри, език само английски, необходими са 2 гигабайта VRAM памет, относителна скорост 6x

  • Среден: около 770 милиона параметри, език само английски, необходими са 5 гигабайта VRAM памет, относителна скорост 2 пъти

  • Large (Голям): над 1,5 милиарда параметри, множество езици, 10 гигабайта VRAM памет, относителна скорост 1x

  • Whisper разделя записаните аудио данни на 30-секундни участъци. Те се преобразуват в спектрограма и след това се прехвърлят към енкодера

  • Заключение: Whisper е безплатна алтернатива с отворен код на Google Speech-to-Text. Системата за разпознаване на реч, базирана на изкуствен интелект, идентифицира входния език, транскрибира говоримия текст на около 100 езика, прави пунктуация и превежда транскрибираните текстове.

Related Articles

Leave a Comment