4
Whisper от OpenAI е система за разпознаване на реч, която ви позволява да транскрибирате и превеждате говорими текстове. Програмата може да работи с много езици
OpenAI Whisper: транскрибиране и превод на текстове
Whisper е система за автоматично разпознаване на реч от OpenAI с архитектура енкодер-декодер-трансформатор. Системата с изкуствен интелект е обучена върху 680 000 часа многоезични и многозадачни наблюдавани данни от интернет. Това би трябвало да доведе до подобрена устойчивост срещу акценти, фонов шум и технически език.
- Изговорените текстове могат да бъдат транскрибирани на няколко езика, както и преводът от тези езици на английски език.
- Архитектурата на Whisper е прост подход от край до край, реализиран като енкодер-декодер-трансформатор. Входният сигнал се разделя на 30-секундни участъци, преобразува се в лог-мел спектрограма и след това се препраща към енкодер.
- Декодерът се обучава да предсказва подходящото етикетиране на текста, да го смесва със специфични лексеми и да изпълнява задачи като идентификация на езика, маркиране на времето на ниво фраза.
- Тъй като Whisper е обучен върху голям и разнообразен набор от данни, а не е настроен за конкретен такъв, той работи по-стабилно и без грешки в сравнение с други модели.
- Около една трета от набора от аудио данни на Whisper не е на английски език. Освен това на Whisper последователно се възлага задачата да транскрибира на оригиналния език или да превежда на английски. Този подход е особено ефективен при изучаването на превод от език на текст.
Многобройни размери на моделите за избор
Whisper се предлага в пет различни моделни размера, които се използват на локален компютър. Съществува и API за хоствана версия на Whisper. Тук обаче се начисляват разходи в зависимост от дължината на транскрипцията. Предлагат се следните размери на модела:
- Малък: около 40 милиона параметри, език само английски, необходим размер на VRAM паметта 1 гигабайт, относителна скорост 32x
- Base: над 70 милиона параметъра, език само английски, необходима памет VRAM 1 гигабайт, относителна скорост 16x
- Small: около 250 милиона параметри, език само английски, необходими са 2 гигабайта VRAM памет, относителна скорост 6x
- Среден: около 770 милиона параметри, език само английски, необходими са 5 гигабайта VRAM памет, относителна скорост 2 пъти
- Large (Голям): над 1,5 милиарда параметри, множество езици, 10 гигабайта VRAM памет, относителна скорост 1x
- Whisper разделя записаните аудио данни на 30-секундни участъци. Те се преобразуват в спектрограма и след това се прехвърлят към енкодера
- Заключение: Whisper е безплатна алтернатива с отворен код на Google Speech-to-Text. Системата за разпознаване на реч, базирана на изкуствен интелект, идентифицира входния език, транскрибира говоримия текст на около 100 езика, прави пунктуация и превежда транскрибираните текстове.