Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rocket domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: Funkcja _load_textdomain_just_in_time została wywołana nieprawidłowo. Ładowanie tłumaczenia dla domeny soledad zostało uruchomione zbyt wcześnie. Zwykle jest to wskaźnik, że jakiś kod we wtyczce lub motywie działa zbyt wcześnie. Tłumaczenia powinny zostać załadowane podczas akcji init lub później. Dowiedz się więcej: Debugowanie w WordPressie. (Ten komunikat został dodany w wersji 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114
Czym jest OpenAI Whisper? Jak z niego korzystać - Practical Tips

Czym jest OpenAI Whisper? Jak z niego korzystać

by Mike

Whisper od OpenAI to system rozpoznawania mowy, który umożliwia transkrypcję i tłumaczenie tekstów mówionych. Program radzi sobie z wieloma językami

OpenAI Whisper: transkrypcja i tłumaczenie tekstów

Whisper to automatyczny system rozpoznawania mowy od OpenAI z architekturą koder-dekoder-transformator. System AI został przeszkolony na 680 000 godzin wielojęzycznych i wielozadaniowych monitorowanych danych z Internetu. Powinno to prowadzić do poprawy odporności na akcenty, hałas w tle i język techniczny.

  • Teksty mówione mogą być transkrybowane w kilku językach, jak również tłumaczone z tych języków na angielski.

  • Architektura Whisper to proste podejście end-to-end zaimplementowane jako koder-dekoder-transformator. Sygnał wejściowy jest dzielony na 30-sekundowe sekcje, konwertowany na spektrogram log-mel, a następnie przekazywany do kodera.

  • Dekoder jest szkolony w celu przewidywania odpowiedniego etykietowania tekstu, mieszania go z określonymi tokenami i wykonywania zadań, takich jak identyfikacja języka, znakowanie czasem na poziomie frazy.

  • Ponieważ Whisper został wytrenowany na dużym i zróżnicowanym zbiorze danych, a nie dostosowany do konkretnego, działa bardziej solidnie i bezbłędnie niż inne modele.

  • Około jedna trzecia zbioru danych audio Whisper nie jest w języku angielskim. Ponadto, Whisper na przemian powierza się zadanie transkrypcji w oryginalnym języku lub tłumaczenia na język angielski. Takie podejście jest szczególnie skuteczne podczas nauki tłumaczenia z języka na tekst.

Wiele rozmiarów modeli do wyboru

Whisper jest dostępny w pięciu różnych rozmiarach modeli, które są używane na komputerze lokalnym. Istnieje również interfejs API do hostowanej wersji Whisper. Jednak w tym przypadku ponoszone są koszty w zależności od długości transkrypcji. Oferowane są następujące rozmiary modeli:

  • Tiny: około 40 milionów parametrów, język tylko angielski, wymagany rozmiar pamięci VRAM 1 gigabajt, względna prędkość 32x

  • Base: ponad 70 milionów parametrów, tylko język angielski, 1 gigabajt pamięci VRAM, względna prędkość 16x

  • Small: około 250 milionów parametrów, tylko język angielski, wymagane 2 gigabajty pamięci VRAM, względna szybkość 6x

  • Medium: około 770 milionów parametrów, tylko język angielski, wymagane 5 gigabajtów pamięci VRAM, prędkość względna 2x

  • Large: ponad 1,5 miliarda parametrów, wiele języków, 10 gigabajtów pamięci VRAM, względna szybkość 1x

  • Whisper dzieli nagrane dane audio na 30-sekundowe sekcje. Są one tłumaczone na spektrogram, a następnie przesyłane do kodera

  • Podsumowanie: Whisper jest darmową, otwartoźródłową alternatywą dla Google Speech-to-Text. Oparty na sztucznej inteligencji system rozpoznawania mowy identyfikuje język wejściowy, transkrybuje tekst mówiony na około 100 języków, poprawnie interpunkuje i tłumaczy transkrybowane teksty.

Related Articles

Leave a Comment