35
Whisper od OpenAI to system rozpoznawania mowy, który umożliwia transkrypcję i tłumaczenie tekstów mówionych. Program radzi sobie z wieloma językami
OpenAI Whisper: transkrypcja i tłumaczenie tekstów
Whisper to automatyczny system rozpoznawania mowy od OpenAI z architekturą koder-dekoder-transformator. System AI został przeszkolony na 680 000 godzin wielojęzycznych i wielozadaniowych monitorowanych danych z Internetu. Powinno to prowadzić do poprawy odporności na akcenty, hałas w tle i język techniczny.
- Teksty mówione mogą być transkrybowane w kilku językach, jak również tłumaczone z tych języków na angielski.
- Architektura Whisper to proste podejście end-to-end zaimplementowane jako koder-dekoder-transformator. Sygnał wejściowy jest dzielony na 30-sekundowe sekcje, konwertowany na spektrogram log-mel, a następnie przekazywany do kodera.
- Dekoder jest szkolony w celu przewidywania odpowiedniego etykietowania tekstu, mieszania go z określonymi tokenami i wykonywania zadań, takich jak identyfikacja języka, znakowanie czasem na poziomie frazy.
- Ponieważ Whisper został wytrenowany na dużym i zróżnicowanym zbiorze danych, a nie dostosowany do konkretnego, działa bardziej solidnie i bezbłędnie niż inne modele.
- Około jedna trzecia zbioru danych audio Whisper nie jest w języku angielskim. Ponadto, Whisper na przemian powierza się zadanie transkrypcji w oryginalnym języku lub tłumaczenia na język angielski. Takie podejście jest szczególnie skuteczne podczas nauki tłumaczenia z języka na tekst.
Wiele rozmiarów modeli do wyboru
Whisper jest dostępny w pięciu różnych rozmiarach modeli, które są używane na komputerze lokalnym. Istnieje również interfejs API do hostowanej wersji Whisper. Jednak w tym przypadku ponoszone są koszty w zależności od długości transkrypcji. Oferowane są następujące rozmiary modeli:
- Tiny: około 40 milionów parametrów, język tylko angielski, wymagany rozmiar pamięci VRAM 1 gigabajt, względna prędkość 32x
- Base: ponad 70 milionów parametrów, tylko język angielski, 1 gigabajt pamięci VRAM, względna prędkość 16x
- Small: około 250 milionów parametrów, tylko język angielski, wymagane 2 gigabajty pamięci VRAM, względna szybkość 6x
- Medium: około 770 milionów parametrów, tylko język angielski, wymagane 5 gigabajtów pamięci VRAM, prędkość względna 2x
- Large: ponad 1,5 miliarda parametrów, wiele języków, 10 gigabajtów pamięci VRAM, względna szybkość 1x
- Whisper dzieli nagrane dane audio na 30-sekundowe sekcje. Są one tłumaczone na spektrogram, a następnie przesyłane do kodera
- Podsumowanie: Whisper jest darmową, otwartoźródłową alternatywą dla Google Speech-to-Text. Oparty na sztucznej inteligencji system rozpoznawania mowy identyfikuje język wejściowy, transkrybuje tekst mówiony na około 100 języków, poprawnie interpunkuje i tłumaczy transkrybowane teksty.