4
Whisper od společnosti OpenAI je systém rozpoznávání řeči, který umožňuje přepisovat a překládat mluvené texty. Program si poradí s mnoha jazyky
OpenAI Whisper: Přepis a překlad textů
Whisper je systém automatického rozpoznávání řeči od společnosti OpenAI s architekturou kodér-dekodér-transformátor. Systém AI byl vycvičen na 680 000 hodinách vícejazyčných a víceúlohových monitorovaných dat z internetu. To by mělo vést ke zvýšení odolnosti vůči přízvukům, šumu v pozadí a odbornému jazyku.
- Mluvené texty lze přepisovat do několika jazyků, stejně jako překládat z těchto jazyků do češtiny.
- Architektura Whisper je jednoduchý end-to-end přístup realizovaný jako kodér-dekodér-transformátor. Vstupní signál je rozdělen na 30sekundové úseky, převeden na log-melový spektrogram a poté předán kodéru.
- Dekodér je vycvičen k předvídání vhodného označení textu, jeho smíchání se specifickými tokeny a provádění úloh, jako je identifikace jazyka, časová značka na úrovni fráze.
- Protože byl Whisper vycvičen na velkém a různorodém souboru dat a nebyl vyladěn na konkrétní soubor, pracuje robustněji a bezchybněji než jiné modely.
- Přibližně třetina souboru zvukových dat Whisper není v angličtině. Kromě toho je nástroji Whisper střídavě svěřován úkol přepisu v původním jazyce nebo překladu do angličtiny. Tento přístup je zvláště účinný při učení překladu z jazyka do textu.
Více velikostí modelů na výběr
Whisper je k dispozici v pěti různých modelových velikostech, které se používají na místním počítači. K dispozici je také rozhraní API k hostované verzi Whisper. Zde však vznikají náklady v závislosti na délce přepisu. Nabízeny jsou následující modelové velikosti:
- Tiny: přibližně 40 milionů parametrů, jazyk pouze angličtina, požadovaná velikost paměti VRAM 1 gigabajt, relativní rychlost 32x
- Base: více než 70 milionů parametrů, jazyk pouze angličtina, 1 gigabajt paměti VRAM, relativní rychlost 16x
- Small: přibližně 250 milionů parametrů, jazyk pouze angličtina, potřeba 2 gigabajty paměti VRAM, relativní rychlost 6x
- Medium: přibližně 770 milionů parametrů, jazyk pouze angličtina, potřeba 5 gigabajtů paměti VRAM, relativní rychlost 2x
- Large: více než 1,5 miliardy parametrů, více jazyků, 10 gigabajtů paměti VRAM, relativní rychlost 1x
- Whisper rozděluje nahraná zvuková data na 30sekundové úseky. Ty jsou převedeny do spektrogramu a poté přeneseny do kodéru
- Závěr: Whisper je bezplatná open source alternativa ke službě Google Speech-to-Text. Systém rozpoznávání řeči založený na umělé inteligenci identifikuje vstupní jazyk, přepisuje mluvený text do přibližně 100 jazyků, správně interpunkci a překládá přepsané texty.