Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rocket domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: Funkce _load_textdomain_just_in_time nebyla použita správným způsobem. Translation loading for the soledad domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Další informace o testování programu a hledání chyb naleznete v manuálu na stránce Ladění ve WordPressu (anglicky). (Tato zpráva se nově zobrazuje od verze 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114
Co je OpenAI Whisper? Jak ji používat - Practical Tips

Co je OpenAI Whisper? Jak ji používat

by Mike

Whisper od společnosti OpenAI je systém rozpoznávání řeči, který umožňuje přepisovat a překládat mluvené texty. Program si poradí s mnoha jazyky

OpenAI Whisper: Přepis a překlad textů

Whisper je systém automatického rozpoznávání řeči od společnosti OpenAI s architekturou kodér-dekodér-transformátor. Systém AI byl vycvičen na 680 000 hodinách vícejazyčných a víceúlohových monitorovaných dat z internetu. To by mělo vést ke zvýšení odolnosti vůči přízvukům, šumu v pozadí a odbornému jazyku.

  • Mluvené texty lze přepisovat do několika jazyků, stejně jako překládat z těchto jazyků do češtiny.
  • Architektura Whisper je jednoduchý end-to-end přístup realizovaný jako kodér-dekodér-transformátor. Vstupní signál je rozdělen na 30sekundové úseky, převeden na log-melový spektrogram a poté předán kodéru.
  • Dekodér je vycvičen k předvídání vhodného označení textu, jeho smíchání se specifickými tokeny a provádění úloh, jako je identifikace jazyka, časová značka na úrovni fráze.
  • Protože byl Whisper vycvičen na velkém a různorodém souboru dat a nebyl vyladěn na konkrétní soubor, pracuje robustněji a bezchybněji než jiné modely.
  • Přibližně třetina souboru zvukových dat Whisper není v angličtině. Kromě toho je nástroji Whisper střídavě svěřován úkol přepisu v původním jazyce nebo překladu do angličtiny. Tento přístup je zvláště účinný při učení překladu z jazyka do textu.

Více velikostí modelů na výběr

Whisper je k dispozici v pěti různých modelových velikostech, které se používají na místním počítači. K dispozici je také rozhraní API k hostované verzi Whisper. Zde však vznikají náklady v závislosti na délce přepisu. Nabízeny jsou následující modelové velikosti:

 

  • Tiny: přibližně 40 milionů parametrů, jazyk pouze angličtina, požadovaná velikost paměti VRAM 1 gigabajt, relativní rychlost 32x
  • Base: více než 70 milionů parametrů, jazyk pouze angličtina, 1 gigabajt paměti VRAM, relativní rychlost 16x
  • Small: přibližně 250 milionů parametrů, jazyk pouze angličtina, potřeba 2 gigabajty paměti VRAM, relativní rychlost 6x
  • Medium: přibližně 770 milionů parametrů, jazyk pouze angličtina, potřeba 5 gigabajtů paměti VRAM, relativní rychlost 2x
  • Large: více než 1,5 miliardy parametrů, více jazyků, 10 gigabajtů paměti VRAM, relativní rychlost 1x
  • Whisper rozděluje nahraná zvuková data na 30sekundové úseky. Ty jsou převedeny do spektrogramu a poté přeneseny do kodéru
  • Závěr: Whisper je bezplatná open source alternativa ke službě Google Speech-to-Text. Systém rozpoznávání řeči založený na umělé inteligenci identifikuje vstupní jazyk, přepisuje mluvený text do přibližně 100 jazyků, správně interpunkci a překládá přepsané texty.

Related Articles

Leave a Comment