Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rocket domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: La funzione _load_textdomain_just_in_time è stata richiamata in maniera scorretta. Il caricamento della traduzione per il dominio soledad è stato attivato troppo presto. Di solito è un indicatore di un codice nel plugin o nel tema eseguito troppo presto. Le traduzioni dovrebbero essere caricate all'azione init o in un secondo momento. Leggi Debugging in WordPress per maggiori informazioni. (Questo messaggio è stato aggiunto nella versione 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114
Cos'è OpenAI Whisper? Come usarlo - Practical Tips

Cos’è OpenAI Whisper? Come usarlo

by Johannes

Whisper di OpenAI è un sistema di riconoscimento vocale che consente di trascrivere e tradurre testi parlati. Il programma può gestire molte lingue

OpenAI Whisper: trascrivere e tradurre testi

Whisper è un sistema di riconoscimento vocale automatico di OpenAI con architettura encoder-decoder-trasformatore. Il sistema AI è stato addestrato su 680.000 ore di dati monitorati multilingue e multitasking provenienti da Internet. Questo dovrebbe portare a una maggiore robustezza contro gli accenti, il rumore di fondo e il linguaggio tecnico.

  • I testi parlati possono essere trascritti in diverse lingue e la traduzione da queste lingue all’inglese
  • L’architettura di Whisper è un semplice approccio end-to-end implementato come un encoder-decoder-trasformatore. Il segnale di ingresso viene suddiviso in sezioni di 30 secondi, convertito in uno spettrogramma log-mel e quindi inoltrato a un encoder.
  • Un decodificatore viene addestrato a prevedere l’etichettatura del testo appropriato, a mescolarlo con token specifici e a eseguire compiti quali l’identificazione della lingua e la marcatura temporale a livello di frase.
  • Poiché Whisper è stato addestrato su un set di dati ampio e diversificato e non è stato sintonizzato su uno specifico, funziona in modo più robusto e senza errori rispetto ad altri modelli.
  • Circa un terzo del set di dati audio di Whisper non è in inglese. Inoltre, a Whisper viene affidato alternativamente il compito di trascrivere in lingua originale o di tradurre in inglese. Questo approccio è particolarmente efficace per l’apprendimento della traduzione da lingua a testo.

Molteplici dimensioni del modello tra cui scegliere

Whisper è disponibile in cinque modelli di dimensioni diverse, che vengono utilizzati su un computer locale. Esiste anche un’API per una versione hosted di Whisper. Tuttavia, i costi dipendono dalla lunghezza della trascrizione. Sono disponibili i seguenti modelli:

 

  • Tiny: circa 40 milioni di parametri, solo lingua inglese, memoria VRAM richiesta 1 gigabyte, velocità relativa 32x
  • Base: oltre 70 milioni di parametri, solo lingua inglese, 1 gigabyte di memoria VRAM, velocità relativa 16x
  • Small: circa 250 milioni di parametri, solo lingua inglese, 2 gigabyte di memoria VRAM richiesti, velocità relativa 6x
  • Medium: circa 770 milioni di parametri, solo lingua inglese, 5 gigabyte di memoria VRAM richiesti, velocità relativa 2x
  • Large: oltre 1,5 miliardi di parametri, più lingue, 10 gigabyte di memoria VRAM, velocità relativa 1x
  • Whisper divide i dati audio registrati in sezioni di 30 secondi. Questi vengono tradotti in uno spettrogramma e poi trasferiti all’encoder
  • Conclusione: Whisper è un’alternativa open source gratuita a Google Speech-to-Text. Il sistema di riconoscimento vocale basato sull’intelligenza artificiale identifica la lingua di ingresso, trascrive il testo parlato in circa 100 lingue, punteggia e traduce correttamente i testi trascritti.

Related Articles

Leave a Comment