Whisper di OpenAI è un sistema di riconoscimento vocale che consente di trascrivere e tradurre testi parlati. Il programma può gestire molte lingue
OpenAI Whisper: trascrivere e tradurre testi
Whisper è un sistema di riconoscimento vocale automatico di OpenAI con architettura encoder-decoder-trasformatore. Il sistema AI è stato addestrato su 680.000 ore di dati monitorati multilingue e multitasking provenienti da Internet. Questo dovrebbe portare a una maggiore robustezza contro gli accenti, il rumore di fondo e il linguaggio tecnico.
- I testi parlati possono essere trascritti in diverse lingue e la traduzione da queste lingue all’inglese
- L’architettura di Whisper è un semplice approccio end-to-end implementato come un encoder-decoder-trasformatore. Il segnale di ingresso viene suddiviso in sezioni di 30 secondi, convertito in uno spettrogramma log-mel e quindi inoltrato a un encoder.
- Un decodificatore viene addestrato a prevedere l’etichettatura del testo appropriato, a mescolarlo con token specifici e a eseguire compiti quali l’identificazione della lingua e la marcatura temporale a livello di frase.
- Poiché Whisper è stato addestrato su un set di dati ampio e diversificato e non è stato sintonizzato su uno specifico, funziona in modo più robusto e senza errori rispetto ad altri modelli.
- Circa un terzo del set di dati audio di Whisper non è in inglese. Inoltre, a Whisper viene affidato alternativamente il compito di trascrivere in lingua originale o di tradurre in inglese. Questo approccio è particolarmente efficace per l’apprendimento della traduzione da lingua a testo.
Molteplici dimensioni del modello tra cui scegliere
Whisper è disponibile in cinque modelli di dimensioni diverse, che vengono utilizzati su un computer locale. Esiste anche un’API per una versione hosted di Whisper. Tuttavia, i costi dipendono dalla lunghezza della trascrizione. Sono disponibili i seguenti modelli:
- Tiny: circa 40 milioni di parametri, solo lingua inglese, memoria VRAM richiesta 1 gigabyte, velocità relativa 32x
- Base: oltre 70 milioni di parametri, solo lingua inglese, 1 gigabyte di memoria VRAM, velocità relativa 16x
- Small: circa 250 milioni di parametri, solo lingua inglese, 2 gigabyte di memoria VRAM richiesti, velocità relativa 6x
- Medium: circa 770 milioni di parametri, solo lingua inglese, 5 gigabyte di memoria VRAM richiesti, velocità relativa 2x
- Large: oltre 1,5 miliardi di parametri, più lingue, 10 gigabyte di memoria VRAM, velocità relativa 1x
- Whisper divide i dati audio registrati in sezioni di 30 secondi. Questi vengono tradotti in uno spettrogramma e poi trasferiti all’encoder
- Conclusione: Whisper è un’alternativa open source gratuita a Google Speech-to-Text. Il sistema di riconoscimento vocale basato sull’intelligenza artificiale identifica la lingua di ingresso, trascrive il testo parlato in circa 100 lingue, punteggia e traduce correttamente i testi trascritti.