Whisper d’OpenAI est un système de reconnaissance vocale qui permet de transcrire et de traduire des textes parlés. Le programme maîtrise de nombreuses langues.
OpenAI Whisper : transcrire et traduire des textes
Whisper est un système de reconnaissance vocale automatique d’OpenAI avec une architecture encodeur-décodeur-transformateur. Le système d’IA a été entraîné sur 680.000 heures de données multilingues et multitâches surveillées sur Internet. Cela devrait se traduire par une meilleure robustesse aux accents, aux bruits de fond et au langage technique.
- Les textes parlés peuvent être transcrits en plusieurs langues ainsi que la traduction de ces langues vers l’anglais.
- L’architecture Whisper est une approche simple de bout en bout, implémentée sous forme d’encodeur-décodeur-transformateur. Le signal d’entrée est divisé en sections de 30 secondes, converti en un spectrogramme Log-Mel, puis transmis à un encodeur.
- Un décodeur est entraîné pour prédire l’étiquette de texte correspondante, la mélanger avec des jetons spéciaux et effectuer des tâches telles que l’identification de la langue, l’horodatage au niveau de la phrase.
- Comme Whisper a été entraîné sur un ensemble de données vaste et varié, et non pas adapté à un modèle particulier, il fonctionne de manière plus robuste et avec moins d’erreurs que les autres modèles.
- Environ un tiers de l’ensemble des données audio de Whisper n’est pas en anglais. De plus, Whisper se charge alternativement de la transcription dans la langue originale ou de la traduction en anglais. Cette approche est particulièrement efficace pour l’apprentissage de la traduction de langue à texte.
Plusieurs tailles de modèles au choix
Whisper est disponible en cinq tailles de modèle différentes, qui sont utilisées sur un ordinateur local. Il existe en outre une API pour une version hébergée de Whisper. Dans ce cas, les coûts dépendent de la longueur de la transcription. Les tailles de modèles suivantes sont proposées :
- Tiny : environ 40 millions de paramètres, langue uniquement en anglais, mémoire VRAM nécessaire 1 gigaoctet, vitesse relative 32 fois
- Base : plus de 70 millions de paramètres, langue anglaise uniquement, mémoire VRAM nécessaire de 1 gigaoctet, vitesse relative 16 fois
- Small : environ 250 millions de paramètres, langue anglaise uniquement, 2 gigaoctets de mémoire VRAM nécessaires, vitesse relative 6 fois
- Moyen : environ 770 millions de paramètres, langue anglaise uniquement, 5 gigaoctets de mémoire VRAM nécessaires, vitesse relative multipliée par 2
- Large : plus de 1,5 milliards de paramètres, plusieurs langues, 10 gigaoctets de mémoire VRAM, vitesse relative 1 fois
- Les données audio enregistrées sont divisées en sections de 30 secondes par Whisper. Elles sont traduites en un spectrogramme, puis transmises à l’encodeur.
- Conclusion : Whisper est une alternative gratuite et open source à Google Speech-to-Text. Le système de reconnaissance vocale basé sur l’IA identifie la langue d’entrée, transcrit le texte parlé dans une centaine de langues, place correctement les signes de ponctuation et traduit les textes transcrits.