Qu’est-ce que OpenAI Whisper ? Voici comment l’utiliser

by Michaela décembre 18, 2024

written by Michaela décembre 18, 2024

Whisper d’OpenAI est un système de reconnaissance vocale qui permet de transcrire et de traduire des textes parlés. Le programme maîtrise de nombreuses langues.

OpenAI Whisper : transcrire et traduire des textes

Whisper est un système de reconnaissance vocale automatique d’OpenAI avec une architecture encodeur-décodeur-transformateur. Le système d’IA a été entraîné sur 680.000 heures de données multilingues et multitâches surveillées sur Internet. Cela devrait se traduire par une meilleure robustesse aux accents, aux bruits de fond et au langage technique.

Les textes parlés peuvent être transcrits en plusieurs langues ainsi que la traduction de ces langues vers l’anglais.

L’architecture Whisper est une approche simple de bout en bout, implémentée sous forme d’encodeur-décodeur-transformateur. Le signal d’entrée est divisé en sections de 30 secondes, converti en un spectrogramme Log-Mel, puis transmis à un encodeur.

Un décodeur est entraîné pour prédire l’étiquette de texte correspondante, la mélanger avec des jetons spéciaux et effectuer des tâches telles que l’identification de la langue, l’horodatage au niveau de la phrase.

Comme Whisper a été entraîné sur un ensemble de données vaste et varié, et non pas adapté à un modèle particulier, il fonctionne de manière plus robuste et avec moins d’erreurs que les autres modèles.

Environ un tiers de l’ensemble des données audio de Whisper n’est pas en anglais. De plus, Whisper se charge alternativement de la transcription dans la langue originale ou de la traduction en anglais. Cette approche est particulièrement efficace pour l’apprentissage de la traduction de langue à texte.

Plusieurs tailles de modèles au choix

Whisper est disponible en cinq tailles de modèle différentes, qui sont utilisées sur un ordinateur local. Il existe en outre une API pour une version hébergée de Whisper. Dans ce cas, les coûts dépendent de la longueur de la transcription. Les tailles de modèles suivantes sont proposées :

Tiny : environ 40 millions de paramètres, langue uniquement en anglais, mémoire VRAM nécessaire 1 gigaoctet, vitesse relative 32 fois

Base : plus de 70 millions de paramètres, langue anglaise uniquement, mémoire VRAM nécessaire de 1 gigaoctet, vitesse relative 16 fois

Small : environ 250 millions de paramètres, langue anglaise uniquement, 2 gigaoctets de mémoire VRAM nécessaires, vitesse relative 6 fois

Moyen : environ 770 millions de paramètres, langue anglaise uniquement, 5 gigaoctets de mémoire VRAM nécessaires, vitesse relative multipliée par 2

Large : plus de 1,5 milliards de paramètres, plusieurs langues, 10 gigaoctets de mémoire VRAM, vitesse relative 1 fois

Les données audio enregistrées sont divisées en sections de 30 secondes par Whisper. Elles sont traduites en un spectrogramme, puis transmises à l’encodeur.

Conclusion : Whisper est une alternative gratuite et open source à Google Speech-to-Text. Le système de reconnaissance vocale basé sur l’IA identifie la langue d’entrée, transcrit le texte parlé dans une centaine de langues, place correctement les signes de ponctuation et traduit les textes transcrits.

Qu’est-ce que OpenAI Whisper ? Voici comment l’utiliser

OpenAI Whisper : transcrire et traduire des textes

Plusieurs tailles de modèles au choix

Comment débloquer Facebook ?

Où puis-je trouver le numéro de série de mon MacBook ?

Related Articles

Leave a Comment Cancel Reply