Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rocket domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the mailchimp-for-wp domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: La fonction _load_textdomain_just_in_time a été appelée de façon incorrecte. Le chargement de la traduction pour le domaine soledad a été déclenché trop tôt. Cela indique généralement que du code dans l’extension ou le thème s’exécute trop tôt. Les traductions doivent être chargées au moment de l’action init ou plus tard. Veuillez lire Débogage dans WordPress (en) pour plus d’informations. (Ce message a été ajouté à la version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114
Qu'est-ce que OpenAI Whisper ? Voici comment l'utiliser - Practical Tips

Qu’est-ce que OpenAI Whisper ? Voici comment l’utiliser

by Michaela

Whisper d’OpenAI est un système de reconnaissance vocale qui permet de transcrire et de traduire des textes parlés. Le programme maîtrise de nombreuses langues.

OpenAI Whisper : transcrire et traduire des textes

Whisper est un système de reconnaissance vocale automatique d’OpenAI avec une architecture encodeur-décodeur-transformateur. Le système d’IA a été entraîné sur 680.000 heures de données multilingues et multitâches surveillées sur Internet. Cela devrait se traduire par une meilleure robustesse aux accents, aux bruits de fond et au langage technique.

  • Les textes parlés peuvent être transcrits en plusieurs langues ainsi que la traduction de ces langues vers l’anglais.

  • L’architecture Whisper est une approche simple de bout en bout, implémentée sous forme d’encodeur-décodeur-transformateur. Le signal d’entrée est divisé en sections de 30 secondes, converti en un spectrogramme Log-Mel, puis transmis à un encodeur.

  • Un décodeur est entraîné pour prédire l’étiquette de texte correspondante, la mélanger avec des jetons spéciaux et effectuer des tâches telles que l’identification de la langue, l’horodatage au niveau de la phrase.

  • Comme Whisper a été entraîné sur un ensemble de données vaste et varié, et non pas adapté à un modèle particulier, il fonctionne de manière plus robuste et avec moins d’erreurs que les autres modèles.

  • Environ un tiers de l’ensemble des données audio de Whisper n’est pas en anglais. De plus, Whisper se charge alternativement de la transcription dans la langue originale ou de la traduction en anglais. Cette approche est particulièrement efficace pour l’apprentissage de la traduction de langue à texte.

Plusieurs tailles de modèles au choix

Whisper est disponible en cinq tailles de modèle différentes, qui sont utilisées sur un ordinateur local. Il existe en outre une API pour une version hébergée de Whisper. Dans ce cas, les coûts dépendent de la longueur de la transcription. Les tailles de modèles suivantes sont proposées :

  • Tiny : environ 40 millions de paramètres, langue uniquement en anglais, mémoire VRAM nécessaire 1 gigaoctet, vitesse relative 32 fois

  • Base : plus de 70 millions de paramètres, langue anglaise uniquement, mémoire VRAM nécessaire de 1 gigaoctet, vitesse relative 16 fois

  • Small : environ 250 millions de paramètres, langue anglaise uniquement, 2 gigaoctets de mémoire VRAM nécessaires, vitesse relative 6 fois

  • Moyen : environ 770 millions de paramètres, langue anglaise uniquement, 5 gigaoctets de mémoire VRAM nécessaires, vitesse relative multipliée par 2

  • Large : plus de 1,5 milliards de paramètres, plusieurs langues, 10 gigaoctets de mémoire VRAM, vitesse relative 1 fois

    Les données audio enregistrées sont divisées en sections de 30 secondes par Whisper. Elles sont traduites en un spectrogramme, puis transmises à l’encodeur.

  • Conclusion : Whisper est une alternative gratuite et open source à Google Speech-to-Text. Le système de reconnaissance vocale basé sur l’IA identifie la langue d’entrée, transcrit le texte parlé dans une centaine de langues, place correctement les signes de ponctuation et traduit les textes transcrits.

Related Articles

Leave a Comment