Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rocket domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: La función _load_textdomain_just_in_time ha sido llamada de forma incorrecta. La carga de la traducción para el dominio soledad se activó demasiado pronto. Esto suele ser un indicador de que algún código del plugin o tema se ejecuta demasiado pronto. Las traducciones deberían cargarse en la acción init o más tarde. Por favor, ve depuración en WordPress para más información. (Este mensaje fue añadido en la versión 6.7.0). in /var/www/practical-tips.com/wp-includes/functions.php on line 6114
¿Qué es OpenAI Whisper? Cómo utilizarlo - Practical Tips

¿Qué es OpenAI Whisper? Cómo utilizarlo

by Michaela

Whisper de OpenAI es un sistema de reconocimiento de voz que permite transcribir y traducir textos hablados. El programa puede trabajar con muchos idiomas

Whisper de OpenAI: transcribe y traduce textos

Whisper es un sistema de reconocimiento automático del habla de OpenAI con arquitectura de codificador-decodificador-transformador. El sistema de IA se entrenó con 680.000 horas de datos monitorizados multilingües y multitarea procedentes de Internet. Esto debería mejorar su solidez frente a los acentos, el ruido de fondo y el lenguaje técnico.

  • Los textos hablados pueden transcribirse en varios idiomas, así como la traducción de estos idiomas al inglés.
  • La arquitectura de Whisper es un sencillo enfoque de extremo a extremo implementado como un codificador-decodificador-transformador. La señal de entrada se divide en secciones de 30 segundos, se convierte en un espectrograma log-mel y se envía a un codificador.
  • Se entrena un descodificador para predecir el etiquetado apropiado del texto, mezclarlo con tokens específicos y realizar tareas como la identificación del idioma o la marca de tiempo a nivel de frase.
  • Debido a que Whisper se entrenó con un conjunto de datos amplio y diverso y no se ajustó a uno específico, funciona de forma más robusta y sin errores que otros modelos.
  • Aproximadamente un tercio del conjunto de datos de audio de Whisper no está en inglés. Además, Whisper se encarga alternativamente de transcribir en el idioma original o de traducir al inglés. Este enfoque resulta especialmente eficaz para aprender la traducción de lengua a texto.

Múltiples tamaños de modelos para elegir

Whisper está disponible en cinco tamaños de modelo diferentes, que se utilizan en un ordenador local. También existe una API para una versión alojada de Whisper. Sin embargo, en este caso se incurre en costes en función de la longitud de la transcripción. Se ofrecen los siguientes tamaños de modelo:

  • Tiny: unos 40 millones de parámetros, idioma sólo inglés, tamaño de memoria VRAM requerido 1 gigabyte, velocidad relativa 32x
  • Base: más de 70 millones de parámetros, idioma sólo inglés, memoria VRAM de 1 gigabyte, velocidad relativa 16x
  • Pequeño: unos 250 millones de parámetros, sólo en inglés, 2 gigabytes de memoria VRAM necesarios, velocidad relativa 6x
  • Medio: unos 770 millones de parámetros, sólo en inglés, 5 gigabytes de memoria VRAM, velocidad relativa 2x
  • Grande: más de 1.500 millones de parámetros, varios idiomas, 10 gigabytes de memoria VRAM, velocidad relativa 1x
  • Whisper divide los datos de audio grabados en secciones de 30 segundos. Se traducen en un espectrograma y luego se transfieren al codificador
  • Conclusión: Whisper es una alternativa gratuita de código abierto a Google Speech-to-Text. El sistema de reconocimiento de voz basado en IA identifica el idioma de entrada, transcribe el texto hablado a unos 100 idiomas, puntúa correctamente y traduce los textos transcritos.

Related Articles

Leave a Comment