Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rocket domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the soledad domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/practical-tips.com/wp-includes/functions.php on line 6114
O que é o OpenAI Whisper? Como o utilizar - Practical Tips

O que é o OpenAI Whisper? Como o utilizar

by Tobias

O Whisper da OpenAI é um sistema de reconhecimento de voz que permite transcrever e traduzir textos falados. O programa pode lidar com muitos idiomas

OpenAI Whisper: transcrever e traduzir textos

O Whisper é um sistema de reconhecimento automático de voz da OpenAI com arquitetura codificador-descodificador-transformador. O sistema de IA foi treinado com base em 680 000 horas de dados multilingues e multitarefa monitorizados a partir da Internet. Isto deverá conduzir a uma maior robustez contra sotaques, ruído de fundo e linguagem técnica.

  • Os textos falados podem ser transcritos em várias línguas, bem como a tradução dessas línguas para o inglês.
  • Small: cerca de 250 milhões de parâmetros, idioma apenas inglês, 2 gigabytes de memória VRAM necessários, velocidade relativa 6xLarge: mais de 1,5 mil milhões de parâmetros, vários idiomas, 10 gigabytes de memória VRAM, velocidade relativa 1xA arquitetura Whisper é uma abordagem simples de ponta a ponta implementada como um codificador-descodificador-transformador. O sinal de entrada é dividido em secções de 30 segundos, convertido num espetrograma log-mel e depois encaminhado para um codificador.
  • Um descodificador é treinado para prever a rotulagem apropriada do texto, misturá-lo com tokens específicos e realizar tarefas como a identificação da língua e a marcação de tempo ao nível da frase.
  • Porque o Whisper foi treinado num conjunto de dados grande e diversificado e não ajustado a um conjunto específico, funciona de forma mais robusta e sem erros do que outros modelos.
  • Cerca de um terço do conjunto de dados de áudio do Whisper não está em inglês. Além disso, o Whisper é alternadamente encarregado da tarefa de transcrever na língua original ou de traduzir para inglês. Esta abordagem é particularmente eficaz na aprendizagem da tradução de língua para texto.

Múltiplos tamanhos de modelos para escolher

O Whisper está disponível em cinco tamanhos de modelos diferentes, que são utilizados num computador local. Existe também uma API para uma versão hospedada do Whisper. No entanto, os custos são incorridos aqui, dependendo da duração da transcrição. São oferecidos os seguintes tamanhos de modelo:

  • Medium: cerca de 770 milhões de parâmetros, idioma apenas inglês, 5 gigabytes de memória VRAM necessários, velocidade relativa 2x
  •  O Whisper divide os dados de áudio gravados em secções de 30 segundos. Estes são traduzidos num espetrograma e depois transferidos para o codificador
  • Tiny: cerca de 40 milhões de parâmetros, idioma apenas inglês, tamanho de memória VRAM necessário 1 gigabyte, velocidade relativa 32x
  • Base: mais de 70 milhões de parâmetros, idioma apenas inglês, memória VRAM de 1 gigabyte, velocidade relativa de 16x
  • Conclusão: O Whisper é uma alternativa gratuita e de código aberto ao Google Speech-to-Text. O sistema de reconhecimento de voz baseado em IA identifica o idioma de entrada, transcreve o texto falado em cerca de 100 idiomas, pontua corretamente e traduz os textos transcritos.

Related Articles

Leave a Comment