4
OpenAIの
Whisperは、話し言葉を書き起こし、翻訳することができる音声認識システムです。 このプログラムは多くの言語に対応しています。
OpenAI Whisper: Transcribe and Translate Texts
Whisper は、エンコーダー・デコーダー型トランスフォーマ構造の OpenAI による自動音声認識システムです。 この AI システムは、インターネット上の多言語かつ多様なタスクのモニターデータ 680,000 時間分でトレーニングされました。 これにより、アクセントや背景雑音、専門用語に対するロバスト性が向上するはずです。
- 音声テキストは、複数の言語に書き起こすことができ、またこれらの言語から英語への翻訳も可能です。
- ウィスパーアーキテクチャは、エンコーダー・デコーダー変換器として実装されたシンプルなエンドツーエンドのアプローチです。入力信号は30秒のセグメントに分割され、ログメルスペクトログラムに変換され、エンコーダーに転送されます。
- A デコーダーは、対応するテキストラベルを予測するように訓練され、特別なトークンと混合し、言語識別、フレーズレベルのタイムスタンプなどのタスクを実行します。
- Whisperは、特定のデータセットに合わせて調整されたものではなく、大規模かつ多様なデータセットで訓練されたため、他のモデルよりも頑強かつ正確に機能します。
- Whisperの音声データセットの約3分の1は英語以外の言語です。さらに、Whisperは元の言語への書き起こしや英語への翻訳を交互に行うことで学習します。このアプローチは、言語からテキストへの翻訳を学習する際に特に効果的です。
複数のモデルサイズから選択可能
Whisperは、ローカルコンピュータで使用する5つの異なるモデルサイズで提供されています。さらに、ホスト版Whisper用のAPIもあります。ただし、これには費用がかかり、その費用はトランスクリプションの長さに基づいて算出されます。 以下のモデルサイズが提供されています。
- Tiny: 約4000万パラメータ、言語は英語のみ、必要なVRAMメモリサイズは1ギガバイト、相対速度は32倍
- Base: 7000万以上のパラメータ、言語は英語のみ、VRAMメモリ1ギガバイト、相対速度16倍
- Small: 約2億5000万パラメータ、英語のみ、2ギガバイトのVRAMメモリが必要、6倍高速
- Medium: 約7億7千万のパラメータ、英語のみ、5ギガバイトのVRAMメモリが必要、相対速度2倍
- Large: 15億以上のパラメータ、多言語、10ギガバイトのVRAMメモリ、相対速度1倍
- Whisperは、録音したオーディオデータを30秒ごとに分割します。次に、スペクトログラムに変換し、エンコーダーに渡します。
- 結論:Whisperは、Googleの音声テキスト変換機能の無料かつオープンソースの代替手段です。AIベースの音声認識システムは、入力言語を識別し、約100言語で話し言葉を書き起こし、句読点を正しく挿入し、書き起こしたテキストを翻訳します。