Appleの音声認識API、いきなり本命入り?
音声をテキストに変換する「文字起こしツール」。今まではOpenAIのWhisperが定番でしたが、Appleもついに独自のトランスクリプションAPIを投入。しかも、処理スピードがめちゃ速いらしい。
ただし問題は「精度」。というわけで、人気ツールたちと比べてみたらどうなったか?というのが今回のテーマです。
比較対象と方法
検証に使われたのは以下の3ツールです。
・Appleの新しいトランスクリプションAPI
・Whisper Large v3 Turbo(OpenAI)
・Inky(インキー)v2
さらに、ChatGPT・Claude・Gemini でも文字/単語エラー率(CER/WER)を計算してもらいました。共通の7分半の音声ファイルを元に、同一条件下で処理速度と精度をチェックしています。
結果:Whisperが最も正確、Inkyは最速
以下はそれぞれのツールで計測された結果のまとめです。
① ChatGPT評価(正規化あり)
モデル | 転写時間 | 文字エラー率 | 単語エラー率 |
Inky v2 | 2秒 | 6.0% | 12.3% |
Whisper Large V3 | 40秒 | 0.4% | 1.4% |
Apple API | 9秒 | 2.1% | 10.2% |
② Claude評価(より厳格な正規化)
モデル | 転写時間 | 文字エラー率 | 単語エラー率 |
Inky v2 | 2秒 | 8.4% | 11.0% |
Whisper Large V3 | 40秒 | 0.1% | 1.0% |
Apple API | 9秒 | 3.5% | 8.2% |
③ Gemini評価(記号や句読点も整理)
モデル | 転写時間 | 文字エラー率 | 単語エラー率 |
Inky v2 | 2秒 | 7.6% | 12.3% |
Whisper Large V3 | 40秒 | 0.3% | 0.4% |
Apple API | 9秒 | 3.4% | 5.3% |
どれがベスト?使いどころで選ぶべし
・最も正確なのはWhisper(ただし処理に40秒)
・最も速いのはInky(わずか2秒!)
・Appleはその中間で、速さもそこそこ、精度も悪くない
つまり、こういう選び方がオススメです。
・正確さ最優先:Whisper
・速さ重視:Inky
・Macアプリなどとの親和性重視:Apple API
Appleのモデルはまだ初登場ですが、「ローカル動作&開発しやすさ」が最大の強み。今後のアップデートでさらに期待できそうです。
参照元リンク
The fact that Apple’s new transcription API is faster than Whisper is great news. But how accurate is it? We tested it out.