Deepgram + Google翻訳からElevenLabs Scribe v2 + Gemini 2.5に乗り換えた理由
2026年5月
この記事は、103言語対応ローンチ発表の舞台裏を紹介する補足記事です。あちらが「何が変わったか」であれば、こちらは「なぜそのベンダーを選んだか」です。主な成果は、言語カバレッジのほぼ倍増、低遅延の音声認識、会話コンテキストを考慮した翻訳、そして74言語でのライブAI音声再生です。
ベンダーを変更した理由
旧スタックは、音声認識にDeepgram、翻訳レイヤーにGoogle Cloud Translationを使用していました。ローンチ時は安定していましたが、限界は言語カバレッジにありました。Deepgramのストリーミングモデルは本番品質でおよそ40〜50言語に対応していましたが、ベンガル語、タミル語、テルグ語、マラーティー語、広東語(北京語とは別エントリとして)、ビルマ語、クメール語、ウェールズ語、ヘブライ語など、ユーザーから要望の多い言語に追いつくほどリストが拡充されていませんでした。
もう一つのプレッシャーは出力側にありました。Audio mode——翻訳結果をリスナーの言語で音声として読み上げるターン制翻訳——をリリースしたかったのです。そのためには、旧スタックにはなかったTTSレイヤーを追加する必要がありました。パイプラインの一部のためにベンダーを導入するなら、統合を検討する価値があると判断しました。
音声認識にScribe v2を選んだ理由
ElevenLabsは2026年1月にScribe v2 Realtimeをリリースしました。ElevenLabsが公表した主な仕様は、ストリーミング遅延約150ms、FLEURSベンチマークでの多言語単語誤り率5.8%、そして業界標準のASRモデルと比較した30のベンチマーク言語全体での精度93.5%です。対応言語リストは約100言語で、Excellent(WER≤5%)、High(5〜10%)、Good(10〜15%)、Developing(15%以上)の4段階精度グリッドが公開されています。
既存で運用していた言語についてDeepgramとの独自比較検証を行いました。遅延の主張は実証されました——文字起こしされた単語は話者の声とほぼ同時に表示され、体感的なボトルネックが翻訳ステップに移るほど高速です。既存対応言語でのヘッドツーヘッドの文字起こし品質は同等以上で、特に弱点だった言語での改善が顕著でした。ヒンディー語は「動くが粗い」から「きれいに動く」へ、ベンガル語とタミル語は「本番未対応」から「Highティアで本番対応」へと向上しました。
もう一つ気に入った点は、Scribeがネイティブのセグメント単位言語識別を備えていることです。これにより2話者の処理が大幅に簡素化され、言語リストを拡充しても追加ごとの統合作業が増大しないようになりました。
翻訳にGemini 2.5を選んだ理由
ステートレスな文単位の機械翻訳には既知の失敗パターンがあります。代名詞が先行詞なしに翻訳される、性別のある言語が会話の途中でぶれる、丁寧さのレジスターが変わる、慣用句が文字通りの意味不明な表現になる——これらはすべて共通の根本原因を持ちます。翻訳器が現在の文しか見ていないのです。
Gemini 2.5はターンをまたいで会話コンテキストを保持します。次の発話を翻訳する際、モデルは会話の直近の履歴を参照するため、特別な仕組みを追加しなくてもそうしたぶれの問題のほとんどが解消されます。実際の翻訳は辞書引きのようではなく、会話全体を通じてその場にいた人の仕事のように感じられます。トレードオフとして、旧来のステートレスMTより1回あたりの遅延がやや高く——数十ミリ秒ではなく数百ミリ秒程度——なりますが、「話者が話し終える」から「リスナーが翻訳を見る」までのエンドツーエンドは、計測した言語においていずれも1秒以内に収まっています。
翻訳にGeminiを選んだもう一つの理由は、翻訳側の言語カバレッジがもはや制約にならないことです。Gemini 2.5はScribeが認識するすべての言語を任意の方向でカバーしており、これがany-to-anyの10,506ペアという主張を願望ではなく事実にしています。
Audio mode TTSにElevenLabs v3を選んだ理由
Audio modeは新しいパイプラインステージを導入しました。翻訳されたテキストをリスナーの言語の音声に変換するステップです。ElevenLabs v3を選んだのは、言語カバレッジ(現在約74言語)と音声品質のためです。音声は口述ソフトウェアではなく人間のように聞こえ、多言語サポートにより対応言語リストの上位半分全体で同じ製品体験が実現します。ElevenLabs Flash v2.5が利用可能な言語では、そちらを優先しています。より高速で低コストであり、品質も並べて比較するのが難しいほど近いためです。
ライブ音声再生に対応する言語のリストは、ElevenLabsがカバレッジを更新するたびに拡充されます。新しい言語が利用可能になると、アプリは自動的に対応します。
ユーザーが気づく変化
- 言語ピッカーの選択肢が増えた。 103エントリ、以前のリストのほぼ倍で、最も要望の多かった追加言語のほとんどを含みます。
- 翻訳がより自然に感じられる。 代名詞が正しく解決され、丁寧さがターンをまたいで保たれ、慣用句が適切に解釈されます。これが会話コンテキスト効果です。
- Audio modeが翻訳を音声で再生する。 現在74言語でAI音声に対応。残りの言語もAudio modeでテキスト出力として動作します。
- 言語ピッカーのティアドット。 各言語の隣にある小さな色付きドットが、ElevenLabsの公開WERベンチマークに基づく音声認識精度の目安を示します——緑がExcellent、黄がHigh、橙がGood、赤がDevelopingです。
- 双方向の会話が双方向のまま。 両者の発話が同時に翻訳され、ターン交代も不自然な間もありません。
数値
- 言語数(STT): 103(47から増加)
- 言語数(ライブTTS): 74
- 言語ペア数(翻訳): 10,506(2,162から増加)
- Scribe v2ストリーミング遅延: 約150ms(ElevenLabs公表値)
- FLEURSでの多言語WER: 5.8%(ElevenLabs公表値)
- 課金: 文字単位、文字起こし・翻訳・TTSに均等適用——処理1文字につき1クレジット。Audio modeでは、翻訳をタップするまで文字起こしは無料
ユーザー向けの説明を読みたい方へ
ローンチ発表記事では、同じ変更をユーザー視点から説明しています——言語ピッカーの新機能、各精度ティアへの期待値、Audio modeの実際の使用感などです。完全な正式言語リファレンスは/languagesにあります。試してみたい方は、marqueeはこちら、Audio modeはこちらです。