103言語でリアルタイム翻訳、74言語でAI音声に対応

2026年5月

Live Translate Live は大規模なエンジン刷新を行いました。音声認識スタックをDeepgramからElevenLabs Scribe v2 Realtimeへ、翻訳レイヤーをGoogle Cloud TranslationからGoogle Gemini 2.5へ切り替え、さらにElevenLabs v3を搭載したAudioモードにライブAI音声再生を追加しました。注目の数字は、リアルタイム音声認識に対応する103言語、そのうちAI音声に対応する74言語、そして任意の2言語間で双方向の翻訳が可能になったことです。

47言語でローンチした当時の旧対応言語の記事をお読みになった方は、その数がほぼ倍増したことにお気づきでしょう。あの記事は新しい状況を反映するよう更新済みです。この記事では、何が変わったのか、そして実際の会話で電話を手にするときにそれがなぜ重要なのかをお伝えします。

以前はできなかった、今できること

ユーザーにとって最もわかりやすい変化は言語ピッカーです。スクロールすると、以前の2倍の項目が表示されます。新たに加わった言語はマイナーなものではありません。多くの方からリクエストをいただいていた言語ばかりです。ペルシャ語、ベンガル語、タミル語、テルグ語、マラーティー語、より高品質なヒンディー語、広東語(北京語とは別エントリー)、ビルマ語、クメール語、ラオ語、モンゴル語、ハウサ語、スワヒリ語、ヨルバ語、ズールー語、ウェールズ語、アイルランド語、ヘブライ語など、さらに多くの言語が加わりました。

2つ目の変化は見た目にはわかりにくいですが、会話の中で実感できます。翻訳品質が目に見えて向上しており、特に長い発話やニュアンスの多い発話で顕著です。Gemini 2.5は各文を単独で翻訳するのではなく、会話の流れを通じて会話コンテキストを保持します。代名詞は正しい先行詞に対応し、性の一致が文の連続を通じて保たれます。慣用句は逐語訳ではなく、目標言語で最も近い表現に置き換えられます。マーキーは辞書というより、翻訳者のように感じられます。

3つ目の変化はまったく新しい機能です。Audioモードで翻訳結果が自然なAI音声で読み上げられるようになりました。話して、「翻訳」をタップすると、相手の言語で翻訳された文章がスマートフォンから流れます。これはタクシー、市場の屋台、病院の待合室など、スクロールする画面を読むのが難しく、スマートフォンを自然に渡し合う場面に最適なモードです。

音声認識の精度はどのくらいですか?

ElevenLabsは、単語誤り率(WER)ベンチマークに基づいてScribe v2の4段階精度グリッドを公開しています。アプリ内ピッカーでは各言語の横に色付きのドットでそのティアを表示しており、一目で確認できるようここにもグループ分けを再掲します。WERが低いほど、より多くの単語が正確に認識されます。

ティア WER 言語
優秀 ≤ 5% ベラルーシ語、ボスニア語、ブルガリア語、カタルーニャ語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ガリシア語、ドイツ語、ギリシャ語、ハンガリー語、アイスランド語、インドネシア語、イタリア語、日本語、カンナダ語、ラトビア語、マケドニア語、マレー語、マラヤーラム語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スペイン語、スウェーデン語、トルコ語、ウクライナ語、ベトナム語 (36)
5–10% アルメニア語、アゼルバイジャン語、ベンガル語、広東語、フィリピン語、ジョージア語、グジャラート語、ヒンディー語、カザフ語、リトアニア語、マルタ語、北京語(中国語)、マラーティー語、ネパール語、オディア語、ペルシャ語、セルビア語、スロベニア語、スワヒリ語、タミル語、テルグ語 (21)
良好 10–15% アフリカーンス語、アラビア語、アッサム語、アストゥリアス語、ビルマ語、ハウサ語、ヘブライ語、ジャワ語、韓国語、キルギス語、ルクセンブルク語、マオリ語、オック語、パンジャブ語、タジク語、タイ語、ウズベク語、ウェールズ語 (18)
発展中 15%+ アムハラ語、ガンダ語、イボ語、アイルランド語、クメール語、クルド語、ラオ語、モンゴル語、北ソト語、パシュトー語、ショナ語、シンド語、ソマリ語、ウルドゥー語、ウォロフ語、コサ語、ヨルバ語、ズールー語 (18)

WER範囲はElevenLabsが公開しているScribe v2ベンチマークに基づいています。実際には、マイクの位置や周囲の騒音が上位2ティア間の差よりも大きく影響します。静かな部屋で良質なマイクを使用した場合、「優秀」と「高」の言語は会話中に見分けがつかないほどです。

表の読み方として参考になるのは、ペアが上位2ティアに収まっている場合、認識レイヤーは事実上透明になり、話した言葉がそのまま画面に表示されます。ペアの一方が「良好」ティアの場合、特に固有名詞などの一般的でない単語で時折誤認識が生じることがあります。一方が「発展中」ティアの場合、その言語は機能しますが文字起こしが粗くなります。そのような場合はAudioモードの方が使いやすいかもしれません。「翻訳」をタップする前に文字起こしを確認できるからです。

74言語でのライブAI音声再生

Audioモードはより大きなプロダクトの変化です。マーキーは常に、テーブルで1つの画面を共有する2人に最適なツールでした。Audioモードはそれ以外の場面向けです。スマートフォン1台、片手で、読むのではなく聞き合う必要がある2人のために。

今すぐ翻訳をタップすると、ElevenLabs v3(または言語によってはその高速版Flash v2.5)が翻訳音声を生成し、スマートフォンが再生します。ロボットではなく、人間のような声です。クレジットを追加消費することなく、何度でも再生できます。相手が聞き取れなかった場合は、「再生」をタップするだけです。

認識対応する103言語のうち、現在74言語でAI音声に対応しています。対応していない言語でもAudioモードは使用できます。翻訳テキストが画面に表示されますが、音声再生はありません。ElevenLabsが対応言語を更新するたびに音声リストは拡大し、アプリは起動時に自動的に新しい言語を取得します。

Audioモードをまだ試していない方は、Audioモードの詳細記事をご覧ください。また、正式なリファレンスは/languagesにあります。

翻訳は103言語すべてで双方向対応

翻訳レイヤーはGemini 2.5が担当しており、任意の言語間で対応しています。日本語で話して、英語を介さずに直接ポルトガル語に変換することができます。ヒンディー語からアラビア語へ。韓国語からスワヒリ語へ。ベトナム語からポーランド語へ。103言語で10,506通りのユニークなペアが存在し、そのすべてが双方向会話モードで同時にサポートされています。

Gemini 2.5の特徴は会話コンテキストにあります。従来の翻訳エンジンは各文を独立した文字列として処理します。そのため、代名詞が誤った名詞に翻訳されたり、会話の途中で敬語レベルが変わったり、慣用句が文字通りの意味不明な表現になったりすることがありました。Gemini 2.5は直前の数ターンを参照し、そのコンテキストを踏まえて次の文を翻訳します。結果として、フレーズごとの検索というより、会話全体を通じてその場にいた翻訳者のように感じられます。

どのペアが最も快適に使えるか

10,506通りすべてのペアが機能します。ただし、流暢さには差があります。実際の使用感を左右する要因は3つあります。

エンジンを変更した理由

簡単に言うと、Deepgram + Google Cloud Translationで得られていた言語カバレッジと品質はローンチ時には優れていましたが、より多くの地域をカバーしようとするとスケールしなくなりました。Scribe v2はより低レイテンシーで幅広いストリーミング対応を実現し、Gemini 2.5はターンをまたいでコンテキストを保持し、ElevenLabs v3はAudioモードに必要な音声再生を可能にしました。詳細については、レイテンシー、ベンチマーク、切り替えの背景にあるアーキテクチャ上の決定を含む別の記事をご覧ください。

試してみる

2つの言語を選んで、リアルタイムのバイリンガル会話を始めましょう。アプリのダウンロードは不要です。翻訳クレジットはマーキーで15分$1から。Audioモードでは、「翻訳」をタップするまで文字起こしは無料です。

マーキーで始める · Audioモードを試す · 言語リファレンス一覧 · 料金を見る


Live Translate Liveを試してみる

リアルタイムのバイリンガル会話の翻訳を今すぐ始めましょう。

無料で始める