対応言語

Live Translate Live はリアルタイム音声認識で103言語に対応し、オーディオモードでは74言語でライブAI音声再生が可能で、全103言語間で任意の言語同士の翻訳ができます — マーキーでは10,506通りのユニークな言語ペアを実現しています。このページは公式リファレンスです:どの言語が対応しているか、各言語の認識精度、そしてAI音声が利用できる言語を確認できます。

音声認識精度ティア

ライブ音声認識にはElevenLabs Scribe v2 Realtimeを使用しています。ElevenLabsは対応言語全体にわたるScribeの単語誤り率(WER)ベンチマークを公開しており、4つのティアに分類されています。WERが低いほど、より多くの単語が正確に認識されます。以下のティアは公開されているベンチマークです。実際の会話では、マイクの品質や周囲の騒音が上位2ティア間の差よりも大きく影響します。

ティア WER 言語
優秀 ≤ 5% ベラルーシ語、ボスニア語、ブルガリア語、カタルーニャ語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ガリシア語、ドイツ語、ギリシャ語、ハンガリー語、アイスランド語、インドネシア語、イタリア語、日本語、カンナダ語、ラトビア語、マケドニア語、マレー語、マラヤーラム語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スペイン語、スウェーデン語、トルコ語、ウクライナ語、ベトナム語 (36)
5–10% アルメニア語、アゼルバイジャン語、ベンガル語、広東語、フィリピン語、ジョージア語、グジャラート語、ヒンディー語、カザフ語、リトアニア語、マルタ語、標準中国語、マラーティー語、ネパール語、オディア語、ペルシャ語、セルビア語、スロベニア語、スワヒリ語、タミル語、テルグ語 (21)
良好 10–15% アフリカーンス語、アラビア語、アッサム語、アストゥリアス語、ビルマ語、ハウサ語、ヘブライ語、ジャワ語、韓国語、キルギス語、ルクセンブルク語、マオリ語、オック語、パンジャブ語、タジク語、タイ語、ウズベク語、ウェールズ語 (18)
発展途上 15%以上 アムハラ語、ガンダ語、イボ語、アイルランド語、クメール語、クルド語、ラオ語、モンゴル語、北ソト語、パシュトー語、ショナ語、シンド語、ソマリ語、ウルドゥー語、ウォロフ語、コサ語、ヨルバ語、ズールー語 (18)

WERの範囲と言語グループはElevenLabsが公開しているScribe v2ベンチマークに基づいています。ティアドットはアプリ内の言語ピッカーで各言語の横に表示されるため、一目で期待値を確認できます。ベンチマークは約93言語をカバーしています。当アプリはさらに少数の言語(バシキール語、バスク語、ブルトン語、フェロー語、ハイチ・クレオール語、ハワイ語、ラテン語、リンガラ語、マダガスカル語、サンスクリット語、シンハラ語、アルバニア語、スンダ語、タタール語、トルクメン語、イディッシュ語、チベット語)にも対応しており、Scribeはこれらを処理できますが、ElevenLabsはWERティアを公開していません — これらはピッカーにティアドットなしで表示され、会話で使用できますが、公式の精度数値は提供されていません。

ライブAI音声(オーディオモード)

オーディオモードでは、翻訳された文章をデバイスのスピーカーから音声で再生します。音声はElevenLabs v3(対応言語向けの高速フォールバックとしてFlash v2.5も使用)によって生成されます。いずれのTTSモデルにも対応していない言語の場合でも、オーディオモードは引き続き機能します — 翻訳テキストが画面に表示されますが、音声再生はありません。

現在、74言語でライブ音声再生が利用できます。ElevenLabsは定期的にこのリストを拡充しており、アプリは起動時にAPIから最新の対応言語リストを取得します — そのため、v3が拡張されると、オーディオモードも自動的に対応言語が増えます。

オーディオページの言語ピッカーでは、「相手の言語」ドロップダウンが音声再生に対応した言語のみに自動的に絞り込まれます。マーキーピッカーはスクロール表示にTTSが不要なため、103言語すべてが表示されます。

全103言語間の翻訳

翻訳はGoogle Gemini 2.5で動作します。Scribeが認識するすべての言語は、他のすべての言語との間で翻訳が可能です — 英語を中継言語として使う必要はありません。日本語で話してポルトガル語に変換したり、ヒンディー語からアラビア語へ、韓国語からスワヒリ語へと翻訳できます。103の入力・出力言語により、10,506通りのユニークなペアが実現します。

Gemini 2.5は会話のコンテキストをターンをまたいで保持します。代名詞、性の一致、慣用的な表現 — 翻訳エンジンはこれまでに発言された内容を把握した上で、次のターンをそのコンテキストを踏まえて翻訳します。これは多くの人が思う以上に重要です。単独で翻訳された一文は、進行中の会話の一部として翻訳された文と比べて、自然に翻訳するのがおよそ一桁難しくなります。

地域バリアント

上記103言語の多くには複数の地域方言があります。単一モデルで処理されるものもあれば、地域ごとのバリアントを選択できるものもあり、一部の言語ファミリーは音声認識レイヤーで主要なバリアントに統合されています。

言語 地域バリアント 備考
フランス語 fr(デフォルト)、fr-CA(ケベック) ケベック・フランス語はピッカーで選択可能なバリアントです — 話者の一方がケベコワで地域の語彙が重要な場合に便利です。
ポルトガル語 pt(ブラジル・デフォルト)、pt-PT(ヨーロッパ) ブラジル・ポルトガル語がトレーニングデータの大部分を占めています。ヨーロッパ・ポルトガル語はポルトガルのユーザーやルゾフォノ・アフリカ語話者向けに選択可能なバリアントです。
中国語 zh(標準中国語・簡体字)、zh-TW(繁体字) 標準中国語が主要な音声ターゲットです。広東語も上記の「高」ティアに独立したエントリとして対応しています。繁体字と簡体字はどちらも翻訳側でレンダリングされます。
スペイン語 単一モデル(イベリア半島およびラテンアメリカに対応) Scribeは1つのモデルで両方の地域バリアントをきれいに処理します。翻訳エンジンは文字起こしで地域の語彙の違い(coche vs carro)を保持し、対象言語で適切にレンダリングします。
英語 単一モデル(米国・英国・オーストラリア・インド・ニュージーランド・南アフリカのアクセント) 最も多くトレーニングされた言語で、アクセント横断的なカバレッジが充実しています。特にインド英語の処理に優れています。
アラビア語 現代標準アラビア語(主要) MSAが最も良好に機能します。エジプト方言、湾岸方言、レバント方言、マグレブ方言は精度にばらつきがあります — 口語方言の音声は言語セット全体で最も難しいケースです。
ヒンディー語 / ウルドゥー語 hiur 話し言葉レベルでは非常に近い言語ですが、異なる文字(デーヴァナーガリー文字 vs ナスタアリーク体)で書かれます。どちらも独立したASRターゲットとして対応しています。
ノルウェー語 nonn(ニーノシュク) ブークモールがデフォルトです。ニーノシュクはその書き言葉標準の話者向けに選択可能です。
セルビア語 / クロアチア語 / ボスニア語 言語ごとに独立したエントリ 話し言葉レベルでは相互に理解可能ですが、それぞれ独自の文字と規範を持つ3つの独立した言語として扱われます。

ピッカーで地域バリアントが利用可能な場合、話者に合ったバリアントを選択すると文字起こしの精度が顕著に向上します — 特にポルトガル語とフランス語で効果的です。

双方向会話

双方向会話では、アプリが各話者の発言を画面の各自の側に表示します。マーキーが話者の発言を誤った側に表示することはほとんどありません。実際に難しいケースは、非常に短い発話(「OK」、「うーん」、単独の固有名詞)や、バイリンガルの話者が文の途中で言語を切り替えるコードスイッチングです。両言語は同時に翻訳されるため、どちらの話者も相手が話し終わるのを待つ必要はありません。

試してみる

2つの言語を選んで、リアルタイムのバイリンガル会話を始めましょう。アプリのダウンロードは不要 — すべてブラウザで動作します。翻訳クレジットは15分で$1から。オーディオモードでの文字起こしは「翻訳」をタップするまで無料です。

マーキーで始める · オーディオモードを試す · 料金を見る · すべての機能を見る

ここに至るまでの舞台裏を知りたいですか?エンジンを切り替えた理由103言語ローンチのお知らせをお読みください。