オーディオモード — ターン制翻訳と音声再生

2026年3月

Live Translate Live には、ライブ会話を翻訳する2つの方法があります。主要モードはスクロールマーキーです — 継続的な音声認識が翻訳テキストを共有画面に流し続けます。2つ目のモードがオーディオモードです。ターン制、プッシュ・トゥ・トーク方式で、翻訳結果をAIの音声で読み上げます。話して、文字起こしを確認し、認識ミスを修正して、「翻訳」をタップすると、相手は自分の言語で翻訳を聞くことができます。そしてカウンター越し、テーブル越し、あるいは自分自身に電話を渡せば、相手のターンになります。

マーキーは共有画面向けに作られています。オーディオモードは手に持つスマートフォン向けに作られています。

オーディオモード vs. マーキーモード — どちらを選ぶか

どちらのモードもすべてのプランに含まれており、会話の途中で切り替えることができます。それぞれ異なる問題を解決します。マーキーは、2人が同時に1つの画面を快適に見られる場合、かつ誰もデバイスを持つ必要がない場合に最適です。オーディオモードは、スマートフォンを置く適切な場所がない場合、環境が騒がしくてスクロール表示をひと目で読めない場合、または何らかの理由で一方または両方の話者が翻訳を読めない場合に最適です。

状況	マーキー	オーディオ	理由
スマートフォンを間に置いたレストランのテーブル	○	可	両方の話者が画面の自分側を読める。食事中は継続的な流れが自然に感じられる。
混雑した市場の屋台、平らな場所なし	×	○	立ったままスマートフォンを持っている。オーディオモードなら話して、見せて、渡すことができる。
ライブ配信や放送のオーバーレイ	○	×	OBSがスクロールマーキーをウィンドウソースとしてキャプチャする。オーディオモードには視聴者向けの画面がない。
片方が聴覚障害のあるユーザー	○	×	画面上のテキストがすべて。音声再生は役に立たない。
片方が視覚障害または弱視のユーザー	×	○	音声再生によりスクロール表示を読む必要がなくなる。
騒がしい建設現場や工場フロア	可	○（イヤホン使用）	イヤホンと組み合わせたオーディオモードが翻訳を直接届ける。ヘルメット着用中は画面を読むのが難しい。
静かな会議室やホテルのロビー	○	可	誰もスマートフォンを渡すために会話を中断する必要がないとき、継続的なマーキーが輝く。
ライドシェアやタクシー	×	○	ドライバーは道路から目を離せない。スマートフォンのスピーカーからの音声再生が対応する。

大まかな目安として、スマートフォンを自然に行き来させるならオーディオモード、自然に置いておくならマーキーを使いましょう。

ターン制ワークフロー、ステップごとの説明

オーディオモードは意図的に直線的な設計になっています。各ターンは1往復です — 話して、翻訳して、渡す。各ターンで起こることを正確に説明します：

プッシュ・トゥ・トークをタップして話す。 話しやすい位置でスマートフォンを持ちます。プッシュ・トゥ・トーク（ボタンを押し続け、終わったら離す）または常時リスニングのトグルを使えます。プッシュ・トゥ・トークは、話している間だけマイクがオンになるため、騒がしい場所に適しています。
ライブ文字起こしが画面に表示されるのを見る。 言葉はリアルタイムで文字起こしされ、ダイナミックなフォントサイズで画面に収まるよう表示されます。文字起こしは無料です — どれだけ長く話しても、何度やり直しても、このステップではクレジットは消費されません。
必要に応じて文字起こしを確認・編集する。 音声認識は固有名詞、数字、珍しい専門用語でミスをすることがあります。翻訳前に文字起こしをタップして単語を修正します。これはマーキーにはできないステップです — マーキーはすぐに翻訳するため、聞き間違えた単語はすでに画面の反対側に表示されています。オーディオモードでは、翻訳はあなたが言いたかったことに基づいて行われます。
「翻訳」をタップする。 これがクレジットを消費する唯一のステップです。翻訳テキストの文字数と合成音声の文字数に応じて課金されます — それ以前の文字起こしには課金されません。
AIの音声がターゲット言語で再生されるのを聞く。 翻訳はスマートフォンのスピーカー（またはイヤホンが接続されている場合はイヤホン）から声に出して読み上げられます。翻訳テキストも画面に表示され、読むことを好む方のためのフォールバックとして機能します。
デバイスを渡すか、再生する。 相手のターンのためにスマートフォンを渡すか、もう一度聞きたい場合は再生をタップします。次のやり取りを始める準備ができたら画面をクリアします。

クレジット効率 — 文字起こしは自由に、翻訳は選択的に

これはオーディオモードで人々が驚く部分です。マーキーは継続的に課金されます。なぜなら継続的に聞いて継続的に翻訳しているからです — それがライブ感を生み出しています。オーディオモードはそうではありません。オーディオモードでは：

音声認識はプッシュ・トゥ・トークボタンを積極的に押している間（または常時リスニングマイクがオンの間）のみ動作します。
文字起こしは無料です。 話して、画面をクリアして、やり直して、また話す — クレジットは動きません。
クレジットは「翻訳」をタップしたときのみ、その特定の文に対してのみ消費されます。

市場での10回のやり取り — 「これはいくらですか」「青はありますか」「2つください」 — は通常、翻訳テキスト1,000文字未満、合成音声1,000文字未満です。それは数円程度です。同じ10回のやり取りをマーキーモードで行うと、文と文の間（ぎこちない間、別の客に話しかけるベンダー、周囲の騒音を含む）も認識機を継続的に動かし続けることになり、時間ベースの料金が積み重なります。オーディオモードは、短くて取引的な会話 — 立ったままスマートフォンを回しているときに起こる種類の会話 — において劇的に安くなります。

トレードオフは明らかで、正直に言う価値があります。オーディオモードは継続的ではありません。翻訳するタイミングを自分で選ぶため、ターン間に小さな間が生じます。翻訳が途切れなく感じられることを望む座って食事をする場合や会議では、マーキーが適切なツールです。それ以外のすべて — 特に以下のシナリオ — では、オーディオモードはその価値を発揮します。

オーディオモードが真価を発揮するシナリオ

路上販売での取引

台北のナイトマーケットやマラケシュのスークにいます。片手にスマートフォン、もう片手に紙袋を持っています。テーブルはありません。ベンダーはカウンターの向こう、3フィート先に、自分の客の流れを抱えています。プッシュ・トゥ・トークをタップして質問し、「翻訳」をタップすると、ベンダーは画面に身を乗り出すことなく自分の言語で答えを聞くことができます。相手が返答したい場合は、スマートフォンをカウンター越しに渡して相手のターンにします。やり取り全体は15秒ほどで、コストはクレジットのほんの一部です。

騒がしい市場や観光地

イヤホンからの音声再生は、画面を読むのとは違う方法で周囲の騒音を切り抜けます。両方の話者がイヤホンを持っている場合、またはペアを共有する場合、周囲の通りが85dBであっても翻訳が直接耳に届きます。プッシュ・トゥ・トークは、積極的に話していないときはマイクを閉じるため、認識機が群衆を文字起こししようとしないので、ここでは適切な入力方法です。

弱視ユーザーのアクセシビリティ

AIの音声再生は弱視ユーザーにとって便利な機能ではありません — それが核心機能です。話すと、翻訳がターゲット言語で読み上げられ、誰もスクロール表示を読む必要がありません。これはオーディオモードがマーキーに対して持つ最も明確な優位点の1つであり、どちらかを選ぶのではなく両方のモードを製品に残している理由の1つです。

ライドシェアやタクシーでの会話

ドライバーは運転中です。あなたの画面を見ることはなく、見てほしくもありません。スマートフォンのスピーカーからのオーディオモードで、どちらも道路から目を離すことなく、道案内をしたり、ルートについて尋ねたり、料金に合意したりできます。ドライバーの返答には、助手席の乗客にスマートフォンを渡すか、ドライバーが短く話す間は常時リスニングモードを使うことができます。

医療受付と臨床的な質問

看護師がクリップボードから質問を読み上げます。あなたは自分の言語で答えます。「翻訳」をタップすると、臨床医は受付フォームに書いたり入力したりしながら、ハンズフリーで答えを声で聞くことができます。文字起こしは無料なので、答えるのに必要なだけ時間をかけ、途中で言い直し、答えが確定したときだけクレジットを使います。医療固有名詞（薬品名、病名）については、確認・編集ステップが特に役立ちます。

ホテルのフロントデスクとサービスカウンター

カウンターの自分側でスマートフォンを持ち、話して、係員が返答するためにスライドして渡します。音声は両方に聞こえる程度の音量で再生され、ロビーが反響する場合は画面上の文字起こしがバックアップとして機能します。短いやり取り — チェックイン、チェックアウト、「近くに薬局はありますか」 — では、オーディオモードはほぼコストがかからず、2人が1台のスマートフォンに身を乗り出す気まずさを解消します。

デバイスの配置と音量のヒント

実際の場面でオーディオモードをより効果的に機能させるためのいくつかのポイント：

クリアな音声を拾えるよう十分近くでスマートフォンを持つ、ただしマイクがクリップするほど近づけすぎない。口から15〜30センチが適切な範囲です。複数のマイクを持つスマートフォンは風や背景ノイズをある程度処理できますが、テーブルの向こうから録音した音声は救えません。
周囲の騒音が大きいときはプッシュ・トゥ・トークを使う。 常時リスニングは聞こえるものすべてを文字起こししようとします。隣の人の声も含めて。プッシュ・トゥ・トークはターン間にマイクを閉じます。
最初の翻訳前にメディア音量を上げておく。 AIの音声再生はスマートフォンのメディアチャンネルを通じて再生されます。着信音ではありません。メディア音量がゼロの場合、最初の再生は無音に聞こえ、何か壊れたと思うでしょう。
混雑した場所ではスピーカーよりイヤホンの方が優れています。再生の明瞭さとプライバシーの両面で。ペアを共有する場合は、スマートフォンと一緒に空いているイヤホンを渡しましょう。
長いやり取りには充電しながら使う。 長い会話での継続的なプッシュ・トゥ・トークはバッテリーを目に見えて消耗します — マーキーほどではありませんが、それでも目立ちます。

AI音声再生の正直な限界

AIの音声は優れています。しかし人間ではありません。知っておくべきことがいくつかあります：

プロソディは言語によって差があります。 英語、スペイン語、フランス語、ドイツ語、日本語、中国語（普通話）は最も自然に聞こえる傾向があります。人口の少ない言語は、特に長い文では、より機械的に聞こえることがあります。
固有名詞は既知の弱点です。 人名、通り名、ブランド名、専門用語は、ターゲット言語の一般的な単語であるかのように発音されることがあります。翻訳前に文字起こしを確認して軽く書き直すことが助けになります — 例えば「Saint-Laurent Boulevard」を音声的に表記するなど。
文と文の間に短い間があり、自然な流れではありません。 各翻訳は完全な発話として生成されます。2つの連続した翻訳は、継続的な話者のようではなく、2つの別々の文のように聞こえます。これはターン制の会話では通常問題なく、各翻訳の間に「翻訳」をタップしているという正しい動作です。
32言語が音声再生に対応しています。 そのセット外の言語でも翻訳はテキストで正しく行われます — ただし音声では再生されません。マーキーはこの制約なしにそれらの言語を処理します。

よくある質問

オーディオモードで1回の翻訳にかかるクレジットはいくらですか？

翻訳する内容の長さによりますが、短い会話文（質問、価格、1行の返答）は通常それぞれクレジットのほんの一部です — 翻訳テキストの文字数と生成された音声の文字数に応じて課金されます。10ターンの市場での会話は通常数円程度になります。正確な料金については料金ページをご覧ください。

インターネット接続なしでオーディオモードを使えますか？

いいえ。音声認識、翻訳、音声合成はすべてクラウドで動作します。速い接続よりも安定した接続の方が重要です — オーディオモードは継続的なストリームではなく短い音声バーストを送信するため、接続されている限り不安定なモバイルデータでも問題なく動作します。

言い間違えた場合、録音し直せますか？

はい、そうすべきです。文字起こしは無料なので、やり直しにペナルティはありません。文字起こしをクリアしてプッシュ・トゥ・トークをもう一度押すか、話し続けるだけでも構いません — 文字起こしはリアルタイムで更新されます。「翻訳」をタップしたときにのみ翻訳が確定し、その前に文字起こしテキストを直接編集することができます。

会話の途中でマーキーモードに切り替えられますか？

はい。モード選択はトグルであり、セッションの境界ではありません。会話が立ったままの市場でのやり取りから座ってのコーヒーに移行した場合、言語ペアや履歴を失うことなくマーキーに切り替えられます。オーディオモードの無料文字起こしと重なる3つ目の関連モードについては、同一言語文字起こしモードをご覧ください。

オーディオモードを試す

近い将来に旅行者としての会話 — 市場、タクシー、クリニック、ホテルのデスク — がある場合、最初に試すべきはオーディオモードです。言語を共有しない相手と話すための一般的な習慣（短い文、一度に1つの質問、固有名詞の確認）と組み合わせれば、請求書で気にならないコストで実際の場面でのやり取りの大部分を処理できます。

1ドルで試す — サブスクリプション不要 · 料金を見る · すべての機能を見る

Live Translate Liveを試してみる

リアルタイムのバイリンガル会話の翻訳を今すぐ始めましょう。

無料で始める