同一言語モード — コストを10分の1に抑えたリアルタイム文字起こし
2026年3月
Live Translate Live は2つの言語間のリアルタイム翻訳のために作られていますが、同じエンジンがほぼ偶然に別の問題も解決します。ソース言語とターゲット言語を同じ値に設定すると、アプリは同一言語文字起こしモードに切り替わります。翻訳ステップを一切挟まず、ライブの音声テキスト変換キャプションを表示する、全画面スクロールの単一マーキーです。クレジットの消費は10分の1になり、表示は大きくなり、このツールはブラウザで動かせる最も安価なライブキャプション環境の一つへと静かに変貌します。
ほとんどの人が同じ経緯でこれを発見します。何かを翻訳するために — 親戚の訪問、医療の予約、配信など — サインアップし、そして自分の生活でより根深い問題は、部屋にいる誰かがテレビの音を聞き取れないことだと気づくのです。あるいは会議の音、あるいは部屋の前方にいる話者の声。同一言語モードは、ずっと設定の中に隠れていた答えでした。
ピンとくる瞬間
あるユーザーが最近、こんなシンプルな説明を送ってくれました。「母は難聴です。一緒にイギリスのミステリーを観るのですが、アクセントと音楽のせいで、毎回エピソードの半分を聞き逃してしまいます。テレビ内蔵のキャプションは字幕付きの番組には使えますが、私たちが観るものの多くは、字幕が信頼できないソースからストリーミングされていたり、字幕が遅延していたり、言語が違ったりします。」彼女はテレビの横にスマートフォンを立てかけ、両方の言語を英語に設定し、マーキーが映像の下にライブキャプションをスクロール表示するようにしました。母親はまた内容を追えるようになりました。これが一段落で表せるユースケースです。
同じパターンが繰り返されます。他の何によってもキャプションが付けられていない音声に、キャプションが必要な人がいる。学校の作文を読み上げる孫の声を聞く祖父。聴覚処理障害を持つ従業員がいるスタッフミーティングを進行するマネージャー。聴覚障害を持つ会衆が複数いる牧師。話者のアクセントが聞き取りにくいカンファレンスの講演。これらはいずれも翻訳の問題ではありません — しかしリアルタイム音声テキスト変換の問題であり、それはまさに翻訳パイプラインが翻訳を行う前にやっていることです。
同一言語モードの有効化方法
追加のインストールや設定は一切不要です。Live Translate Live を開き、「あなたの言語」と「相手の言語」の両方のドロップダウンを同じ言語に設定してください — たとえば、両方を日本語に設定します。それだけです。アプリが自動的に一致を検出し、文字起こし専用モードに切り替わります。
同一言語モードが有効になると、マーキーは2行に分割された表示から単一の全高パネルに変わります。音声テキスト変換の文字起こしだけが画面をスクロールします — 翻訳行なし、分割レイアウトなし、縦方向にほぼ2倍のサイズのクリーンなキャプションストリームだけです。テレビやプロジェクターでは、その差は「読める」と「ソファから読める」の差になります。
クレジットの計算 — なぜ10分の1のコストなのか
翻訳モードは、2つの完全な音声認識パイプライン(各話者に1つ)と、すべてのフレーズに対するGoogle Cloud Translationの呼び出しを実行します。同一言語モードは翻訳の呼び出しを完全に省き、単一の音声認識パスに集約されます。私たちの課金はそれを反映しています。翻訳モードは1秒あたり1クレジット、同一言語モードは10秒あたり1クレジットです。同じ予算で10倍長く使えます。
ドルで換算すると、同じクレジットパックでも、使用するモードによって実行時間が大幅に異なります。
| モード | クレジット / 秒 | $1(900クレジット) | $3(約11,000クレジット) | 最適な用途 |
|---|---|---|---|---|
| 翻訳 | 1 / 秒 | 約15分 | 約3時間 | 異なる言語を話す2人の話者 |
| 同一言語 | 1 / 10秒 | 約2.5時間 | 約30時間 | キャプション、アクセシビリティ、文字起こし |
クレジットは音声が実際に文字起こしされている間のみ課金されます — 無音や一時停止中のセッションではクレジットは消費されません。実際の実行時間は、人々が話し続ける頻度によって異なります。クレジットパックの全一覧は料金ページをご覧ください。
1ドルでキャプション付きテレビの午後まるごとが賄えます。3ドルでZoomキャプションの1週間分近くが賄えます。料金は引き続き従量制で、クレジットに有効期限はありません。そのため、1年分の散発的なキャプションセッションをまかなうパックは、必要なときの翻訳会話にも引き続き使えます。
ユースケース — 実際に誰が使っているか
ユースケースのリストは小さく始まり、広がり続けています。いくつかのパターンが十分に明確になってきたので、詳しく説明します。
自宅でのアクセシビリティ
これが最大のグループです。難聴の家族がいる家庭、字幕が充実していないストリーミングサービスにキャプションが欲しい家庭、あるいは食洗機が動いている騒がしいキッチンでの会話を視覚的に補強したい場合などです。セットアップはほぼ常に同じです。スタンドに立てたスマートフォンやタブレットをテレビの横(または下)に置き、テレビのスピーカーに向け、両方の言語を同じ値に設定し、マーキーを全画面表示にします。クレジットは十分長持ちするので、動いていることを忘れてしまうほどです。
バリエーションとして、外国語コンテンツをその元の言語にキャプションする使い方もあります。フランス語の音声でフランス映画を観ている場合、同一言語モードをフランス語に設定すれば、ストリーミングサービスが英語字幕しか提供していなくても、ライブのフランス語キャプションが表示されます。プロが制作した字幕の代替にはなりませんが、スクリプトのないコンテンツや希少なコンテンツでは、何もないよりはるかに優れていることが多いです。
Zoom、Google Meet、その他の会議
Google Meetにはキャプションがあります。Zoomにもあります。Teamsにもあります。どれもかなり優秀です。しかし、手書きのメモを取りながら読み進められる別画面に表示したり、難聴の同僚がアクティブスピーカーのフレーミングと格闘せずに見られる場所に表示したりすることはできません。ラップトップの横のタブレットで同一言語モードを動かせばそれが解決します — さらに、プラットフォームのキャプションシステムがよく聞き逃す外部スピーカーからの音声も拾えます(会議室の向こう側でスピーカーフォンを使っている人、Bluetoothパックで音声が再生されているリモート参加者など)。
会議中にキャプションを動かすことは、驚くほど効果的なメモ取りの補助にもなります。誰かが「QBRはQ3に設定されていて、そのSLAは99.95です」と言ったとき、キャプションが聞こえた言葉をそのまま表示してくれれば、自分のメモに正しい略語を書き写すのがずっと楽になります。アカウントの会話履歴には、後で参照できるよう全文の文字起こしが保存されます。
ライブイベントと礼拝施設
大型ディスプレイ — プロジェクター、壁掛けテレビ、部屋の後方に設置した専用モニター — で同一言語モードを使うと、アプリが軽量なライブキャプションシステムに変わります。日曜礼拝を行う教会は、難聴の会衆のために説教をリアルタイムでスクロール表示できます。カンファレンスはサイドスクリーンにキャプションを表示できます。取締役会は遠方の出席者のために議長の発言をキャプションできます。この料金体系は、専用のCARTサービスを利用できない小規模な組織にとっても現実的です — 3ドルで毎週2時間の礼拝を1か月分、余裕を持ってカバーできます。
OBSでの配信
同一言語モードはOBSのブラウザソースとしてクリーンに動作します。完全なウォークスルーはOBS + スマートTV セットアップガイドをご覧ください — 簡単に言うと、スタンドアロンのマーキーURLを他のオーバーレイと同様にブラウザソースとして追加でき、両方の言語を同じ値に設定すれば、英語(またはスペイン語、日本語)の配信用のクリーンなキャプションリボンが得られます。単一行レイアウトはゲーム映像やウェブカメラのための縦方向のスペースを多く残し、10倍のクレジットレートにより数時間の配信もわずかなコストで済みます。
アクセントと専門用語の補強
同一言語モードは、知っている言語で話されているが理解するのに努力が必要な状況 — 強いアクセントのあるカンファレンスの講演、聞き慣れない専門用語が詰まった技術的な講義、正確な言葉が重要な医療や法律の会話 — で本当に役立ちます。書かれた形を話された形と並べて見ることで、耳が聞き流してしまうものを捉えられます。固有名詞、薬品名、法令番号、略語などです。英語圏の参加者が英語のカンファレンスでキャプションを翻訳キャプションよりも役立てることが多いのは、ボトルネックが言語ではなく情報密度だからです。
デバイスのセットアップ — どこで何が使えるか
同一言語モードはデバイスを選びませんが、ユースケースによって特定のセットアップがより効果的です。
- スタンドに立てたスマートフォン、テレビの横 — 最も安価なアクセシビリティセットアップ。10ドルのデスクスタンドでスマートフォンをテレビの横に立てれば、何も持たずに両者がキャプションを見られます。スマートフォンのマイクがテレビの音声を拾う形で動作します。スマートフォンをテレビのBluetoothにペアリングするか、有線のAUXラインを使うとさらに効果的です。
- スタンドに立てたタブレット、ラップトップの横 — 会議に最適。マーキーを表示する10インチのタブレットは、ラップトップの画面スペースを消費せずに読みやすいキャプションテキストを提供します。タブレット自身のマイクでもラップトップのマイクでも、どちらでも動作します。
- 立てかけたラップトップ、セカンドモニター — ホームオフィスに最適。スタンドアロンのマーキーURLをセカンドモニターで開けば、メイン画面での作業とは独立して動作します。
- ChromecastまたはビルトインブラウザでスマートTV — ライブイベントや礼拝施設に最適。スマートフォンからスタンドアロンのマーキーURLをChromecastするか、テレビのブラウザがあれば直接開きます。全画面単一パネルレイアウトはまさにこのセットアップのために設計されています。
- OBSブラウザソース — 配信者向け。スタンドアロンのマーキーURLをブラウザソースとして追加し、ロワーサードまたは全幅リボンとして配置します。一般的な配信時間ではクレジット消費はわずかです。
制限事項 — 何を期待すべきか
同一言語モードはキャプションを翻訳レイヤーの中に隠すのではなく直接目の前に表示するため、ライブ音声テキスト変換の限界についてあらかじめ正直にお伝えする価値があります。
- 固有名詞、数字、略語が最も難しい単語のクラスです。 通りの名前、聞き慣れない苗字、長い数字の文字列、医療用語、製品SKU — これらはエラーが集中する箇所です。一般的な会話は非常に正確ですが、専門用語は当たり外れがあります。
- 話者分離(ダイアリゼーション)はありません。 マーキーは話者を区別しません。全員が話したことが一つのストリームに流れます。一人の話者が主体のシナリオ(講義、説教、一つの支配的な声があるテレビ番組)では問題ありませんが、5人が話すラウンドテーブルでは、読めるが誰が話したか分からない文字起こしになります。
- 句読点は推測であり、完璧ではありません。 音声エンジンはポーズとプロソディに基づいてピリオドとカンマを配置します。長い流れるような文が一つの連続した文になることがあり、短い区切られたフレーズが断片になることもあります。読めますが、出版に適した品質ではありません。
- レイテンシはサブ秒ですがゼロではありません。 キャプションは発話から約0.5秒から1秒遅れて表示されることを想定してください。短くクリアなフレーズでは速く、長く続くものでは遅くなります。これはすべてのライブキャプションシステム — 人間でも機械でも — に共通することであり、理解のためには一般的に問題ありません。
- 背景ノイズは重要です。 クリーンな音声入力 = クリーンなキャプション出力。部屋の向こう側に置かれたスマートフォンがぼそぼそと話すテレビを拾う場合、クリアなスピーカーから6インチ離れた場所に置かれたスマートフォンよりも悪いキャプションになります。精度が重要な場合は、マイクとソースの距離を縮めてください。
- オフラインモードはありません。 音声エンジンはクラウドで動作するため、インターネット接続が必要です。これは一部のユースケースでは実際の制限であり、あらかじめ知っておく価値があります。
専用キャプションアプリとの比較
同一言語モードは唯一のリアルタイムキャプションオプションではありません。公平な比較を示します。
- YouTubeの自動キャプション — 無料で優秀ですが、すでにYouTubeにあるコンテンツにしか機能しません。ライブTV、Zoom、対面の会話、YouTubeの動画以外のものには使えません。
- Otter.ai — 強力な話者分離と検索可能な文字起こしを持つ専用の文字起こしツール。プロのミーティングメモには優れていますが、より高価でサブスクリプション制であり、「画面にキャプションを表示する」というアンビエントなユースケースには向いていません。
- Google Meet / Zoom / Teamsのキャプション — 無料で優秀ですが、それぞれのプラットフォーム内に閉じています。スピーカーで再生されているポッドキャスト、テレビ番組、対面の会話、配信にはキャプションを付けられません。
- Live Transcribe(Android)/ Live Captions(iOS、macOS、Windows) — インターネットを必要としない優秀なオンデバイスオプション。プライバシーに敏感なユースケースに優れていますが、共有ディスプレイモードがなく、マルチデバイスの柔軟性もありません。
Live Translate Live の同一言語モードは、部屋にいる誰もが見られる画面に、共有可能で読みやすいキャプションリボンが必要な場合に最適です — プライベートなオンデバイスのキャプションレイヤーでも、プラットフォーム固有の会議機能でもなく。これらのツールを意図的に補完するものであり、代替ではありません。自分のためにラップトップでLive Captionsがすでにうまく動いているなら、これは必要ありません。部屋の人々のために壁にキャプションが必要なら、これが最もシンプルな方法です。
よくある質問
複数の話者で使えますか?
はい、ただし注意点があります。複数の人が同じマイクに向かって話すことができ、マーキーはすべてを一つのストリームに文字起こしします。誰が何を言ったかはラベル付けされません — 話者分離はありません。一人の主要な話者が時々発言を挟まれる形(説教、会議の議長、教師)ではうまく機能します。自由な4者間の会話では、全員をまとめて帰属なしに読める文字起こしが生成されます。
オフラインで使えますか?
いいえ。音声認識パイプラインはクラウドで動作するため、インターネット接続が必要です。オフラインキャプションが必須要件の場合、組み込みのOSキャプションツール(iOS / macOS / WindowsのLive Captions、AndroidのLive Transcribe)はオンデバイスで動作し、個人利用に優れています。
文字起こしの精度はどのくらいですか?
一般的な会話のクリアな音声では、精度は高く — 同様の基盤エンジンを使用するYouTubeの自動キャプションやGoogle Meetのキャプションと同等です。弱点は固有名詞、数字、略語、強いアクセントや重なり合う発話です。精度は音声品質に比例します。話者の近くにあるスマートフォンは、部屋の向こう側にあるスマートフォンよりも良いキャプションを生成します。
文字起こしを保存できますか?
はい。すべてのセッションは会話履歴に保存され、後で確認してエクスポートできます。現在のエクスポートオプションについては機能ページをご覧ください。パワーユーザー向けに、履歴にはタイムスタンプが含まれているため、ライブキャプションツールとしても事後の文字起こしツールとしても使用できます。
全画面単一パネル表示
翻訳モードでは、マーキーは2行に分割されます。各言語に1行ずつです。同一言語モードでは、画面全体が1行のスクロールテキストに使われます。これによりより大きなテキストとより優れた可読性が実現します — 特にディスプレイが部屋の向こう側にあったり、壁に投影されたりしている場合に役立ちます。
既存のマーキー機能はすべて引き続き動作します。スクロール速度の調整、フォントスケーリング、プッシュトゥトークモード、スタンドアロンのマーキーURL、OBSブラウザソースの互換性、そしてテーブルの両側からキャプションを読めるようにしたい場合のvis-à-vis 反転ディスプレイモード。翻訳モードとの違いはレイアウト — 2行ではなく1行 — とクレジットレートだけです。
すでに使っているものすべてと連携
同一言語モードは別の機能ではありません — 異なる設定で動作する同じアプリです。設定済みのものはすべて引き続き動作します。
- スタンドアロンマーキー — 別のブラウザタブまたはウィンドウでマーキーを開くか、スマートTVとURLを共有
- OBSブラウザソース — 既存のOBSセットアップはそのまま動作します。マーキーは自動的に単一パネルモードに切り替わります
- プッシュトゥトーク — ボタンを押して文字起こし、離して停止
- 会話履歴 — すべての文字起こしは後で確認できるよう履歴に保存されます
別のターゲット言語を選択すれば、いつでも翻訳モードに戻れます。マーキーは2行レイアウトを復元し、標準レートでの翻訳を再開します。
今すぐ試す
Live Translate Live にサインインし、両方の言語を同じ値に設定して、話し始めてください。リアルタイムであなたの言葉をスクロール表示する単一の全画面マーキーが表示されます — わずかなコストで。アクセシビリティのためのライブキャプション、プレゼンテーションディスプレイ、配信オーバーレイ、あるいは単に自分の発話を画面で確認する方法など、同一言語モードがあなたのニーズに応えます。
1ドルから試せます — サブスクリプション不要。クレジットに有効期限はないため、1パックで数か月分の散発的なキャプションをカバーできます。放送セットアップの完全なウォークスルーは、OBSとスマートTVのマーキーガイドをご覧ください。