Audio Mode — Gesprächsbasierte Übersetzung mit Sprachausgabe

März 2026

Live Translate Live bietet zwei Möglichkeiten, ein Live-Gespräch zu übersetzen. Der primäre Modus ist das scrollende Marquee — kontinuierliche Spracherkennung, die übersetzten Text über einen gemeinsamen Bildschirm streamt. Der zweite Modus ist der Audio Mode: gesprächsbasiert, Push-to-Talk, mit dem übersetzten Ergebnis, das von einer KI-Stimme laut vorgelesen wird. Sie sprechen, überprüfen Ihre Transkription, korrigieren alles, was der Erkenner falsch verstanden hat, tippen auf Übersetzen, und dann hört die andere Person die Übersetzung in ihrer Sprache. Dann reichen Sie das Telefon über den Tresen, über den Tisch oder zurück an sich selbst, und es ist die Reihe der anderen Person.

Das Marquee ist für gemeinsame Bildschirme konzipiert. Der Audio Mode ist für das Telefon in Ihrer Hand konzipiert.

Audio Mode vs. Marquee Mode — wann welchen wählen

Beide Modi sind in jedem Plan enthalten, und Sie können mitten im Gespräch zwischen ihnen wechseln. Sie lösen unterschiedliche Probleme. Das Marquee funktioniert am besten, wenn zwei Personen bequem gleichzeitig auf einen Bildschirm schauen können und keiner von ihnen das Gerät halten muss. Der Audio Mode funktioniert am besten, wenn es keine geeignete Fläche gibt, um ein Telefon abzulegen, wenn die Umgebung zu laut ist, um ein scrollendes Display auf einen Blick zu lesen, oder wenn einer oder beide Sprecher die Übersetzung aus irgendeinem Grund nicht lesen können.

SituationMarqueeAudioWarum
Restauranttisch mit einem gemeinsamen Telefon flach zwischen Ihnen Ja Geht Beide Sprecher können ihre Seite des Bildschirms lesen; ein kontinuierlicher Fluss wirkt beim Essen natürlich.
Belebter Marktstand, keine ebene Fläche Nein Ja Sie stehen und halten das Telefon. Der Audio Mode ermöglicht es Ihnen, zu sprechen, zu zeigen und weiterzugeben.
Livestream oder Broadcast-Overlay Ja Nein OBS erfasst das scrollende Marquee als Fensterquelle. Der Audio Mode hat keinen Bildschirm für das Publikum.
Hörgeschädigter Nutzer auf einer Seite Ja Nein Text auf dem Bildschirm ist der eigentliche Zweck. Gesprochene Wiedergabe hilft nicht.
Blinder oder sehbehinderter Nutzer auf einer Seite Nein Ja Sprachausgabe beseitigt die Notwendigkeit, ein scrollendes Display zu lesen.
Laute Baustelle oder Fabrikhalle Geht Ja, mit Ohrhörern Der Audio Mode in Kombination mit Ohrhörern liefert die Übersetzung direkt; mit einem Schutzhelm ist das Lesen vom Bildschirm schwierig.
Ruhiger Konferenzraum oder Hotellobby Ja Geht Das kontinuierliche Marquee glänzt, wenn niemand unterbrechen muss, um ein Telefon weiterzugeben.
Mitfahrdienst oder Taxi Nein Ja Der Fahrer behält die Augen auf der Straße. Die Sprachausgabe über den Telefonlautsprecher übernimmt das.

Eine gute Faustregel: Wenn Sie das Telefon natürlicherweise hin und her reichen würden, verwenden Sie den Audio Mode. Wenn Sie das Telefon natürlicherweise hinlegen würden, verwenden Sie das Marquee.

Der gesprächsbasierte Ablauf, Schritt für Schritt

Der Audio Mode ist bewusst linear gestaltet. Jeder Zug ist ein Hin-und-Rück — Sie sprechen, Sie übersetzen, Sie geben weiter. Hier ist genau, was bei jedem Zug passiert:

  1. Tippen Sie auf Push-to-Talk und sprechen Sie Ihren Satz. Halten Sie Ihr Telefon in einer bequemen Sprechposition. Sie können Push-to-Talk verwenden (Taste gedrückt halten, loslassen wenn fertig) oder den Dauerhör-Schalter. Push-to-Talk ist an lauten Orten besser, weil das Mikrofon nur aktiv ist, während Sie sprechen.
  2. Beobachten Sie, wie die Live-Transkription auf dem Bildschirm erscheint. Ihre Worte werden in Echtzeit mit dynamischer Schriftgröße transkribiert, sodass sie auf das Display passen. Die Transkription ist kostenlos — in diesem Schritt werden keine Credits verbraucht, egal wie lange Sie sprechen oder wie oft Sie neu starten.
  3. Überprüfen und bearbeiten Sie die Transkription bei Bedarf. Spracherkennungssysteme machen Fehler bei Eigennamen, Zahlen und ungewöhnlichen Fachbegriffen. Tippen Sie auf die Transkription, um ein Wort vor der Übersetzung zu korrigieren. Dies ist der Schritt, den das Marquee Ihnen nicht bieten kann — es übersetzt sofort, sodass ein falsch verstandenes Wort bereits auf der anderen Seite des Bildschirms ist. Im Audio Mode basiert die Übersetzung auf genau dem, was Sie sagen wollten.
  4. Tippen Sie auf Übersetzen. Dies ist der einzige Schritt, der Credits kostet. Ihnen werden Zeichen des übersetzten Textes und Zeichen der synthetisierten Sprache berechnet — nichts für die vorangegangene Transkription.
  5. Hören Sie, wie die KI-Stimme in der Zielsprache wiedergibt. Die Übersetzung wird laut über den Telefonlautsprecher (oder Ohrhörer, falls angeschlossen) gesprochen. Der übersetzte Text erscheint auch auf dem Bildschirm als Fallback für alle, die lieber lesen.
  6. Geben Sie das Gerät weiter oder spielen Sie es erneut ab. Reichen Sie das Telefon an den anderen Sprecher für seinen Zug weiter, oder tippen Sie auf Wiederholen, wenn er die Übersetzung noch einmal hören möchte. Löschen Sie den Bildschirm, wenn Sie bereit sind, den nächsten Austausch zu beginnen.

Credit-Effizienz — frei transkribieren, selektiv übersetzen

Dies ist der Teil des Audio Mode, der Menschen überrascht. Das Marquee rechnet kontinuierlich ab, weil es kontinuierlich zuhört und kontinuierlich übersetzt — das ist es, was es lebendig wirken lässt. Der Audio Mode nicht. Im Audio Mode:

Ein Gespräch mit zehn Austauschen an einem Marktstand — „wie viel kostet das", „haben Sie es in Blau", „ich nehme zwei" — umfasst typischerweise weniger als tausend Zeichen übersetzten Text und tausend Zeichen synthetisierter Sprache. Das sind Centbeträge. Die gleichen zehn Austausche im Marquee-Modus würden bedeuten, den Erkenner kontinuierlich zwischen den Sätzen laufen zu lassen (einschließlich der unangenehmen Pausen, des Verkäufers, der mit einem anderen Kunden spricht, des Umgebungslärms), was sich beim zeitbasierten Tarif summiert. Der Audio Mode ist für kurze, transaktionale Gespräche dramatisch günstiger — die Art von Gesprächen, die stattfinden, wenn Sie auf den Beinen sind und ein Telefon herumreichen.

Der Kompromiss ist offensichtlich und es lohnt sich, ehrlich darüber zu sein: Der Audio Mode ist nicht kontinuierlich. Sie entscheiden, wann übersetzt wird, und das führt zu kleinen Pausen zwischen den Zügen. Für ein Abendessen oder ein Meeting, bei dem die Übersetzung ununterbrochen wirken soll, ist das Marquee das richtige Werkzeug. Für alles andere — insbesondere die unten beschriebenen Szenarien — amortisiert sich der Audio Mode von selbst.

Szenarien, in denen der Audio Mode seinen Wert beweist

Transaktionen an Straßenständen

Sie sind auf einem Nachtmarkt in Taipeh oder einem Souk in Marrakesch. Sie halten das Telefon in einer Hand und eine Papiertüte in der anderen. Es gibt keinen Tisch. Der Verkäufer steht hinter einem Tresen, einen Meter entfernt, mit seinem eigenen Strom von Kunden. Sie tippen auf Push-to-Talk, stellen Ihre Frage, tippen auf Übersetzen, und der Verkäufer hört die Antwort in seiner Sprache, ohne sich über einen Bildschirm beugen zu müssen. Wenn er antworten möchte, reichen Sie das Telefon über den Tresen für seinen Zug. Der gesamte Austausch dauert vielleicht fünfzehn Sekunden und kostet einen Bruchteil eines Credits.

Laute Märkte und Touristengebiete

Audiowiedergabe über Ohrhörer schneidet durch Umgebungslärm auf eine Weise, die das Lesen vom Bildschirm nicht kann. Wenn beide Sprecher Ohrhörer haben — oder wenn Sie ein Paar teilen — spielt die Übersetzung direkt ins Ohr, auch wenn die Straße um Sie herum 85 dB laut ist. Push-to-Talk ist hier die richtige Eingabewahl, weil es das Mikrofon zwischen den Zügen schließt, sodass der Erkenner nicht versucht, die Menge zu transkribieren.

Barrierefreiheit für sehbehinderte Nutzer

Die KI-Sprachausgabe ist für sehbehinderte Nutzer kein Komfortmerkmal — sie ist das Kernmerkmal. Sie sprechen, die Übersetzung wird in der Zielsprache gesprochen, und niemand muss jemals ein scrollendes Display lesen. Dies ist einer der deutlichsten Vorteile des Audio Mode gegenüber dem Marquee und ein Grund, warum wir beide Modi im Produkt behalten, anstatt uns für eine Seite zu entscheiden.

Mitfahrdienst- und Taxigespräche

Der Fahrer fährt. Er wird nicht auf Ihren Bildschirm schauen, und Sie möchten das auch nicht. Der Audio Mode über den Telefonlautsprecher ermöglicht es Ihnen, Wegbeschreibungen zu geben, nach der Route zu fragen oder einen Fahrpreis zu vereinbaren, ohne dass einer von Ihnen die Augen von der Straße nehmen muss. Für die Antwort des Fahrers können Sie das Telefon an einen Beifahrer weitergeben oder den Dauerhör-Modus verwenden, während er kurz spricht.

Gesundheitsaufnahme und klinische Fragen

Eine Krankenschwester liest eine Frage von einem Klemmbrett vor. Sie antworten in Ihrer eigenen Sprache. Sie tippen auf Übersetzen, und der Kliniker hört die Antwort laut gesprochen — freihändig — während er in das Aufnahmeformular schreibt oder tippt. Da die Transkription kostenlos ist, können Sie sich so viel Zeit nehmen, wie Sie für die Antwort benötigen, unterwegs umformulieren und Credits erst ausgeben, wenn die Antwort endgültig ist. Für medizinische Eigennamen (Medikamentennamen, Erkrankungen) ist der Überprüfungs- und Bearbeitungsschritt besonders nützlich.

Hotelrezeption und Serviceschalter

Sie halten das Telefon auf Ihrer Seite des Tresens, sprechen und schieben es dann zum Angestellten hinüber, damit er antworten kann. Das Audio ist laut genug für beide, und die Transkription auf dem Bildschirm dient als Backup, wenn die Lobby hallt. Für kurze Austausche — Check-in, Check-out, „gibt es eine Apotheke in der Nähe" — kostet der Audio Mode fast nichts und beseitigt die Unbeholfenheit, wenn zwei Personen über ein Telefon gebeugt sind.

Tipps zur Geräteplatzierung und Lautstärke

Ein paar Dinge, die den Audio Mode in der Praxis besser funktionieren lassen:

Ehrliche Grenzen der KI-Sprachausgabe

Die KI-Stimme ist gut. Sie ist nicht menschlich. Ein paar Dinge, die Sie wissen sollten:

FAQ

Wie viele Credits kostet eine einzelne Übersetzung im Audio Mode?

Das hängt von der Länge des Übersetzten ab, aber kurze Gesprächssätze (eine Frage, ein Preis, eine einzeilige Antwort) kosten typischerweise jeweils einen Bruchteil eines Credits — abgerechnet pro Zeichen des übersetzten Textes und pro Zeichen der generierten Sprache. Ein Marktgespräch mit zehn Zügen kommt meist auf Centbeträge. Genaue Tarife finden Sie auf der Preisseite.

Kann ich den Audio Mode ohne Internetverbindung nutzen?

Nein. Spracherkennung, Übersetzung und Sprachsynthese laufen alle in der Cloud. Eine stabile Verbindung ist wichtiger als eine schnelle — der Audio Mode sendet kurze Audiostöße, keinen kontinuierlichen Stream, sodass er auch bei schwankenden Mobilfunkdaten gut funktioniert, solange eine Verbindung besteht.

Was passiert, wenn ich mich verspreche — kann ich neu aufnehmen?

Ja, und das sollten Sie. Die Transkription ist kostenlos, daher gibt es keine Strafe für einen Neustart. Löschen Sie die Transkription und drücken Sie erneut auf Push-to-Talk, oder sprechen Sie einfach weiter — die Transkription wird live aktualisiert. Sie verpflichten sich erst zu einer Übersetzung, wenn Sie auf Übersetzen tippen, und Sie können den Transkriptionstext bis zu diesem Punkt direkt bearbeiten.

Kann ich mitten im Gespräch zum Marquee-Modus wechseln?

Ja. Die Modusauswahl ist ein Schalter, keine Sitzungsgrenze. Wenn das Gespräch von einem stehenden Marktaustausch zu einem Sitzenden Kaffee wechselt, wechseln Sie zum Marquee, ohne Ihr Sprachpaar oder Ihren Verlauf zu verlieren. Siehe Einsprachiger Transkriptionsmodus für einen dritten verwandten Modus, der sich mit der kostenlosen Transkription des Audio Mode überschneidet.

Audio Mode ausprobieren

Wenn Sie in naher Zukunft ein Reisegespräch vor sich haben — ein Markt, ein Taxi, eine Klinik, eine Hotelrezeption — ist der Audio Mode der, den Sie zuerst ausprobieren sollten. Kombinieren Sie ihn mit den allgemeinen Gewohnheiten für Gespräche mit jemandem, der Ihre Sprache nicht spricht (kurze Sätze, eine Frage auf einmal, Eigennamen bestätigen), und er wird die Mehrheit der realen Austausche zu einem Preis bewältigen, den Sie auf Ihrer Rechnung nicht bemerken werden.

Für 1 $ testen — kein Abonnement · Preise ansehen · Alle Funktionen ansehen


Live Translate Live ausprobieren

Beginnen Sie noch heute mit der Echtzeit-Übersetzung zweisprachiger Gespräche.

Kostenlos loslegen