अब 103 भाषाओं में अनुवाद — 74 में AI वॉयस के साथ
मई 2026
Live Translate Live को अभी एक बड़ा इंजन अपग्रेड मिला है। हमने अपना स्पीच-रिकग्निशन स्टैक Deepgram से बदलकर ElevenLabs Scribe v2 Realtime कर दिया है, अनुवाद परत Google Cloud Translation से बदलकर Google Gemini 2.5 कर दी है, और Audio mode में ElevenLabs v3 द्वारा संचालित लाइव AI वॉयस प्लेबैक जोड़ा है। मुख्य आंकड़ा यह है: हम रियल-टाइम स्पीच के लिए 103 भाषाओं में लाइव हैं, उनमें से 74 में AI वॉयस के साथ, और किन्हीं भी दो भाषाओं के बीच किसी भी दिशा में अनुवाद उपलब्ध है।
अगर आपने पुरानी समर्थित-भाषाओं वाली पोस्ट पढ़ी थी जब हमने 47 भाषाओं के साथ लॉन्च किया था, तो संख्या लगभग दोगुनी हो गई है। वह पोस्ट अब नई वास्तविकता को दर्शाने के लिए अपडेट कर दी गई है; यह पोस्ट उस बात की घोषणा है कि क्या बदला और यह क्यों मायने रखता है जब आप किसी वास्तविक बातचीत के लिए फ़ोन उठाते हैं।
अब आप क्या कर सकते हैं जो पहले नहीं कर सकते थे
उपयोगकर्ताओं के लिए सबसे दृश्यमान बदलाव भाषा चयनकर्ता में है। नीचे स्क्रॉल करें और आपको दोगुनी प्रविष्टियाँ दिखेंगी। जो भाषाएँ जुड़ी हैं वे अस्पष्ट नहीं हैं — ये वे भाषाएँ हैं जिनके लिए आप में से बहुत से लोग माँग कर रहे थे: फ़ारसी, बंगाली, तमिल, तेलुगु, मराठी, उच्च गुणवत्ता में हिंदी, मंदारिन से अलग प्रविष्टि के रूप में कैंटोनीज़, बर्मी, खमेर, लाओ, मंगोलियाई, हौसा, स्वाहिली, योरूबा, ज़ुलु, वेल्श, आयरिश, हिब्रू, और कई अन्य।
दूसरा बदलाव पहचानना कठिन है लेकिन आप इसे बातचीत में महसूस करेंगे: अनुवाद की गुणवत्ता विशेष रूप से लंबे या अधिक सूक्ष्म वार्तालापों में स्पष्ट रूप से बेहतर है। Gemini 2.5 प्रत्येक वाक्य को अलग-अलग अनुवाद करने के बजाय वार्तालापों में संवादात्मक संदर्भ बनाए रखता है। सर्वनामों को सही पूर्ववर्ती मिलता है। लिंग-सहमति एक क्रम में बनी रहती है। मुहावरों को शब्द-दर-शब्द अनुवाद करने के बजाय लक्ष्य भाषा के निकटतम समकक्ष में रूपांतरित किया जाता है। marquee एक शब्दकोश की तरह कम और एक अनुवादक की तरह अधिक लगता है।
तीसरा बदलाव बिल्कुल नया है: Audio mode अब अनुवाद को एक प्राकृतिक AI वॉयस में ज़ोर से बोलता है। आप बोलते हैं, Translate टैप करते हैं, आपका फ़ोन श्रोता की भाषा में अनुवादित वाक्य बोलता है। यह टैक्सियों, बाज़ार की दुकानों, अस्पताल के प्रतीक्षा कक्षों के लिए उपयुक्त mode है — ऐसी जगहें जहाँ स्क्रॉलिंग डिस्प्ले पढ़ना अव्यावहारिक है और आप स्वाभाविक रूप से फ़ोन आगे-पीछे करते हैं।
स्पीच रिकग्निशन कितना सटीक है?
ElevenLabs, Scribe v2 के लिए वर्ड-एरर-रेट (WER) बेंचमार्क के आधार पर चार-स्तरीय सटीकता ग्रिड प्रकाशित करता है। हम उन स्तरों को इन-ऐप पिकर में प्रत्येक भाषा के बगल में रंगीन बिंदुओं के रूप में दिखाते हैं, और हमने यहाँ समूहीकरण को पुनः प्रस्तुत किया है ताकि आप एक नज़र में अपनी भाषा खोज सकें। कम WER का अर्थ है कि अधिक शब्द सही तरीके से आते हैं।
| स्तर | WER | भाषाएँ |
|---|---|---|
| उत्कृष्ट | ≤ 5% | Belarusian, Bosnian, Bulgarian, Catalan, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, Galician, German, Greek, Hungarian, Icelandic, Indonesian, Italian, Japanese, Kannada, Latvian, Macedonian, Malay, Malayalam, Norwegian, Polish, Portuguese, Romanian, Russian, Slovak, Spanish, Swedish, Turkish, Ukrainian, Vietnamese (36) |
| उच्च | 5–10% | Armenian, Azerbaijani, Bengali, Cantonese, Filipino, Georgian, Gujarati, Hindi, Kazakh, Lithuanian, Maltese, Mandarin Chinese, Marathi, Nepali, Odia, Persian, Serbian, Slovenian, Swahili, Tamil, Telugu (21) |
| अच्छा | 10–15% | Afrikaans, Arabic, Assamese, Asturian, Burmese, Hausa, Hebrew, Javanese, Korean, Kyrgyz, Luxembourgish, Māori, Occitan, Punjabi, Tajik, Thai, Uzbek, Welsh (18) |
| विकासशील | 15%+ | Amharic, Ganda, Igbo, Irish, Khmer, Kurdish, Lao, Mongolian, Northern Sotho, Pashto, Shona, Sindhi, Somali, Urdu, Wolof, Xhosa, Yoruba, Zulu (18) |
WER रेंज ElevenLabs के प्रकाशित Scribe v2 बेंचमार्क से हैं। व्यवहार में, माइक्रोफ़ोन की स्थिति और परिवेश का शोर शीर्ष दो स्तरों के बीच के अंतर से अधिक मायने रखते हैं; एक शांत कमरे में अच्छे माइक के साथ, बातचीत में “उत्कृष्ट” और “उच्च” भाषा के बीच अंतर करना मुश्किल होता है।
तालिका पढ़ने का एक उपयोगी तरीका: यदि आपकी जोड़ी शीर्ष दो स्तरों में है, तो रिकग्निशन परत प्रभावी रूप से अदृश्य हो जाती है — आप जो शब्द बोलते हैं वे बोलते ही स्क्रीन पर दिखाई देते हैं। यदि जोड़ी का एक पक्ष Good स्तर में है, तो आपको असामान्य शब्दों पर, विशेष रूप से उचित संज्ञाओं पर, कभी-कभी प्रतिस्थापन दिखेंगे। यदि कोई पक्ष Developing स्तर में है, तो भाषा काम करती है लेकिन ट्रांसक्रिप्ट अधिक कच्चे होते हैं; उन मामलों में Audio mode अधिक अनुकूल हो सकता है क्योंकि आप Translate टैप करने से पहले ट्रांसक्रिप्ट की समीक्षा कर सकते हैं।
74 भाषाओं में लाइव AI वॉयस प्लेबैक
Audio mode बड़ा उत्पाद बदलाव है। marquee हमेशा से एक मेज़ पर एक स्क्रीन साझा करने वाले दो लोगों के लिए सही उपकरण था। Audio mode बाकी समय के लिए है — एक फ़ोन, एक हाथ, दो लोग जिन्हें पढ़ने के बजाय एक-दूसरे को सुनने की ज़रूरत है।
जब आप Translate Now टैप करते हैं, तो ElevenLabs v3 (या भाषा के आधार पर इसका तेज़ संस्करण Flash v2.5) बोला गया अनुवाद तैयार करता है और फ़ोन उसे वापस चलाता है। यह किसी रोबोट की तरह नहीं, बल्कि किसी इंसान की तरह सुनाई देता है। आप बिना अधिक क्रेडिट खर्च किए जितनी बार चाहें Replay दबा सकते हैं। यदि आपके श्रोता ने नहीं सुना, तो बस Replay टैप करें।
हम जिन 103 भाषाओं को पहचानते हैं, उनमें से 74 में आज AI वॉयस कवरेज है। उस सेट के बाहर की भाषाएँ अभी भी Audio mode में काम करती हैं — आपको स्क्रीन पर अनुवादित टेक्स्ट दिखेगा — बस बोले गए प्लेबैक के बिना। ElevenLabs के कवरेज अपडेट शिप करने के साथ वॉयस सूची बढ़ती है; ऐप स्टार्टअप पर पुनः जाँच करता है और नई भाषाएँ स्वचालित रूप से उठाता है।
यदि आपने अभी तक Audio mode नहीं आज़माया है, तो विस्तृत जानकारी हमारी Audio mode पोस्ट में है और कैनोनिकल संदर्भ /languages पर है।
अनुवाद किसी भी दिशा में सभी 103 भाषाओं को कवर करता है
Gemini 2.5 अनुवाद परत को संभालता है, और यह किसी से भी किसी में भी है। आप जापानी बोल सकते हैं और इसे सीधे पुर्तगाली में पहुँचा सकते हैं, बीच में कोई अंग्रेज़ी नहीं। हिंदी से अरबी। कोरियाई से स्वाहिली। वियतनामी से पोलिश। 103 भाषाओं के साथ, यह 10,506 अद्वितीय जोड़े हैं, हर एक दो-तरफ़ा बातचीत mode में एक साथ समर्थित है।
Gemini 2.5 के बारे में जो बात विशेष रूप से अलग है वह है संवादात्मक संदर्भ। पुराने अनुवाद इंजन प्रत्येक वाक्य को एक स्वतंत्र स्ट्रिंग के रूप में मानते हैं। इसीलिए कभी-कभी सर्वनाम गलत संज्ञा में अनुवादित हो जाते हैं, या औपचारिकता के स्तर बातचीत के बीच में बदल जाते हैं, या मुहावरे शाब्दिक बकवास के रूप में निकलते हैं। Gemini 2.5 पिछले कुछ वार्तालापों को देखता है और उस संदर्भ को ध्यान में रखते हुए अगले का अनुवाद करता है। परिणाम वाक्यांश-दर-वाक्यांश खोज की तरह कम और एक ऐसे अनुवादक की तरह अधिक लगता है जो पूरी बातचीत में वास्तव में आपके साथ कमरे में रहा हो।
इसका अर्थ है कि कौन सी जोड़ियाँ सबसे अच्छी लगती हैं
सभी 10,506 जोड़े काम करते हैं। कुछ दूसरों की तुलना में अधिक प्रवाहमान लगते हैं। व्यवहार में किसी दी गई जोड़ी के अनुभव को तीन कारक प्रभावित करते हैं:
- दोनों पक्ष शीर्ष स्तर में। जब दोनों भाषाएँ Excellent या High हों, तो बातचीत सहज होती है। उदाहरण: English ↔ Spanish, English ↔ French, English ↔ Japanese, Spanish ↔ Portuguese, German ↔ Dutch।
- एक पक्ष Good या Developing में। फिर भी काम करता है, लेकिन निचले स्तर वाले पक्ष पर ट्रांसक्रिप्ट अधिक कच्चे होते हैं — असामान्य शब्दों और उचित संज्ञाओं पर कभी-कभी प्रतिस्थापन की उम्मीद करें। Audio mode इसे कम कर सकता है क्योंकि अनुवाद करने से पहले आप ट्रांसक्रिप्ट देखते हैं।
- अलग-अलग लिपियाँ। Latin ↔ non-Latin जोड़े (English ↔ Japanese, Arabic ↔ French, Hindi ↔ Korean) सभी काम करते हैं; marquee को वाक्य के बीच में एक छोटा फ़ॉन्ट स्वैप करना पड़ता है, जो 2026 में अनिवार्य रूप से अगोचर है लेकिन एकमात्र जगह है जहाँ रेंडरिंग थोड़ी मेहनत जैसी लग सकती है।
हमने इंजन क्यों बदले
संक्षिप्त संस्करण: Deepgram + Google Cloud Translation से हमें जो भाषा कवरेज और गुणवत्ता मिलती थी वह लॉन्च के समय उत्कृष्ट थी लेकिन एक बार जब हम दुनिया के अधिक हिस्से को कवर करना चाहते थे तो स्केल करना बंद हो गया। Scribe v2 कम विलंबता पर व्यापक स्ट्रीमिंग कवरेज के साथ आता है, Gemini 2.5 वार्तालापों में संदर्भ बनाए रखता है, और ElevenLabs v3 ने Audio mode के लिए आवश्यक वॉयस प्लेबैक को अनलॉक किया। लंबा संस्करण एक अलग पोस्ट में है जिसमें विलंबता, बेंचमार्क और स्वैप के पीछे के आर्किटेक्चरल निर्णय हैं।
इसे आज़माएँ
अपनी दो भाषाएँ चुनें और एक रियल-टाइम द्विभाषी बातचीत शुरू करें। डाउनलोड करने के लिए कोई ऐप नहीं। अनुवाद क्रेडिट marquee में 15 मिनट के लिए $1 से शुरू होते हैं; Audio mode में, Translate टैप करने तक ट्रांसक्रिप्शन मुफ़्त है।
marquee में शुरू करें · Audio mode आज़माएँ · पूर्ण भाषा संदर्भ · मूल्य निर्धारण देखें