हमने Deepgram + Google Translate को ElevenLabs Scribe v2 + Gemini 2.5 से क्यों बदला

मई 2026

यह पोस्ट 103-भाषा लॉन्च घोषणा की पर्दे के पीछे की साथी है। अगर वह पोस्ट “यहाँ बताया गया है कि क्या बदला,” तो यह पोस्ट “यहाँ बताया गया है कि हमने जो विक्रेता चुने, वे क्यों चुने।” मुख्य परिणाम: भाषा कवरेज लगभग दोगुनी, कम-विलंबता वाली स्पीच रिकग्निशन, संवादात्मक-संदर्भ अनुवाद, और 74 भाषाओं में लाइव AI वॉयस प्लेबैक।

हमने विक्रेता क्यों बदले

पुराना स्टैक स्पीच रिकग्निशन के लिए Deepgram और अनुवाद परत के लिए Google Cloud Translation था। लॉन्च के समय यह मज़बूत था। सीमा भाषा कवरेज की थी। Deepgram का स्ट्रीमिंग मॉडल उत्पादन गुणवत्ता पर लगभग 40–50 भाषाओं को संभालता था और सूची उतनी तेज़ी से नहीं बढ़ रही थी जितनी तेज़ी से उपयोगकर्ता बंगाली, तमिल, तेलुगु, मराठी, मंदारिन से अलग एंट्री के रूप में कैंटोनीज़, बर्मी, खमेर, वेल्श, हिब्रू और अन्य भाषाओं की माँग कर रहे थे।

दूसरा दबाव आउटपुट की तरफ था। हम Audio mode शिप करना चाहते थे — टर्न-आधारित अनुवाद जिसका परिणाम श्रोता की भाषा में ज़ोर से बोला जाए। इसका मतलब था एक TTS परत जोड़ना जो पुराने स्टैक में नहीं थी। जब आप पाइपलाइन के एक हिस्से के लिए किसी विक्रेता को लाते हैं, तो यह पूछना उचित है कि क्या आप एकीकृत भी कर सकते हैं।

स्पीच रिकग्निशन के लिए Scribe v2 क्यों

ElevenLabs ने जनवरी 2026 में Scribe v2 Realtime जारी किया। ElevenLabs के मुख्य दावे: ~150 ms स्ट्रीमिंग विलंबता, FLEURS बेंचमार्क पर 5.8% बहुभाषी वर्ड-एरर-रेट, और उद्योग-मानक ASR मॉडलों के विरुद्ध मूल्यांकन की गई 30 बेंचमार्क भाषाओं में 93.5% सटीकता। समर्थित भाषाओं की सूची लगभग 100 है, जिसमें Excellent (≤5% WER), High (5–10%), Good (10–15%), और Developing (15%+) को कवर करने वाला एक प्रकाशित चार-स्तरीय सटीकता ग्रिड है।

हमने उन भाषाओं पर Deepgram के विरुद्ध अपना खुद का बेक-ऑफ किया जो हम चला रहे थे। विलंबता का दावा सही निकला — ट्रांसक्राइब किए गए शब्द वक्ता की आवाज़ के साथ लगभग बीट-दर-बीट दिखाई देते हैं, इतनी तेज़ी से कि कथित बाधा अनुवाद चरण पर स्थानांतरित हो जाती है। हेड-टू-हेड ट्रांसक्रिप्शन गुणवत्ता उन भाषाओं पर समान या बेहतर थी जिन्हें हम पहले से समर्थन दे रहे थे, जिसमें उन भाषाओं पर सबसे बड़ी जीत थी जो कमज़ोर रही थीं: हिंदी “काम करती है लेकिन खुरदरी” से “साफ़ काम करती है” हो गई, बंगाली और तमिल “उत्पादन में नहीं” से “High tier पर उत्पादन में” हो गईं।

एक और बात जो हमें पसंद आई: Scribe नेटिव प्रति-सेगमेंट भाषा पहचान के साथ आता है, जिसने हमारे दो-वक्ता हैंडलिंग को काफी सरल बना दिया और इसका मतलब था कि हम प्रत्येक जोड़ के लिए एकीकरण कार्य को बढ़ाए बिना भाषा सूची बढ़ा सकते थे।

अनुवाद के लिए Gemini 2.5 क्यों

स्टेटलेस प्रति-वाक्य मशीन अनुवाद में विफलता के ज्ञात तरीके हैं। सर्वनामों का अनुवाद उनके पूर्ववर्तियों के बिना होता है, लिंग-आधारित भाषाएँ बातचीत के बीच में भटक जाती हैं, औपचारिकता के स्तर पलट जाते हैं, और मुहावरे शाब्दिक बकवास के रूप में निकलते हैं। इन सभी का एक मूल कारण है: अनुवादक केवल वर्तमान वाक्य देखता है।

Gemini 2.5 टर्न के पार संवादात्मक संदर्भ रखता है। मॉडल अगले उच्चारण का अनुवाद करते समय बातचीत का हालिया इतिहास देखता है, जो हमें कुछ विशेष जोड़े बिना उन अधिकांश भटकाव समस्याओं को ठीक करता है। व्यवहार में अनुवाद शब्दकोश खोज की तरह कम और किसी ऐसे व्यक्ति के काम की तरह अधिक लगते हैं जो पूरी बातचीत के दौरान आपके साथ कमरे में रहा हो। ट्रेड-ऑफ पुराने स्टेटलेस MT की तुलना में प्रति-कॉल थोड़ी अधिक विलंबता है — दसियों मिलीसेकंड के बजाय कुछ सौ मिलीसेकंड — लेकिन एंड-टू-एंड “वक्ता बोलना बंद करता है” से “श्रोता अनुवाद देखता है” अभी भी उन भाषाओं पर एक सेकंड से काफी कम है जिन्हें हमने मापा है।

Gemini को इसके लिए पसंद करने का दूसरा कारण: अनुवाद की तरफ भाषा कवरेज अब बाधा नहीं है। Gemini 2.5 हर उस भाषा को कवर करता है जिसे Scribe पहचानता है, किसी भी दिशा में, जो any-to-any 10,506-जोड़ी के दावे को आकांक्षात्मक के बजाय सच बनाता है।

Audio mode TTS के लिए ElevenLabs v3 क्यों

Audio mode ने एक नया पाइपलाइन चरण पेश किया: अनुवादित टेक्स्ट को श्रोता की भाषा में बोले गए ऑडियो में बदलना। हमने ElevenLabs v3 को भाषा कवरेज (~74 भाषाएँ आज) और आवाज़ गुणवत्ता के कारण चुना। आवाज़ें लोगों जैसी लगती हैं, डिक्टेशन सॉफ़्टवेयर जैसी नहीं, और बहुभाषी समर्थन का मतलब है कि एक ही उत्पाद सतह हमारी समर्थित भाषा सूची के पूरे शीर्ष आधे हिस्से में काम करती है। उन भाषाओं के लिए जहाँ ElevenLabs Flash v2.5 उपलब्ध है, हम उसे प्राथमिकता देते हैं: यह तेज़ और सस्ता है, जिसकी गुणवत्ता इतनी करीब है कि साइड-बाय-साइड तुलना मुश्किल है।

लाइव वॉयस प्लेबैक वाली भाषाओं की सूची ElevenLabs के कवरेज अपडेट शिप करने के साथ बढ़ती है; ऐप नई भाषाएँ उपलब्ध होने पर स्वचालित रूप से उन्हें उठा लेता है।

उपयोगकर्ता क्या नोटिस करते हैं

पिकर में अधिक भाषाएँ। 103 एंट्री, पिछली सूची से लगभग दोगुनी, जिसमें सबसे अधिक अनुरोधित जोड़ों में से अधिकांश शामिल हैं।
अनुवाद अधिक स्वाभाविक लगते हैं। सर्वनाम सही ढंग से हल होते हैं, औपचारिकता टर्न के पार बनी रहती है, मुहावरे समझदारी से खुलते हैं। यह संवादात्मक-संदर्भ प्रभाव है।
Audio mode अनुवाद ज़ोर से बोलता है। आज 74 भाषाएँ AI वॉयस के साथ; बाकी अभी भी Audio mode में केवल-टेक्स्ट आउटपुट के साथ काम करती हैं।
भाषा पिकर में टियर डॉट्स। प्रत्येक भाषा के बगल में एक छोटा रंगीन डॉट अपेक्षित स्पीच-रिकग्निशन सटीकता का संकेत देता है — हरा Excellent, पीला High, नारंगी Good, लाल Developing — ElevenLabs के प्रकाशित WER बेंचमार्क के आधार पर।
दो-तरफा बातचीत अभी भी दो-तरफा लगती है। दोनों पक्षों का एक साथ अनुवाद होता है, कोई टर्न-टेकिंग नहीं, कोई अजीब रुकावट नहीं।

संख्याएँ

भाषाएँ (STT): 103, 47 से बढ़कर
भाषाएँ (लाइव TTS): 74
भाषा जोड़े (अनुवाद): 10,506 (2,162 से बढ़कर)
Scribe v2 स्ट्रीमिंग विलंबता: ~150 ms (ElevenLabs प्रकाशित)
FLEURS पर बहुभाषी WER: 5.8% (ElevenLabs प्रकाशित)
बिलिंग: प्रति-अक्षर, ट्रांसक्रिप्शन, अनुवाद और TTS में समान रूप से लागू — प्रति संसाधित अक्षर एक क्रेडिट; Audio mode में, ट्रांसक्रिप्शन तब तक मुफ़्त है जब तक आप Translate नहीं टैप करते

यदि आप उपयोगकर्ता-सामना संस्करण चाहते हैं

लॉन्च घोषणा पोस्ट उपयोगकर्ता की तरफ से उसी बदलाव को कवर करती है — भाषा पिकर में क्या नया है, प्रत्येक सटीकता टियर से क्या उम्मीद करें, और Audio mode व्यवहार में कैसा लगता है। पूर्ण कैनोनिकल भाषा संदर्भ /languages पर है। और यदि आप इसे आज़माना चाहते हैं, marquee यहाँ है और Audio mode यहाँ है।

Live Translate Live आज़माएं

आज ही रियल-टाइम द्विभाषी बातचीत का अनुवाद शुरू करें।

निःशुल्क शुरू करें