Audio Mode — बारी-बारी अनुवाद और आवाज़ प्लेबैक के साथ
मार्च 2026
Live Translate Live के पास लाइव बातचीत का अनुवाद करने के दो तरीके हैं। प्राथमिक मोड है स्क्रॉलिंग marquee — निरंतर स्पीच रिकग्निशन जो अनुवादित टेक्स्ट को एक साझा स्क्रीन पर स्ट्रीम करता है। दूसरा मोड है audio mode: बारी-बारी, push-to-talk, जिसमें अनुवादित परिणाम एक AI आवाज़ द्वारा ज़ोर से बोला जाता है। आप बोलते हैं, अपना ट्रांसक्रिप्ट देखते हैं, जो कुछ रिकग्नाइज़र ने गलत सुना उसे ठीक करते हैं, Translate टैप करते हैं, और फिर दूसरा व्यक्ति अपनी भाषा में अनुवाद सुनता है। फिर आप फ़ोन काउंटर के पार, मेज़ के पार, या वापस खुद को देते हैं, और उनकी बारी होती है।
marquee साझा स्क्रीन के लिए बना है। audio mode आपके हाथ में मौजूद फ़ोन के लिए बना है।
Audio mode बनाम marquee mode — कब कौन सा चुनें
दोनों मोड हर प्लान के साथ आते हैं और आप बातचीत के बीच में भी इनके बीच स्विच कर सकते हैं। ये अलग-अलग समस्याओं को हल करते हैं। marquee तब सबसे अच्छा काम करता है जब दो लोग एक साथ आराम से एक स्क्रीन देख सकते हों, और किसी को भी डिवाइस पकड़ने की ज़रूरत न हो। audio mode तब सबसे अच्छा काम करता है जब फ़ोन रखने के लिए कोई अच्छी सतह न हो, जब माहौल इतना शोरगुल वाला हो कि एक नज़र में स्क्रॉलिंग डिस्प्ले पढ़ना मुश्किल हो, या जब किसी भी कारण से एक या दोनों वक्ता अनुवाद नहीं पढ़ सकते।
| स्थिति | Marquee | Audio | क्यों |
|---|---|---|---|
| रेस्तरां की मेज़ पर साझा फ़ोन आपके बीच में रखा हो | हाँ | ठीक है | दोनों वक्ता स्क्रीन का अपना हिस्सा पढ़ सकते हैं; खाने के दौरान निरंतर प्रवाह स्वाभाविक लगता है। |
| व्यस्त बाज़ार की दुकान, कोई सपाट सतह नहीं | नहीं | हाँ | आप खड़े हैं और फ़ोन पकड़े हुए हैं। audio mode आपको बात करने, दिखाने और सौंपने देता है। |
| लाइव स्ट्रीम या ब्रॉडकास्ट ओवरले | हाँ | नहीं | OBS स्क्रॉलिंग marquee को विंडो सोर्स के रूप में कैप्चर करता है। audio mode में दर्शकों के लिए कोई स्क्रीन नहीं है। |
| एक तरफ श्रवण-बाधित उपयोगकर्ता | हाँ | नहीं | स्क्रीन पर टेक्स्ट ही मुख्य उद्देश्य है। बोला गया प्लेबैक मदद नहीं करता। |
| एक तरफ दृष्टिहीन या कम दृष्टि वाला उपयोगकर्ता | नहीं | हाँ | आवाज़ प्लेबैक स्क्रॉलिंग डिस्प्ले पढ़ने की ज़रूरत को हटा देता है। |
| शोरगुल वाला निर्माण स्थल या फ़ैक्टरी फ़्लोर | ठीक है | हाँ, ईयरबड के साथ | ईयरबड के साथ audio mode अनुवाद सीधे पहुँचाता है; हार्ड हैट पहने हुए स्क्रीन पढ़ना मुश्किल है। |
| शांत कॉन्फ्रेंस रूम या होटल लॉबी | हाँ | ठीक है | निरंतर marquee तब बेहतरीन होता है जब किसी को फ़ोन सौंपने के लिए बाधित नहीं होना पड़ता। |
| राइडशेयर या टैक्सी | नहीं | हाँ | ड्राइवर की नज़र सड़क पर रहती है। फ़ोन स्पीकर पर आवाज़ प्लेबैक इसे संभाल लेता है। |
एक अच्छा अंगूठे का नियम: अगर आप स्वाभाविक रूप से फ़ोन आगे-पीछे पास करते, तो audio mode इस्तेमाल करें। अगर आप स्वाभाविक रूप से फ़ोन रख देते, तो marquee इस्तेमाल करें।
बारी-बारी वर्कफ़्लो, कदम दर कदम
audio mode जानबूझकर रैखिक है। हर बारी एक राउंड ट्रिप है — आप बोलते हैं, अनुवाद करते हैं, सौंपते हैं। हर बारी में ठीक यही होता है:
- push-to-talk टैप करें और अपना वाक्य बोलें। अपना फ़ोन आरामदायक बात करने की स्थिति में पकड़ें। आप push-to-talk (बटन दबाए रखें, पूरा होने पर छोड़ें) या always-listening टॉगल इस्तेमाल कर सकते हैं। शोरगुल वाली जगहों पर push-to-talk बेहतर है क्योंकि माइक केवल तभी सक्रिय होता है जब आप बोल रहे हों।
- स्क्रीन पर लाइव ट्रांसक्रिप्शन देखें। आपके शब्द रियल टाइम में ट्रांसक्राइब होते हैं, डायनामिक फ़ॉन्ट साइज़िंग के साथ ताकि वे डिस्प्ले में फ़िट हों। ट्रांसक्रिप्शन मुफ़्त है — इस चरण में कोई क्रेडिट खर्च नहीं होता, चाहे आप कितनी देर बोलें या कितनी बार रीस्टार्ट करें।
- ज़रूरत पड़ने पर ट्रांसक्रिप्ट की समीक्षा करें और संपादित करें। स्पीच रिकग्नाइज़र उचित संज्ञाओं, संख्याओं और असामान्य तकनीकी शब्दों में गलतियाँ करते हैं। अनुवाद करने से पहले किसी शब्द को ठीक करने के लिए ट्रांसक्रिप्ट टैप करें। यह वह चरण है जो marquee नहीं दे सकता — वह तुरंत अनुवाद करता है, इसलिए गलत सुना गया शब्द पहले से स्क्रीन के दूसरी तरफ होता है। audio mode में अनुवाद ठीक उसी पर आधारित होता है जो आप कहना चाहते थे।
- Translate टैप करें। यही एकमात्र चरण है जिसमें क्रेडिट खर्च होते हैं। आपसे अनुवादित टेक्स्ट के प्रति कैरेक्टर और सिंथेसाइज़्ड स्पीच के प्रति कैरेक्टर बिल किया जाता है — इससे पहले की ट्रांसक्रिप्शन के लिए कुछ नहीं।
- AI आवाज़ को लक्ष्य भाषा में प्लेबैक सुनें। अनुवाद फ़ोन स्पीकर (या ईयरबड, अगर कनेक्टेड हो) के ज़रिए ज़ोर से बोला जाता है। अनुवादित टेक्स्ट स्क्रीन पर भी दिखता है, उन लोगों के लिए फ़ॉलबैक के रूप में जो पढ़ना पसंद करते हैं।
- डिवाइस सौंपें, या रीप्ले करें। दूसरे वक्ता को उनकी बारी के लिए फ़ोन पास करें, या अगर वे अनुवाद फिर से सुनना चाहते हैं तो रीप्ले टैप करें। अगला एक्सचेंज शुरू करने के लिए तैयार होने पर स्क्रीन साफ़ करें।
क्रेडिट दक्षता — स्वतंत्र रूप से ट्रांसक्राइब करें, चुनिंदा रूप से अनुवाद करें
यह audio mode का वह हिस्सा है जो लोगों को चौंकाता है। marquee लगातार बिल करता है, क्योंकि यह लगातार सुन रहा है और लगातार अनुवाद कर रहा है — यही इसे लाइव महसूस कराता है। audio mode नहीं करता। audio mode में:
- स्पीच रिकग्निशन केवल तभी चलता है जब आप सक्रिय रूप से push-to-talk बटन दबाए हुए हों (या जब always-listening माइक चालू हो)।
- ट्रांसक्रिप्शन मुफ़्त है। बोलें, स्क्रीन साफ़ करें, रीस्टार्ट करें, फिर बोलें — कोई क्रेडिट नहीं जाता।
- क्रेडिट केवल तभी खर्च होते हैं जब आप Translate टैप करते हैं, और केवल उस विशेष वाक्य के लिए।
बाज़ार की दुकान पर दस एक्सचेंज की बातचीत — "यह कितने का है," "क्या यह नीले रंग में है," "मैं दो लूँगा" — आमतौर पर अनुवादित टेक्स्ट के एक हज़ार कैरेक्टर और सिंथेसाइज़्ड स्पीच के एक हज़ार कैरेक्टर से कम होती है। यह पैसों में बहुत कम है। marquee mode में वही दस एक्सचेंज में रिकग्नाइज़र को वाक्यों के बीच लगातार चलाना शामिल होगा (जिसमें अजीब रुकावटें, विक्रेता का किसी अन्य ग्राहक से बात करना, परिवेश का शोर शामिल है), जो समय-आधारित दर पर जुड़ता जाता है। audio mode छोटी, लेन-देन वाली बातचीत के लिए नाटकीय रूप से सस्ता है — वह किस्म की बातचीत जो तब होती है जब आप खड़े हों और फ़ोन इधर-उधर सौंप रहे हों।
ट्रेड-ऑफ़ स्पष्ट है और इसके बारे में ईमानदार होना उचित है: audio mode निरंतर नहीं है। आप तय कर रहे हैं कि कब अनुवाद करना है, और इससे बारियों के बीच छोटे-छोटे विराम आते हैं। बैठकर खाने के लिए या किसी मीटिंग के लिए जहाँ आप चाहते हैं कि अनुवाद बिना रुकावट के लगे, marquee सही टूल है। बाकी सब के लिए — खासकर नीचे दिए गए परिदृश्यों के लिए — audio mode अपनी कीमत वसूल करता है।
वे परिदृश्य जहाँ audio mode अपनी उपयोगिता साबित करता है
सड़क-विक्रेता लेन-देन
आप ताइपे के नाइट मार्केट में या मराकेश के सूक में हैं। आप एक हाथ में फ़ोन और दूसरे में कागज़ का थैला पकड़े हुए हैं। कोई मेज़ नहीं है। विक्रेता काउंटर के पीछे है, तीन फ़ीट दूर, अपने ग्राहकों की भीड़ के साथ। आप push-to-talk टैप करते हैं, अपना सवाल पूछते हैं, Translate टैप करते हैं, और विक्रेता बिना स्क्रीन पर झुके अपनी भाषा में जवाब सुनता है। अगर वे जवाब देना चाहते हैं, तो आप उनकी बारी के लिए काउंटर के पार फ़ोन सौंपते हैं। पूरे एक्सचेंज में शायद पंद्रह सेकंड लगते हैं और एक क्रेडिट का एक अंश खर्च होता है।
शोरगुल वाले बाज़ार और पर्यटन क्षेत्र
ईयरबड पर ऑडियो प्लेबैक परिवेश के शोर को उस तरह काटता है जैसे स्क्रीन पढ़ना नहीं कर सकता। अगर दोनों वक्ताओं के पास ईयरबड हैं — या आप एक जोड़ी साझा करते हैं — तो अनुवाद सीधे कान में बजता है, भले ही आपके आसपास की सड़क 85 dB पर हो। push-to-talk यहाँ सही इनपुट विकल्प है क्योंकि यह बारियों के बीच माइक बंद रखता है, ताकि रिकग्नाइज़र भीड़ को ट्रांसक्राइब करने की कोशिश न करे।
कम दृष्टि वाले उपयोगकर्ताओं के लिए सुलभता
AI आवाज़ प्लेबैक कम दृष्टि वाले उपयोगकर्ताओं के लिए कोई सुविधा सुविधा नहीं है — यह मुख्य सुविधा है। आप बोलते हैं, अनुवाद लक्ष्य भाषा में बोला जाता है, और किसी को भी स्क्रॉलिंग डिस्प्ले पढ़ने की ज़रूरत नहीं होती। यह audio mode की marquee पर सबसे स्पष्ट जीत में से एक है, और एक कारण है कि हम किसी एक को चुनने के बजाय उत्पाद में दोनों मोड रखते हैं।
राइडशेयर और टैक्सी बातचीत
ड्राइवर गाड़ी चला रहा है। वे आपकी स्क्रीन नहीं देखेंगे, और आप चाहते भी नहीं कि वे देखें। फ़ोन स्पीकर पर audio mode आपको दिशा-निर्देश देने, रास्ते के बारे में पूछने, या किराया तय करने देता है, बिना किसी की नज़र सड़क से हटाए। ड्राइवर के जवाब के लिए, आप फ़ोन अगली सीट के यात्री को दे सकते हैं, या जब वे संक्षेप में बोलें तो always-listening mode इस्तेमाल कर सकते हैं।
स्वास्थ्य सेवा इनटेक और क्लिनिकल प्रश्न
एक नर्स क्लिपबोर्ड से सवाल पढ़ती है। आप अपनी भाषा में जवाब देते हैं। आप Translate टैप करते हैं, और चिकित्सक जवाब ज़ोर से सुनता है — हैंड्स-फ़्री — जबकि वे इनटेक फ़ॉर्म में लिखते या टाइप करते हैं। चूँकि ट्रांसक्रिप्शन मुफ़्त है, आप जवाब देने में जितना समय चाहें ले सकते हैं, जाते-जाते शब्द बदल सकते हैं, और केवल तभी क्रेडिट खर्च करते हैं जब जवाब अंतिम हो। चिकित्सा उचित संज्ञाओं (दवाओं के नाम, स्थितियाँ) के लिए, समीक्षा-और-संपादन चरण विशेष रूप से उपयोगी है।
होटल फ्रंट डेस्क और सेवा काउंटर
आप काउंटर के अपनी तरफ फ़ोन पकड़ते हैं, बोलते हैं, और फिर क्लर्क के जवाब देने के लिए उसे सरकाते हैं। ऑडियो आप दोनों के लिए पर्याप्त ज़ोर से बजता है, और स्क्रीन पर ट्रांसक्रिप्ट बैकअप के रूप में काम करता है जब लॉबी में गूँज हो। छोटे एक्सचेंज के लिए — चेक-इन, चेक-आउट, "क्या पास में कोई फार्मेसी है" — audio mode लगभग कुछ भी खर्च नहीं करता और दो लोगों के एक फ़ोन पर झुकने की अजीबता को दूर करता है।
डिवाइस प्लेसमेंट और वॉल्यूम टिप्स
कुछ चीज़ें जो वास्तविक दुनिया में audio mode को बेहतर काम करने देती हैं:
- फ़ोन को साफ़ ऑडियो पकड़ने के लिए पर्याप्त पास रखें, लेकिन इतना पास नहीं कि माइक क्लिप हो जाए। आपके मुँह से छह से बारह इंच एक अच्छी रेंज है। कई माइक वाले फ़ोन हवा और पृष्ठभूमि के शोर को उचित रूप से संभालते हैं, लेकिन वे मेज़ के पार से रिकॉर्ड किए गए ऑडियो को नहीं बचा सकते।
- जब परिवेश का शोर तेज़ हो तो push-to-talk इस्तेमाल करें। always-listening जो कुछ भी सुनेगा उसे ट्रांसक्राइब करने की कोशिश करेगा, जिसमें आपके बगल वाला व्यक्ति भी शामिल है। push-to-talk बारियों के बीच माइक बंद कर देता है।
- अपने पहले अनुवाद से पहले मीडिया वॉल्यूम बढ़ाएँ। AI आवाज़ प्लेबैक फ़ोन के मीडिया चैनल के ज़रिए रूट होता है, रिंगर के ज़रिए नहीं। अगर आपका मीडिया वॉल्यूम शून्य पर है, तो पहला प्लेबैक चुप लगेगा और आपको लगेगा कि कुछ टूट गया।
- भीड़-भाड़ वाली जगहों पर स्पीकर की तुलना में ईयरबड बेहतर हैं, प्लेबैक स्पष्टता और गोपनीयता दोनों के लिए। अगर आप एक जोड़ी साझा कर रहे हैं, तो फ़ोन के साथ मुफ़्त ईयरबड भी सौंपें।
- लंबे एक्सचेंज के लिए, चार्जर लगाएँ। लंबी बातचीत में लगातार push-to-talk बैटरी को ध्यान देने योग्य रूप से खत्म करता है — marquee से कम, लेकिन फिर भी ध्यान देने योग्य।
AI आवाज़ प्लेबैक की ईमानदार सीमाएँ
AI आवाज़ अच्छी है। यह इंसानी नहीं है। कुछ बातें जानने योग्य हैं:
- प्रोसोडी कुछ भाषाओं में दूसरों की तुलना में बेहतर है। अंग्रेज़ी, स्पेनिश, फ्रेंच, जर्मन, जापानी और मंदारिन सबसे स्वाभाविक लगती हैं। कम जनसंख्या वाली भाषाएँ अधिक कटी-छँटी या रोबोटिक लग सकती हैं, खासकर लंबे वाक्यों पर।
- उचित संज्ञाएँ एक ज्ञात कमज़ोरी हैं। व्यक्तिगत नाम, सड़क के नाम, ब्रांड नाम और तकनीकी शब्द कभी-कभी ऐसे उच्चारित होते हैं जैसे वे लक्ष्य भाषा में सामान्य शब्द हों। अनुवाद से पहले ट्रांसक्रिप्ट की समीक्षा करना और हल्का पुनर्लेखन करना मदद करता है — उदाहरण के लिए, "Saint-Laurent Boulevard" को ध्वन्यात्मक रूप से लिखना।
- वाक्यों के बीच छोटे विराम, स्वाभाविक प्रवाह नहीं। प्रत्येक अनुवाद एक पूर्ण उच्चारण के रूप में उत्पन्न होता है। दो लगातार अनुवाद दो अलग वाक्यों की तरह लगते हैं, न कि एक निरंतर वक्ता की तरह। यह आमतौर पर बारी-बारी बातचीत में ठीक है और सही व्यवहार है क्योंकि आप प्रत्येक के बीच Translate टैप कर रहे हैं।
- 32 भाषाएँ आवाज़ प्लेबैक का समर्थन करती हैं। उस सेट के बाहर की भाषाएँ अभी भी टेक्स्ट में सही तरीके से अनुवाद होती हैं — वे बस ज़ोर से नहीं बजतीं। marquee उन भाषाओं को इस बाधा के बिना संभालता है।
FAQ
audio mode में एक अनुवाद में कितने क्रेडिट लगते हैं?
यह इस बात पर निर्भर करता है कि आप क्या अनुवाद करते हैं, लेकिन छोटे बातचीत वाले वाक्य (एक सवाल, एक कीमत, एक पंक्ति का जवाब) आमतौर पर प्रत्येक में एक क्रेडिट का एक अंश खर्च करते हैं — अनुवादित टेक्स्ट के प्रति कैरेक्टर और उत्पन्न स्पीच के प्रति कैरेक्टर बिल किया जाता है। दस-बारी की बाज़ार बातचीत आमतौर पर पैसों में बहुत कम निकलती है। सटीक दरों के लिए मूल्य निर्धारण पृष्ठ देखें।
क्या मैं इंटरनेट कनेक्शन के बिना audio mode इस्तेमाल कर सकता हूँ?
नहीं। स्पीच रिकग्निशन, अनुवाद और वॉयस सिंथेसिस सभी क्लाउड में चलते हैं। तेज़ कनेक्शन से ज़्यादा स्थिर कनेक्शन मायने रखता है — audio mode ऑडियो के छोटे-छोटे बर्स्ट भेजता है, न कि निरंतर स्ट्रीम, इसलिए यह अस्थिर सेलुलर डेटा पर भी अच्छा काम करता है जब तक कनेक्टेड हो।
अगर मैं गलत बोल दूँ — क्या मैं फिर से रिकॉर्ड कर सकता हूँ?
हाँ, और आपको करना चाहिए। ट्रांसक्रिप्शन मुफ़्त है, इसलिए रीस्टार्ट करने पर कोई जुर्माना नहीं है। ट्रांसक्रिप्ट साफ़ करें और push-to-talk फिर से दबाएँ, या बस बोलते रहें — ट्रांसक्रिप्ट लाइव अपडेट होता है। आप केवल तभी अनुवाद के लिए प्रतिबद्ध होते हैं जब आप Translate टैप करते हैं, और आप उससे पहले ट्रांसक्रिप्ट टेक्स्ट को सीधे संपादित कर सकते हैं।
क्या मैं बातचीत के बीच में marquee mode पर स्विच कर सकता हूँ?
हाँ। मोड चयन एक टॉगल है, सेशन बाउंड्री नहीं। अगर बातचीत खड़े होकर बाज़ार के एक्सचेंज से बैठकर कॉफ़ी पर शिफ्ट होती है, तो अपनी भाषा जोड़ी या इतिहास खोए बिना marquee पर स्विच करें। एक तीसरे संबंधित मोड के लिए same-language transcription mode देखें जो audio mode के मुफ़्त ट्रांसक्रिप्शन के साथ ओवरलैप करता है।
audio mode आज़माएँ
अगर आपके नज़दीकी भविष्य में कोई यात्री बातचीत है — बाज़ार, टैक्सी, क्लिनिक, होटल डेस्क — तो audio mode पहले आज़माने वाला है। इसे किसी ऐसे व्यक्ति से बात करने की सामान्य आदतों के साथ जोड़ें जो आपकी भाषा नहीं बोलता (छोटे वाक्य, एक बार में एक सवाल, उचित संज्ञाओं की पुष्टि करें) और यह वास्तविक दुनिया के अधिकांश एक्सचेंज को उस लागत पर संभाल लेगा जो आपके बिल पर नज़र नहीं आएगी।
$1 में आज़माएँ — कोई सब्सक्रिप्शन नहीं · मूल्य निर्धारण देखें · सभी सुविधाएँ देखें