কেন আমরা Deepgram + Google Translate-এর বদলে ElevenLabs Scribe v2 + Gemini 2.5 বেছে নিলাম
মে ২০২৬
এই পোস্টটি ১০৩-ভাষার লঞ্চ ঘোষণার পেছনের গল্প। সেটি যদি হয় “কী পরিবর্তন হয়েছে,” তাহলে এটি হলো “কেন আমরা এই ভেন্ডরগুলো বেছে নিলাম।” মূল ফলাফল: প্রায় দ্বিগুণ ভাষার কভারেজ, কম লেটেন্সির স্পিচ রিকগনিশন, কথোপকথনের প্রসঙ্গ-সচেতন অনুবাদ, এবং ৭৪টি ভাষায় লাইভ AI ভয়েস প্লেব্যাক।
কেন আমরা ভেন্ডর পরিবর্তন করলাম
পুরনো স্ট্যাকে স্পিচ রিকগনিশনের জন্য Deepgram এবং অনুবাদ স্তরের জন্য Google Cloud Translation ব্যবহার করা হতো। লঞ্চের সময় এটি ভালোই কাজ করেছিল। সীমাবদ্ধতা ছিল ভাষার কভারেজে। Deepgram-এর স্ট্রিমিং মডেল প্রোডাকশন মানে প্রায় ৪০–৫০টি ভাষা সামলাতে পারত, এবং তালিকাটি যথেষ্ট দ্রুত বাড়ছিল না — ব্যবহারকারীরা বাংলা, তামিল, তেলুগু, মারাঠি, ম্যান্ডারিন থেকে আলাদা এন্ট্রি হিসেবে ক্যান্টোনিজ, বার্মিজ, খমের, ওয়েলশ, হিব্রু এবং আরও অনেক ভাষার জন্য অনুরোধ করছিলেন।
দ্বিতীয় চাপটি ছিল আউটপুটের দিক থেকে। আমরা Audio mode চালু করতে চেয়েছিলাম — টার্ন-ভিত্তিক অনুবাদ যেখানে ফলাফল শ্রোতার ভাষায় জোরে পড়া হয়। এর জন্য একটি TTS স্তর যোগ করতে হতো যা পুরনো স্ট্যাকে ছিল না। একবার যখন পাইপলাইনের একটি অংশের জন্য নতুন ভেন্ডর আনছেনই, তখন একত্রিত করার কথা ভাবাটাই যুক্তিসঙ্গত।
স্পিচ রিকগনিশনের জন্য কেন Scribe v2
ElevenLabs ২০২৬ সালের জানুয়ারিতে Scribe v2 Realtime প্রকাশ করে। ElevenLabs-এর দাবি: ~১৫০ ms স্ট্রিমিং লেটেন্সি, FLEURS বেঞ্চমার্কে ৫.৮% মাল্টিলিঙ্গুয়াল ওয়ার্ড-এরর-রেট, এবং ইন্ডাস্ট্রি-স্ট্যান্ডার্ড ASR মডেলের বিপরীতে মূল্যায়ন করা ৩০টি বেঞ্চমার্ক ভাষায় ৯৩.৫% নির্ভুলতা। সমর্থিত ভাষার তালিকা প্রায় ১০০টি, এবং একটি প্রকাশিত চার-স্তরের নির্ভুলতা গ্রিড রয়েছে: Excellent (≤৫% WER), High (৫–১০%), Good (১০–১৫%), এবং Developing (১৫%+)।
আমরা আমাদের চালু থাকা ভাষাগুলোতে Deepgram-এর বিপরীতে নিজেদের তুলনামূলক পরীক্ষা করেছি। লেটেন্সির দাবি সত্য প্রমাণিত হয়েছে — ট্রান্সক্রাইব করা শব্দগুলো বক্তার কণ্ঠের প্রায় সাথে সাথেই দেখা যায়, এতটাই দ্রুত যে অনুভূত বাধাটি অনুবাদ ধাপে সরে যায়। মুখোমুখি ট্রান্সক্রিপশন মান আমাদের আগে থেকে সমর্থিত ভাষাগুলোতে সমতুল্য বা ভালো ছিল, এবং দুর্বল ভাষাগুলোতে সবচেয়ে বড় উন্নতি দেখা গেছে: হিন্দি “কাজ করে কিন্তু কাঁচা” থেকে “পরিষ্কারভাবে কাজ করে”-তে গেছে, বাংলা ও তামিল “প্রোডাকশনে নেই” থেকে “High tier-এ প্রোডাকশনে আছে”-তে এসেছে।
আরেকটি বিষয় যা আমাদের পছন্দ হয়েছে: Scribe-এ নেটিভ পার-সেগমেন্ট ভাষা শনাক্তকরণ রয়েছে, যা আমাদের দুই-বক্তার হ্যান্ডলিং উল্লেখযোগ্যভাবে সহজ করেছে এবং প্রতিটি সংযোজনের জন্য ইন্টিগ্রেশন কাজ না বাড়িয়েই ভাষার তালিকা বাড়ানো সম্ভব করেছে।
অনুবাদের জন্য কেন Gemini 2.5
স্টেটলেস পার-সেন্টেন্স মেশিন ট্রান্সলেশনের কিছু পরিচিত ব্যর্থতার ধরন আছে। সর্বনাম তাদের পূর্ববর্তী প্রসঙ্গ ছাড়াই অনুবাদ হয়, লিঙ্গ-ভিত্তিক ভাষায় কথোপকথনের মাঝে বিচ্যুতি ঘটে, আনুষ্ঠানিকতার মাত্রা পাল্টে যায়, এবং বাগধারা আক্ষরিক অর্থহীনতায় পরিণত হয়। এই সবের মূল কারণ একটাই: অনুবাদক শুধু বর্তমান বাক্যটি দেখতে পায়।
Gemini 2.5 টার্নজুড়ে কথোপকথনের প্রসঙ্গ বহন করে। পরবর্তী উক্তি অনুবাদ করার সময় মডেলটি কথোপকথনের সাম্প্রতিক ইতিহাস দেখতে পায়, যা আমাদের কিছু বিশেষ যোগ না করেই বেশিরভাগ বিচ্যুতির সমস্যা সমাধান করে। বাস্তবে অনুবাদগুলো অভিধান-অনুসন্ধানের মতো কম এবং এমন কারো কাজের মতো বেশি মনে হয় যিনি পুরো কথোপকথনজুড়ে আপনার সাথে ঘরে ছিলেন। বিনিময়টি হলো পুরনো স্টেটলেস MT-এর চেয়ে প্রতি-কলে সামান্য বেশি লেটেন্সি — দশের পরিবর্তে কয়েকশো মিলিসেকেন্ড — কিন্তু “বক্তা কথা বলা বন্ধ করেন” থেকে “শ্রোতা অনুবাদ দেখেন” পর্যন্ত এন্ড-টু-এন্ড সময় আমাদের পরিমাপ করা ভাষাগুলোতে এখনও এক সেকেন্ডের নিচে।
Gemini পছন্দ করার আরেকটি কারণ: অনুবাদের দিক থেকে ভাষার কভারেজ আর সীমাবদ্ধতা নয়। Gemini 2.5 Scribe যে সব ভাষা চেনে সেগুলো যেকোনো দিকে কভার করে, যা any-to-any ১০,৫০৬-জোড়ার দাবিটিকে আকাঙ্ক্ষামূলক নয়, বরং বাস্তব করে তোলে।
Audio mode TTS-এর জন্য কেন ElevenLabs v3
Audio mode একটি নতুন পাইপলাইন ধাপ যোগ করেছে: অনুবাদিত টেক্সটকে শ্রোতার ভাষায় কথ্য অডিওতে রূপান্তর করা। আমরা ElevenLabs v3 বেছে নিয়েছি ভাষার কভারেজ (~আজ ৭৪টি ভাষা) এবং ভয়েসের মানের কারণে। কণ্ঠগুলো ডিকটেশন সফটওয়্যারের মতো নয়, মানুষের মতো শোনায়, এবং মাল্টিলিঙ্গুয়াল সাপোর্টের মানে একই প্রোডাক্ট সারফেস আমাদের সমর্থিত ভাষার তালিকার শীর্ষ অর্ধেকজুড়ে কাজ করে। যেসব ভাষায় ElevenLabs Flash v2.5 পাওয়া যায়, আমরা সেটি পছন্দ করি: এটি দ্রুত এবং সাশ্রয়ী, এবং মান এতটাই কাছাকাছি যে পাশাপাশি তুলনা করা কঠিন।
লাইভ ভয়েস প্লেব্যাক সহ ভাষার তালিকা বাড়তে থাকে যখন ElevenLabs কভারেজ আপডেট করে; নতুন ভাষা পাওয়া গেলে অ্যাপ স্বয়ংক্রিয়ভাবে সেগুলো গ্রহণ করে।
ব্যবহারকারীরা কী লক্ষ্য করেন
- পিকারে আরও বেশি ভাষা। ১০৩টি এন্ট্রি, আগের তালিকার প্রায় দ্বিগুণ, সবচেয়ে বেশি অনুরোধ করা সংযোজনগুলোর বেশিরভাগ সহ।
- অনুবাদ আরও স্বাভাবিক মনে হয়। সর্বনাম সঠিকভাবে সমাধান হয়, আনুষ্ঠানিকতা টার্নজুড়ে বজায় থাকে, বাগধারা যুক্তিসঙ্গতভাবে ব্যাখ্যা হয়। এটি কথোপকথনের প্রসঙ্গ-সচেতনতার প্রভাব।
- Audio mode অনুবাদ জোরে বাজায়। আজ ৭৪টি ভাষায় AI ভয়েস; বাকিগুলো Audio mode-এ টেক্সট-অনলি আউটপুট সহ কাজ করে।
- ভাষা পিকারে টায়ার ডট। প্রতিটি ভাষার পাশে একটি ছোট রঙিন ডট প্রত্যাশিত স্পিচ-রিকগনিশন নির্ভুলতা নির্দেশ করে — সবুজ Excellent, হলুদ High, কমলা Good, লাল Developing — ElevenLabs-এর প্রকাশিত WER বেঞ্চমার্কের উপর ভিত্তি করে।
- দ্বিমুখী কথোপকথন এখনও দ্বিমুখী মনে হয়। উভয় পক্ষ একই সাথে অনুবাদ পায়, কোনো টার্ন-নেওয়া নেই, কোনো বিব্রতকর বিরতি নেই।
সংখ্যায়
- ভাষা (STT): ১০৩, ৪৭ থেকে বৃদ্ধি পেয়েছে
- ভাষা (লাইভ TTS): ৭৪
- ভাষা জোড়া (অনুবাদ): ১০,৫০৬ (২,১৬২ থেকে বৃদ্ধি পেয়েছে)
- Scribe v2 স্ট্রিমিং লেটেন্সি: ~১৫০ ms (ElevenLabs প্রকাশিত)
- FLEURS-এ মাল্টিলিঙ্গুয়াল WER: ৫.৮% (ElevenLabs প্রকাশিত)
- বিলিং: প্রতি-অক্ষর, ট্রান্সক্রিপশন, অনুবাদ এবং TTS-এ সমানভাবে প্রযোজ্য — প্রতিটি প্রক্রিয়াকৃত অক্ষরের জন্য এক ক্রেডিট; Audio mode-এ, আপনি Translate ট্যাপ না করা পর্যন্ত ট্রান্সক্রিপশন বিনামূল্যে
ব্যবহারকারী-মুখী সংস্করণ চাইলে
লঞ্চ ঘোষণার পোস্টটি ব্যবহারকারীর দৃষ্টিকোণ থেকে একই পরিবর্তন কভার করে — ভাষা পিকারে কী নতুন, প্রতিটি নির্ভুলতা টায়ার থেকে কী আশা করবেন, এবং Audio mode বাস্তবে কেমন অনুভব হয়। সম্পূর্ণ ক্যানোনিকাল ভাষার রেফারেন্স /languages-এ আছে। এবং যদি চেষ্টা করতে চান, marquee এখানে এবং Audio mode এখানে।
Live Translate Live ব্যবহার করে দেখুন
আজই রিয়েল-টাইম দ্বিভাষিক কথোপকথন অনুবাদ শুরু করুন।
বিনামূল্যে শুরু করুন