এখন ১০৩টি ভাষায় অনুবাদ চলছে — ৭৪টিতে AI ভয়েস সহ

মে ২০২৬

Live Translate Live সবেমাত্র একটি বড় ইঞ্জিন আপগ্রেড পেয়েছে। আমরা আমাদের স্পিচ-রিকগনিশন স্ট্যাক Deepgram থেকে ElevenLabs Scribe v2 Realtime-এ, অনুবাদ স্তর Google Cloud Translation থেকে Google Gemini 2.5-এ পরিবর্তন করেছি, এবং ElevenLabs v3-চালিত Audio mode-এ লাইভ AI ভয়েস প্লেব্যাক যোগ করেছি। মূল সংখ্যাটি হলো: আমরা রিয়েল-টাইম স্পিচের জন্য ১০৩টি ভাষায় লাইভ আছি, তার মধ্যে ৭৪টিতে AI ভয়েস রয়েছে, এবং যেকোনো দুটির মধ্যে যেকোনো দিকে অনুবাদ সম্ভব।

আপনি যদি আমাদের ৪৭টি ভাষা নিয়ে লঞ্চের সময় পুরনো সমর্থিত-ভাষার পোস্টটি পড়ে থাকেন, তাহলে জানুন সংখ্যাটি প্রায় দ্বিগুণ হয়েছে। সেই পোস্টটি এখন নতুন বাস্তবতা প্রতিফলিত করতে আপডেট করা হয়েছে; এই পোস্টটি হলো কী পরিবর্তন হয়েছে এবং একটি বাস্তব কথোপকথনের জন্য ফোন তুলে নেওয়ার সময় কেন এটি গুরুত্বপূর্ণ তার ঘোষণা।

এখন আপনি যা করতে পারবেন যা আগে পারতেন না

ব্যবহারকারীদের জন্য সবচেয়ে দৃশ্যমান পরিবর্তনটি হলো ভাষা পিকারে। নিচে স্ক্রোল করলে দ্বিগুণ এন্ট্রি দেখতে পাবেন। যে ভাষাগুলো যোগ হয়েছে সেগুলো অপরিচিত নয় — এগুলো এমন ভাষা যা আপনাদের অনেকেই চাইছিলেন: ফার্সি, বাংলা, তামিল, তেলুগু, মারাঠি, উচ্চমানের হিন্দি, ম্যান্ডারিন থেকে আলাদা এন্ট্রি হিসেবে ক্যান্টোনিজ, বার্মিজ, খমের, লাও, মঙ্গোলিয়ান, হাউসা, সোয়াহিলি, ইওরুবা, জুলু, ওয়েলশ, আইরিশ, হিব্রু, এবং আরও অনেক।

দ্বিতীয় পরিবর্তনটি চোখে পড়া কঠিন কিন্তু কথোপকথনে অনুভব করবেন: অনুবাদের মান উল্লেখযোগ্যভাবে ভালো হয়েছে, বিশেষত দীর্ঘ বা আরও সূক্ষ্ম বাক্যের ক্ষেত্রে। Gemini 2.5 প্রতিটি বাক্য আলাদাভাবে অনুবাদ না করে পুরো কথোপকথনে প্রাসঙ্গিক সংযোগ বজায় রাখে। সর্বনামগুলো সঠিক পূর্বসূরি পায়। লিঙ্গ-সম্মতি একটি ধারাবাহিকতায় বজায় থাকে। বাগধারাগুলো শব্দ-অনুযায়ী অনুবাদ না করে লক্ষ্য ভাষার নিকটতম সমতুল্যে রূপান্তরিত হয়। marquee-টি অভিধানের চেয়ে অনুবাদকের মতো বেশি অনুভব করায়।

তৃতীয় পরিবর্তনটি একেবারে নতুন: Audio mode এখন একটি স্বাভাবিক AI ভয়েসে অনুবাদ জোরে বলে। আপনি কথা বলুন, Translate ট্যাপ করুন, আপনার ফোন শ্রোতার ভাষায় অনুবাদিত বাক্যটি বলবে। এটি ট্যাক্সি, বাজারের দোকান, হাসপাতালের ওয়েটিং রুমের জন্য উপযুক্ত — যেখানে স্ক্রোলিং ডিসপ্লে পড়া অব্যবহারিক এবং আপনি স্বাভাবিকভাবেই ফোনটি এগিয়ে দিতেন।

স্পিচ রিকগনিশন কতটা নির্ভুল?

ElevenLabs শব্দ-ত্রুটি-হার (WER) বেঞ্চমার্কের উপর ভিত্তি করে Scribe v2-এর জন্য চার-স্তরের নির্ভুলতার গ্রিড প্রকাশ করে। আমরা ইন-অ্যাপ পিকারে প্রতিটি ভাষার পাশে রঙিন ডট হিসেবে সেই স্তরগুলো দেখাই, এবং আপনি এক নজরে আপনার ভাষা খুঁজে পেতে পারেন বলে এখানে গ্রুপিংটি পুনরুৎপাদন করেছি। কম WER মানে বেশি শব্দ সঠিকভাবে আসে।

স্তর WER ভাষাসমূহ
চমৎকার ≤ ৫% বেলারুশিয়ান, বসনিয়ান, বুলগেরিয়ান, কাতালান, ক্রোয়েশিয়ান, চেক, ড্যানিশ, ডাচ, ইংরেজি, এস্তোনিয়ান, ফিনিশ, ফরাসি, গ্যালিশিয়ান, জার্মান, গ্রিক, হাঙ্গেরিয়ান, আইসল্যান্ডিক, ইন্দোনেশিয়ান, ইতালিয়ান, জাপানিজ, কন্নড়, লাটভিয়ান, ম্যাসেডোনিয়ান, মালয়, মালায়ালাম, নরওয়েজিয়ান, পোলিশ, পর্তুগিজ, রোমানিয়ান, রাশিয়ান, স্লোভাক, স্প্যানিশ, সুইডিশ, তুর্কি, ইউক্রেনিয়ান, ভিয়েতনামিজ (৩৬)
উচ্চ ৫–১০% আর্মেনিয়ান, আজারবাইজানি, বাংলা, ক্যান্টোনিজ, ফিলিপিনো, জর্জিয়ান, গুজরাটি, হিন্দি, কাজাখ, লিথুয়ানিয়ান, মাল্টিজ, ম্যান্ডারিন চাইনিজ, মারাঠি, নেপালি, ওড়িয়া, ফার্সি, সার্বিয়ান, স্লোভেনিয়ান, সোয়াহিলি, তামিল, তেলুগু (২১)
ভালো ১০–১৫% আফ্রিকান্স, আরবি, অসমিয়া, আস্তুরিয়ান, বার্মিজ, হাউসা, হিব্রু, জাভানিজ, কোরিয়ান, কিরগিজ, লাক্সেমবার্গিশ, Māori, অক্সিটান, পাঞ্জাবি, তাজিক, থাই, উজবেক, ওয়েলশ (১৮)
উন্নয়নশীল ১৫%+ আমহারিক, গান্ডা, ইগবো, আইরিশ, খমের, কুর্দি, লাও, মঙ্গোলিয়ান, নর্দার্ন সোথো, পশতো, শোনা, সিন্ধি, সোমালি, উর্দু, ওলোফ, খোসা, ইওরুবা, জুলু (১৮)

WER পরিসীমা ElevenLabs-এর প্রকাশিত Scribe v2 বেঞ্চমার্ক থেকে নেওয়া। বাস্তবে, মাইক্রোফোনের অবস্থান এবং পরিবেশের শব্দ শীর্ষ দুটি স্তরের মধ্যকার পার্থক্যের চেয়ে বেশি গুরুত্বপূর্ণ; একটি শান্ত ঘরে ভালো মাইক্রোফোন দিয়ে, কথোপকথনে একটি “চমৎকার” এবং একটি “উচ্চ” ভাষার মধ্যে পার্থক্য করা কঠিন।

টেবিলটি পড়ার একটি কার্যকর উপায়: যদি আপনার জুটি শীর্ষ দুটি স্তরে থাকে, তাহলে রিকগনিশন স্তরটি কার্যত অদৃশ্য হয়ে যায় — আপনি যা বলেন তা বলার সাথে সাথে স্ক্রিনে দেখা যায়। যদি জুটির একটি দিক Good স্তরে থাকে, তাহলে অপরিচিত শব্দে, বিশেষত নামবাচক বিশেষ্যে, মাঝেমধ্যে ভুল প্রতিস্থাপন দেখবেন। যদি একটি দিক Developing স্তরে থাকে, তাহলে ভাষাটি কাজ করে কিন্তু ট্রান্সক্রিপ্ট রুক্ষ হয়; সেক্ষেত্রে Audio mode বেশি সুবিধাজনক হতে পারে কারণ Translate ট্যাপ করার আগে আপনি ট্রান্সক্রিপ্ট পর্যালোচনা করতে পারেন।

৭৪টি ভাষায় লাইভ AI ভয়েস প্লেব্যাক

Audio mode হলো বড় পণ্য পরিবর্তন। marquee সবসময় টেবিলে একটি স্ক্রিন ভাগ করে নেওয়া দুজনের জন্য সঠিক টুল ছিল। Audio mode বাকি সময়ের জন্য — একটি ফোন, একটি হাত, দুজন মানুষ যাদের পড়ার চেয়ে একে অপরকে শুনতে হবে।

আপনি Translate Now ট্যাপ করলে, ElevenLabs v3 (বা ভাষার উপর নির্ভর করে এর দ্রুততর সংস্করণ Flash v2.5) কথ্য অনুবাদ তৈরি করে এবং ফোন সেটি বাজায়। এটি রোবটের মতো নয়, মানুষের মতো শোনায়। আপনি আরও ক্রেডিট খরচ না করে যতবার চান Replay করতে পারেন। আপনার শ্রোতা না বুঝলে, শুধু Replay ট্যাপ করুন।

আমরা যে ১০৩টি ভাষা চিনি তার মধ্যে আজ ৭৪টিতে AI ভয়েস কভারেজ রয়েছে। সেই সেটের বাইরের ভাষাগুলো Audio mode-এ এখনও কাজ করে — আপনি স্ক্রিনে অনুবাদিত টেক্সট দেখবেন — শুধু কথ্য প্লেব্যাক ছাড়া। ElevenLabs কভারেজ আপডেট পাঠানোর সাথে সাথে ভয়েস তালিকা বাড়ে; অ্যাপটি স্টার্টআপে পুনরায় চেক করে এবং স্বয়ংক্রিয়ভাবে নতুন ভাষা যোগ করে।

আপনি যদি এখনও Audio mode ব্যবহার না করে থাকেন, তাহলে বিস্তারিত আলোচনা আমাদের Audio mode পোস্টে রয়েছে এবং মূল রেফারেন্স /languages-এ আছে।

অনুবাদ যেকোনো দিকে সব ১০৩টি ভাষা কভার করে

Gemini 2.5 অনুবাদ স্তর পরিচালনা করে, এবং এটি যেকোনো-থেকে-যেকোনো। আপনি জাপানিজে কথা বলতে পারেন এবং সরাসরি পর্তুগিজে পৌঁছাতে পারেন, মাঝে ইংরেজি ছাড়াই। হিন্দি থেকে আরবি। কোরিয়ান থেকে সোয়াহিলি। ভিয়েতনামিজ থেকে পোলিশ। ১০৩টি ভাষায়, এটি ১০,৫০৬টি অনন্য জুটি, প্রতিটি একই সাথে দ্বি-মুখী কথোপকথন মোডে সমর্থিত।

Gemini 2.5-এর বিশেষ বিষয় হলো কথোপকথনের প্রসঙ্গ। পুরনো অনুবাদ ইঞ্জিনগুলো প্রতিটি বাক্যকে স্বাধীন স্ট্রিং হিসেবে দেখে। এই কারণেই কখনো কখনো সর্বনাম ভুল বিশেষ্যে অনুবাদ হয়, বা কথোপকথনের মাঝে আনুষ্ঠানিকতার মাত্রা পরিবর্তন হয়, বা বাগধারা আক্ষরিক অর্থহীন হয়ে যায়। Gemini 2.5 আগের কয়েকটি বাক্য দেখে এবং সেই প্রসঙ্গ মাথায় রেখে পরবর্তীটি অনুবাদ করে। ফলাফলটি বাক্য-অনুযায়ী অনুসন্ধানের চেয়ে এমন একজন অনুবাদকের মতো মনে হয় যিনি পুরো কথোপকথনে আপনার সাথে ছিলেন।

কোন জুটিগুলো সবচেয়ে ভালো অনুভব করায়

সব ১০,৫০৬টি জুটি কাজ করে। কিছু অন্যদের চেয়ে বেশি স্বাভাবিক মনে হয়। বাস্তবে একটি নির্দিষ্ট জুটির অভিজ্ঞতা তিনটি বিষয়ের উপর নির্ভর করে:

কেন আমরা ইঞ্জিন পরিবর্তন করলাম

সংক্ষিপ্ত সংস্করণ: Deepgram + Google Cloud Translation থেকে আমরা যে ভাষা কভারেজ এবং মান পেতাম তা লঞ্চের সময় চমৎকার ছিল কিন্তু আমরা বিশ্বের আরও বেশি অংশ কভার করতে চাইলে স্কেল করা বন্ধ হয়ে গেল। Scribe v2 কম লেটেন্সিতে বৃহত্তর স্ট্রিমিং কভারেজ নিয়ে আসে, Gemini 2.5 বাক্যের মধ্যে প্রসঙ্গ বহন করে, এবং ElevenLabs v3 Audio mode-এর জন্য প্রয়োজনীয় ভয়েস প্লেব্যাক উন্মুক্ত করেছে। দীর্ঘ সংস্করণটি লেটেন্সি, বেঞ্চমার্ক এবং পরিবর্তনের পেছনের স্থাপত্যগত সিদ্ধান্ত সহ একটি আলাদা পোস্টে রয়েছে।

ব্যবহার করে দেখুন

আপনার দুটি ভাষা বেছে নিন এবং একটি রিয়েল-টাইম দ্বিভাষিক কথোপকথন শুরু করুন। কোনো অ্যাপ ডাউনলোড করতে হবে না। marquee-তে অনুবাদ ক্রেডিট ১৫ মিনিটের জন্য $১ থেকে শুরু; Audio mode-এ, Translate ট্যাপ করার আগ পর্যন্ত ট্রান্সক্রিপশন বিনামূল্যে।

marquee-তে শুরু করুন · Audio mode ব্যবহার করুন · সম্পূর্ণ ভাষার রেফারেন্স · মূল্য দেখুন


Live Translate Live ব্যবহার করে দেখুন

আজই রিয়েল-টাইম দ্বিভাষিক কথোপকথন অনুবাদ শুরু করুন।

বিনামূল্যে শুরু করুন