সমর্থিত ভাষাসমূহ
Live Translate Live রিয়েল-টাইম স্পিচ রিকগনিশনের জন্য ১০৩টি ভাষা সমর্থন করে, Audio mode-এ লাইভ AI ভয়েস প্লেব্যাকসহ ৭৪টি, এবং সব ১০৩টি জুড়ে যেকোনো-থেকে-যেকোনো অনুবাদ — marquee-তে মোট ১০,৫০৬টি অনন্য ভাষা জুটি। এই পেজটি হলো ক্যানোনিকাল রেফারেন্স: কোন ভাষাগুলো সমর্থিত, প্রতিটি কতটা নির্ভুলভাবে শনাক্ত হয়, এবং কোথায় AI ভয়েস পাওয়া যায়।
স্পিচ রিকগনিশন নির্ভুলতার স্তরসমূহ
আমরা লাইভ স্পিচ রিকগনিশনের জন্য ElevenLabs Scribe v2 Realtime ব্যবহার করি। ElevenLabs তার সমর্থিত ভাষাগুলোর জন্য Scribe-এর ওয়ার্ড-এরর-রেট (WER) বেঞ্চমার্ক প্রকাশ করে, যা চারটি স্তরে বিভক্ত। কম WER মানে বেশি শব্দ সঠিকভাবে আসে। নিচের স্তরগুলো প্রকাশিত বেঞ্চমার্ক; বাস্তব কথোপকথনে, মাইক্রোফোনের মান এবং পরিবেশের শব্দ শীর্ষ দুটি স্তরের পার্থক্যের চেয়ে বেশি গুরুত্বপূর্ণ।
| স্তর | WER | ভাষাসমূহ |
|---|---|---|
| চমৎকার | ≤ ৫% | বেলারুশিয়ান, বসনিয়ান, বুলগেরিয়ান, কাতালান, ক্রোয়েশিয়ান, চেক, ডেনিশ, ডাচ, ইংরেজি, এস্তোনিয়ান, ফিনিশ, ফরাসি, গ্যালিশিয়ান, জার্মান, গ্রিক, হাঙ্গেরিয়ান, আইসল্যান্ডিক, ইন্দোনেশিয়ান, ইতালিয়ান, জাপানিজ, কন্নড়, লাটভিয়ান, ম্যাসেডোনিয়ান, মালয়, মালায়ালাম, নরওয়েজিয়ান, পোলিশ, পর্তুগিজ, রোমানিয়ান, রাশিয়ান, স্লোভাক, স্প্যানিশ, সুইডিশ, তুর্কি, ইউক্রেনিয়ান, ভিয়েতনামিজ (৩৬) |
| উচ্চ | ৫–১০% | আর্মেনিয়ান, আজারবাইজানি, বাংলা, ক্যান্টোনিজ, ফিলিপিনো, জর্জিয়ান, গুজরাটি, হিন্দি, কাজাখ, লিথুয়ানিয়ান, মাল্টিজ, ম্যান্ডারিন চাইনিজ, মারাঠি, নেপালি, ওড়িয়া, ফার্সি, সার্বিয়ান, স্লোভেনিয়ান, সোয়াহিলি, তামিল, তেলুগু (২১) |
| ভালো | ১০–১৫% | আফ্রিকান্স, আরবি, অসমিয়া, আস্তুরিয়ান, বার্মিজ, হাউসা, হিব্রু, জাভানিজ, কোরিয়ান, কিরগিজ, লুক্সেমবার্গিশ, Māori, অক্সিটান, পাঞ্জাবি, তাজিক, থাই, উজবেক, ওয়েলশ (১৮) |
| উন্নয়নশীল | ১৫%+ | আমহারিক, গান্ডা, ইগবো, আইরিশ, খমের, কুর্দিশ, লাও, মঙ্গোলিয়ান, নর্দার্ন সোথো, পশতো, শোনা, সিন্ধি, সোমালি, উর্দু, ওলোফ, জোসা, ইওরুবা, জুলু (১৮) |
WER পরিসীমা এবং ভাষা গোষ্ঠীকরণ ElevenLabs’ প্রকাশিত Scribe v2 বেঞ্চমার্কের উপর ভিত্তি করে। অ্যাপের ভাষা পিকারে প্রতিটি ভাষার পাশে স্তরের ডট দেখা যায়, যাতে আপনি এক নজরে বুঝতে পারেন কী আশা করতে হবে। বেঞ্চমার্কটি প্রায় ৯৩টি ভাষা কভার করে; আমাদের অ্যাপ একটি ছোট অতিরিক্ত সেট সমর্থন করে (বাশকির, বাস্ক, ব্রেটন, ফারোজ, হাইতিয়ান ক্রেওল, হাওয়াইয়ান, লাতিন, লিঙ্গালা, মালাগাসি, সংস্কৃত, সিংহলি, আলবেনিয়ান, সুন্দানিজ, তাতার, তুর্কমেন, ইদ্দিশ, তিব্বতি) যা Scribe পরিচালনা করে কিন্তু ElevenLabs যার জন্য WER স্তর প্রকাশ করেনি — সেগুলো পিকারে স্তরের ডট ছাড়া দেখায় এবং কথোপকথনে কাজ করে; আমাদের কাছে শুধু কোনো অফিসিয়াল নির্ভুলতার সংখ্যা নেই।
লাইভ AI ভয়েস (Audio Mode)
Audio mode আপনার ডিভাইসের স্পিকারের মাধ্যমে অনুবাদিত বাক্য জোরে বাজায়। ভয়েসটি ElevenLabs v3 দ্বারা তৈরি হয় (এটি যে ভাষাগুলো কভার করে তার জন্য দ্রুততর ফলব্যাক হিসেবে Flash v2.5 সহ)। যখন কোনো ভাষা কোনো TTS মডেলে নেই, Audio mode তখনও কাজ করে — আপনি স্ক্রিনে অনুবাদিত টেক্সট পাবেন, শুধু কথ্য প্লেব্যাক ছাড়া।
আজ ৭৪টি ভাষায় লাইভ ভয়েস প্লেব্যাক আছে। ElevenLabs পর্যায়ক্রমে এই তালিকায় যোগ করে, এবং অ্যাপটি স্টার্টআপে API থেকে বর্তমান কভারেজ তালিকা টেনে নেয় — তাই v3 বাড়লে, আপনার Audio mode স্বয়ংক্রিয়ভাবে তার সাথে বাড়ে।
Audio পেজের ভাষা পিকারে, “তাদের ভাষা” ড্রপডাউন স্বয়ংক্রিয়ভাবে সেই ভাষাগুলোতে ফিল্টার করা হয় যেগুলো ভয়েস প্লেব্যাক সমর্থন করে। marquee পিকার সব ১০৩টি দেখায় কারণ স্ক্রোলিং ডিসপ্লেতে TTS দরকার নেই।
সব ১০৩টি জুড়ে অনুবাদ
অনুবাদ Google Gemini 2.5-এ চলে। প্রতিটি Scribe-শনাক্ত ভাষা অন্য যেকোনো ভাষায় এবং থেকে অনুবাদ করতে পারে — কোনো ইংরেজি মধ্যস্থতাকারীর প্রয়োজন নেই। আপনি জাপানিজে কথা বলতে পারেন এবং তা পর্তুগিজে পৌঁছাতে পারে, বা হিন্দি থেকে আরবিতে, বা কোরিয়ান থেকে সোয়াহিলিতে। ১০৩টি সোর্স-এবং-টার্গেট ভাষা নিয়ে, এটি ১০,৫০৬টি অনন্য জুটি।
Gemini 2.5 পালার মধ্যে কথোপকথনের প্রসঙ্গ বহন করে। সর্বনাম, লিঙ্গ-সম্মতি, বাগধারামূলক বাক্যাংশ — অনুবাদক আগে কী বলা হয়েছিল তা দেখে এবং সেই প্রসঙ্গ মাথায় রেখে পরবর্তী পালা অনুবাদ করে। এটি মানুষ যতটা বোঝে তার চেয়ে বেশি গুরুত্বপূর্ণ: বিচ্ছিন্নভাবে অনুবাদ করা একটি একক বাক্য চলমান কথোপকথনের অংশ হিসেবে অনুবাদ করা বাক্যের চেয়ে স্বাভাবিকভাবে অনুবাদ করা প্রায় এক মাত্রার বেশি কঠিন।
আঞ্চলিক রূপভেদ
উপরের ১০৩টি ভাষার অনেকগুলোর একাধিক আঞ্চলিক উপভাষা রয়েছে। কিছু একটি একক মডেল হিসেবে পরিচালিত হয়, কিছুতে আপনি নির্বাচন করতে পারেন এমন প্রতি-অঞ্চল রূপভেদ আছে, এবং কয়েকটি ভাষা পরিবার স্পিচ-রিকগনিশন স্তরে একটি প্রভাবশালী রূপভেদে একত্রিত হয়।
| ভাষা | আঞ্চলিক রূপভেদ | নোট |
|---|---|---|
| ফরাসি | fr (ডিফল্ট), fr-CA (কুইবেক) |
কুইবেক ফরাসি পিকারে একটি নির্বাচনযোগ্য রূপভেদ — যখন একজন বক্তা Québécois এবং আঞ্চলিক শব্দভান্ডার গুরুত্বপূর্ণ তখন কার্যকর। |
| পর্তুগিজ | pt (ব্রাজিলিয়ান ডিফল্ট), pt-PT (ইউরোপিয়ান) |
ব্রাজিলিয়ান পর্তুগিজ প্রশিক্ষণ ডেটায় আধিপত্য করে। ইউরোপিয়ান পর্তুগিজ পর্তুগালের ব্যবহারকারীদের বা Lusófono আফ্রিকান বক্তাদের জন্য একটি নির্বাচনযোগ্য রূপভেদ। |
| চাইনিজ | zh (ম্যান্ডারিন, সরলীকৃত), zh-TW (ঐতিহ্যবাহী) |
ম্যান্ডারিন হলো প্রাথমিক কথ্য লক্ষ্য। ক্যান্টোনিজও উপরের High স্তরে নিজস্ব এন্ট্রি হিসেবে সমর্থিত। ঐতিহ্যবাহী এবং সরলীকৃত উভয় লিপি অনুবাদ পাশে রেন্ডার হয়। |
| স্প্যানিশ | একক মডেল (আইবেরিয়ান এবং ল্যাটিন আমেরিকান পরিচালনা করে) | Scribe একটি মডেলে উভয় আঞ্চলিক বৈচিত্র্য পরিষ্কারভাবে পরিচালনা করে। অনুবাদক ট্রান্সক্রিপশনে আঞ্চলিক শব্দভান্ডারের পার্থক্য (coche বনাম carro) সংরক্ষণ করে এবং লক্ষ্য ভাষায় যথাযথভাবে রেন্ডার করে। |
| ইংরেজি | একক মডেল (US, UK, AU, IN, NZ, ZA উচ্চারণ) | শক্তিশালী ক্রস-উচ্চারণ কভারেজ সহ সবচেয়ে বেশি প্রশিক্ষিত ভাষা। ভারতীয় ইংরেজি বিশেষভাবে ভালোভাবে পরিচালিত হয়। |
| আরবি | আধুনিক প্রমিত আরবি (প্রাথমিক) | MSA সবচেয়ে ভালো কাজ করে। মিশরীয়, গালফ, লেভান্টাইন এবং মাগরেবি উপভাষাগুলো বিভিন্ন নির্ভুলতায় ট্রান্সক্রাইব হয় — কথ্য উপভাষার বক্তৃতা সমগ্র ভাষা সেটে সবচেয়ে কঠিন ক্ষেত্র। |
| হিন্দি / উর্দু | hi, ur |
কথ্য স্তরে ভাষাগতভাবে খুব কাছাকাছি কিন্তু ভিন্ন লিপিতে লেখা (দেবনাগরী বনাম নস্তালিক)। উভয়ই পৃথক ASR লক্ষ্য হিসেবে সমর্থিত। |
| নরওয়েজিয়ান | no, nn (নিনোর্স্ক) |
Bokmål হলো ডিফল্ট। নিনোর্স্ক সেই লিখিত মানের বক্তাদের জন্য নির্বাচনযোগ্য। |
| সার্বিয়ান / ক্রোয়েশিয়ান / বসনিয়ান | প্রতি ভাষায় পৃথক এন্ট্রি | কথ্য স্তরে পারস্পরিক বোধগম্য কিন্তু নিজস্ব লিপি ও নিয়ম সহ তিনটি পৃথক ভাষা হিসেবে বিবেচিত। |
যখন পিকারে একটি আঞ্চলিক রূপভেদ পাওয়া যায়, বক্তার সাথে মিলে এমনটি বেছে নেওয়া সাধারণত ট্রান্সক্রিপশনের নির্ভুলতা উল্লেখযোগ্যভাবে উন্নত করে — বিশেষত পর্তুগিজ এবং ফরাসির জন্য।
দ্বিমুখী কথোপকথন
দ্বিমুখী কথোপকথনে, অ্যাপটি প্রতিটি বক্তার কথা স্ক্রিনের নিজস্ব পাশে রাখে। marquee প্রায় কখনোই ভুল বক্তার কথা ভুল পাশে রাখে না; বাস্তবে সবচেয়ে কঠিন ক্ষেত্রগুলো হলো অত্যন্ত সংক্ষিপ্ত উচ্চারণ (“OK”, “hmm”, একক প্রপার নাউন) এবং কোড-সুইচিং যেখানে একজন দ্বিভাষিক বক্তা বাক্যের মাঝে ভাষা পরিবর্তন করেন। উভয় ভাষা একসাথে অনুবাদ হয়, তাই কোনো বক্তাকে অন্যজনের শেষ হওয়ার জন্য অপেক্ষা করতে হয় না।
চেষ্টা করুন
আপনার দুটি ভাষা বেছে নিন এবং একটি রিয়েল-টাইম দ্বিভাষিক কথোপকথন শুরু করুন। ডাউনলোড করার কোনো অ্যাপ নেই — সবকিছু ব্রাউজারে চলে। অনুবাদ ক্রেডিট ১৫ মিনিটের জন্য $১ থেকে শুরু হয়; Audio mode-এ ট্রান্সক্রিপশন বিনামূল্যে যতক্ষণ না আপনি Translate ট্যাপ করেন।
marquee-তে শুরু করুন · Audio mode চেষ্টা করুন · মূল্য দেখুন · সব ফিচার দেখুন
আমরা কীভাবে এখানে পৌঁছালাম তার পেছনের গল্প জানতে চান? পড়ুন কেন আমরা ইঞ্জিন পরিবর্তন করলাম বা ১০৩-ভাষা লঞ্চ ঘোষণা।