অডিও মোড — পালাক্রমে অনুবাদ ও ভয়েস প্লেব্যাক

মার্চ ২০২৬

Live Translate Live-এ সরাসরি কথোপকথন অনুবাদ করার দুটি উপায় আছে। প্রাথমিক মোড হলো স্ক্রোলিং মার্কি — একটি শেয়ার করা স্ক্রিনে ক্রমাগত স্পিচ রিকগনিশনের মাধ্যমে অনুবাদিত টেক্সট প্রবাহিত হয়। দ্বিতীয় মোড হলো অডিও মোড: পালাক্রমে, পুশ-টু-টক পদ্ধতিতে, যেখানে অনুবাদিত ফলাফল একটি AI কণ্ঠস্বর দিয়ে জোরে বলা হয়। আপনি কথা বলুন, আপনার ট্রান্সক্রিপ্ট পর্যালোচনা করুন, রিকগনাইজার যা ভুল শুনেছে তা ঠিক করুন, Translate-এ ট্যাপ করুন, এবং তারপর অন্য ব্যক্তি তাদের ভাষায় অনুবাদ শুনতে পাবেন। তারপর কাউন্টারের ওপারে, টেবিলের ওপারে, বা নিজের কাছে ফোনটি পাস করুন — এবার তাদের পালা।

মার্কি তৈরি হয়েছে শেয়ার করা স্ক্রিনের জন্য। অডিও মোড তৈরি হয়েছে আপনার হাতের ফোনের জন্য।

অডিও মোড বনাম মার্কি মোড — কোনটি কখন বেছে নেবেন

উভয় মোডই প্রতিটি প্ল্যানে পাওয়া যায় এবং কথোপকথনের মাঝেও আপনি এদের মধ্যে পরিবর্তন করতে পারেন। এরা ভিন্ন সমস্যার সমাধান করে। মার্কি সবচেয়ে ভালো কাজ করে যখন দুজন মানুষ একই সময়ে একটি স্ক্রিন আরামদায়কভাবে দেখতে পারেন এবং কাউকেই ডিভাইসটি ধরে রাখতে হয় না। অডিও মোড সবচেয়ে ভালো কাজ করে যখন ফোন রাখার কোনো ভালো জায়গা নেই, পরিবেশ এত শোরগোলপূর্ণ যে এক নজরে স্ক্রোলিং ডিসপ্লে পড়া কঠিন, অথবা যখন এক বা উভয় বক্তা কোনো কারণে অনুবাদ পড়তে পারছেন না।

পরিস্থিতিমার্কিঅডিওকারণ
রেস্তোরাঁর টেবিলে দুজনের মাঝে ফোন সমতলভাবে রাখা হ্যাঁ ঠিক আছে উভয় বক্তাই স্ক্রিনের নিজের দিক পড়তে পারেন; খাবারের সময় ক্রমাগত প্রবাহ স্বাভাবিক মনে হয়।
ব্যস্ত বাজারের স্টল, কোনো সমতল জায়গা নেই না হ্যাঁ আপনি দাঁড়িয়ে ফোন ধরে আছেন। অডিও মোড আপনাকে কথা বলতে, দেখাতে এবং হস্তান্তর করতে দেয়।
লাইভ স্ট্রিম বা ব্রডকাস্ট ওভারলে হ্যাঁ না OBS স্ক্রোলিং মার্কিকে উইন্ডো সোর্স হিসেবে ক্যাপচার করে। অডিও মোডে দর্শকদের জন্য কোনো স্ক্রিন নেই।
এক পাশে শ্রবণ-প্রতিবন্ধী ব্যবহারকারী হ্যাঁ না স্ক্রিনে টেক্সটই মূল বিষয়। কথ্য প্লেব্যাক সাহায্য করে না।
এক পাশে দৃষ্টি-প্রতিবন্ধী বা কম দৃষ্টিশক্তির ব্যবহারকারী না হ্যাঁ ভয়েস প্লেব্যাক স্ক্রোলিং ডিসপ্লে পড়ার প্রয়োজনীয়তা দূর করে।
শোরগোলপূর্ণ নির্মাণ সাইট বা কারখানার মেঝে ঠিক আছে হ্যাঁ, ইয়ারবাড সহ ইয়ারবাডের সাথে অডিও মোড সরাসরি অনুবাদ পৌঁছে দেয়; হার্ড হ্যাট পরে স্ক্রিন পড়া কঠিন।
শান্ত কনফারেন্স রুম বা হোটেল লবি হ্যাঁ ঠিক আছে কাউকে ফোন হস্তান্তরের জন্য বাধা দিতে না হলে ক্রমাগত মার্কি দারুণ কাজ করে।
রাইডশেয়ার বা ট্যাক্সি না হ্যাঁ চালক রাস্তায় চোখ রাখেন। ফোন স্পিকারে ভয়েস প্লেব্যাক কাজটি সামলে নেয়।

একটি সহজ নিয়ম: যদি আপনি স্বাভাবিকভাবে ফোন এগিয়ে-পিছিয়ে পাস করতেন, তাহলে অডিও মোড ব্যবহার করুন। যদি আপনি স্বাভাবিকভাবে ফোন নামিয়ে রাখতেন, তাহলে মার্কি ব্যবহার করুন।

পালাক্রমে কাজের ধারা, ধাপে ধাপে

অডিও মোড ইচ্ছাকৃতভাবে রৈখিক। প্রতিটি পালা একটি রাউন্ড ট্রিপ — আপনি কথা বলুন, অনুবাদ করুন, হস্তান্তর করুন। প্রতিটি পালায় ঠিক কী হয় তা এখানে দেওয়া হলো:

  1. পুশ-টু-টক ট্যাপ করুন এবং আপনার বাক্য বলুন। আরামদায়ক কথা বলার অবস্থানে ফোন ধরুন। আপনি পুশ-টু-টক (বোতাম ধরে রাখুন, শেষ হলে ছেড়ে দিন) বা সর্বদা-শ্রবণরত টগল ব্যবহার করতে পারেন। শোরগোলপূর্ণ জায়গায় পুশ-টু-টক ভালো কারণ আপনি কথা বলার সময়ই কেবল মাইক সক্রিয় থাকে।
  2. স্ক্রিনে সরাসরি ট্রান্সক্রিপশন দেখুন। আপনার কথা রিয়েল টাইমে ট্রান্সক্রাইব হয় এবং ডায়নামিক ফন্ট সাইজিং দিয়ে ডিসপ্লেতে ফিট করে। ট্রান্সক্রিপশন বিনামূল্যে — এই ধাপে কোনো ক্রেডিট খরচ হয় না, আপনি যতক্ষণই কথা বলুন বা যতবারই পুনরায় শুরু করুন।
  3. প্রয়োজনে ট্রান্সক্রিপ্ট পর্যালোচনা ও সম্পাদনা করুন। স্পিচ রিকগনাইজার প্রপার নাউন, সংখ্যা এবং অস্বাভাবিক প্রযুক্তিগত শব্দে ভুল করে। অনুবাদের আগে একটি শব্দ ঠিক করতে ট্রান্সক্রিপ্টে ট্যাপ করুন। এটি সেই ধাপ যা মার্কি দিতে পারে না — মার্কি তাৎক্ষণিকভাবে অনুবাদ করে, তাই ভুল শোনা শব্দ ইতিমধ্যে স্ক্রিনের অন্য পাশে চলে যায়। অডিও মোডে অনুবাদ ঠিক আপনি যা বলতে চেয়েছিলেন তার উপর ভিত্তি করে হয়।
  4. Translate ট্যাপ করুন। এটিই একমাত্র ধাপ যেখানে ক্রেডিট খরচ হয়। অনুবাদিত টেক্সটের প্রতি অক্ষর এবং সিন্থেসাইজড স্পিচের প্রতি অক্ষর হিসেবে বিল হয় — আগের ট্রান্সক্রিপশনের জন্য কিছু নয়।
  5. লক্ষ্য ভাষায় AI কণ্ঠস্বর প্লেব্যাক শুনুন। অনুবাদটি ফোন স্পিকারে (বা সংযুক্ত থাকলে ইয়ারবাডে) জোরে বলা হয়। যারা পড়তে পছন্দ করেন তাদের জন্য অনুবাদিত টেক্সটও স্ক্রিনে দেখা যায়।
  6. ডিভাইস হস্তান্তর করুন, অথবা পুনরায় চালান। তাদের পালার জন্য অন্য বক্তার কাছে ফোন পাস করুন, অথবা আবার শুনতে চাইলে রিপ্লে ট্যাপ করুন। পরবর্তী আদান-প্রদান শুরু করতে প্রস্তুত হলে স্ক্রিন পরিষ্কার করুন।

ক্রেডিট দক্ষতা — স্বাধীনভাবে ট্রান্সক্রাইব করুন, বেছে বেছে অনুবাদ করুন

এটি অডিও মোডের সেই অংশ যা মানুষকে অবাক করে। মার্কি ক্রমাগত বিল করে, কারণ এটি ক্রমাগত শুনছে এবং ক্রমাগত অনুবাদ করছে — এটিই এটিকে সরাসরি মনে করায়। অডিও মোড তা করে না। অডিও মোডে:

একটি বাজারের স্টলে দশটি আদান-প্রদানের কথোপকথন — "এটার দাম কত," "নীল রঙে আছে কি," "আমি দুটো নেব" — সাধারণত এক হাজার অক্ষরের কম অনুবাদিত টেক্সট এবং এক হাজার অক্ষরের কম সিন্থেসাইজড স্পিচ হয়। এটি পয়সার ব্যাপার। মার্কি মোডে একই দশটি আদান-প্রদানে বাক্যের মাঝে ক্রমাগত রিকগনাইজার চালু রাখতে হতো (বিশ্রী বিরতি, বিক্রেতা অন্য গ্রাহকের সাথে কথা বলা, পরিবেশের শব্দ সহ), যা সময়-ভিত্তিক হারে যোগ হতে থাকে। সংক্ষিপ্ত, লেনদেনমূলক কথোপকথনের জন্য অডিও মোড অনেক সস্তা — যে ধরনের কথোপকথন হয় যখন আপনি পায়ে হেঁটে ফোন হাতে হাতে দিচ্ছেন।

আপোষটি স্পষ্ট এবং সৎভাবে বলার মতো: অডিও মোড ক্রমাগত নয়। আপনি কখন অনুবাদ করবেন তা বেছে নিচ্ছেন, এবং এটি পালার মাঝে ছোট বিরতি তৈরি করে। বসে খাওয়ার ডিনার বা মিটিংয়ে যেখানে আপনি অনুবাদকে নিরবচ্ছিন্ন মনে করাতে চান, সেখানে মার্কিই সঠিক হাতিয়ার। বাকি সব কিছুর জন্য — বিশেষত নিচের পরিস্থিতিগুলোতে — অডিও মোড নিজেই নিজের মূল্য প্রমাণ করে।

যেসব পরিস্থিতিতে অডিও মোড তার মূল্য প্রমাণ করে

রাস্তার বিক্রেতার সাথে লেনদেন

আপনি তাইপেইয়ের নাইট মার্কেটে বা মারাকেশের সুকে আছেন। এক হাতে ফোন, অন্য হাতে কাগজের ব্যাগ। কোনো টেবিল নেই। বিক্রেতা কাউন্টারের পেছনে, তিন ফুট দূরে, তাদের নিজস্ব গ্রাহকের ভিড় নিয়ে। আপনি পুশ-টু-টক ট্যাপ করুন, প্রশ্ন করুন, Translate ট্যাপ করুন, এবং বিক্রেতা তাদের ভাষায় উত্তর শুনতে পান — স্ক্রিনের দিকে ঝুঁকতে হয় না। তারা যদি উত্তর দিতে চান, তাদের পালার জন্য কাউন্টারের ওপারে ফোন পাস করুন। পুরো আদান-প্রদান হয়তো পনেরো সেকেন্ড লাগে এবং একটি ক্রেডিটের ভগ্নাংশ খরচ হয়।

শোরগোলপূর্ণ বাজার ও পর্যটন এলাকা

ইয়ারবাডে অডিও প্লেব্যাক পরিবেশের শব্দ কেটে পৌঁছায় যেভাবে স্ক্রিন পড়া পারে না। উভয় বক্তার ইয়ারবাড থাকলে — বা একটি জোড়া ভাগ করলে — অনুবাদ সরাসরি কানে বাজে, এমনকি আশেপাশের রাস্তা ৮৫ ডেসিবেলে থাকলেও। এখানে পুশ-টু-টক সঠিক ইনপুট পছন্দ কারণ এটি পালার মাঝে মাইক বন্ধ রাখে, তাই রিকগনাইজার পাশের মানুষের কথা ট্রান্সক্রাইব করার চেষ্টা করে না।

কম দৃষ্টিশক্তির ব্যবহারকারীদের জন্য অ্যাক্সেসিবিলিটি

কম দৃষ্টিশক্তির ব্যবহারকারীদের জন্য AI ভয়েস প্লেব্যাক কোনো সুবিধার ফিচার নয় — এটিই মূল ফিচার। আপনি কথা বলুন, লক্ষ্য ভাষায় অনুবাদ বলা হয়, এবং কাউকে কখনো স্ক্রোলিং ডিসপ্লে পড়তে হয় না। এটি অডিও মোডের মার্কির উপর সবচেয়ে স্পষ্ট সুবিধাগুলোর একটি, এবং একটি কারণ কেন আমরা কোনো একটি বেছে না নিয়ে পণ্যে উভয় মোড রাখি।

রাইডশেয়ার ও ট্যাক্সির কথোপকথন

চালক গাড়ি চালাচ্ছেন। তারা আপনার স্ক্রিন দেখবেন না, এবং আপনিও চান না যে তারা দেখুক। ফোন স্পিকারে অডিও মোড আপনাকে দিকনির্দেশনা দিতে, রুট সম্পর্কে জিজ্ঞেস করতে, বা ভাড়া নিয়ে একমত হতে দেয় — কারো চোখ রাস্তা থেকে না সরিয়ে। চালকের উত্তরের জন্য, আপনি সামনের সিটের যাত্রীর কাছে ফোন দিতে পারেন, অথবা তারা সংক্ষেপে কথা বলার সময় সর্বদা-শ্রবণরত মোড ব্যবহার করতে পারেন।

স্বাস্থ্যসেবা ইনটেক ও ক্লিনিকাল প্রশ্ন

একজন নার্স ক্লিপবোর্ড থেকে প্রশ্ন পড়েন। আপনি আপনার নিজের ভাষায় উত্তর দেন। আপনি Translate ট্যাপ করুন, এবং চিকিৎসক উত্তর জোরে শুনতে পান — হ্যান্ডস-ফ্রি — যখন তারা ইনটেক ফর্মে লিখছেন বা টাইপ করছেন। ট্রান্সক্রিপশন বিনামূল্যে হওয়ায়, উত্তর দিতে যতটুকু সময় লাগে নিতে পারেন, যেতে যেতে পুনরায় বলতে পারেন, এবং উত্তর চূড়ান্ত হলেই কেবল ক্রেডিট খরচ হয়। চিকিৎসা সংক্রান্ত প্রপার নাউনের জন্য (ওষুধের নাম, রোগের নাম), পর্যালোচনা-ও-সম্পাদনা ধাপটি বিশেষভাবে উপকারী।

হোটেল ফ্রন্ট ডেস্ক ও সার্ভিস কাউন্টার

আপনি কাউন্টারের আপনার পাশে ফোন ধরুন, কথা বলুন, এবং তারপর কেরানির উত্তরের জন্য ওপারে স্লাইড করুন। অডিও উভয়ের জন্য যথেষ্ট জোরে বাজে, এবং স্ক্রিনের ট্রান্সক্রিপ্ট লবি প্রতিধ্বনিময় হলে ব্যাকআপ হিসেবে কাজ করে। সংক্ষিপ্ত আদান-প্রদানের জন্য — চেক-ইন, চেক-আউট, "কাছে কোনো ফার্মেসি আছে কি" — অডিও মোড প্রায় কিছুই খরচ করে না এবং দুজন মানুষের একটি ফোনের উপর ঝুঁকে পড়ার অস্বস্তি দূর করে।

ডিভাইস স্থাপন ও ভলিউম টিপস

কিছু বিষয় যা বাস্তব জগতে অডিও মোডকে আরও ভালো করে তোলে:

AI ভয়েস প্লেব্যাকের সৎ সীমাবদ্ধতা

AI কণ্ঠস্বর ভালো। কিন্তু মানবিক নয়। কিছু বিষয় জানা দরকার:

সচরাচর জিজ্ঞাসা

অডিও মোডে একটি অনুবাদে কত ক্রেডিট খরচ হয়?

আপনি কতটুকু অনুবাদ করছেন তার উপর নির্ভর করে, কিন্তু সংক্ষিপ্ত কথোপকথনমূলক বাক্য (একটি প্রশ্ন, একটি দাম, একটি এক-লাইনের উত্তর) সাধারণত প্রতিটিতে একটি ক্রেডিটের ভগ্নাংশ খরচ হয় — অনুবাদিত টেক্সটের প্রতি অক্ষর এবং তৈরি স্পিচের প্রতি অক্ষর হিসেবে বিল হয়। দশ পালার বাজারের কথোপকথন সাধারণত পয়সায় শেষ হয়। সঠিক হার জানতে মূল্য নির্ধারণ পৃষ্ঠা দেখুন।

ইন্টারনেট সংযোগ ছাড়া কি অডিও মোড ব্যবহার করা যাবে?

না। স্পিচ রিকগনিশন, অনুবাদ এবং ভয়েস সিন্থেসিস সবই ক্লাউডে চলে। দ্রুত সংযোগের চেয়ে স্থিতিশীল সংযোগ বেশি গুরুত্বপূর্ণ — অডিও মোড ক্রমাগত স্ট্রিমের পরিবর্তে সংক্ষিপ্ত অডিও বার্স্ট পাঠায়, তাই সংযুক্ত থাকলে অস্থির সেলুলার ডেটায়ও ভালো কাজ করে।

ভুল বললে কী হবে — আবার রেকর্ড করা যাবে?

হ্যাঁ, এবং করা উচিত। ট্রান্সক্রিপশন বিনামূল্যে, তাই পুনরায় শুরু করার কোনো জরিমানা নেই। ট্রান্সক্রিপ্ট পরিষ্কার করুন এবং আবার পুশ-টু-টক চাপুন, অথবা শুধু কথা বলতে থাকুন — ট্রান্সক্রিপ্ট সরাসরি আপডেট হয়। আপনি Translate ট্যাপ করলেই কেবল অনুবাদে প্রতিশ্রুতিবদ্ধ হন, এবং সেই পয়েন্টের আগে সরাসরি ট্রান্সক্রিপ্ট টেক্সট সম্পাদনা করতে পারেন।

কথোপকথনের মাঝে মার্কি মোডে যাওয়া যাবে?

হ্যাঁ। মোড নির্বাচন একটি টগল, সেশন সীমানা নয়। কথোপকথন দাঁড়িয়ে বাজারের আদান-প্রদান থেকে বসে কফি পানে পরিবর্তিত হলে, ভাষা জোড়া বা ইতিহাস না হারিয়ে মার্কিতে পরিবর্তন করুন। অডিও মোডের বিনামূল্যে ট্রান্সক্রিপশনের সাথে ওভারল্যাপ করে এমন তৃতীয় সম্পর্কিত মোডের জন্য একই ভাষার ট্রান্সক্রিপশন মোড দেখুন।

অডিও মোড ব্যবহার করে দেখুন

আপনার নিকট ভবিষ্যতে যদি কোনো ভ্রমণকারীর কথোপকথন থাকে — বাজার, ট্যাক্সি, ক্লিনিক, হোটেল ডেস্ক — অডিও মোডই প্রথমে চেষ্টা করার মতো। এটিকে ভিন্ন ভাষার কারো সাথে কথা বলার সাধারণ অভ্যাসগুলোর সাথে যুক্ত করুন (সংক্ষিপ্ত বাক্য, একবারে একটি প্রশ্ন, প্রপার নাউন নিশ্চিত করুন) এবং এটি বেশিরভাগ বাস্তব-জগতের আদান-প্রদান এমন খরচে সামলাবে যা আপনার বিলে চোখে পড়বে না।

$১-এ চেষ্টা করুন — কোনো সাবস্ক্রিপশন নেই · মূল্য দেখুন · সব ফিচার দেখুন


Live Translate Live ব্যবহার করে দেখুন

আজই রিয়েল-টাইম দ্বিভাষিক কথোপকথন অনুবাদ শুরু করুন।

বিনামূল্যে শুরু করুন