Deepgram + Google Translate'i Neden ElevenLabs Scribe v2 + Gemini 2.5 ile Değiştirdik

Mayıs 2026

Bu yazı, 103 dil lansman duyurusunun perde arkasını anlatan eşlik yazısıdır. O yazı "işte ne değişti" diyorsa, bu yazı "işte neden bu tedarikçileri seçtik" diyor. Öne çıkan sonuç: yaklaşık iki katına çıkan dil desteği, daha düşük gecikmeli konuşma tanıma, konuşma bağlamını koruyan çeviri ve 74 dilde canlı yapay zeka ses oynatma.

Tedarikçileri neden değiştirdik

Eski altyapı, konuşma tanıma için Deepgram ve çeviri katmanı için Google Cloud Translation'dan oluşuyordu. Lansman sırasında sağlamdı. Tavan, dil desteğiydi. Deepgram'ın akış modeli üretim kalitesinde yaklaşık 40–50 dili destekliyordu ve liste, Bengalce, Tamilce, Teluguca, Marathi, Mandarin'den ayrı bir giriş olarak Kantonca, Birmanca, Khmer, Galce, İbranice ve daha fazlasını isteyen kullanıcılara yetişecek kadar hızlı büyümüyordu.

İkinci baskı çıktı tarafındaydı. Ses modunu göndermek istiyorduk — sonucun dinleyicinin dilinde sesli olarak okunduğu sıra tabanlı çeviri. Bu, eski altyapının sahip olmadığı bir TTS katmanı eklenmesini gerektiriyordu. Boru hattının bir bölümü için zaten bir tedarikçi getiriyorsanız, her şeyi tek elde toplamayı düşünmek mantıklı.

Konuşma tanıma için neden Scribe v2

ElevenLabs, Ocak 2026'da Scribe v2 Realtime'ı yayımladı. ElevenLabs'ın öne sürdüğü iddialar: ~150 ms akış gecikmesi, FLEURS kıyaslamasında %5,8 çok dilli kelime hata oranı ve sektör standardı ASR modelleriyle karşılaştırılan 30 kıyaslama dilinde %93,5 doğruluk. Desteklenen dil listesi yaklaşık 100 civarında olup Mükemmel (≤%5 WER), Yüksek (%5–10), İyi (%10–15) ve Gelişmekte (%15+) olmak üzere dört kademeli yayımlanmış bir doğruluk tablosu sunuluyor.

Halihazırda çalıştırdığımız diller üzerinde Deepgram'a karşı kendi karşılaştırma testimizi yaptık. Gecikme iddiası doğrulandı — transkribe edilen kelimeler konuşmacının sesiyle neredeyse eş zamanlı beliriyor; bu kadar hızlı ki algılanan darboğaz çeviri adımına kayıyor. Baş başa transkripsiyon kalitesi, halihazırda desteklediğimiz dillerde eşit ya da daha iyiydi; en büyük kazanımlar zayıf kalan dillerdeydi: Hintçe "çalışıyor ama kaba" seviyesinden "temiz çalışıyor" seviyesine yükseldi, Bengalce ve Tamilce "üretimde değil" seviyesinden "Yüksek kademede üretimde" seviyesine geçti.

Beğendiğimiz diğer şey: Scribe, yerel segment başına dil tanımlama özelliğiyle geliyor; bu da iki konuşmacı yönetimimizi önemli ölçüde basitleştirdi ve her ekleme için entegrasyon yükünü katlamadan dil listesini büyütebileceğimiz anlamına geldi.

Çeviri için neden Gemini 2.5

Durumsuz cümle başına makine çevirisinin bilinen bir dizi başarısızlık modu vardır. Zamirler öncülleri olmadan çevrilir, cinsiyetli diller konuşma ortasında kayar, nezaket kayıtları değişir ve deyimler sözcüğü sözcüğüne saçmalık olarak çıkar. Bunların hepsinin ortak bir kök nedeni vardır: çevirmen yalnızca mevcut cümleyi görür.

Gemini 2.5, konuşma bağlamını sıralar arasında taşır. Model, bir sonraki ifadeyi çevirirken konuşmanın yakın geçmişini görür; bu da üstüne özel bir şey eklememize gerek kalmadan bu kayma sorunlarının çoğunu çözer. Pratikte çeviriler, sözlük araması gibi değil, konuşma boyunca sizinle aynı odada bulunan birinin çalışması gibi hissettiriyor. Ödün verilen nokta, eski durumsuz MT'ye kıyasla biraz daha yüksek çağrı başına gecikme — onlarca milisaniye yerine birkaç yüz milisaniye — ancak "konuşmacı konuşmayı bırakır" ile "dinleyici çeviriyi görür" arasındaki uçtan uca süre, ölçtüğümüz dillerde hâlâ bir saniyenin çok altında.

Gemini'yi bu iş için beğenmemizin diğer nedeni: çeviri tarafındaki dil desteği artık kısıtlayıcı bir etken değil. Gemini 2.5, Scribe'ın tanıdığı her dili her yönde kapsıyor; bu da herhangi dilden herhangi dile 10.506 çift iddiasını iddialı değil gerçek kılıyor.

Ses modu TTS için neden ElevenLabs v3

Ses modu yeni bir boru hattı aşaması getirdi: çevrilen metni dinleyicinin dilinde sesli konuşmaya dönüştürmek. ElevenLabs v3'ü dil desteği (~74 dil bugün) ve ses kalitesi nedeniyle seçtik. Sesler dikte yazılımı gibi değil, insan gibi duyuluyor; çok dilli destek ise aynı ürün yüzeyinin desteklenen dil listemizin tamamının üst yarısında çalışması anlamına geliyor. ElevenLabs Flash v2.5'in mevcut olduğu dillerde onu tercih ediyoruz: daha hızlı ve daha ucuz, kalitesi ise yan yana karşılaştırmayı zorlaştıracak kadar yakın.

Canlı ses oynatmalı dillerin listesi, ElevenLabs kapsam güncellemeleri gönderdikçe büyüyor; uygulama, yeni diller kullanılabilir hale geldiğinde bunları otomatik olarak alıyor.

Kullanıcıların fark ettikleri

Rakamlar

Kullanıcıya yönelik versiyonu istiyorsanız

Lansman duyurusu yazısı, aynı değişikliği kullanıcı tarafından ele alıyor — dil seçicisinde yenilikler, her doğruluk kademesinden ne beklemeli ve Ses modunun pratikte nasıl hissettirdiği. Tam kanonik dil referansı /languages adresinde. Denemek istiyorsanız, marquee burada ve Ses modu burada.


Live Translate Live'ı Deneyin

Gerçek zamanlı iki dilli konuşmaları çevirmeye bugün başlayın.

Ücretsiz Başla