Konuşma Tanıma Haziran 03 · 3 dk okuma

Konuşma Tanıma Doğruluk Testi – Arapça Versiyonu

Arapça Konuşma Tanıma Motoru (SR-Speech Recognition) karşılaştırma sonuçlarımızı duyurmaktan heyecan duyuyoruz. Kapsamlı değerlendirmemizde, Arapça SR çözümlerimizi Google, Azure, AWS, Whisper ve Speechmatics gibi firmaların çözümleriyle karşılaştırdık. Bu değerlendirme, anadili Arapça olan çeşitli kişilerin yer aldığı halka açık bir veri seti ve müşteri hizmetleri temsilcisi telefon görüşmelerinden oluşan bir veri seti kullanılarak gerçekleştirildi.

 

Konuşmayı Metne Dönüştürmede Lehçe Zorluğu

Etkili bir konuşma tanıma (SR) çözümü oluşturmak, karmaşık seslerin metne dönüştürülmesini sağlayan sofistike algoritmalar ve modeller gerektirir. Bu dönüşüm, aksanlar ve lehçeler de dahil olmak üzere dilin inceliklerini derinlemesine anlamayı gerektirir.

SR teknolojisinin önündeki temel engel, özellikle Arapça olmak üzere bölgesel lehçelerin değişkenliğidir. Öncelikle standartlaştırılmış dilsel veriler üzerine eğitilen sistemler, genellikle normdan farklı olan konuşmaları doğru bir şekilde yazıya dökmede başarısız olur.

Modern Standart Arapça (MSA), Orta Doğu ve Kuzey Afrika'daki (MENA) çoğu resmi ortamda resmi dil olarak geçerliyken, günlük konuşma dili büyük ölçüde farklılık gösterir. Bölgesel lehçeler telaffuz, dilbilgisi ve kelime dağarcığı açısından büyük farklılıklar gösterir. Bu farklılıkların üstesinden gelmek için, konuşma tanıma sistemlerinin çeşitli lehçeleri kapsayan hem doğruluğu hem de işlevselliği artıran kapsamlı veri setleri üzerinde eğitilmesi gerekir.

Doğruluk testlerimizde, SR sistemlerini değerlendirmek için yaygın bir ölçüm olan Kelime Hata Oranı (WER-Word Error Rate) yöntemi kullanıldı. WER, SR çıktısındaki tutarsızlıkların yüzde oranını, doğru "gerçek transkripsiyon" ile karşılaştırarak hesaplar ve yerine koymalar, silmeler ve eklemeler ile doğru transkripsiyonun toplam kelime sayısını dikkate alır. WER değerinin düşük olması hedeflenmektedir.



 

Test Veri Seti

Referans olarak kullanılan veri setleri aşağıdaki gibidir:

 

1. Arapça Medya Konuşma Veri Seti

İçerik: A1 Arabiya, France 24 Arabic ve BBC News'ten kamuya açık set.

Alt Küme: Testler için rastgele 1 saatlik alt küme (15 Nisan 2024 sonuçları).

 

Sonuçlar:

Speech Recognition accuracy rate

 

2. Müşteri Hizmetleri Temsilcisi Telefon Görüşmesi

İçerik: Mısır lehçesinde gerçek telefon görüşmeleri. 

Teknik: Çağrı merkezi alanı (domain) ve müşteri için adaptasyon yapıldı.

 

Sonuçlar:

Speech Recognition accuracy rate

 

Aşağıdaki modeller test için kullanıldı:

  • AssemblyAi Uni-1 (nano)
  • Google's latest-short
  • Speechmatics enhanced
  • Whisper Large-v3

 

Adaptasyonun Etkisi

Gerçekleştirdiğimiz test, SR sistemlerinin doğruluğunu artırmada adaptasyonun kritik rolünü vurgulamaktadır. Çeşitli lehçeleri içeren geniş veriler üzerinde eğitilerek ve akustik modellerin bu farklılıkları daha iyi ele alacak şekilde geliştirilerek, SR sistemleri standart olmayan diller için transkripsiyon doğruluğunu büyük ölçüde artırabilir. Bu, ses kalitesinin ve arka plan gürültüsünün değişebileceği pratik uygulamalarda güvenilir SR performansını sağlamak için çok büyük bir öneme sahiptir.

 

Sonuç

SESTEK olarak, son 20 yıldır farklı diller için SR çözümleri geliştirmekteyiz. Müşteri hizmetleri alanında geniş bir uzmanlığa sahibiz ve Arapça dilinde sıfıra yakın hata oranımızdan memnunuz. 

Yapılan kıyaslama, farklı SR firmaları arasında doğrulukta kayda değer değişkenliği ortaya çıkararak, belirli lehçeler için adaptasyon yapmanın sağladığı önemli faydaların altını çizmektedir. Arapça dilinin benzersiz karmaşıklıklarıyla yüzleşmeye devam ederken, teknolojik gelişmelere olan ihtiyaç açık bir şekilde devam etmektedir. Kendi alanında adaptasyonlar ve ilerlemelerle, Arapça konuşma tanıma doğruluğunda yeni standartlar belirlemeyi hedefliyoruz.

 

Feragat: Çıktı ile ilgili olarak, diğer çözüm sağlayıcılardan her koşulda daha iyi olduğumuzu iddia etmiyoruz. Konuşma tanıma süreci, geniş bir arama alanı üzerinde milyonlarca parametrenin hesaplanmasını ve optimize edilmesini içerir. Büyük ölçüde stokastiktir (istatistiksel olarak analiz edilebilen ancak kesin olarak tahmin edilemeyen bir model). Bir tedarikçinin SR motoru, belirli bir kayıt için diğerlerinden daha iyi performans gösterebilir, ancak aynı motor bir başkası için farklı bir performans sergileyebilir.

Yazar: Debi Çakar, SESTEK Ürün Ekibi

 

Keşfetmeye Devam Et
Konuşma Tanıma Mart 27 · 3 dk okuma
Konuşma Tanıma Karşılaştırma Testi 2023

Konuşma Tanıma nedir? Otomatik Konuşma Tanıma (ASR) olarak da bilinen Konuşma Tanıma (SR), sisteme ulaşan sesleri metne dönüştürmek için kullanılan bir sistemdir. Bu, kullanıcıların tuşlar veya düğmeler gibi geleneksel araçlar...

Devamını Oku
Müşteri Deneyimi Eylül 17 · 6 dk okuma
Müşteri Deneyimi Odaklı Self Servis: Bir Bankacılık Başarı Hikayesi

“Kullanıcı deneyimi” veya moda tabirle “UX.” Son zamanlarda bu terimi ne kadar sık duyduğumuzu fark ettiniz mi? Mobil uygulamalardan ürün tasarımına, web sitelerinden tanıtım yazılarına uzanan farklı alanlarda sürekli olarak...

Devamını Oku
Strateji Ocak 30 · 5 dk okuma
Gartner’ın 2023 ve Sonrası İçin En İyi 10 Stratejik Öngörüsü

Geçtiğimiz yıllarda olduğu gibi bu yıl da teknoloji kararlarımızı büyük ölçüde etkileyeceğine inandığımız ilk on trendi sizler için derledik.

Devamını Oku

Bize Ulaşın

Teşekkürler!

İletişime geçtiğiniz için teşekkürler. En kısa sürede size geri döneceğiz.

Başarısız!


Anasayfaya Dön

Application Form

Click here or drop files to upload

Teşekkürler!

Hepsi Tamam!


- pozisyonu için başvurunuz başarıyla gönderildi.


Kariyer Sayfasına Dön

Başarısız!


Kariyer Sayfasına Dön