Konuşma Tanıma Haziran 03 · 3 dk okuma

Konuşma Tanıma Doğruluk Testi – Arapça Versiyonu

SESTEK'in önde gelen SR firmalarıyla karşılaştırıldığı Konuşma Tanıma Doğruluğu Testi 2024 – Arapça Versiyonu’nu inceleyin. Bu test, SESTEK'in Arapça konuşma tanımadaki üstün performansını ve güvenilirliğini vurgulamaktadır.

Konuşma Tanıma Doğruluk Testi – Arapça Versiyonu

Arapça Konuşma Tanıma Motoru (SR-Speech Recognition) karşılaştırma sonuçlarımızı duyurmaktan heyecan duyuyoruz. Kapsamlı değerlendirmemizde, Arapça SR çözümlerimizi Google, Azure, AWS, Whisper ve Speechmatics gibi firmaların çözümleriyle karşılaştırdık. Bu değerlendirme, anadili Arapça olan çeşitli kişilerin yer aldığı halka açık bir veri seti ve müşteri hizmetleri temsilcisi telefon görüşmelerinden oluşan bir veri seti kullanılarak gerçekleştirildi.

 

Konuşmayı Metne Dönüştürmede Lehçe Zorluğu

Etkili bir konuşma tanıma (SR) çözümü oluşturmak, karmaşık seslerin metne dönüştürülmesini sağlayan sofistike algoritmalar ve modeller gerektirir. Bu dönüşüm, aksanlar ve lehçeler de dahil olmak üzere dilin inceliklerini derinlemesine anlamayı gerektirir.

SR teknolojisinin önündeki temel engel, özellikle Arapça olmak üzere bölgesel lehçelerin değişkenliğidir. Öncelikle standartlaştırılmış dilsel veriler üzerine eğitilen sistemler, genellikle normdan farklı olan konuşmaları doğru bir şekilde yazıya dökmede başarısız olur.

Modern Standart Arapça (MSA), Orta Doğu ve Kuzey Afrika'daki (MENA) çoğu resmi ortamda resmi dil olarak geçerliyken, günlük konuşma dili büyük ölçüde farklılık gösterir. Bölgesel lehçeler telaffuz, dilbilgisi ve kelime dağarcığı açısından büyük farklılıklar gösterir. Bu farklılıkların üstesinden gelmek için, konuşma tanıma sistemlerinin çeşitli lehçeleri kapsayan hem doğruluğu hem de işlevselliği artıran kapsamlı veri setleri üzerinde eğitilmesi gerekir.

Doğruluk testlerimizde, SR sistemlerini değerlendirmek için yaygın bir ölçüm olan Kelime Hata Oranı (WER-Word Error Rate) yöntemi kullanıldı. WER, SR çıktısındaki tutarsızlıkların yüzde oranını, doğru "gerçek transkripsiyon" ile karşılaştırarak hesaplar ve yerine koymalar, silmeler ve eklemeler ile doğru transkripsiyonun toplam kelime sayısını dikkate alır. WER değerinin düşük olması hedeflenmektedir.



 

Test Veri Seti

Referans olarak kullanılan veri setleri aşağıdaki gibidir:

 

1. Arapça Medya Konuşma Veri Seti

İçerik: A1 Arabiya, France 24 Arabic ve BBC News'ten kamuya açık set.

Alt Küme: Testler için rastgele 1 saatlik alt küme (15 Nisan 2024 sonuçları).

 

Sonuçlar:

Speech Recognition accuracy rate

 

2. Müşteri Hizmetleri Temsilcisi Telefon Görüşmesi

İçerik: Mısır lehçesinde gerçek telefon görüşmeleri. 

Teknik: Çağrı merkezi alanı (domain) ve müşteri için adaptasyon yapıldı.

 

Sonuçlar:

Speech Recognition accuracy rate

 

Aşağıdaki modeller test için kullanıldı:

  • AssemblyAi Uni-1 (nano)
  • Google's latest-short
  • Speechmatics enhanced
  • Whisper Large-v3

 

Adaptasyonun Etkisi

Gerçekleştirdiğimiz test, SR sistemlerinin doğruluğunu artırmada adaptasyonun kritik rolünü vurgulamaktadır. Çeşitli lehçeleri içeren geniş veriler üzerinde eğitilerek ve akustik modellerin bu farklılıkları daha iyi ele alacak şekilde geliştirilerek, SR sistemleri standart olmayan diller için transkripsiyon doğruluğunu büyük ölçüde artırabilir. Bu, ses kalitesinin ve arka plan gürültüsünün değişebileceği pratik uygulamalarda güvenilir SR performansını sağlamak için çok büyük bir öneme sahiptir.

 

Sonuç

SESTEK olarak, son 20 yıldır farklı diller için SR çözümleri geliştirmekteyiz. Müşteri hizmetleri alanında geniş bir uzmanlığa sahibiz ve Arapça dilinde sıfıra yakın hata oranımızdan memnunuz. 

Yapılan kıyaslama, farklı SR firmaları arasında doğrulukta kayda değer değişkenliği ortaya çıkararak, belirli lehçeler için adaptasyon yapmanın sağladığı önemli faydaların altını çizmektedir. Arapça dilinin benzersiz karmaşıklıklarıyla yüzleşmeye devam ederken, teknolojik gelişmelere olan ihtiyaç açık bir şekilde devam etmektedir. Kendi alanında adaptasyonlar ve ilerlemelerle, Arapça konuşma tanıma doğruluğunda yeni standartlar belirlemeyi hedefliyoruz.

 

Feragat: Çıktı ile ilgili olarak, diğer çözüm sağlayıcılardan her koşulda daha iyi olduğumuzu iddia etmiyoruz. Konuşma tanıma süreci, geniş bir arama alanı üzerinde milyonlarca parametrenin hesaplanmasını ve optimize edilmesini içerir. Büyük ölçüde stokastiktir (istatistiksel olarak analiz edilebilen ancak kesin olarak tahmin edilemeyen bir model). Bir tedarikçinin SR motoru, belirli bir kayıt için diğerlerinden daha iyi performans gösterebilir, ancak aynı motor bir başkası için farklı bir performans sergileyebilir.

Yazar: Debi Çakar, SESTEK Ürün Ekibi

 

Keşfetmeye Devam Et
GPT-4o'ya Yakından Bakış: Sesin Dönüştürücü Gücü
GPT-4o Mayıs 20 · 5 dk okuma
GPT-4o'ya Yakından Bakış: Sesin Dönüştürücü Gücü

GPT-4o’nun ses özellikleriyle teknoloji dünyasında yarattığı dönüşümü keşfedin. Gelin OpenAI’ın bu yeni modelini, simultane çeviri, duygu analizi ve insansı diyalog gibi özelliklerine odaklanarak yakından inceleyelim.

Devamını Oku
Duygu Analizi ile Çağrı Merkezinizi Nasıl Güçlendirebilirsiniz
Duygu Analizi Mayıs 06 · 5 dk okuma
Duygu Analizi ile Çağrı Merkezinizi Nasıl Güçlendirebilirsiniz

Müşteri etkileşimlerini anlamak önemlidir, ancak gerçek ilerleme müşterilerin düşüncelerini ve duygularını anlık olarak kavramaktan gelir. Bu makalede, Duygu Analizinin tanımını, işleyişini ve beş temel faydasını inceleyeceğiz.

Devamını Oku
Gerçek Zamanlı İşlemler: Mükemmel Çağrı Merkezi Performansının Vazgeçilmezi
Gerçek Zamanlı İşlemler Temmuz 15 · 6 dk okuma
Gerçek Zamanlı İşlemler: Mükemmel Çağrı Merkezi Performansının Vazgeçilmezi

Gerçek zamanlı işlemler teknolojisinin çağrı merkezi performansını nasıl artırdığını ve SESTEK’in gelişmiş özelliklerinin operasyonel verimlilik ve müşteri memnuniyeti için neden kritik olduğunu keşfedin.

Devamını Oku

Bize Ulaşın

Teşekkürler!

İletişime geçtiğiniz için teşekkürler. En kısa sürede size geri döneceğiz.

Başarısız!


Anasayfaya Dön