Konuşma Tanıma nedir?

Sesinizi Giriş Yöntemi Olarak Kullanma

Konuşma tanıma, konuşulan girdileri sistemlere ayıran bir teknolojidir. Bilgisayarınızla, telefonunuzla veya cihazınızla konuşursunuz ve bazı eylemleri tetiklemek için girdi olarak söylediğinizi kullanır. Teknoloji, başka yollarla yazmak, tıklamak veya seçmek gibi diğer giriş yöntemlerini değiştirmek için kullanılıyor. Cihazları ve yazılımı daha kullanıcı dostu hale getirmek ve verimliliği artırmak için bir araçtır.

Ordu da dahil olmak üzere konuşma tanınırlığının kullanıldığı pek çok uygulama ve alan vardır, bunlara engelli kişiler için yardım (sakat veya hiç el veya parmaksız bir kişi hayal edin), tıp alanında, robotikte vb. bilgisayar ve cep telefonları gibi yaygın cihazlar arasında yayılımı nedeniyle neredeyse herkes konuşma tanıma sistemine maruz kalacaktır.

Bazı akıllı telefonlar konuşma tanıma işlevini ilginç bir şekilde kullanıyor. IPhone ve Android cihazlar bunun örnekleridir. Aralarında, 'Çağrı ofisi' gibi sözlü talimatlar alarak bir kişiyi aramayı başlatabilirsiniz. 'Bluetooth'u Aç' gibi başka komutlar da eğlendirilebilir.

Konuşma Tanıma İle İlgili Problemler

Konuşma tanıma, metne Konuşma (STT) olarak bilinen versiyonunda, konuşulan kelimeleri metne çevirmek için uzun bir süredir kullanılmaktadır. “Konuşuyorsunuz, bu tipler”, ViaVoice'nin kutusunda olduğunu söylüyor. Ancak STT ile bildiğimiz bir sorun var. 10 yıldan fazla bir süre önce ViaVoice'i denedim ve bilgisayarımda bir hafta bile kalmadı. Niye ya? Oldukça hatalıydı ve herşeyi yazmaktan daha fazla zaman ve enerji harcayarak ve düzelterek harcadım. ViaVoice, sektördeki en iyilerden biridir, bu yüzden gerisini hayal edin. Teknoloji olgunlaştı ve gelişti, ancak metne konuşma hala insanlara soru soruyor. Temel zorluklarından biri, sözcükleri telaffuz eden insanlar arasındaki muazzam çeşitliliklerdir.

Bütün diller konuşma tanımada değil, İngilizce olanlar da desteklenmiyor. Sonuç olarak, konuşma tanıma yazılımını çalıştıran çoğu cihaz, yalnızca İngilizce ile makul bir performans sergiliyor.

Bir dizi donanım gereksinimi, konuşma tanıma işlemini belirli durumlarda dağıtılmasını zorlaştırır. Arka plan gürültüsünü filtreleyecek kadar akıllı ama aynı zamanda sesi doğal olarak yakalamak için yeterince güçlü bir mikrofona ihtiyacınız var.

Arka plan gürültüsü hakkında konuşmak, tüm sistemin başarısız olmasına neden olabilir. Sonuç olarak, çoğu zaman kullanıcının denetimi dışında olan sesler nedeniyle konuşma tanıma başarısız olur.

Konuşma tanıma, kitle metin girdisi için bir üretkenlik aracı olmaktan çok, VoIP gibi yeni telefon ve iletişim teknolojileri için bir giriş yöntemi olarak daha iyi olduğu kanıtlanmıştır.

Konuşma Tanıma Uygulamaları

Teknoloji birçok alanda popülerlik kazanıyor ve aşağıdaki konularda başarılı oldu:

- Cihaz kontrol. Sadece bir Android telefona "OK Google" demek, ses komutlarınıza tüm kulakları veren bir sistemi tetikler.

- Araba Bluetooth sistemleri. Birçok araç, telsiz mekanizmasını Bluetooth üzerinden akıllı telefonunuza bağlayan bir sistemle donatılmıştır. Daha sonra akıllı telefonunuza dokunmadan arama yapabilir ve alabilirsiniz, hatta numaraları söyleyerek numara çevirebilirsiniz.

- Ses transkripsiyonu. İnsanların çok fazla yazmaları gereken alanlarda, bazı akıllı yazılımlar konuşulan kelimeleri yakalar ve metne dönüştürür. Bu, bazı kelime işlem yazılımında mevcut. Ses transkripsiyonu görsel sesli mesaj ile de çalışır.