Linux Ses Tanıma Durumu

Giriş

Makaleleri araştırmak için çok fazla zaman harcıyorum ve çoğu zaman tren istasyonuna giderken veya dışarıda ve genel olarak bir makalenin konusuyla ilgili konuları düşünüyorum.

Bir akşam iş yerimden istasyona 1.5 mil yürüyerek yürürken, “ne söylemek istediğimi kaydedebilsem iyi olmaz mıyım, sonra otomatik olarak daha sonra düzenleyebileceğim ve biçimlendirebileceğim bir metin dosyasına yazdım” diye düşündüm. .

Linux'ta dikte yazılımı kullanarak doğrudan bir mikrofona kayıt yapmak, dosyayı MP3 veya WAV biçiminde kaydetmek ve Chrome'u kullanarak komut satırından dönüştürmek dahil olmak üzere, ses tanıma ve dikte için mevcut farklı seçeneklere bakarak uzun saatler geçirdim. ve Android uygulamaları.

Bu makalede, yoğun emek günlerinden sonra bulguları vurgulamaktadır.

Linux Seçenekleri

Linux'ta dikte ve ses tanıma yazılımı bulmaya çalışmak, olabildiğince kolay değil ve mevcut seçenekler bu kadar akıllı değil.

Bu wikipedia sayfası CMU Sfenks, Julius ve Simon dahil olmak üzere potansiyel seçeneklerin bir listesini içerir.

Şu anda Debian Testing'i temel alan SparkyLinux'u kullanıyorum ve depolarda bulunan tek ses tanıma paketinin Sphinx olduğunu söyleyebilirim.

Denediğim yerli Linux programları, WAV dosyalarını metne dönüştüren PocketSphinx ve doğrudan bir mikrofonu kaydetmenizi sağlayan bir python uygulaması olan Freespeech-VR idi.

Ayrıca VoiceNote II ve Dictanote gibi birkaç Chrome uygulamasını denedim.

Sonunda "Dikte ve E-posta" ve "Konuşma ve Konuşma Dikte" Android Uygulamalarını denedim.

Ürünü olan FreeSpeech-VR

Freespeech-VR standart depolarda mevcut değildir. Dosyaları buradan indirdim.

Zip dosyasının içeriğini indirip çıkardıktan sonra bir terminal açtım ve dosyaların ayıklandığı klasöre gittim.

Freespeech-vr açmak için aşağıdaki komutu yazdım.

sudo python freespeech-vr

Oldukça iyi bir mikrofon ve oldukça açık bir güney ingiliz aksanıyla bir çift kulaklığım var.

Aşağıdaki metin freespeech-vr penceresinde görüntülendi:

Birimin hoşgeldin köpeklerine hoşgeldin Günümüzde testlerin nasıl yönetildiğini garanti etmeliyim Test etmem gereken bir şey var Ne zaman Metin kullanır Sistem yolunu kullanır Konuşma I Her biri için Bir'de Kalmak umuduyla Ve Biri'nin anlamına gelir. Bir sonraki ofch ismimi söyleyince Ea bu telefonu arayacak Bu dosya Yeterli bir durumda Eller-Sfenks'e telefon konuşuluyor Telefonları paylaşmayacaksınız Eğitimli ve araçlar Konuşmayı bitirdi Bitirdiğinizde Kullanılmış bir dosya var Son Öykü A ve A tarafından Şunu kullanarak Ne kadar başarılı olduğunu Bu Linux nasıl oldu?

Ben sadece bunun, Köpekler Birimi'nin web sitesi olmadığını ve hiçbir noktada Altın tavuklarla ilgili bir şeyden bahsetmediğini söylemek isterim. Ses tanıma yazılımını kullanma sürecini anlatmaya çalışıyorum.

Yazılımın birkaç adımı çeşitli pitch ve hız da dahil olmak üzere denedim, ancak doğruluk zayıftı.

PocketSphinx

PocketSphinx bir WAV dosyasını alıp komut satırını kullanarak metne dönüştürür.

PocketSphinx, Debian depoları aracılığıyla kullanılabilir ve çoğu dağıtım için mevcut olmalıdır.

PocketSphinx ile bulduğum temel sorun, ses tanıma, dil dosyaları, sözlükler ve sistemin nasıl eğitileceği kavramlarında neredeyse bir dereceye kadar gereksinim duymanızdır.

PocketSphinx'i kurduktan sonra CMU Sphinx web sitesine gitmeli ve mümkün olduğunca fazla bilgi edinmelisiniz. Aşağıdaki model dosyasını da indirmeniz gerekiyor.

(Eğer ana dili İngilizce olan bir kişi değilseniz, sizin için uygun olan dil modelini seçin).

PocketSphinx ve Sphinx'in belgelerinin genel olarak insanı anlamak zor, ancak olası sözlüklerin bir listesini sağlamak için sözlük dosyalarını kullanabiliyordum ve dil modelleri olası telaffuzların bir listesini sunuyor.

PocketSphinx'i test etmek için, kendi sesimin bir kaydını, “The Devils Advocate” daki Al Pacino'dan bir snippet ve “Morgan Freeman” dan bir snippet kullandım. Bunun amacı farklı sesleri denemekti ve benim için Morgan Freeman kadar açık bir hikaye anlatacak kimse yok ve hiç kimse Al Pacino gibi bir çizgi sunmuyor.

PocketSphinx'in çalışması için bir WAV dosyasına ihtiyacı var ve belirli bir formatta olması gerekiyor. Dosya MP3 biçimindeyse, WAV biçimine dönüştürmek için ffmpeg komutunu kullanın:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx'i çalıştırmak için aşağıdaki komutu kullanın:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-tr-us.lm 2> voice2.log

pocketsphinx_continuous bir WAV dosyasını alır ve metne dönüştürür.

Yukarıdaki komutta pocketsphinx'in "cmusphinx-5.0-en-us.lm" dil modeliyle "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" adlı bir sözlük dosyasını kullanması söylenir. Metne dönüştürülen dosyaya voice2.wav (sesimle yaptığım bir kayıt) denir. Son olarak 2>, tüm gerekli olanı, ses2.log adlı bir dosyaya gerek duymadığınız yere yerleştirir. Testin gerçek sonuçları terminal penceresinde görüntülenir.

Sesimi kullanan sonuçlar şöyledir:

Bir sonraki haftada bir sonraki hoş geldiniz.

Sonuçlar, freespeech-vr ile olduğu kadar korkunç değil ama yine de gerçekten kullanışlı değil. Daha sonra Al Pacino ile PocketSphinx kullanmayı denedim ama bu hiç sonuç vermedi.

Sonunda Morgan Freeman'ın sesini "Bruce Yüce" filminden kullanmayı denedim ve sonuçlar şöyle:

000000000: onun üzerinde olacağız
000000001: hepsi bu kadar zor evet evet şu anda evet bu en çok canlıyız.
000000002: Asansörde biraz beyzbol saatinin anahtarı ya da hayatlarında ne yapacağını biliyorsunuz
000000003: İyileşecek olanlar neler?
000000004: yazmamışlar
000000005: Benim üzerimde
000000006: kuralların olmalı
000000007: seni bekliyordum
000000008: Ve burada bir örnek olduğunu öğrendim katil yılbaşı partisi oldu
000000009: o yazmanın yollarından biri çıkıyor. eşek her zaman bir tane giydiğini düşündüm
000000010: birleşik problemi o kadar iyi vermeyecekmişim gibi bir şey yapamayacağımı düşündüğüm zaman, o anda dünyanın her yerinde olamayacağını düşündüğüm evlerde ve
000000011: buna sahip bir baba
000000012: bununla ilgili çok şey var
000000013: verilen
000000014: her şey çok düşmeyenler
000000015: sonbaharda
000000016: sadece benim için iyi tutun
000000017: Ben de öyle bir mutluluğa sahip olacağımı düşünmüyordum ki, bu bir şeyle evlenecek olanların hiçbiri, bizden farklı değil.

Testim neredeyse bilimsel olarak kabul edilemez ve PocketSphinx'in geliştiricileri yazılımı doğru kullanmıyorum diyebilir. Daha iyi sözlükler ve dil dosyaları oluşturmak için kullanılabilecek sesli eğitim olarak adlandırılan bir teknik de vardır.

Benim en önemli fikrim, standart günlük kullanım için çok zor olmasıdır.

VoiceNote II

VoiceNote II, Google Voice tanıma API'sini kullanan bir Chrome Uygulamasıdır.

Chrome veya Chromium tarayıcılarını kullanıyorsanız, Web Mağazası üzerinden VoiceNote II'yi yükleyebilirsiniz.

VoiceNote II'deki simgeler, pencerenin alt kısmındaki dili ayarlamanız gerektiğinden ve düzenleme düğmesi de en altta olacak şekilde garip bir şekilde düzenlenir, ancak kayıt düğmesi sağ üst konumdadır.

Yapmanız gereken ilk şey bir dil seçmektir ve bu, dünya simgesine tıklayarak yapılabilir.

Kayda başlamak için mikrofon simgesine tıklayın ve mikrofonunuza konuşmaya başlayın. En iyi sonuçları elde etmek için yavaşça konuştuğumu gördüm, böylece yazılımın devam etme şansı olacaktı.

Sonuçlar aşağıda görüldüğü gibi harika değildi:

Merhaba ve bağlanmak için hoş geldiniz. About.com todays metin dönüştürme hakkında günümüze makaleler dunelm farrell durgunluk 2008 olarak dönüşümler ve iyi bir şekilde desteklendiğini söyledim en iyi şekilde sesli metin addon buldum 2014debian veya rpm paketini açmak için bunu açmak için sesle konuşun metni açmak istiyorsanız açın vs edinburgh fransızca almanca seçmiş olursanız, deniz mikrofonu birleşik krallık başlangıç ​​zamanı size bir metin dosyası olarak başarılı bir şekilde bir metin dosyası olarak yazmayı bitirdiğinizde, İngiltere'nin güneyinden çok iyi bir İngiliz aksanıdır, ama bu torrentalong'a gidiyorum gerçek belge ile ve dinleyenler için sizi makethank hatalar için görebilirsiniz

Dictanote

Dictanote, dikte amaçlarıyla kullanılabilecek ve daha sezgisel olarak karşımıza çıkan başka bir Chrome Uygulamasıdır. Ancak, sonuçlar VoiceNote II'den daha iyi değildir.

Sadece Dictanote'un demo sürümünü kullandım, bu da yeni belgeler oluşturmanızı önlüyor, ancak editörde bulunan metinler üzerinden konuşmanızı sağlıyor. Ses tanıma özelliğini test edebildim ancak sonuçlar VoiceNote II'den daha iyi değildi ve bu yüzden pro sürümüne katılmadım.

Dikte ve posta

"Dikte ve Posta", yerel Google ses tanıma API'sini kullanan bir Android Uygulamasıdır.

"Dikte ve Posta" sonuçları, bu noktaya kadar denenen diğer programlardan daha iyi idi.

merhaba Linux hakkında hoş geldiniz., bugün sesi metne dönüştürmekten bahsediyoruz

"Dikte ve Posta" ile hile yavaş konuşmak ve hatta aksanıyla mümkün olduğu kadar telaffuz etmektir.

Konuşmayı bitirdikten sonra sonuçları kendinize gönderebilirsiniz.

Konuşma ve konuşma dikte

Denediğim diğer Android uygulaması "Konuşma ve Konuşma Dikte" idi.

Bu uygulama için arayüz, grubun en iyisiydi ve ses tanıma çok iyi çalıştı. Dikte kaydettikten sonra sonuçları e-posta yoluyla da dahil olmak üzere çeşitli şekillerde paylaşabildim.

about.com bugün linux'a hoş geldiniz Konuşmayı metne dönüştürme hakkında konuşuyoruz

Gördüğünüz gibi yukarıdaki metni alacağınız kadar açık. Yavaş konuşmak anahtardır.

özet

Yerli Linux'un, Ses tanıma ve özellikle dikte ile ilgili olarak gitmesi için bir yolu vardır. Google Voice API'sını kullanan ancak henüz depolarda listelenmeyen bazı uygulamalar var.

ChromeOS uygulamaları biraz daha iyi ancak Android telefonumla en iyi sonuçlar elde edildi. Belki de telefonun daha iyi bir mikrofonu vardır ve bu nedenle ses tanıma yazılımı daha iyi bir dönüşüm şansı sunar.

Ses tanıma işlevinin gerçekten kullanılabilir hale gelmesi için, daha az kurulum gerektiren durumlarda daha sezgisel olması gerekir. Bunu anlaşılabilir kılmak için dil modelleri ve sözlükleri ile uğraşmanıza gerek yok.

Ancak, ses tanıma sanatının çok zor olduğunu, çünkü herkesin farklı bir sese sahip olduğunu ve bir ülkedeki bölgeden bölgeye birçok lehçenin, dünyanın her yerinde kullanılan yüzlerce dilden endişe duyduğunu takdir ediyorum.

Benim analizim, bu nedenle, ses tanıma yazılımı hala devam eden çalışmadır.