• Konuşma tanıma sorunu henüz çözülmedi. Otomatik konuşma tanımayı açma ve kapatma Konuşma tanıma pencerelerini kurma 7

    Windows Vista, Microsoft'un yerleşik konuşma tanıma özelliğine sahip ilk işletim sistemidir. Bu işlevi kullanarak, programları başlatmak, dosyaları kapatmak, kaydetmek ve silmek, kaydedilecek metni kelimesi kelimesine dikte etmek ve düzenlemek gibi çeşitli görevleri sesinizle gerçekleştirebilirsiniz. BT Danışmanı Deb Shinder, bu özelliğin nasıl kullanılacağına ilişkin ayrıntılar konusunda size yol gösterecek.

    Star Trek filminin vizyona girmesinden bu yana birçok bilgisayar kullanıcısı klavyeleri, fareleri atmayı ve bilgisayarlarını sesleriyle kontrol etmeyi hayal etti. Farklı komutlar söylemenize, bir bilgisayara metin dikte etmenize izin veren programlar yıllardır yapılmıştır ve diğer giriş yöntemlerini fiziksel olarak kullanamayanlar için çok yararlıydı. Ama nedense bu programlar popüler değildi.

    Windows Vista, Microsoft'un konuşmayı tanıyabilen ilk işletim sistemidir. Daha önce konuşma tanıma özelliği Microsoft Office XP ve Office 2003'te mevcuttu ve Dragon NaturallySpeaking gibi diğer geliştiricilerin programlarını kullanmak da mümkündü. Microsoft, Windows Mobile'a konuşma tanımayı da ekledi.

    Bilgisayarınızla konuşmaya başlamak için ekstra bir şey satın almanıza gerek yok, Vista'da zaten hepsi var. Varsayılan olarak işlev devre dışıdır, ancak Şekil A'da gösterildiği gibi Kontrol Panelinden kolayca etkinleştirebilirsiniz.

    Bu özelliği menüden Tüm Programlar | Standart | Erişilebilirlik (Tüm Programlar | Aksesuarlar | Erişim Kolaylığı), Şekil B'de gösterildiği gibi.

    Nasıl çalışır

    İki konuşma tanıma modundan birini seçebilirsiniz:

    • Programları yönetmek için: Programları başlatın ve kapatın, bunlar arasında geçiş yapın, dosyaları kaydedin ve silin vb.
    • Sözlü olarak kaydedilecek metni dikte etmek ve düzenlemek.

    Yazılım geliştiriciler, programlarına bu özellik için destek ekleyebilirler. Can sıkıcı bir şekilde, konuşma tanıma şu anda yalnızca birkaç dili desteklemektedir: İngilizce (ABD ve İngiltere), Almanca, Fransızca, İspanyolca, Japonca ve Çince (Geleneksel ve Basitleştirilmiş).

    Konuşma tanımayı ayarlama

    Konuşma tanımayı kullanmadan önce aşağıdaki adımları tamamlamanız gerekir:

    • Konuşma tanımayı açın.
    • Mikrofonu ayarlayın.
    • Kılavuzu okuyun (isteğe bağlı).
    • Açıkça pratik yapın, konuşun (gerekli de değil).

    Kontrol Panelinde Konuşma Tanıma'ya çift tıkladıktan veya menüden Konuşma Tanıma'yı seçtikten sonra, Şekil C'de gösterilen bir kurulum penceresiyle karşılaşacaksınız.


    Konuşma Tanıma Başlat'a tıkladığınızda, ekranınızın üst kısmında Şekil D'de gösterildiği gibi bir ses kontrol paneli görünecektir.


    Bu işlevi zaten yapılandırdıysanız, soket otomatik başlatmaya kaydedilecek ve Windows her açıldığında başlayacaktır. Tepside mavi bir sesli kontrol simgesi de görünecektir.
    Ayarlar için içerik menüsünü Şekil E'de gösterildiği gibi tepsi simgesine sağ tıklayarak veya sesli kontrol panelinden çağırabilirsiniz.


    Menüde aşağıdaki ayarları göreceksiniz:

    • Konuşmayı Açın: Bilgisayar söylediğiniz her şeyi dinleyecek ve tanıdığı komutları yerine getirecektir.
    • Bekleme modu (Uyku): Bilgisayar konuşmanızı takip edecek, ancak siz "Dinlemeye başla" diyene kadar hiçbir komuta yanıt vermeyecektir.
    • Kapalı: Ne söylersen söyle bilgisayar seni dinlemiyor.
    • Açık Konuşma Referans Kartı: Temel komutlar ve ek bilgiler içeren kullanışlı bir kopya kağıdı.
    • Konuşma Eğitimini Başlatın: Size her şeyin söyleneceği ve gösterileceği video eğitimi.
    • Yardım: Bu işlevle ilgili bir yardım dosyası açar.
    • Seçenekler: Burada programı Windows, otomatik metin düzeltme vb. ile yüklenecek şekilde ayarlayabilirsiniz.
    • Yapılandırma: Burada mikrofonunuzu ayarlayabilir, konuşma tanımayı geliştirebilir ve kontrol panelini açabilirsiniz.
    • Konuşma Sözlüğünü Açın: Yeni kelimeler ekleyebilir (isimler ve tanınması zor kelimeler için çok kullanışlıdır) ve asla söylemediğiniz kelimeleri de hariç tutabilirsiniz.
    • Dikte Konusu: Burada yalnızca Anlatım seçilebilir.
    • Siteyi ziyaret edin (Konuşma Tanıma Web sitesine gidin).
    • Konuşma Tanıma Hakkında Bilgi Alın: Bu, programın sürümünün, lisans numarasının ve adının yazıldığı, bize tanıdık gelen Windows iletişim kutusudur.
    • Konuşma Tanıma'yı açın.
    • Çıkış: Programı tamamen kapatır.
    • Tercüme

    Derin öğrenme, konuşma tanıma sahnesine girdiğinden beri, kelime tanımadaki hataların sayısı önemli ölçüde azaldı. Ancak okumuş olabileceğiniz tüm makalelere rağmen, hala insan düzeyinde konuşma tanımaya sahip değiliz. Konuşma tanıyıcıların birçok hata modu vardır. Onları daha da geliştirmek için, onları tanımlamanız ve ortadan kaldırmaya çalışmanız gerekir. Bazı insanlar için çoğu zaman işe yarayan tanınmadan, tüm insanlar için her zaman işe yarayan tanınmaya geçmenin tek yolu budur.

    Yanlış tanımlanmış kelimelerin sayısında iyileştirmeler. 2000 yılında bir telefon santralinde, anadili İngilizce olan iki kişi arasındaki 40 rastgele konuşmadan bir test sesli arama oluşturuldu.

    Sadece bir telefon santralinden bir dizi konuşmadan yola çıkarak konuşmalarda konuşma tanımada insan seviyesine ulaştığımızı söylemek, robotik bir arabanın tek bir şehirde test edip bir insan kadar iyi gittiğini söylemeye benzer. trafik olmadan güneşli bir günde. Konuşma tanımadaki son değişimler inanılmaz. Ancak insan düzeyinde konuşma tanıma ile ilgili iddialar çok cüretkar. Burada hala iyileştirme yapılması gereken birkaç alan var.

    Vurgular ve gürültü

    Konuşma tanımanın bariz dezavantajlarından biri, aksanlar ve arka plan gürültüsü. Bunun temel nedeni, eğitim verilerinin çoğunun yüksek sinyal-gürültü oranına sahip Amerikan lehçelerinden oluşmasıdır. Örneğin, bir telefon santralinden yapılan bir dizi konuşmada, yalnızca anadili İngilizce olan (çoğunlukla Amerikalılar) kişilerin arka planda çok az gürültü olan konuşmaları vardır.

    Ancak tek başına eğitim verilerini artırmak büyük olasılıkla bu sorunu çözmeyecektir. Pek çok lehçe ve aksanı içeren birçok dil vardır. Tüm durumlar için etiketli veri toplamak gerçekçi değildir. Amerikan İngilizcesi için yüksek kaliteli bir konuşma tanıyıcı oluşturmak, yalnızca 5.000 saate kadar sesin metne dönüştürülmesini gerektirir.


    Konuşmadan metne insanların farklı konuşma türleri üzerinde Baidu'nun Derin Konuşma 2 ile karşılaştırılması. İnsanlar, belki de aralarında Amerikalıların bolluğu nedeniyle, Amerikan olmayan aksanları tanımakta daha kötüler. Belli bir bölgede büyümüş insanlar o bölgenin şivesini çok daha az hata ile tanıyabileceklerini düşünüyorum.

    Hareket halindeki bir arabada arka plan gürültüsünün varlığında, sinyal-gürültü oranı -5 dB kadar düşük olabilir. İnsanlar, bu tür koşullarda başka bir kişinin konuşma tanıma ile kolayca başa çıkabilir. Gürültü arttıkça otomatik tanıyıcılar çok daha hızlı bozulur. Grafik, artan gürültü ile (düşük SNR'de, sinyal-gürültü oranı) insanlar arasındaki mesafenin ne kadar arttığını gösterir.

    Anlamsal hatalar

    Çoğu zaman, hatalı olarak tanınan sözcüklerin sayısı, bir konuşma tanıma sistemi için kendi başına bir son değildir. Anlamsal hataların sayısını hedefliyoruz. Bu, anlamı yanlış anladığımız ifadelerin oranıdır.

    Anlamsal hataya bir örnek, birinin "Salı günü buluşalım" [Salı günü buluşalım] demesi ve tanıyıcının "bugün buluşalım" [bugün buluşalım] şeklinde dönmesidir. Anlam hatası olmayan sözcüklerde de hatalar vardır. Çözümleyici "yukarı" tanımadıysa ve "Salı günü buluşalım" olarak döndüyse, cümlenin anlamı değişmedi.

    Yanlış tanımlanmış kelimelerin sayısını bir kıstas olarak dikkatli bir şekilde kullanmamız gerekiyor. Bunu açıklamak için size en kötü durum örneğini vereceğim. Kelime hatalarının %5'i 20 kelimeden bir tanesinin eksik olmasına karşılık gelir. Her cümlede 20 kelime varsa (ki bu İngilizce ortalamasının oldukça içindedir), yanlış tanınan cümle sayısı %100'e yaklaşır. Yanlış tanınan kelimelerin cümlelerin anlamsal anlamını değiştirmediği umulabilir. Aksi takdirde, tanıyıcı, %5 oranında yanlış tanınan kelimelerle bile her cümleyi yanlış yorumlayabilir.

    Modelleri insanlarla karşılaştırırken, hataların özünü kontrol etmek ve yalnızca yanlış tanınan kelimelerin sayısını izlemek önemlidir. Deneyimlerime göre, konuşmayı metne çeviren insanlar daha az hata yapıyor ve bilgisayarlar kadar ciddi değiller.

    Microsoft'tan araştırmacılar yakın zamanda benzer düzeydeki insan ve bilgisayar tanıyıcılarının hatalarını karşılaştırdı. Bulunan farklılıklardan biri, modelin "uh" [uh...] ile "uh huh" [evet]'i insanlardan çok daha fazla karıştırmasıdır. İki terim çok farklı semantiklere sahiptir: "uh" boşlukları doldururken "uh huh" dinleyiciden bir onay anlamına gelir. Ayrıca, modeller ve kişiler, eşleşen türlerde birçok hata buldu.

    Tek kanalda birçok ses

    Her konuşmacı ayrı bir mikrofona kaydedildiği için kayıtlı telefon görüşmelerini tanımak da daha kolaydır. Bir ses kanalında birden çok sesin çakışması yoktur. İnsanlar, bazen aynı anda konuşan birkaç konuşmacıyı anlayabilir.

    İyi bir konuşma tanıyıcı, ses akışını konuşmacıya bağlı olarak bölümlere ayırabilmelidir (onu günlükleştirmeye tabi tutun). Ayrıca, üst üste binen iki sesle (kaynakların ayrılması) bir ses kaydından anlam çıkarmalıdır. Bunun, doğrudan hoparlörlerin her birinin ağzına yerleştirilmiş bir mikrofon olmadan yapılması gerekir, yani tanıyıcı rastgele bir yere yerleştirildiğinde iyi çalışır.

    kayıt kalitesi

    Aksan ve arka plan gürültüsü, bir konuşma tanıyıcının güçlü olması gereken iki faktördür. İşte birkaç tane daha:

    Farklı akustik koşullarda yankılanma.
    Ekipmanla ilişkili eserler.
    Sinyali kaydetmek ve sıkıştırmak için kullanılan codec bileşeninin kalıntıları.
    Örnekleme frekansı.
    Konuşmacının yaşı.

    Çoğu insan mp3 ve wav dosyaları arasındaki farkı anlayamaz. Tanıyıcılar, insan benzeri performans iddiasında bulunmadan önce bu varyasyon kaynaklarına karşı dayanıklı hale gelmelidir.

    Bağlam

    Telefon santralinden alınan kayıtlarda kişilerin testlerde yaptığı hata sayısının oldukça fazla olduğu görülmektedir. 20 kelimeden 1'ini anlamayan bir arkadaşınızla konuşuyor olsaydınız, iletişim kurmanız çok zor olurdu.

    Bunun nedenlerinden biri bağlamsız tanımadır. Gerçek hayatta, diğer kişinin ne dediğini anlamamıza yardımcı olması için birçok farklı ek işaret kullanırız. İnsanlar tarafından kullanılan ve konuşma tanıyıcılar tarafından yok sayılan bazı bağlam örnekleri:

    Konuşmanın tarihi ve tartışılan konu.
    Konuşmacı hakkında görsel ipuçları - yüz ifadeleri, dudak hareketleri.
    Konuştuğumuz kişi hakkındaki bilgi birikimi.

    Android'in konuşma tanıyıcısı artık kişilerinizin bir listesine sahiptir, böylece arkadaşlarınızın adlarını tanıyabilir. Haritalarda sesli arama, yol tarifi almak istediğiniz seçenekleri daraltmak için coğrafi konumu kullanır.

    Bu tür sinyallerin veri içerisine dahil edilmesi ile tanıma sistemlerinin doğruluğu artmaktadır. Ancak, işlemeye dahil edebileceğimiz bağlam türünü ve onu nasıl kullanacağımızı araştırmaya daha yeni başlıyoruz.

    dağıtım

    Konuşma dili tanımadaki son gelişmeler konuşlandırılamaz. Bir konuşma tanıma algoritması kullanmayı hayal ederken, gecikmeyi ve işlem gücünü aklınızda tutmanız gerekir. Bu parametreler ilişkilidir çünkü güç gereksinimlerini artıran algoritmalar gecikmeyi de artırır. Ancak basitlik için bunları ayrı ayrı ele alacağız.

    Gecikme: Kullanıcının konuşmasının sonundan dökümün alınmasının sonuna kadar geçen süre. Küçük bir gecikme tanıma için tipik bir gerekliliktir. Kullanıcının ürünle çalışma deneyimini büyük ölçüde etkiler. Genellikle onlarca milisaniyelik bir sınır vardır. Bu çok katı görünebilir, ancak bir transkript düzenlemenin genellikle bir dizi karmaşık hesaplamanın ilk adımı olduğunu unutmayın. Örneğin, sesli bir İnternet araması söz konusu olduğunda, konuşma tanımanın ardından, aramayı tamamlamak için hala zamana ihtiyacınız vardır.

    Çift yönlü yinelenen katmanlar, gecikme durumunu kötüleştiren tipik bir iyileştirme örneğidir. En son yüksek kaliteli transkript sonuçları onların yardımıyla elde edilir. Tek sorun, kişi konuşmayı bitirene kadar ilk çift yönlü katmanın ötesini sayamayız. Bu nedenle, gecikme cümlenin uzunluğu ile artar.


    Sol: Doğrudan yineleme, şifre çözmenin hemen başlamasını sağlar. Sağ: Çift yönlü yineleme, metne dönüştürmeye başlamadan önce konuşmanın sonuna kadar beklemenizi gerektirir.

    Gelecekteki bilgileri verimli bir şekilde konuşma tanımaya dahil etmenin iyi bir yolu hala aranmaktadır.

    Hesaplama gücü: Bu parametre ekonomik kısıtlamalardan etkilenir. Tanıyıcının doğruluğundaki her iyileştirme için ziyafetin maliyetini göz önünde bulundurmalısınız. Bir iyileştirme ekonomik eşiğe ulaşmazsa, onu uygulayamayacaktır.

    Asla devreye alınmayan klasik bir sürekli iyileştirme örneği, işbirlikçi derin öğrenmedir. Hata sayısını %1-2 oranında azaltmak, bilgi işlem gücünde 2-8 kat artışı nadiren haklı çıkarır. Tekrarlayan ağların modern modelleri de bu kategoriye giriyor, çünkü gelecekte durumun değişeceğini düşünmeme rağmen, bir dizi yörünge arayışında kullanımları çok kârsız.

    Açıklığa kavuşturmak istiyorum - Hesaplama maliyetlerinde ciddi bir artışla tanıma doğruluğunu artırmanın yararsız olduğunu söylemiyorum. Geçmişte “önce yavaş ama kesin, sonra hızlı” ilkesinin nasıl işlediğini daha önce görmüştük. Mesele şu ki, gelişme yeterince hızlı olana kadar kullanılamaz.

    önümüzdeki beş yılda

    Konuşma tanıma alanında hala çözülmemiş ve karmaşık birçok sorun var. Aralarında:

    Yeni veri depolama sistemlerinin yeteneklerinin genişletilmesi, aksanların tanınması, güçlü gürültünün arka planında konuşma.
    Tanıma sürecine bağlamın dahil edilmesi.
    Günlükleştirme ve kaynakların ayrılması.
    Semantik hataların sayısı ve tanıyıcıları değerlendirmek için yenilikçi yöntemler.
    Çok az gecikme.

    Önümüzdeki beş yılda bu ve diğer cephelerde kaydedilecek ilerlemeyi dört gözle bekliyorum.

    Etiketler: Etiket ekle

    Dokunmatik ekran kontrolü zaten standarttır. Windows 8 gibi en yeni sistemler sesli komutları "anlıyor" Konuşma tanıma, bilgisayarla iletişimimizi daha kolay, daha sezgisel ve daha doğal hale getirmeli. Size bugünün nasıl göründüğünü anlatacağım.

    Biraz tarih - makine ile iletişim nasıl gelişti?

    Bir bilgisayarla iletişim kurmanın yolları yıllar içinde gelişmiştir. Bir kişinin komut verebileceği ilk arayüz, 1832'ye dayanan delikli kartlardı. Kumaş üretimi için makinelerde kullanıldılar. Klavye 1960 yılında kullanılmaya başlandı. Yirmi yıl sonra, standart fare katıldı ve bugün hala kullanılıyor. Fare, izleme dörtgeni ile gücü paylaşsa da, hala en popüler kontrol biçimidir. Akıllı telefonlar ve tabletler sayesinde, özellikle Xbox 360 Kinect'i kontrol etmek için kullanılan dokunmatik arayüz ve hareketler çok popüler hale geldi. Dokunmatik ekranlar ve hareketlerden sonra sesle kontrol geliyor ama bu çözüm o kadar az gelişmiş ki bazen duymuyorsunuz.

    Windows 8'de konuşma tanımayı ayarlama

    Ne yazık ki, ses kontrolü henüz Rusça olarak mevcut değil. Şu anda desteklenen diller İngilizce, Fransızca, Almanca, Japonca, Korece, Çince ve İspanyolca'dır. Microsoft, en büyük ve en gelişmiş ülkelere odaklanma kararı aldı ancak bir süre bu özelliği ülkemiz için de eklemesi olası. Çalıştırmaya çalışırsan, böyle yemin eder

    Yine de bu çözümü denemek istiyorsanız, sistemi kurmanız (dili değiştirmeniz) ve İngilizce birkaç kelime öğrenmeniz gerekiyor. Bunu yapmak için kontrol paneline gitmeniz ve Dil öğesini seçmeniz gerekir. Rusça dışında başka bir diliniz yoksa "Dil Ekle" butonuna basmanız ve ardından desteklenen dillerden birini seçmeniz gerekir. Bizim durumumuzda "İngilizce (Amerika Birleşik Devletleri)" dir. Sadece bu dilde yerleşimin mevcut olduğunu görüyoruz, çift tıklayın, arayüz için dil olup olmadığı kontrol edilecek, kontrol ettikten sonra "Dil paketini indir ve kur" seçeneğine tıklayın ve süreç başlayacak, sabırla bekleyin yük. Bu işlem tamamlandığında, varsayılan dili İngilizce olarak ayarlayın.

    Şimdi Windows 8 başlangıç ​​​​ekranına (döşenmiş) gitmeniz, arama kutusuna “Windows Konuşma Tanıma” yazmanız ve Enter tuşuna basmanız gerekiyor.

    Böylece ses tanıma aracını başlatabilirsiniz. İlk başlattığınızda, mikrofonu yapılandırmanızı isteyecektir, seçtikten sonra kontrol etmek için bir şeyler söyleyin.

    Ardından eğitim dersleri almayı teklif edin. 15-20 dakika kadar sürüyorlar ama çok kullanışlılar ve özelliklerin nasıl kullanılacağına dair temel bilgiler veriyorlar. Ama İngilizceniz güçlü değilse, bence zaman kaybetmemelisiniz, bir şey anlamak zor olacak, doğrudan savaşa gidin

    nasıl çalışılır

    Bilgisayarın konuşmanızı tanımaya başlaması için, "dinlemeye başla" (yani dinlemeye başla) demeniz veya dinleme modunu başlatmak için mikrofon düğmesine basmanız gerekir. Artık uygulamayı açabilir veya kelimeleri bir metin düzenleyiciye, tarayıcıya veya arama çubuğuna dikte edebilirsiniz.

    Ne yapabiliriz

    Prensip olarak, olasılıklar çok büyük, standart kelimelere ek olarak kendi takımlarınızı oluşturabilirsiniz. Ana özellikler tabloda gösterilmiştir

    Aksiyon Ne demeli
    Adına göre herhangi bir öğe seçin Dosya, Başlat, Görüntüle'ye tıklayın
    Herhangi bir öğe veya simge seçin Geri Dönüşüm Kutusu'nu tıklayın, Bilgisayarı tıklayın, (dosya adı) tıklayın
    Herhangi bir öğeye çift tıklayın veya çift tıklayın Çift TıklamaGeri Dönüşüm Kutusu,Bilgisayar'a Çift Tıklama
    Açık uygulamalar arasında geçiş yapın Paint'e Geç,WordPad'e Geç

    kaydırma

    yukarı kaydırmak; Aşağı kaydır;
    sola kaydır; sağa kaydır

    Belgeye yeni paragraf veya yeni satır ekle

    yeni paragraf; Yeni hat

    Belgede bir sözcük seçin

    kelime düzeltme

    doğru kelime

    Belirli kelimeleri seçin ve silin

    Geçerli komutların bir listesini göster

    Konuşma komutlarını yenile

    Dinleme modunu aç

    Dinleme modunu devre dışı bırak

    Mikrofonu daralt

    Konuşma tanımayı en aza indirin

    Windows Yardım ve Desteğini Görüntüleyin

    Nasıl bir şey yaparım?
    Örneğin: Bir yazıcıyı nasıl kurarım?

    Cümleyi nasıl telaffuz edeceğinizi bilmiyorsanız, Google Translate veya http://tutor.ru kullanmanızı öneririm (bu siteyi daha iyi anladı)

    Basit burjuva kelimelerden oluşan takımlarımı yazmak gibi bir arzum vardı. Hangisini telaffuz edebilirim. Yani bunu yapmama izin vermedi, komut editörünü başlatamadı. Sonuç olarak, Bir, İki ve Açık kelimelerinin telaffuzumu mükemmel bir şekilde anladı. Bu set ile, ana ekranda numaraya göre uygulamayı başlatabilirsiniz. Önce numarayı söyleyin, sonra AÇ deyin. Tabii ki çok değil, ama deneyin bir başarı olduğunu düşünüyorum. Microsoft'un uzaktan kumanda için iyi bir yedek olan Rusça dilini tanıtması fena olmazdı.

    Windows 7 işletim sistemi, bu sistemin kullanıcılarına giderek daha fazla fırsat sunan birçok seçenekle donatılmıştır. Buna "konuşma tanıma" adı verilen çok ilginç bir işlev ekleyebildiler. Ama bu sistem nedir? Bu tartışılacak.

    Söz konusu seçenek, sistemdeki uygulamaların bilgisayarla tamamen yeni bir kullanıcı etkileşimi yolu kullanmasına izin verir. Bilgisayarınızı klavye, fare veya başka bir araç kullanmadan kontrol etmenizi sağlayan Windows 7 Konuşma Tanıma sistemidir.

    Bu yeniliğin diğer Microsoft ürünlerinde de yer alacağını belirtmek isterim. Bu özellik biraz önce fark edildi, yani Windows Vista'da uygulamaya çalıştılar, ancak Microsoft işletim sisteminin yedinci sürümünde ses kontrolü öncekinden daha yüksek bir seviyede gerçekleştirilir. Basitçe söylemek gerekirse, Windows 7 konuşma tanıma gibi bir seçenek daha da işlevsel hale geldi.

    Tüm söylenenlere ek olarak, oldukça geniş bir uygulama yelpazesine sahip olduğunu belirtmek isterim. Konuşma tanıma özelliğine sahip Windows 7 kullanıcıları, yalnızca seslerini ve gerekli aygıtları kullanarak programları çalıştırma ve tüm ses parçalarını metne dönüştürme, bilgisayardaki her türlü komutu yürütme yeteneğine sahiptir. Ancak Windows 7 konuşma tanımayı gerçeğe dönüştürmek için ne gerekiyor?

    Her şeyden önce, bilgisayarınıza bağlı olması gereken bir mikrofona ihtiyacınız olacak. Ayrıca üreticinin kendisi yani Microsoft tarafından yayınlanan özel bir uygulama veya program satın almanız gerekir. Gerekli tüm bileşenler yüklendikten ve mikrofon bilgisayara bağlandıktan sonra belirli bir çalışma planı uygulanmalıdır:

    • Test sesli komutlarını yürütmeniz ve bunları metne dönüştürmeniz gerekir.
    • Tanıma programını eğittikten sonra, sesinizle farklı komutlar için şablonlar oluşturmanız gerekecektir. Bilgisayarın belirttiğiniz tüm komutları kabul edip uygulayabilmesi bu çalışmanın temelindedir.

    Windows 7 konuşma tanıma özelliği, Microsoft'un WordPad metin düzenleyicisinde kullanılır. Çeşitli formları doldururken kusursuz bir şekilde çalışır ve ayrıca Internet Explorer'da ve

    Ayrıca bu seçenek, özel sesli komutlar tanımlayarak önceden kaydedilmiş metni kolayca düzenleyecektir. Tabii ki, belirli bir görevi tanıma sürecinde, tipik hatalar meydana gelir (belirli seslerin hatalı tanınması meydana geldiğinde). Bu durumda, program belirli kelimelerin karşılıklarının bir listesini sağlar.

    İşlev elbette olağanüstü, ancak yine de bir "ama" var. Mesele şu ki, Rusça konuşmanın tanınması artık prensipte mevcut değil. Programın İngilizce, Fransızca, Almanca ve Japonca için mükemmel sürümleri bulunmaktadır. Çince, İspanyolca ve İtalyanca konuşma için versiyonları da vardır.

    Ancak bu yenilik, Rusça konuşmaya pek uygun değil. Bilgisayarınız kendisine atanan görevleri algılayamayacak, yani klavyeyi kullanarak bir şeyler yazmanız veya fareyi kullanarak belirli görevleri gerçekleştirmeniz daha kolay olacaktır.

    Elbette, benzer Rusça programlarla çalışmayı deneyebilir veya tercihinizi İngilizce'ye verebilirsiniz, ancak yine de, yakında Rusça konuşma tanımanın da yüksek kaliteli modda mevcut olacağı umulmaktadır. Ve tam o zaman pratikte böylesine benzersiz bir işlevi deneyebileceksiniz. Ne de olsa, kişisel bir bilgisayardaki çalışmayı şüphesiz basitleştiriyor ve programlama alanında büyük bir atılım. Yani geriye kalan tek şey beklemek.

    Hiçbir program, kaydedilmiş konuşmaların yazıya dökülmesine ilişkin manuel çalışmanın yerini tamamen alamaz. Bununla birlikte, konuşmanın metne çevrilmesini önemli ölçüde hızlandırabilen ve kolaylaştırabilen, yani transkripsiyonu basitleştiren çözümler vardır.

    Transkripsiyon, bir ses veya video dosyasının metin biçiminde kaydedilmesidir. Bir metni yazıya dökmek için icracıya belirli bir miktar para ödendiğinde, internette ücretli ücretli görevler vardır.

    Konuşmadan metne çeviri yararlıdır

    • öğrencilerin kayıtlı sesli veya görüntülü dersleri metne çevirmesi,
    • web sitelerini ve blogları yöneten blog yazarları,
    • yazarlar, gazeteciler kitap ve metin yazmak için,
    • web semineri, konuşma vb. sonrasında bir metne ihtiyaç duyan bilgi işadamları,
    • Yazmayı zor bulan kişiler - bir mektubu yazdırabilir ve akrabalarına veya arkadaşlarına gönderebilirler,
    • diğer seçenekler.

    PC'de, mobil uygulamalarda ve çevrimiçi hizmetlerde bulunan en etkili araçları açıklayacağız.

    1 Site talkpad.ru

    Bu, konuşmayı Google Chrome tarayıcısı aracılığıyla metne çevirmenizi sağlayan çevrimiçi bir hizmettir. Hizmet bir mikrofonla ve hazır dosyalarla çalışır. Elbette harici bir mikrofon kullanır ve kendiniz dikte ederseniz kalite çok daha yüksek olacaktır. Ancak hizmet, YouTube videolarında bile iyi bir iş çıkarıyor.

    "Kaydı etkinleştir" i tıklayın, "Mikrofon kullanma" ile ilgili soruyu yanıtlayın - bunun için "İzin Ver" i tıklayın.

    Hizmetin nasıl kullanılacağına ilişkin uzun talimat, şekil 2'deki düğme 1'e tıklanarak daraltılabilir. 3. Basit bir kayıt işlemi yaparak reklamlardan kurtulabilirsiniz.

    Pirinç. 3. Servis konuşma paneli

    Bitmiş sonucu düzenlemek kolaydır. Bunu yapmak için, vurgulanan kelimeyi manuel olarak düzeltmeniz veya tekrar dikte etmeniz gerekir. Çalışmanın sonuçları kişisel hesabınıza kaydedilir, bilgisayarınıza da indirilebilir.

    Konuşma pedi ile çalışmaya ilişkin video eğitimlerinin listesi:

    Videoları Youtube'dan veya bilgisayarınızdan kopyalayabilirsiniz, ancak bir miksere ihtiyacınız olacak, daha fazla ayrıntı:

    Video "ses transkripsiyonu"

    Hizmet yedi dilde çalışır. Küçük bir olumsuzluk var. Bitmiş bir ses dosyasını yazıya dökmeniz gerekirse, sesinin yankı şeklinde ek parazit oluşturan hoparlörlere dağıtılması gerçeğinde yatmaktadır.

    2 Hizmet dictation.io

    Ücretsiz ve kolay bir şekilde konuşmayı metne çevirmenizi sağlayacak harika bir çevrimiçi hizmet.

    Pirinç. 4. dictation.io hizmeti

    şek. 4 - Sayfa sonunda Rusça dili seçilebilir. Google Chrome tarayıcısında dil seçili ama Mozilla'da nedense böyle bir ihtimal yok.

    Bitmiş sonucu otomatik kaydetme yeteneğinin uygulanması dikkat çekicidir. Bu, bir sekmenin veya tarayıcının kapatılması sonucunda yanlışlıkla silinmesini önleyecektir. Bu hizmet tamamlanmış dosyaları tanımıyor. Mikrofon ile çalışır. Dikte ederken noktalama işaretlerini adlandırmanız gerekir.

    Metin oldukça doğru bir şekilde tanınıyor, yazım hatası yok. Noktalama işaretlerini klavyeden kendiniz ekleyebilirsiniz. Bitmiş sonuç bilgisayarınıza kaydedilebilir.

    3 Gerçek Hoparlör

    Bu program, insan konuşmasını kolayca metne çevirmenizi sağlar. Farklı sistemlerde çalışacak şekilde tasarlanmıştır: Windows, Android, Linux, Mac. Yardımı ile, ses dosyalarına kaydedilen konuşmanın yanı sıra bir mikrofona (örneğin, bir dizüstü bilgisayara yerleştirilebilir) dönüştürülebilir.

    Dünyanın 13 dilini algılayabilir. Programın çevrimiçi bir hizmet olarak çalışan bir beta sürümü vardır:

    Yukarıdaki bağlantıyı takip etmeniz, Rusça dilini seçmeniz, ses veya video dosyanızı çevrimiçi hizmete yüklemeniz ve transkripsiyonu için ödeme yapmanız gerekiyor. Transkripsiyondan sonra, alınan metni kopyalayabilirsiniz. Transkripsiyon dosyası ne kadar büyükse, işlenmesi o kadar uzun sürer, daha fazla ayrıntı:

    2017'de RealSpeaker kullanılarak ücretsiz bir transkripsiyon seçeneği vardı, 2018'de böyle bir olasılık yok. Deşifre edilen dosyanın tüm kullanıcıların indirmesi için açık olması çok utanç verici, belki bu son halini alacaktır.

    Programın geliştiricisinin (VKontakte, Facebook, Youtube, Twitter, e-posta, telefon) iletişim bilgileri, web sitesinin sayfasında (daha doğrusu sitenin altbilgisinde) bulunabilir:

    4 Konuşma kaydedici

    Android'de çalışan mobil cihazlar için önceki uygulamaya bir alternatif. Uygulama mağazasında ücretsiz olarak mevcuttur:

    Metin otomatik olarak düzenlenir, içine noktalama işaretleri yerleştirilir. Notları dikte etmek veya listeler yapmak için harika. Sonuç olarak, metin çok iyi kalitede olacaktır.

    5 Ejderha Diktesi

    Bu, Apple'dan mobil cihazlar için ücretsiz olarak dağıtılan bir uygulamadır.

    Program 15 dilde çalışabilir. Sonucu düzenlemenizi, listeden istediğiniz kelimeleri seçmenizi sağlar. Tüm sesleri net bir şekilde telaffuz etmek, gereksiz duraklamalar yapmamak ve tonlamalardan kaçınmak gerekir. Bazen kelimelerin sonlarında hatalar olabilir.

    Dragon Dikte uygulaması, örneğin apartman dairesinde dolaşırken mağazadaki alışveriş listesini dikte etmek için mal sahipleri tarafından kullanılır. Oraya geleceğim, nottaki metne bakmak mümkün olacak ve dinlemeye gerek yok.

    Uygulamanızda hangi programı kullanırsanız kullanın, sonucu iki kez kontrol etmeye ve belirli ayarlamalar yapmaya hazır olun. Hatasız, kusursuz bir metin elde etmenin tek yolu budur.

    Ayrıca yararlı hizmetler:

    Bilgisayar okuryazarlığıyla ilgili güncel makaleleri doğrudan gelen kutunuza alın.
    Zaten daha fazla 3.000 abone

    .