Problem prepoznavanja govora još nije riješen. Uključivanje i isključivanje automatskog prepoznavanja govora Postavljanje prepoznavanja govora u sustavu Windows 7

Windows Vista prvi je OS tvrtke Microsoft koji uključuje mogućnosti prepoznavanja govora. Pomoću ove funkcije možete svojim glasom obavljati razne zadatke, poput pokretanja programa, zatvaranja, spremanja i brisanja datoteka, diktiranja teksta koji će biti doslovno snimljen i njegovog uređivanja. Deb Shinder, IT konzultant, vodi vas kroz kako koristiti ovu značajku.

Još od izlaska filma Zvjezdane staze, mnogi korisnici računala sanjali su o izbacivanju tipkovnica i miševa i upravljanju računalom glasom. Programi koji su vam omogućili izgovaranje naredbi i diktiranje teksta računalu radili su se mnogo godina i bili su vrlo korisni onima koji fizički nisu mogli koristiti druge metode unosa. Ali iz nekog razloga ti programi nisu bili popularni.

Windows Vista je prvi operativni sustav tvrtke Microsoft koji može prepoznati govor. Prethodno je funkcija prepoznavanja govora bila prisutna u Microsoft Office XP i Office 2003, a mogli ste koristiti i programe drugih programera, poput Dragon NaturallySpeaking. Microsoft je također dodao značajku prepoznavanja govora u Windows Mobile.

Da biste počeli razgovarati sa svojim računalom, ne morate kupiti ništa dodatno; Vista već ima sve za to. Značajka je prema zadanim postavkama onemogućena, ali je možete jednostavno pokrenuti s upravljačke ploče, kao što je prikazano na slici A.

Ovu funkciju također možete pokrenuti iz izbornika odabirom Svi programi | Standardno | Pristupačnost (Svi programi | Pribor | Jednostavan pristup), kao što je prikazano na slici B.

Kako radi

Možete odabrati jedan od dva načina rada prepoznavanja govora:

Za upravljanje programima: Pokretanje i zatvaranje programa, prebacivanje između njih, spremanje i brisanje datoteka i tako dalje.
Diktirati tekst koji će biti doslovce zapisan, kao i urediti ga.

Programeri softvera mogu svojim programima dodati podršku za ovu funkciju. Šteta je što prepoznavanje govora trenutačno podržava samo nekoliko jezika: engleski (SAD i UK), njemački, francuski, španjolski, japanski i kineski (tradicionalni i pojednostavljeni).

Postavljanje prepoznavanja govora

Prije nego što možete koristiti prepoznavanje govora, morat ćete izvršiti sljedeće korake:

Uključite prepoznavanje govora.
Postavite mikrofon.
Pročitajte priručnik (opcionalno).
Vježbajte razgovijetan govor (također nije potrebno).

Nakon dvostrukog klika na Prepoznavanje govora na upravljačkoj ploči ili odabira Prepoznavanje govora iz izbornika, prikazat će vam se prozor postavki, koji je prikazan na slici C.

Kada kliknete Pokreni prepoznavanje govora, glasovna upravljačka ploča pojavit će se na vrhu vašeg zaslona, prikazana na slici D.

Ako ste već konfigurirali ovu funkciju, utičnica će biti registrirana u automatskom pokretanju i pokrenut će se pri svakom pokretanju sustava Windows. Plava ikona glasovnog upravljanja također će se pojaviti u traci.
Kontekstni izbornik za postavke možete pozvati desnim klikom na ikonu na traci ili na ploči glasovnog upravljanja, kao što je prikazano na slici E.

U izborniku ćete vidjeti sljedeće postavke:

Uključi govor: Računalo će slušati sve što kažete i slijedit će naredbe koje prepoznaje.
Stanje mirovanja: Računalo će pratiti vaš govor, ali neće odgovoriti ni na jednu naredbu dok ne kažete "Počni slušati".
isključeno: Računalo vas ne sluša, što god mu rekli.
Otvorite varalicu za prepoznavanje govora (otvorite referentnu karticu za govor): Zgodna varalica s osnovnim naredbama i dodatnim informacijama.
Pokreni vodič za govor: Video tutorial u kojem će vam sve reći i pokazati.
Pomozite: Otvara pomoć, datoteku pomoći o ovoj funkciji.
Mogućnosti: Ovdje možete konfigurirati program za učitavanje s Windowsima, automatsko ispravljanje teksta itd.
Konfiguracija: Ovdje možete prilagoditi svoj mikrofon, poboljšati prepoznavanje govora i otvoriti upravljačku ploču.
Otvorite rječnik govora: Možete dodati nove riječi (vrlo korisno za imena i riječi koje je teško prepoznati), a možete i isključiti riječi koje nikada ne izgovorite.
Tema diktata: Ovdje možete odabrati samo Narativ.
Posjetite web mjesto Idi na prepoznavanje govora.
Dobijte informacije o prepoznavanju govora: Ovo je poznati Windows dijaloški okvir, u kojem su napisani verzija, broj licence i naziv programa.
Otvoreno prepoznavanje govora (Open Speech Recognition).
Izlaz: Potpuno zatvara program.

Prijevod

Otkako je duboko učenje ušlo na scenu prepoznavanja govora, broj pogrešaka u prepoznavanju riječi dramatično se smanjio. No unatoč svim člancima koje ste možda pročitali, još uvijek nemamo prepoznavanje govora na ljudskoj razini. Prepoznavači govora imaju mnogo načina kvara. Za daljnje poboljšanje potrebno ih je identificirati i pokušati eliminirati. Ovo je jedini način da prijeđete s prepoznavanja koje funkcionira za neke ljude većinu vremena na prepoznavanje koje funkcionira za sve ljude cijelo vrijeme.

Poboljšanja u broju netočno prepoznatih riječi. Testni skup glasova prikupljen je na telefonskoj centrali 2000. godine iz 40 nasumičnih razgovora između dvoje ljudi čiji je engleski materinji jezik.

Reći da smo dosegli prepoznavanje govora na ljudskoj razini u razgovorima samo na temelju niza razgovora s telefonske centrale isto je što i reći da robotski automobil vozi jednako dobro kao i osoba, testirajući ga u jednom gradu na sunčanom dan bez prometa.. Nedavni razvoj u prepoznavanju govora je iznenađujući. Ali tvrdnje o prepoznavanju govora na ljudskoj razini su previše hrabre. Evo nekoliko područja u kojima je još potrebno napraviti poboljšanja.

Akcenti i buka

Jedan od očitih nedostataka prepoznavanja govora je procesiranje naglasci i pozadinsku buku. Glavni razlog za to je što se većina podataka o obuci sastoji od američkog govora s visokim omjerom signala i šuma. Na primjer, skup razgovora s telefonske centrale sadrži samo razgovore ljudi kojima je engleski materinji jezik (uglavnom Amerikanaca) s malo pozadinske buke.

Ali samo povećanje podataka o obuci vjerojatno neće riješiti ovaj problem. Postoje mnogi jezici koji sadrže mnogo dijalekata i naglasaka. Nerealno je prikupiti označene podatke za sve slučajeve. Stvaranje visokokvalitetnog prepoznavača govora samo za američki engleski zahtijeva do 5 tisuća sati audio zapisa prevedenih u tekst.

Usporedba pretvarača ljudskog govora u tekst s Baiduovim Deep Speech 2 na različitim vrstama govora. Ljudi lošije raspoznaju neameričke naglaske, možda zbog velikog broja Amerikanaca među njima. Mislim da bi ljudi koji su odrasli u nekom kraju imali puno manje grešaka u prepoznavanju naglaska tog kraja.

U prisutnosti pozadinske buke u automobilu koji se kreće, omjer signala i šuma može doseći vrijednosti od -5 dB. Ljudi se u takvim uvjetima lako nose s prepoznavanjem govora druge osobe. Automatski prepoznavači kvare se mnogo brže kako se buka povećava. Grafikon pokazuje koliko se jaz između ljudi povećava s povećanjem vrijednosti šuma (pri niskom SNR, omjer signal-šum).

Semantičke pogreške

Često broj netočno prepoznatih riječi nije sam po sebi cilj sustava za prepoznavanje govora. Ciljamo na broj semantičkih pogrešaka. To je udio izraza u kojima netočno prepoznajemo značenje.

Primjer semantičke pogreške je kada netko predloži "nađimo se u utorak", a razrješivač vrati "nađimo se danas". Postoje i pogreške u riječima bez semantičkih pogrešaka. Ako prepoznavač nije prepoznao "gore" i vratio "nađimo se u utorak", semantika rečenice nije se promijenila.

Moramo pažljivo koristiti broj netočno prepoznatih riječi kao kriterij. Da bih to ilustrirao, navest ću vam primjer najgoreg mogućeg slučaja. 5% pogrešaka u riječima odgovara jednoj riječi koja nedostaje od 20. Ako svaka rečenica sadrži 20 riječi (što je sasvim prosječno za engleski jezik), tada se broj netočno prepoznatih rečenica približava 100%. Možemo se nadati da netočno prepoznate riječi neće promijeniti semantičko značenje rečenica. U suprotnom, prepoznavanje može netočno dešifrirati svaku rečenicu čak i s 5% broja netočno prepoznatih riječi.

Pri usporedbi modela s ljudima važno je provjeriti bit pogrešaka i pratiti ne samo broj netočno prepoznatih riječi. Po mom iskustvu, ljudi koji prevode govor u tekst čine manje pogrešaka i one nisu tako ozbiljne kao one koje čine računala.

Istraživači u Microsoftu nedavno su usporedili pogreške ljudi i računalnih prepoznavača slične razine. Jedna od utvrđenih razlika je da model brka "uh" [uh-uh...] s "uh huh" [uh-huh] mnogo češće nego ljudi. Ova dva pojma imaju vrlo različitu semantiku: "uh" ispunjava pauze, dok "uh huh" označava potvrdu od slušatelja. Također, mnoge pogreške iste vrste pronađene su u modelima i ljudima.

Mnogo glasova u jednom kanalu

Također je bilo lakše prepoznati snimljene telefonske razgovore jer je svaki govornik snimljen na poseban mikrofon. Nema preklapanja više glasova u jednom audio kanalu. Ljudi mogu razumjeti nekoliko govornika, ponekad govore istovremeno.

Dobar uređaj za prepoznavanje govora trebao bi moći podijeliti audio tok u segmente ovisno o govorniku (podvrgnuti ga diarizaciji). Također mora izvući značenje iz audio zapisa s dva preklapajuća glasa (odvajanje izvora). To se mora učiniti bez mikrofona koji se nalazi neposredno na ustima svakog govornika, odnosno tako da prepoznavač dobro radi ako se postavi na proizvoljno mjesto.

Kvaliteta snimanja

Akcenti i pozadinska buka samo su dva čimbenika na koje uređaj za prepoznavanje govora mora biti otporan. Evo još nekoliko:

Reverberacija u različitim akustičkim uvjetima.
Artefakti povezani s opremom.
Artefakti kodeka koji se koriste za snimanje i komprimiranje signala.
Učestalost uzorkovanja.
Starost govornika.

Većina ljudi ne zna razlikovati mp3 i wav snimke. Prije nego što mogu tvrditi da su performanse usporedive s ljudskim, osobe koje prepoznaju moraju postati otporne na ove izvore varijacija.

Kontekst

Možda ćete primijetiti da je broj pogrešaka koje ljudi čine tijekom testiranja u snimkama s telefonske centrale prilično velik. Kad biste razgovarali s prijateljem koji ne razumije 1 od 20 riječi, bilo bi vam vrlo teško komunicirati.

Jedan od razloga za to je prepoznavanje bez uzimanja u obzir konteksta. U stvarnom životu koristimo mnogo različitih dodatnih znakova koji nam pomažu razumjeti što druga osoba govori. Neki primjeri konteksta koji koriste ljudi, a zanemaruju ga uređaji za prepoznavanje govora:

Povijest razgovora i tema o kojoj se raspravlja.
Vizualni tragovi o govorniku - izrazi lica, pokreti usana.
Skup znanja o osobi s kojom razgovaramo.

Danas Androidov prepoznavanje govora ima popis vaših kontakata, tako da može prepoznati imena vaših prijatelja. Glasovno pretraživanje na kartama koristi geolokaciju za sužavanje opcija do kojih želite dobiti upute.

Točnost sustava za prepoznavanje se povećava uključivanjem takvih signala u podatke. Ali tek počinjemo ulaziti u vrstu konteksta koju možemo uključiti u obradu i kako ga možemo koristiti.

Raspoređivanje

Nedavni napredak u prepoznavanju govornog jezika ne može se odmotati. Kada zamišljate implementaciju algoritma za prepoznavanje govora, morate imati na umu kašnjenje i snagu obrade. Ovi su parametri povezani jer algoritmi koji povećavaju zahtjeve za napajanjem također povećavaju kašnjenje. Ali radi jednostavnosti, o njima ćemo raspravljati odvojeno.

Latencija: vrijeme od kraja govora korisnika do kraja primanja transkripcije. Malo kašnjenje tipičan je zahtjev za prepoznavanje. To uvelike utječe na iskustvo korisnika u radu s proizvodom. Uobičajena su ograničenja od nekoliko desetaka milisekundi. Ovo se može činiti pretjerano restriktivnim, ali zapamtite da je izrada prijepisa obično prvi korak u nizu složenih izračuna. Na primjer, u slučaju glasovnog pretraživanja interneta, nakon prepoznavanja govora još uvijek morate imati vremena za izvođenje pretraživanja.

Dvosmjerni rekurentni slojevi tipičan su primjer poboljšanja koje pogoršava latenciju. Uz njihovu pomoć dobivaju se svi najnoviji visokokvalitetni rezultati transkripcije. Jedini je problem što ne možemo ništa brojati nakon što prođe prvi dvosmjerni sloj dok osoba ne prestane govoriti. Stoga se kašnjenje povećava s duljinom rečenice.

Lijevo: Izravno ponavljanje omogućuje dešifriranje da započne odmah. Desno: dvosmjerno ponavljanje zahtijeva čekanje do kraja govora prije početka transkripcije.

Još uvijek se traži dobar način za učinkovito uključivanje budućih informacija u prepoznavanje govora.

Računalna snaga: Na ovaj parametar utječu ekonomska ograničenja. Trošak banketa mora se uzeti u obzir za svako poboljšanje točnosti uređaja za prepoznavanje. Ako poboljšanje ne dosegne ekonomski prag, neće se primijeniti.

Klasičan primjer kontinuiranog poboljšanja koje se nikada ne primjenjuje je suradničko duboko učenje. Smanjenje broja pogrešaka za 1-2% rijetko opravdava povećanje računalne snage za 2-8 puta. Moderni modeli rekurentnih mreža također spadaju u ovu kategoriju, jer su vrlo neisplativi za pretraživanje hrpe trajektorija, iako mislim da će se situacija promijeniti u budućnosti.

Želim pojasniti da ne kažem da je poboljšanje točnosti prepoznavanja uz ozbiljno povećanje računalnih troškova beskorisno. Već smo vidjeli kako u prošlosti funkcionira princip “prvo polako, ali sigurno, a onda brzo”. Poanta je da se ne može koristiti sve dok poboljšanje ne bude dovoljno brzo.

U sljedećih pet godina

Još uvijek postoji mnogo neriješenih i složenih problema u području prepoznavanja govora. Među njima:

Proširenje mogućnosti novih sustava za pohranu podataka, prepoznavanje naglasaka, govor na pozadini jake buke.
Uključivanje konteksta u proces prepoznavanja.
Dijarizacija i odvajanje izvora.
Broj semantičkih pogrešaka i inovativne metode vrednovanja prepoznavača.
Vrlo niska latencija.

Radujem se napretku koji će biti postignut u sljedećih pet godina na ovim i drugim frontama.

Oznake: Dodajte oznake

Upravljanje zaslonom osjetljivim na dodir već je standardno. Glasovne naredbe “razumiju” najnoviji sustavi poput Windowsa 8. Prepoznavanje govora trebalo bi dovesti do toga da će naša komunikacija s računalom biti još jednostavnija, intuitivnija i... prirodnija. Reći ću vam kako to danas izgleda.

Malo povijesti - kako se razvila komunikacija sa strojem

Način na koji komuniciramo s računalom evoluirao je tijekom godina. Prvo sučelje putem kojeg su ljudi mogli izdavati naredbe bile su bušene kartice, koje datiraju iz 1832. godine. Korišteni su u strojevima za izradu tkanina. Tipkovnica se počela koristiti 1960. godine. Dva desetljeća kasnije pridružio se standardni miš koji se koristi i danas. Iako je miš podijelio svoje ovlasti s trackpadom, on je još uvijek najpopularnija vrsta kontrole. Zahvaljujući pametnim telefonima i tabletima, vrlo su popularna postala dodirna sučelja i geste, koje se posebno koriste za upravljanje Xbox 360 Kinectom. Nakon ekrana osjetljivih na dodir i gesti dolazi upravljanje glasom, no ovo je rješenje do sada toliko nedovoljno razvijeno da ponekad za njega nećete ni čuti.

Postavljanje prepoznavanja govora u sustavu Windows 8

Nažalost, glasovno upravljanje još nije dostupno na ruskom. Trenutno podržani jezici su engleski, francuski, njemački, japanski, korejski, kineski i španjolski. Microsoft se odlučio fokusirati na najveće i najrazvijenije zemlje, no moguće je da će s vremenom ovu značajku dodati i kod nas. Ako ga pokušaš pokrenuti, ovako psuje

Ako ipak želite testirati ovo rješenje, trebate konfigurirati sustav (promijeniti jezik) i naučiti par riječi na engleskom. Da biste to učinili, morate otići na upravljačku ploču i odabrati Jezik. Ako nemate drugi jezik osim ruskog, morate kliknuti gumb "Dodaj jezik", a zatim odabrati jedan od podržanih jezika. U našem slučaju to je "Engleski (SAD)". Vidimo da je dostupan samo izgled na ovom jeziku, dvaput kliknite, provjerit će dostupnost jezika za sučelje, nakon provjere kliknite "Preuzmi i instaliraj jezični paket", i proces će započeti, strpljivo čekati to učitati. Kada se ovaj proces završi, postavite zadani jezik na engleski

Sada morate otići na početni zaslon sustava Windows 8 (pločice), unijeti "Windows Speech Recognition" u pretraživanje i pritisnuti Enter.

Tako da možete pokrenuti alat za prepoznavanje glasa. Kada ga prvi put pokrenete, ponudit će konfiguraciju mikrofona, nakon odabira reći nešto za provjeru.

Zatim ponudite pohađanje lekcija. Traju do 15-20 minuta, ali su vrlo korisni i pružaju osnovne informacije o tome kako koristiti značajke. Ali ako niste jaki u engleskom, mislim da ne vrijedi gubiti vrijeme, bit će teško razumjeti bilo što, idite ravno u bitku

Kako raditi

Kako bi računalo počelo prepoznavati vaš govor, morate reći “start listening” (što znači početi slušati), ili pritisnuti tipku mikrofona za početak načina slušanja. Sada možete otvoriti aplikaciju ili jednostavno diktirati riječi u uređivač teksta, preglednik ili traku za pretraživanje

Što možemo učiniti

U principu, mogućnosti su ogromne, osim standardnih riječi, možete kreirati vlastite naredbe. Glavne značajke prikazane su u tablici

Akcijski	Što reći
Odaberite bilo koji element po imenu	Pritisnite File, Start, View
Odaberite bilo koji element ili ikonu	Kliknite koš za smeće, kliknite računalo, kliknite (naziv datoteke)
Dvaput kliknite ili dvaput kliknite bilo koji element	Dvaput kliknite Recycle Bin, Dvaput pritisnite Computer
Prebacivanje između otvorenih aplikacija	Prebacite se na Paint, prebacite se na WordPad
Svitak	Pomicanje gore; Pomaknite se prema dolje; Pomicanje lijevo; Pomaknite se desno
Uključite novi odlomak ili novi redak u dokument	Novi paragraf; Nova linija
Odaberite riječ u dokumentu
Ispravak riječi	Ispravna riječ
Odaberite i uklonite određene riječi
Prikaži popis primjenjivih naredbi
	Osvježi govorne naredbe
Uključite način slušanja
Isključite način slušanja
Sažmi mikrofon	Smanjite prepoznavanje govora
Pogledajte pomoć i podršku za Windows	Kako da nešto učinim? Na primjer: Kako mogu instalirati pisač?

Ako ne znate izgovoriti izraz, predlažem da koristite Google Translate ili http://uchilochka.rf (on je bolje razumio ovu stranicu)

Imao sam želju zapisati svoje naredbe koje su se sastojale od jednostavnih buržoaskih riječi. Koje mogu izgovoriti. Dakle, nije mi dopustio da to učinim, nije mogao pokrenuti uređivač naredbi. Kao rezultat toga, savršeno je razumio moj izgovor riječi jedan, dva i otvoreno. Pomoću ovog kotačića možete pokrenuti aplikaciju prema broju na početnom zaslonu. Prvo izgovorite broj, a zatim OTVORENO. Ne puno, naravno, ali eksperiment smatram uspješnim. Ne bi bilo loše da Microsoft uvede ruski jezik, dobru zamjenu za daljinski upravljač.

Operativni sustav Windows 7 opremljen je brojnim opcijama koje pružaju sve više mogućnosti korisnicima ovog sustava. Uspjeli su u njega uvesti vrlo zanimljivu funkciju, koja se zove "prepoznavanje govora". Ali što je ovaj sustav? O tome će biti riječi.

Predmetna opcija omogućuje aplikacijama u cijelom sustavu korištenje potpuno novog načina interakcije korisnika s računalom. To je Windows 7 sustav za prepoznavanje govora koji vam omogućuje upravljanje računalom bez korištenja tipkovnice, miša ili drugih sredstava.

Želio bih napomenuti da će ova inovacija biti dostupna u drugim Microsoftovim proizvodima. Ova je funkcija primijećena nešto ranije, odnosno pokušali su je implementirati u Windows Vista, no u sedmoj verziji Microsoftovog operativnog sustava glasovno upravljanje se izvodi na višoj razini u odnosu na prethodnika. Pojednostavljeno rečeno, opcija kao što je prepoznavanje govora u sustavu Windows 7 postala je još funkcionalnija.

Uz sve što je rečeno, želio bih napomenuti da ima prilično širok raspon primjena. Korisnici sustava Windows 7 s prepoznavanjem govora imaju mogućnost pokretanja programa i pretvaranja svih zvučnih fragmenata u tekst, izvršavanja svih vrsta naredbi na računalu, koristeći samo svoj glas i potrebne uređaje. Ali što je potrebno da Windows 7 prepoznavanje govora postane stvarnost?

Prije svega, trebat će vam mikrofon, koji bi trebao biti spojen na vaše računalo. Osim toga, potrebno je kupiti posebnu aplikaciju ili program koji izdaje sam proizvođač, odnosno Microsoft. Nakon što su instalirane sve potrebne komponente i spojen mikrofon na računalo, potrebno je provesti određeni plan rada:

Morate pokrenuti testne glasovne naredbe i pretvoriti ih u tekst.
Nakon što uvježbate program za prepoznavanje, morat ćete izraditi predloške za različite glasovne naredbe. Na temelju tog rada računalo će moći prihvatiti i izvršiti sve naredbe koje odredite.

Windows 7 funkcija prepoznavanja govora koristi se u Microsoftovom uređivaču teksta – WordPadu. Funkcionira besprijekorno pri ispunjavanju raznih obrazaca, a dobro se ponaša i pri radu u Internet Exploreru i kada

Osim toga, ovom opcijom možete jednostavno urediti prethodno snimljeni tekst definiranjem posebnih glasovnih naredbi. Naravno, u procesu prepoznavanja pojedinog zadatka dolazi do tipičnih grešaka (kada se neki zvukovi pogrešno prepoznaju). Za ovaj slučaj, program nudi popis korespondencija određenih riječi.

Funkcija je, naravno, fenomenalna, ali ovdje još uvijek postoji jedno "ali". Stvar je u tome što je prepoznavanje ruskog govora sada u načelu nedostupno. Postoje izvrsne verzije programa za engleski, francuski, njemački i japanski jezik. Postoje i verzije za kineski, španjolski i talijanski govor.

Ali ovaj novi proizvod nije u potpunosti prilagođen ruskom govoru. Vaše računalo neće moći percipirati zadatke koji su mu dodijeljeni, što znači da ćete lakše napisati nešto pomoću tipkovnice ili izvršiti određene zadatke pomoću miša.

Naravno, možete pokušati raditi sa sličnim programima na ruskom jeziku ili dati prednost engleskom jeziku, ali još uvijek se možete nadati da će uskoro prepoznavanje govora na ruskom također biti dostupno u visokokvalitetnom načinu rada. I tada ćete moći isprobati tako jedinstvenu značajku u praksi. Uostalom, to, bez sumnje, jasno pojednostavljuje rad na osobnom računalu i veliki je proboj u području programiranja. Dakle, preostaje samo čekati.

Nijedan program ne može u potpunosti zamijeniti ručni rad transkripcije snimljenog govora. No, postoje rješenja koja mogu znatno ubrzati i olakšati prevođenje govora u tekst, odnosno pojednostaviti transkripciju.

Transkripcija je snimanje audio ili video datoteke u obliku teksta. Na internetu postoje plaćeni plaćeni zadaci, kada se izvođaču plaća određena svota novca za prepisivanje teksta.

Prijevod govora u tekst je koristan

studentima da prevedu snimljena audio ili video predavanja u tekst,
blogeri koji vode web stranice i blogove,
književnici, novinari za pisanje knjiga i tekstova,
informacijske poslovne ljude koji trebaju tekst nakon webinara, govora i sl.,
ljudi koji imaju poteškoća s tipkanjem - mogu izdiktirati pismo i poslati ga obitelji ili prijateljima,
druge opcije.

Opisat ćemo najučinkovitije alate dostupne na računalima, mobilnim aplikacijama i online uslugama.

1 Web stranica speakpad.ru

Ovo je internetska usluga koja vam omogućuje prevođenje govora u tekst pomoću preglednika Google Chrome. Usluga radi s mikrofonom i gotovim datotekama. Naravno, kvaliteta će biti puno veća ako koristite vanjski mikrofon i diktirate sami. Međutim, usluga dobro radi čak i s YouTube videozapisima.

Kliknite "Omogući snimanje", odgovorite na pitanje o "Korištenje mikrofona" - da biste to učinili, kliknite "Dopusti".

Duge upute o korištenju usluge mogu se sažeti klikom na gumb 1 na sl. 3. Možete se riješiti oglašavanja ispunjavanjem jednostavne registracije.

Riža. 3. Usluga govorne pločice

Gotov rezultat je lako urediti. Da biste to učinili, morate ili ručno ispraviti označenu riječ ili je ponovno izdiktirati. Rezultati rada spremaju se na vaš osobni račun, a mogu se preuzeti i na vaše računalo.

Popis video lekcija o radu s govornom pločom:

Videozapise možete transkribirati s Youtubea ili s vašeg računala, no trebat će vam mikser, više detalja:

Video "audio transkripcija"

Usluga radi na sedam jezika. Postoji mali minus. Leži u činjenici da ako trebate prepisati gotovu audio datoteku, tada se njen zvuk čuje kroz zvučnike, što stvara dodatne smetnje u obliku jeke.

2 Servisni diktat.io

Prekrasna internetska usluga koja vam omogućuje besplatno i jednostavno prevođenje govora u tekst.

Riža. 4. Servisni diktat.io

1 na sl. 4 – Ruski jezik možete odabrati na kraju stranice. U pregledniku Google Chrome odabire se jezik, ali iz nekog razloga u Mozilli ne postoji takva opcija.

Važno je napomenuti da je implementirana mogućnost automatskog spremanja gotovog rezultata. To će spriječiti slučajno brisanje kao rezultat zatvaranja kartice ili preglednika. Ova usluga ne prepoznaje gotove datoteke. Radi s mikrofonom. Prilikom diktiranja morate imenovati interpunkcijske znakove.

Tekst se sasvim ispravno prepoznaje, nema pravopisnih grešaka. Možete sami umetnuti interpunkcijske znakove s tipkovnice. Gotovi rezultat može se spremiti na vaše računalo.

3 RealSpeaker

Ovaj vam program omogućuje jednostavno prevođenje ljudskog govora u tekst. Dizajniran je za rad na različitim sustavima: Windows, Android, Linux, Mac. Uz njegovu pomoć možete pretvoriti govor koji se čuje u mikrofon (na primjer, može se ugraditi u prijenosno računalo), kao i snimiti u audio datoteke.

Može razumjeti 13 svjetskih jezika. Postoji beta verzija programa koja radi kao online usluga:

Morate slijediti gornju vezu, odabrati ruski jezik, prenijeti svoju audio ili video datoteku na internetsku uslugu i platiti njezinu transkripciju. Nakon transkripcije možete kopirati dobiveni tekst. Što je veća datoteka za transkripciju, to će više vremena trebati da se obradi, više detalja:

U 2017. postojala je opcija besplatnog prijepisa pomoću RealSpeakera, ali u 2018. ne postoji takva opcija. Vrlo je zbunjujuće što je transkribirana datoteka dostupna svim korisnicima za preuzimanje; možda će se to poboljšati.

Kontakti programera (VKontakte, Facebook, Youtube, Twitter, e-mail, telefon) programa mogu se pronaći na stranici njegove web stranice (točnije, u podnožju stranice):

4 Speechlogger

Alternativa prethodnoj aplikaciji za mobilne uređaje koji rade na Androidu. Dostupno besplatno u trgovini aplikacija:

Tekst se automatski uređuje i dodaju se interpunkcijski znakovi. Vrlo zgodno za diktiranje bilješki sebi ili izradu popisa. Kao rezultat toga, tekst će biti vrlo pristojne kvalitete.

5 Zmajev diktat

Ovo je aplikacija koju Apple besplatno distribuira za mobilne uređaje.

Program može raditi s 15 jezika. Omogućuje vam uređivanje rezultata i odabir željenih riječi s popisa. Morate jasno izgovarati sve zvukove, ne praviti nepotrebne pauze i izbjegavati intonaciju. Ponekad postoje pogreške u završecima riječi.

Aplikaciju Dragon Dictation vlasnici, primjerice, koriste za diktiranje popisa za kupovinu u trgovini dok se kreću po stanu. Kad stignem tamo, mogu pogledati tekst u bilješci, a ne moram slušati.

Koji god program koristite u svojoj ordinaciji, budite spremni ponovno provjeriti rezultate i napraviti određene prilagodbe. To je jedini način da dobijete besprijekoran tekst bez grešaka.

Također korisne usluge:

Primajte najnovije članke o informatičkoj pismenosti izravno u svoju pristiglu poštu.
Već više 3000 pretplatnika