Problém rozpoznávania reči ešte nie je vyriešený. Zapnutie a vypnutie automatického rozpoznávania reči Nastavenie rozpoznávania reči v systéme Windows 7

Windows Vista je prvý operačný systém od spoločnosti Microsoft, ktorý má zabudované rozpoznávanie reči. Pomocou tejto funkcie môžete hlasom vykonávať rôzne úlohy, ako je spúšťanie programov, zatváranie, ukladanie a mazanie súborov, diktovanie textu, ktorý sa má doslovne zaznamenať, a jeho úprava. Deb Shinder, IT konzultantka, vás prevedie podrobnosťami o používaní tejto funkcie.

Už od uvedenia filmu Star Trek mnohí používatelia počítačov snívali o tom, že vyhodia klávesnice, myši a budú svoj počítač ovládať hlasom. Programy, ktoré vám umožnili vysloviť rôzne príkazy, diktovať text do počítača – sa vyrábajú už mnoho rokov a boli veľmi užitočné pre tých, ktorí fyzicky nemohli používať iné metódy zadávania. Ale z nejakého dôvodu tieto programy neboli populárne.

Windows Vista je prvý operačný systém od Microsoftu, ktorý dokáže rozpoznať reč. Predtým bola funkcia rozpoznávania reči prítomná v balíkoch Microsoft Office XP a Office 2003 a bolo možné použiť aj programy od iných vývojárov, ako napríklad Dragon NaturallySpeaking. Microsoft do Windows Mobile pridal aj rozpoznávanie reči.

Ak chcete začať komunikovať s počítačom, nemusíte si nič dokupovať, Vista už všetko má. V predvolenom nastavení je funkcia zakázaná, ale môžete ju jednoducho povoliť v ovládacom paneli, ako je znázornené na obrázku A.

Túto funkciu môžete spustiť aj z ponuky výberom položky Všetky programy | Štandardné | Prístupnosť (všetky programy | Príslušenstvo | Jednoduchý prístup), ako je znázornené na obrázku B.

Ako to funguje

Môžete si vybrať jeden z dvoch režimov rozpoznávania reči:

Správa programov: Spúšťajte a zatvárajte programy, prepínajte medzi nimi, uložte a odstráňte súbory atď.
Na diktovanie textu, ktorý bude zaznamenaný doslovne, ako aj na jeho úpravu.

Vývojári softvéru môžu pridať podporu pre túto funkciu do svojich programov. Nepríjemné je, že rozpoznávanie reči v súčasnosti podporuje len niekoľko jazykov: angličtina (USA a Spojené kráľovstvo), nemčina, francúzština, španielčina, japončina a čínština (tradičná a zjednodušená).

Nastavenie rozpoznávania reči

Pred použitím rozpoznávania reči budete musieť vykonať nasledujúce kroky:

Zapnite rozpoznávanie reči.
Nastavte mikrofón.
Prečítajte si príručku (voliteľné).
Cvičte jasne, hovorte (tiež nie je potrebné).

Po dvojitom kliknutí na položku Rozpoznávanie reči v ovládacom paneli alebo výbere položky Rozpoznávanie reči z ponuky sa vám zobrazí okno nastavenia, ako je znázornené na obrázku C.

Keď kliknete na Spustiť rozpoznávanie reči, v hornej časti obrazovky sa zobrazí panel hlasového ovládania, ako je znázornené na obrázku D.

Ak už máte túto funkciu nakonfigurovanú, zásuvka sa zaregistruje v automatickom spustení a spustí sa pri každom spustení systému Windows. Na paneli sa tiež zobrazí modrá ikona hlasového ovládania.
Kontextovú ponuku nastavení môžete vyvolať kliknutím pravým tlačidlom myši na ikonu na paneli úloh alebo na panel hlasového ovládania, ako je znázornené na obrázku E.

V ponuke uvidíte nasledujúce nastavenia:

Zapnúť reč: Počítač bude počúvať všetko, čo poviete, a vykoná príkazy, ktoré rozpozná.
Pohotovostný režim (spánok): Počítač bude nasledovať vašu reč, ale nebude reagovať na žiadne príkazy, kým nepoviete „Začať počúvať“.
Vypnuté: Počítač vás nepočúva, nech mu hovoríte čokoľvek.
Otvoriť referenčnú kartu reči: Praktický cheat so základnými príkazmi a ďalšími informáciami.
Spustiť výučbu reči: Video tutoriál, kde vám bude všetko povedané a ukázané.
Pomoc: Otvorí súbor pomocníka o tejto funkcii.
Možnosti: Tu môžete nastaviť, aby sa program načítal so systémom Windows, automatická oprava textu atď.
Konfigurácia: Tu môžete nastaviť mikrofón, zlepšiť rozpoznávanie reči a otvoriť ovládací panel.
Otvorte slovník reči: Môžete pridávať nové slová (veľmi užitočné pri menách a slovách, ktoré je ťažké rozpoznať) a tiež môžete vylúčiť slová, ktoré nikdy nevyslovíte.
Téma diktátu: Tu je možné vybrať iba príbeh.
Navštívte webovú lokalitu (prejdite na webovú lokalitu rozpoznávania reči).
Získajte informácie o rozpoznávaní reči: Toto je nám známe dialógové okno Windows, v ktorom je napísaná verzia, licenčné číslo a názov programu.
Otvorte funkciu Rozpoznávanie reči.
VÝCHOD:Úplne zatvorí program.

Preklad

Odkedy hlboké učenie vstúpilo na scénu rozpoznávania reči, počet chýb v rozpoznávaní slov sa dramaticky znížil. Ale napriek všetkým článkom, ktoré ste možno čítali, stále nemáme rozpoznávanie reči na ľudskej úrovni. Rozpoznávanie reči má mnoho režimov zlyhania. Aby ste ich ďalej zlepšovali, musíte ich identifikovať a pokúsiť sa ich odstrániť. Toto je jediný spôsob, ako prejsť od uznania, ktoré funguje pre niektorých ľudí väčšinu času, k uznaniu, ktoré funguje neustále pre všetkých ľudí.

Zlepšenie počtu nesprávne identifikovaných slov. Testovacie hlasové vytáčanie bolo zostavené na telefónnej ústredni v roku 2000 zo 40 náhodných rozhovorov medzi dvoma ľuďmi, ktorých rodným jazykom je angličtina.

Povedať, že sme dosiahli úroveň človeka v rozpoznávaní reči v rozhovoroch len na základe súboru rozhovorov z telefónnej ústredne, je ako povedať, že robotické auto jazdí rovnako dobre ako človek, keď sme ho otestovali v jedinom meste. za slnečného dňa bez premávky. Nedávne zmeny v rozpoznávaní reči sú úžasné. Ale tvrdenia o rozpoznávaní reči na ľudskej úrovni sú príliš odvážne. Tu je niekoľko oblastí, v ktorých je ešte potrebné zlepšiť.

Akcenty a hluk

Jednou zo zjavných nevýhod rozpoznávania reči je spracovanie akcenty a hluk pozadia. Hlavným dôvodom je to, že väčšina tréningových údajov pozostáva z amerických dialektov s vysokým pomerom signálu k šumu. Napríklad v súbore konverzácií z telefónnej ústredne sú len konverzácie ľudí, ktorých rodným jazykom je angličtina (väčšinou Američania), s malým hlukom v pozadí.

Samotné zvýšenie tréningových údajov však tento problém s najväčšou pravdepodobnosťou nevyrieši. Existuje mnoho jazykov obsahujúcich mnoho dialektov a prízvukov. Je nereálne zbierať označené údaje pre všetky prípady. Vytvorenie vysokokvalitného rozpoznávača reči pre americkú angličtinu vyžaduje iba 5 000 hodín zvuku prepísaného do textu.

Porovnanie rečníkov na text s Baidu's Deep Speech 2 na rôznych typoch reči. Ľudia horšie rozoznávajú neamerické prízvuky, možno preto, že je medzi nimi množstvo Američanov. Myslím si, že ľudia, ktorí vyrastali v konkrétnom regióne, by rozpoznanie prízvuku tohto regiónu zvládli s oveľa menším počtom chýb.

V prípade hluku pozadia v idúcom aute môže byť pomer signálu k šumu až -5 dB. Ľudia sa v takýchto podmienkach ľahko vyrovnávajú s rozpoznávaním reči inej osoby. Automatické rozpoznávače degradujú oveľa rýchlejšie so zvyšujúcim sa šumom. Graf ukazuje, o koľko sa zvyšuje separácia ľudí so zvyšujúcim sa hlukom (pri nízkom SNR, pomere signálu k šumu)

Sémantické chyby

Počet nesprávne rozpoznaných slov často nie je samoúčelný pre systém rozpoznávania reči. Zameriavame sa na počet sémantických chýb. To je podiel výrazov, v ktorých nesprávne rozpoznávame význam.

Príkladom sémantickej chyby je, keď niekto povie „stretneme sa v utorok“ [stretneme sa v utorok] a rozpoznávač vráti „stretneme sa dnes“ [stretneme sa dnes]. V slovách sa vyskytujú aj chyby bez sémantických chýb. Ak resolver nerozpoznal "hore" a vrátil "stretneme sa utorok", sémantika vety sa nezmenila.

Ako meradlo musíme opatrne použiť počet nesprávne identifikovaných slov. Aby som to ilustroval, uvediem príklad najhoršieho prípadu. 5 % slovných chýb zodpovedá jednému chýbajúcemu slovu z 20. Ak je v každej vete 20 slov (čo je celkom v rámci priemeru angličtiny), počet nesprávne rozpoznaných viet sa blíži k 100 %. Možno dúfať, že nesprávne rozpoznané slová nezmenia sémantický význam viet. V opačnom prípade môže rozpoznávač nesprávne interpretovať každú vetu aj s 5 % nesprávne rozpoznaných slov.

Pri porovnávaní modelov s ľuďmi je dôležité skontrolovať podstatu chýb a sledovať nielen počet nesprávne rozpoznaných slov. Podľa mojich skúseností ľudia, ktorí píšu reč na text, robia menej chýb a nie sú také vážne ako počítače.

Vedci z Microsoftu nedávno porovnávali chyby ľudských a počítačových rozpoznávačov podobnej úrovne. Jedným zo zistených rozdielov je, že model si zamieňa „uh“ [uh...] s „uh hu“ [yeah] oveľa častejšie ako ľudia. Tieto dva termíny majú veľmi odlišnú sémantiku: „uh“ vypĺňa medzery, zatiaľ čo „uh huh“ označuje potvrdenie od poslucháča. Modelky a ľudia tiež našli veľa chýb zodpovedajúcich typov.

Veľa hlasov v jednom kanáli

Rozpoznanie zaznamenaných telefonických rozhovorov je tiež jednoduchšie, pretože každý rečník bol zaznamenaný na samostatný mikrofón. Nedochádza k prekrývaniu viacerých hlasov v jednom zvukovom kanáli. Ľudia môžu rozumieť niekoľkým rečníkom, niekedy hovoriacim súčasne.

Dobrý rozpoznávač reči by mal byť schopný rozdeliť tok zvuku na segmenty v závislosti od hovoriaceho (vystaviť ho diarizovaniu). Musí tiež extrahovať význam zo zvukového záznamu s dvoma prekrývajúcimi sa hlasmi (oddelenie zdrojov). To je potrebné urobiť bez mikrofónu umiestneného priamo pri ústach každého z reproduktorov, to znamená, aby rozpoznávač dobre fungoval, keď je umiestnený na ľubovoľnom mieste.

Kvalita záznamu

Akcenty a hluk v pozadí sú len dva faktory, voči ktorým musí byť rozpoznávač reči odolný. Tu je niekoľko ďalších:

Dozvuk v rôznych akustických podmienkach.
Artefakty spojené s vybavením.
Artefakty kodeku používaného na záznam a kompresiu signálu.
Vzorkovacia frekvencia.
Vek hovorcu.

Väčšina ľudí nedokáže rozlíšiť medzi súbormi mp3 a wav. Rozpoznatelia sa musia stať odolnými voči týmto zdrojom variácií predtým, ako budú tvrdiť, že výkon podobný ľuďom.

Kontext

Je vidieť, že počet chýb, ktoré ľudia robia na testoch v nahrávkach z telefónnej ústredne, je dosť vysoký. Ak by ste sa rozprávali s priateľom, ktorý nerozumel 1 slovu z 20, bolo by pre vás veľmi ťažké komunikovať.

Jedným z dôvodov je uznanie bez kontextu. V skutočnom živote používame mnoho rôznych dodatočných znakov, ktoré nám pomáhajú pochopiť, čo ten druhý hovorí. Niekoľko príkladov kontextu používaného ľuďmi a ignorovaného rozpoznávačmi reči:

História rozhovoru a diskutovaná téma.
Vizuálne signály o hovorcovi – mimika, pohyb pier.
Súbor vedomostí o osobe, s ktorou hovoríme.

Rozpoznávač reči systému Android má teraz zoznam vašich kontaktov, takže dokáže rozpoznať mená vašich priateľov. Hlasové vyhľadávanie na mapách využíva geolokáciu na zúženie možností, ku ktorým chcete získať trasu.

Presnosť rozpoznávacích systémov sa zvyšuje so zahrnutím takýchto signálov do údajov. Ale ešte len začíname prenikať do typu kontextu, ktorý by sme mohli zahrnúť do spracovania a ako ho používať.

Nasadenie

Nedávne pokroky v rozpoznávaní hovoreného jazyka nie je možné nasadiť. Keď si predstavujete nasadenie algoritmu rozpoznávania reči, musíte mať na pamäti latenciu a výkon spracovania. Tieto parametre spolu súvisia, pretože algoritmy, ktoré zvyšujú požiadavky na energiu, zvyšujú aj latenciu. Ale pre jednoduchosť ich rozoberieme samostatne.

Latencia: Čas od konca reči používateľa do konca prijatia prepisu. Typickou požiadavkou na uznanie je malé oneskorenie. Veľmi ovplyvňuje používateľský zážitok z práce s produktom. Často existuje limit desiatok milisekúnd. Môže sa to zdať príliš prísne, ale nezabudnite, že vydanie prepisu je zvyčajne prvým krokom v sérii komplikovaných výpočtov. Napríklad v prípade hlasového vyhľadávania na internete musíte mať po rozpoznaní reči ešte čas na dokončenie vyhľadávania.

Obojsmerné rekurentné vrstvy sú typickým príkladom zlepšenia, ktoré zhoršuje situáciu latencie. S ich pomocou sa získavajú všetky najnovšie výsledky vysokokvalitného prepisu. Jediným problémom je, že nemôžeme počítať nič za prvou obojsmernou vrstvou, kým osoba nedohovorí. S dĺžkou trestu sa preto zdržiavanie zvyšuje.

Vľavo: Priame opakovanie umožňuje okamžité spustenie dešifrovania. Vpravo: Obojsmerné opakovanie vyžaduje, aby ste pred začatím prepisu počkali do konca prejavu.

Stále sa hľadá dobrý spôsob, ako efektívne začleniť budúce informácie do rozpoznávania reči.

Výpočtový výkon: Tento parameter je ovplyvnený ekonomickými obmedzeniami. Pri každom zlepšení presnosti rozpoznávača musíte zvážiť náklady na banket. Ak zlepšenie nedosiahne ekonomický prah, nebude ho môcť nasadiť.

Klasickým príkladom neustáleho zlepšovania, ktoré sa nikdy neuplatňuje, je spoločné hlboké učenie. Zníženie počtu chýb o 1-2% zriedka odôvodňuje zvýšenie výpočtového výkonu o 2-8 krát. Do tejto kategórie patria aj moderné modely rekurentných sietí, pretože ich použitie pri hľadaní množstva trajektórií je veľmi nerentabilné, aj keď si myslím, že sa situácia v budúcnosti zmení.

Chcem objasniť - nehovorím, že zlepšovanie presnosti rozpoznávania s vážnym zvýšením výpočtových nákladov je zbytočné. Ako funguje princíp „najprv pomaly, ale presne a potom rýchlo“ sme už videli v minulosti. Ide o to, že kým zlepšenie nie je dostatočne rýchle, nedá sa použiť.

V nasledujúcich piatich rokoch

V oblasti rozpoznávania reči je stále veľa nevyriešených a zložitých problémov. Medzi nimi:

Rozšírenie možností nových systémov ukladania dát, rozpoznávanie akcentov, reči na pozadí silného šumu.
Zahrnutie kontextu do procesu rozpoznávania.
Diarizácia a separácia zdrojov.
Množstvo sémantických chýb a inovatívne metódy hodnotenia rozpoznávačov.
Veľmi malé oneskorenie.

Teším sa na pokrok, ktorý sa v nasledujúcich piatich rokoch dosiahne na týchto a iných frontoch.

Štítky: Pridajte štítky

Ovládanie dotykovým displejom je už štandardom. Hlasovým príkazom „rozumejú“ najnovšie systémy ako Windows 8. Rozpoznávanie reči by malo našu komunikáciu s počítačom ešte viac zjednodušiť, intuitívnejšie a... prirodzenejšie. Poviem vám, ako to dnes vyzerá.

Trochu histórie - ako sa vyvíjala komunikácia so strojom

Spôsoby komunikácie s počítačom sa v priebehu rokov vyvíjali. Prvým rozhraním, cez ktoré mohol človek zadávať príkazy, boli dierne štítky, ktoré sa datujú do roku 1832. Používali sa v strojoch na výrobu súkna. Klávesnica sa začala používať v roku 1960. O dve desaťročia neskôr sa pripojila štandardná myš, ktorá sa používa dodnes. Hoci má myš zdieľanú silu s trackpadom, stále je to najobľúbenejšia forma ovládania. Vďaka smartfónom a tabletom sa stalo veľmi populárnym dotykové rozhranie a gestá, ktoré slúžia najmä na ovládanie Xbox 360 Kinect. Po dotykových obrazovkách a gestách prichádza hlasové ovládanie, no toto riešenie bolo doteraz tak málo vyvinuté, že o ňom niekedy ani nepočuť.

Nastavenie rozpoznávania reči v systéme Windows 8

Bohužiaľ, hlasové ovládanie zatiaľ nie je dostupné v ruštine. V súčasnosti sú podporované angličtina, francúzština, nemčina, japončina, kórejčina, čínština a španielčina. Microsoft sa rozhodol zamerať na najväčšie a najvyspelejšie krajiny, no je možné, že o nejaký čas túto funkciu pridá aj pre našu krajinu. Ak sa ho pokúsite spustiť, nadáva takto

Ak chcete toto riešenie predsa len otestovať, musíte si nastaviť systém (zmeniť jazyk) a naučiť sa pár slov v angličtine. Ak to chcete urobiť, musíte prejsť na ovládací panel a vybrať položku Jazyk. Ak nemáte iný jazyk ako ruský, musíte kliknúť na tlačidlo „Pridať jazyk“ a potom vybrať jeden z podporovaných jazykov. V našom prípade je to „Angličtina (Spojené štáty americké)“. Vidíme, že je k dispozícii iba rozloženie v tomto jazyku, dvakrát kliknite, skontroluje sa dostupnosť jazyka pre rozhranie, po kontrole kliknite na „Stiahnuť a nainštalovať jazykový balík“ a proces sa spustí, trpezlivo čakajte to načítať. Po dokončení tohto procesu nastavte predvolený jazyk na angličtinu

Teraz musíte prejsť na úvodnú obrazovku systému Windows 8 (dlaždicová), do vyhľadávacieho poľa zadajte „Rozpoznávanie reči systému Windows“ a stlačte kláves Enter.

Môžete teda spustiť nástroj na rozpoznávanie hlasu. Pri prvom spustení vás vyzve na konfiguráciu mikrofónu, po výbere povedzte niečo na kontrolu.

Potom ponúknite školenie. Trvajú až 15-20 minút, ale sú veľmi užitočné a poskytujú základné informácie o používaní funkcií. Ale ak nie ste silný v angličtine, myslím, že by ste nemali strácať čas, bude ťažké niečo rozlíšiť, choďte rovno do boja

Ako pracovať

Aby počítač začal rozpoznávať vašu reč, musíte povedať „začať počúvať“ (čo znamená začať počúvať), alebo stlačením tlačidla mikrofónu spustiť režim počúvania. Teraz môžete otvoriť aplikáciu alebo jednoducho diktovať slová do textového editora, prehliadača alebo vyhľadávacieho panela

Čo môžeme urobiť

Možnosti sú v princípe obrovské, okrem štandardných slovíčok si môžete vytvárať vlastné tímy. Hlavné vlastnosti sú uvedené v tabuľke

Akcia	Čo na to povedať
Vyberte ľubovoľný prvok podľa jeho názvu	Kliknite na Súbor, Štart, Zobraziť
Vyberte ľubovoľný prvok alebo ikonu	Kliknite na Kôš, Kliknite na Počítač, Kliknite (názov súboru)
Dvakrát kliknite alebo dvakrát kliknite na ľubovoľnú položku	Dvakrát kliknite na Kôš, Dvakrát kliknite na Počítač
Prepínanie medzi otvorenými aplikáciami	Prepnúť na Maľovanie, Prepnúť na WordPad
rolovanie	posunúť nahor; posunúť nadol; prejdite doľava; Prejdite doprava
Zahrňte do dokumentu nový odsek alebo nový riadok	nový odsek; Nový riadok
Vyberte slovo v dokumente
Oprava slov	správne slovo
Vyberte a odstráňte určité slová
Zobraziť zoznam použiteľných príkazov
	Obnoviť hlasové príkazy
Zapnite režim počúvania
Zakázať režim počúvania
Zložiť mikrofón	Minimalizovať rozpoznávanie reči
Zobraziť Pomoc a podporu pre systém Windows	Ako mám niečo urobiť? Napríklad: Ako nainštalujem tlačiareň?

Ak neviete, ako túto frázu vysloviť, odporúčam vám použiť prekladač Google alebo http://tutor.ru (lepšie porozumel tejto stránke)

Mal som túžbu spísať svoje tímy pozostávajúce z jednoduchých buržoáznych slov. Ktoré môžem vysloviť. Takže mi to nedovolil, nemohol spustiť editor príkazov. Vďaka tomu dokonale rozumel mojej výslovnosti slov One, Two a Open. Pomocou tejto sady môžete spustiť aplikáciu podľa čísla na domovskej obrazovke. Najprv povedzte číslo, potom povedzte OPEN. Samozrejme, nie veľa, ale experiment považujem za úspešný. Nebolo by zlé, keby Microsoft predstavil ruský jazyk, dobrú náhradu za diaľkové ovládanie.

Operačný systém Windows 7 je vybavený mnohými možnosťami, ktoré dávajú používateľom tohto systému stále viac príležitostí. Dokázali do nej zaviesť veľmi zaujímavú funkciu, ktorá sa nazýva „rozpoznávanie reči“. Ale čo je to za systém? O tom sa bude diskutovať.

Táto možnosť umožňuje aplikáciám v celom systéme využívať úplne nový spôsob interakcie používateľa s počítačom. Je to systém Windows 7 Speech Recognition, ktorý vám umožňuje ovládať počítač bez použitia klávesnice, myši alebo iných prostriedkov.

Chcel by som poznamenať, že táto inovácia bude dostupná v iných produktoch spoločnosti Microsoft. Táto funkcia bola zaznamenaná o niečo skôr, to znamená, že sa ju pokúsili implementovať v systéme Windows Vista, ale v siedmej verzii operačného systému Microsoft sa hlasové ovládanie vykonáva na vyššej úrovni ako jeho predchodca. Zjednodušene povedané, taká možnosť, ako je rozpoznávanie reči v systéme Windows 7, sa stala ešte funkčnejšou.

Okrem toho, čo bolo povedané, by som rád poznamenal, že má pomerne širokú škálu aplikácií. Používatelia systému Windows 7 s rozpoznávaním reči majú možnosť spúšťať programy a prevádzať všetky zvukové fragmenty na text, vykonávať všetky druhy príkazov v počítači iba pomocou svojho hlasu a potrebných zariadení. Čo je však potrebné na to, aby sa rozpoznávanie reči v systéme Windows 7 stalo realitou?

Najprv budete potrebovať mikrofón, ktorý by mal byť pripojený k počítaču. Okrem toho si musíte zakúpiť špeciálnu aplikáciu alebo program, ktorý vydáva samotný výrobca, teda Microsoft. Po nainštalovaní všetkých potrebných komponentov a pripojení mikrofónu k počítaču by sa mal implementovať určitý pracovný plán:

Musíte vykonať testovacie hlasové príkazy a previesť ich na text.
Po natrénovaní programu rozpoznávania budete musieť vytvoriť šablóny pre rôzne príkazy pomocou hlasu. Na základe tejto práce bude počítač schopný prijať a vykonať všetky príkazy, ktoré určíte.

Funkcia rozpoznávania reči systému Windows 7 sa používa v textovom editore WordPad od spoločnosti Microsoft. Funguje bezchybne pri vypĺňaní rôznych formulárov a dobre funguje aj v Internet Exploreri a kedy

Okrem toho táto možnosť jednoducho upraví predtým zaznamenaný text definovaním špeciálnych hlasových príkazov. Samozrejme, v procese rozpoznávania konkrétnej úlohy sa vyskytujú typické chyby (keď dôjde k chybnému rozpoznaniu určitých zvukov). V tomto prípade program poskytuje zoznam zhôd určitých slov.

Funkcia je, samozrejme, fenomenálna, ale stále je tu jedno „ale“. Ide o to, že rozpoznávanie ruskej reči teraz v zásade nie je k dispozícii. Existujú vynikajúce verzie programu pre angličtinu, francúzštinu, nemčinu a japončinu. Existujú aj verzie pre čínštinu, španielčinu a taliančinu.

Ale táto novinka nie je celkom prispôsobená pre ruskú reč. Váš počítač nebude schopný vnímať úlohy, ktoré mu boli pridelené, čo znamená, že bude pre vás jednoduchšie niečo písať pomocou klávesnice alebo vykonávať určité úlohy pomocou myši.

Samozrejme, môžete sa pokúsiť pracovať s podobnými programami v ruskom jazyku alebo dať prednosť angličtine, ale stále zostáva dúfať, že rozpoznávanie reči v ruštine bude čoskoro dostupné aj v režime vysokej kvality. A práve vtedy si takúto unikátnu funkciu budete môcť vyskúšať v praxi. Koniec koncov, nepochybne zjednodušuje prácu na osobnom počítači a je obrovským prelomom v oblasti programovania. Ostáva teda už len čakať.

Žiadny program nemôže úplne nahradiť manuálnu prácu pri prepisovaní nahratej reči. Existujú však riešenia, ktoré dokážu výrazne urýchliť a uľahčiť preklad reči do textu, teda zjednodušiť prepis.

Prepis je záznam zvukového alebo video súboru v textovej forme. Na internete existujú platené platené úlohy, kedy sa interpretovi vypláca určitá suma za prepis textu.

Užitočný je preklad reči do textu

študentov prekladať nahraté audio alebo video prednášky do textu,
blogeri vedúci webové stránky a blogy,
spisovatelia, novinári písať knihy a texty,
informační podnikatelia, ktorí potrebujú text po svojom webinári, prejave atď.,
ľudia, pre ktorých je ťažké písať - môžu nadiktovať list a poslať ho príbuzným alebo priateľom,
iné možnosti.

Popíšeme najefektívnejšie nástroje dostupné na PC, mobilných aplikáciách a online službách.

1 Stránka speechpad.ru

Ide o online službu, ktorá vám umožňuje prekladať reč do textu prostredníctvom prehliadača Google Chrome. Služba funguje s mikrofónom a s hotovými súbormi. Samozrejme, kvalita bude oveľa vyššia, ak použijete externý mikrofón a budete si diktovať sami. Služba však odvádza dobrú prácu aj pri videách na YouTube.

Kliknite na „Povoliť nahrávanie“, odpovedzte na otázku „Používanie mikrofónu“ – na tento účel kliknite na „Povoliť“.

Dlhý návod na používanie služby je možné zbaliť kliknutím na tlačidlo 1 na obr. 3. Inzercie sa môžete zbaviť prejdením jednoduchej registrácie.

Ryža. 3. Servisný rečový panel

Hotový výsledok sa dá ľahko upraviť. Ak to chcete urobiť, musíte buď manuálne opraviť zvýraznené slovo, alebo ho znova nadiktovať. Výsledky práce sa ukladajú na váš osobný účet, dajú sa stiahnuť aj do počítača.

Zoznam video tutoriálov o práci s rečovým blokom:

Videá môžete prepisovať z Youtube alebo z počítača, budete však potrebovať mixér, ďalšie podrobnosti:

Video „prepis zvuku“

Služba funguje v siedmich jazykoch. Je tu malé mínus. Spočíva v tom, že ak potrebujete prepísať hotový zvukový súbor, jeho zvuk sa distribuuje do reproduktorov, čo vytvára ďalšie rušenie vo forme ozveny.

2 Servisný diktát.io

Skvelá online služba, ktorá vám umožní preložiť reč do textu zadarmo a jednoducho.

Ryža. 4. Diktát služby.io

1 na obr. 4 - Ruský jazyk je možné vybrať na konci stránky. V prehliadači Google Chrome je jazyk vybraný, ale v Mozille z nejakého dôvodu takáto možnosť neexistuje.

Je pozoruhodné, že je implementovaná možnosť automatického uloženia hotového výsledku. Predídete tak náhodnému vymazaniu v dôsledku zatvorenia karty alebo prehliadača. Táto služba nerozpoznáva hotové súbory. Pracuje s mikrofónom. Pri diktovaní musíte pomenovať interpunkčné znamienka.

Text je rozpoznaný celkom správne, nie sú v ňom žiadne pravopisné chyby. Interpunkčné znamienka môžete vkladať sami z klávesnice. Hotový výsledok je možné uložiť do počítača.

3 RealSpeaker

Tento program vám umožňuje jednoducho preložiť ľudskú reč do textu. Je navrhnutý tak, aby fungoval na rôznych systémoch: Windows, Android, Linux, Mac. S jeho pomocou môžete previesť reč, ktorá znie, do mikrofónu (napríklad môže byť zabudovaná do prenosného počítača), ako aj zaznamenaná vo zvukových súboroch.

Dokáže vnímať 13 svetových jazykov. K dispozícii je beta verzia programu, ktorá funguje ako online služba:

Musíte prejsť na vyššie uvedený odkaz, vybrať ruský jazyk, nahrať svoj zvukový alebo video súbor do online služby a zaplatiť za jeho prepis. Po prepise môžete prijatý text skopírovať. Čím väčší je súbor na prepis, tým viac času zaberie jeho spracovanie, ďalšie podrobnosti:

V roku 2017 existovala bezplatná možnosť prepisu pomocou RealSpeaker, v roku 2018 takáto možnosť neexistuje. Je veľmi trápne, že prepísaný súbor je k dispozícii všetkým používateľom na stiahnutie, možno sa to dotiahne do finále.

Kontakty vývojára (VKontakte, Facebook, Youtube, Twitter, e-mail, telefón) programu nájdete na stránke jeho webovej stránky (presnejšie v päte stránky):

4 Speechlogger

Alternatíva k predchádzajúcej aplikácii pre mobilné zariadenia so systémom Android. K dispozícii zadarmo v obchode s aplikáciami:

Text sa upravuje automaticky, vkladajú sa doň interpunkčné znamienka. Skvelé na diktovanie poznámok alebo vytváranie zoznamov. Vo výsledku sa ukáže, že text bude mať veľmi slušnú kvalitu.

5 Dračí diktát

Ide o aplikáciu, ktorá je bezplatne distribuovaná pre mobilné zariadenia od spoločnosti Apple.

Program môže pracovať s 15 jazykmi. Umožňuje vám upraviť výsledok, vybrať požadované slová zo zoznamu. Je potrebné jasne vyslovovať všetky hlásky, nerobiť zbytočné pauzy a vyhýbať sa intonácii. Niekedy sú chyby v koncovkách slov.

Aplikácia Dragon Dictation slúži majiteľom napríklad na diktovanie nákupného zoznamu v obchode pri pohybe po byte. Prídem tam, bude sa dať pozrieť na text v poznámke a netreba počúvať.

Bez ohľadu na program, ktorý používate vo svojej praxi, buďte pripravení skontrolovať výsledok a vykonať určité úpravy. Len tak získate bezchybný text bez chýb.

Užitočné služby:

Získajte aktuálne články o počítačovej gramotnosti priamo do vašej schránky.
Už viac 3 000 predplatiteľov