Problema recunoașterii vorbirii nu a fost încă rezolvată. Activați și dezactivați recunoașterea automată a vorbirii Configurați ferestrele de recunoaștere a vorbirii 7

Windows Vista este primul sistem de operare de la Microsoft care are încorporată recunoașterea vorbirii. Folosind această funcție, puteți efectua diverse sarcini cu vocea dvs., cum ar fi lansarea de programe, închiderea, salvarea și ștergerea fișierelor, dictarea textului care urmează să fie înregistrat literal și editarea acestuia. Deb Shinder, consultant IT, vă va prezenta detaliile despre cum să utilizați această funcție.

Încă de la lansarea filmului Star Trek, mulți utilizatori de computere au visat să arunce tastaturile, șoarecii și să-și controleze computerul cu vocea. Programele care vă permiteau să rostiți diferite comenzi, să dictați text către un computer - au fost realizate de mulți ani și erau foarte utile pentru cei care nu erau capabili fizic să folosească alte metode de introducere. Dar din anumite motive aceste programe nu erau populare.

Windows Vista este primul sistem de operare de la Microsoft care poate recunoaște vorbirea. Anterior, caracteristica de recunoaștere a vorbirii era prezentă în Microsoft Office XP și Office 2003 și era posibil să se utilizeze și programe de la alți dezvoltatori, cum ar fi Dragon NaturallySpeaking. Microsoft a adăugat și recunoașterea vorbirii la Windows Mobile.

Nu trebuie să cumpărați nimic în plus pentru a începe să vorbiți cu computerul dvs., Vista le are deja pe toate. În mod implicit, funcția este dezactivată, dar o puteți activa cu ușurință în Panoul de control, așa cum se arată în Figura A.

De asemenea, puteți lansa această funcție din meniu selectând Toate programele | Standard | Accesibilitate (Toate programele | Accesorii | Acces ușor), așa cum se arată în Figura B.

Cum functioneaza

Puteți alege unul dintre cele două moduri de recunoaștere a vorbirii:

Pentru a gestiona programe: porniți și închideți programe, comutați între ele, salvați și ștergeți fișiere și așa mai departe.
Pentru a dicta textul, care va fi înregistrat literal, precum și pentru a-l edita.

Dezvoltatorii de software pot adăuga suport pentru această caracteristică la programele lor. În mod enervant, recunoașterea vorbirii acceptă în prezent doar câteva limbi: engleză (SUA și Regatul Unit), germană, franceză, spaniolă, japoneză și chineză (tradițională și simplificată).

Configurarea recunoașterii vorbirii

Înainte de a putea utiliza recunoașterea vorbirii, va trebui să parcurgeți următorii pași:

Activați recunoașterea vorbirii.
Configurați microfonul.
Citiți manualul (opțional).
Practicați clar, vorbiți (de asemenea, nu este necesar).

După ce faceți dublu clic pe Recunoașterea vorbirii în Panoul de control sau selectați Recunoașterea vorbirii din meniu, vi se va afișa o fereastră de configurare, așa cum se arată în Figura C.

Când faceți clic pe Porniți recunoașterea vorbirii, va apărea un panou de control vocal în partea de sus a ecranului, așa cum se arată în Figura D.

Dacă aveți deja această funcție configurată, atunci socket-ul va fi înregistrat în autostart și va porni de fiecare dată când Windows pornește. În tavă va apărea și o pictogramă albastră de control vocal.
Puteți apela meniul contextual pentru setări făcând clic dreapta pe pictograma tavă sau pe panoul de control vocal, așa cum se arată în Figura E.

În meniu veți vedea următoarele setări:

Activați vorbirea: Computerul va asculta tot ce spui și va executa comenzile pe care le recunoaște.
Modul standby (Sleep): Computerul vă va urmări vorbirea, dar nu va răspunde la nicio comandă până când nu spuneți „Începeți să ascultați”.
Off: Computerul nu te ascultă, indiferent ce i-ai spune.
Deschideți cardul de referință pentru vorbire: O fișă la îndemână cu comenzi de bază și informații suplimentare.
Începeți tutorialul de vorbire: Tutorial video în care vi se va spune și vi se va arăta totul.
Ajutor: Deschide un fișier de ajutor despre această funcție.
Opțiuni: Aici puteți configura programul să se încarce cu Windows, corectarea automată a textului etc.
Configurare: Aici vă puteți configura microfonul, puteți îmbunătăți recunoașterea vorbirii și puteți deschide panoul de control.
Deschideți Dicționarul de vorbire: Puteți adăuga cuvinte noi (foarte utile pentru nume și cuvinte greu de recunoscut) și puteți, de asemenea, exclude cuvintele pe care nu le spuneți niciodată.
Subiect de dictare: Numai Narațiune poate fi selectată aici.
Vizitați site-ul (Accesați site-ul web de recunoaștere a vorbirii).
Obțineți informații despre recunoașterea vorbirii: Aceasta este caseta de dialog Windows familiară nouă, în care sunt scrise versiunea, numărul de licență și numele programului.
Deschideți Recunoașterea vorbirii.
Ieșire:Închide complet programul.

Traducere

De când învățarea profundă a intrat în scena recunoașterii vorbirii, numărul de erori în recunoașterea cuvintelor a scăzut dramatic. Dar, în ciuda tuturor articolelor pe care poate le-ați citit, încă nu avem recunoaștere a vorbirii la nivel uman. Dispozitivele de recunoaștere a vorbirii au multe moduri de eșec. Pentru a le îmbunătăți în continuare, trebuie să le identificați și să încercați să le eliminați. Acesta este singurul mod de a trece de la o recunoaștere care funcționează pentru unii oameni de cele mai multe ori la o recunoaștere care funcționează pentru toți oamenii tot timpul.

Îmbunătățiri ale numărului de cuvinte identificate greșit. Un test de apelare vocală a fost asamblat pe o centrală telefonică în 2000 din 40 de conversații aleatorii între două persoane a căror limbă maternă este engleza.

A spune că am ajuns la nivelul unui om în recunoașterea vorbirii în conversații, bazate doar pe un set de conversații de la o centrală telefonică, este ca și cum ai spune că o mașină robotică conduce la fel de bine ca o persoană, după ce a testat-o într-un singur oraș. într-o zi însorită fără trafic. Modificările recente în recunoașterea vorbirii sunt uimitoare. Dar afirmațiile despre recunoașterea vorbirii la nivel uman sunt prea îndrăznețe. Iată câteva domenii în care încă mai trebuie făcute îmbunătățiri.

Accente și zgomot

Unul dintre dezavantajele evidente ale recunoașterii vorbirii este procesarea accenteși zgomot de fond. Motivul principal pentru aceasta este că majoritatea datelor de antrenament constau din dialecte americane cu un raport semnal-zgomot ridicat. De exemplu, într-un set de conversații de la o centrală telefonică, există doar conversații ale persoanelor a căror limbă maternă este engleza (în mare parte americani) cu puțin zgomot de fond.

Dar creșterea datelor de antrenament de la sine nu va rezolva, cel mai probabil, această problemă. Există multe limbi care conțin multe dialecte și accente. Este nerealist să colectezi date etichetate pentru toate cazurile. Crearea unui dispozitiv de recunoaștere a vorbirii de înaltă calitate pentru engleza americană necesită doar până la 5.000 de ore de sunet transcris în text.

Comparație a persoanelor care fac vorbire cu text cu Deep Speech 2 de la Baidu pe diferite tipuri de vorbire. Oamenii recunosc mai prost accentele non-americane, poate din cauza abundenței de americani printre ei. Cred că oamenii care au crescut într-o anumită regiune ar fi făcut față recunoașterii accentului acelei regiuni cu mult mai puține erori.

În prezența zgomotului de fond într-o mașină în mișcare, raportul semnal-zgomot poate fi de până la -5 dB. Oamenii fac față cu ușurință recunoașterii vorbirii unei alte persoane în astfel de condiții. Recunoașterea automată se degradează mult mai repede pe măsură ce zgomotul crește. Graficul arată cât de mult crește separarea oamenilor odată cu creșterea zgomotului (la SNR scăzut, raportul semnal-zgomot)

Erori semantice

Adesea, numărul de cuvinte recunoscute eronat nu este un scop în sine pentru un sistem de recunoaștere a vorbirii. Vizăm numărul de erori semantice. Aceasta este proporția de expresii în care recunoaștem incorect sensul.

Un exemplu de eroare semantică este atunci când cineva spune „să ne întâlnim marți” [să ne întâlnim marți] iar instrumentul de recunoaștere returnează „să ne întâlnim astăzi” [să ne întâlnim astăzi]. Există și erori în cuvinte fără erori semantice. Dacă rezolutorul nu a recunoscut „sus” și a returnat „să ne întâlnim marți”, semantica propoziției nu s-a schimbat.

Trebuie să folosim cu atenție numărul de cuvinte identificate greșit ca criteriu. Pentru a ilustra acest lucru, vă voi da un exemplu în cel mai rău caz. 5% dintre erorile de cuvinte corespund unui cuvânt lipsă din 20. Dacă există 20 de cuvinte în fiecare propoziție (ceea ce este destul de în medie pentru engleză), atunci numărul de propoziții recunoscute incorect se apropie de 100%. Se poate spera că cuvintele greșit recunoscute nu schimbă sensul semantic al propozițiilor. În caz contrar, persoana care recunoaște poate interpreta greșit fiecare propoziție chiar și cu 5% cuvinte recunoscute greșit.

Când comparăm modele cu oameni, este important să verificați esența erorilor și să monitorizați nu numai numărul de cuvinte recunoscute incorect. Din experiența mea, oamenii care fac vorbire în text fac mai puține greșeli și nu sunt la fel de serioși ca computerele.

Cercetătorii de la Microsoft au comparat recent erorile de recunoaștere umane și computer de un nivel similar. Una dintre diferențele găsite este că modelul confundă „uh” [uh…] cu „uh huh” [da] mult mai des decât oamenii. Cei doi termeni au o semantică foarte diferită: „uh” umple golurile, în timp ce „uh huh” denotă o recunoaștere din partea ascultătorului. De asemenea, modelele și oamenii au găsit multe erori de potrivire a tipurilor.

Multe voci într-un singur canal

Recunoașterea conversațiilor telefonice înregistrate este, de asemenea, mai ușoară, deoarece fiecare difuzor a fost înregistrat pe un microfon separat. Nu există suprapunere a mai multor voci într-un canal audio. Oamenii pot înțelege mai mulți vorbitori, uneori vorbind în același timp.

Un bun recunoaștetor de vorbire ar trebui să fie capabil să împartă fluxul audio în segmente în funcție de vorbitor (supunându-l la diarizare). De asemenea, trebuie să extragă sens dintr-o înregistrare audio cu două voci suprapuse (separarea surselor). Acest lucru trebuie făcut fără un microfon amplasat direct la gura fiecărui difuzor, adică astfel încât dispozitivul de recunoaștere să funcționeze bine atunci când este plasat într-un loc arbitrar.

Calitatea inregistrarii

Accentele și zgomotul de fundal sunt doar doi factori împotriva cărora un dispozitiv de recunoaștere a vorbirii trebuie să fie robust. Iată încă câteva:

Reverberație în diferite condiții acustice.
Artefacte asociate echipamentelor.
Artefacte ale codecului utilizate pentru înregistrarea și comprimarea semnalului.
Frecvența de eșantionare.
Vârsta vorbitorului.

Majoritatea oamenilor nu pot face diferența dintre fișierele mp3 și wav. Recunoaștetorii trebuie să devină robusti la aceste surse de variație înainte de a revendica performanțe asemănătoare omului.

Context

Se poate observa ca numarul de erori pe care oamenii le fac la teste in inregistrarile de la centrala telefonica este destul de mare. Dacă ai vorbi cu un prieten care nu înțelege 1 cuvânt din 20, ți-ar fi foarte greu să comunici.

Unul dintre motivele pentru aceasta este recunoașterea fără context. În viața reală, folosim multe semne suplimentare diferite pentru a ne ajuta să înțelegem ce spune cealaltă persoană. Câteva exemple de context folosit de oameni și ignorat de recunoașterea vorbirii:

Istoricul conversației și subiectul în discuție.
Indicații vizuale despre vorbitor - expresii faciale, mișcarea buzelor.
Corpul de cunoștințe despre persoana cu care vorbim.

Dispozitivul de recunoaștere a vorbirii Android are acum o listă a persoanelor de contact, astfel încât să poată recunoaște numele prietenilor tăi. Căutarea vocală pe hărți folosește localizarea geografică pentru a restrânge opțiunile către care doriți să obțineți indicații de orientare.

Precizia sistemelor de recunoaștere crește odată cu includerea unor astfel de semnale în date. Dar abia începem să analizăm tipul de context pe care l-am putea include în procesare și cum să-l folosim.

Implementare

Progresele recente în recunoașterea limbii vorbite nu pot fi implementate. Când vă imaginați implementarea unui algoritm de recunoaștere a vorbirii, trebuie să aveți în vedere latența și puterea de procesare. Acești parametri sunt legați deoarece algoritmii care măresc cerințele de putere cresc și latența. Dar pentru simplitate, le vom discuta separat.

Latență: timpul de la sfârșitul discursului utilizatorului până la sfârșitul primirii transcripției. O mică întârziere este o cerință tipică pentru recunoaștere. Afectează foarte mult experiența utilizatorului de a lucra cu produsul. Adesea există o limită de zeci de milisecunde. Acest lucru poate părea prea strict, dar rețineți că emiterea unei transcriere este de obicei primul pas dintr-o serie de calcule complicate. De exemplu, în cazul unei căutări vocale pe Internet, după recunoașterea vorbirii, mai trebuie să aveți timp pentru a finaliza căutarea.

Straturile recurente bidirecționale sunt un exemplu tipic de îmbunătățire care agravează situația de latență. Toate cele mai recente rezultate ale transcripției de înaltă calitate sunt obținute cu ajutorul lor. Singura problemă este că nu putem număra nimic dincolo de primul strat bidirecțional până când persoana nu a terminat de vorbit. Prin urmare, întârzierea crește odată cu lungimea pedepsei.

Stânga: recurența directă permite decriptarea să înceapă imediat. Dreapta: recurența bidirecțională necesită să așteptați până la sfârșitul discursului înainte de a începe transcrierea.

Încă se caută o modalitate bună de a încorpora eficient informațiile viitoare în recunoașterea vorbirii.

Puterea de calcul: Acest parametru este afectat de constrângeri economice. Trebuie să luați în considerare costul banchetului pentru fiecare îmbunătățire a acurateței dispozitivului de recunoaștere. Dacă o îmbunătățire nu atinge pragul economic, nu o va putea implementa.

Un exemplu clasic de îmbunătățire continuă care nu este niciodată implementat este învățarea profundă colaborativă. Reducerea numărului de erori cu 1-2% justifică rareori o creștere a puterii de calcul de 2-8 ori. Modelele moderne de rețele recurente se încadrează și ele în această categorie, deoarece sunt foarte neprofitabile de utilizat în căutarea unei grămadă de traiectorii, deși cred că situația se va schimba în viitor.

Vreau să clarific - nu spun că îmbunătățirea acurateței recunoașterii cu o creștere serioasă a costurilor de calcul este inutilă. Am văzut deja cum funcționează în trecut principiul „întâi încet, dar precis și apoi rapid”. Ideea este că până când îmbunătățirea este suficient de rapidă, nu poate fi folosită.

În următorii cinci ani

Există încă multe probleme nerezolvate și complexe în domeniul recunoașterii vorbirii. Printre ei:

Extinderea capacităților noilor sisteme de stocare a datelor, recunoașterea accentelor, vorbirea pe fondul zgomotului puternic.
Includerea contextului în procesul de recunoaștere.
Diarizarea și separarea surselor.
Numărul de erori semantice și metode inovatoare de evaluare a recunoașterilor.
Foarte mică întârziere.

Aștept cu nerăbdare progresele care vor fi realizate în următorii cinci ani pe aceste fronturi și pe alte fronturi.

Etichete: Adăugați etichete

Controlul ecranului tactil este deja standard. Cele mai recente sisteme precum Windows 8 „înțeleg” comenzile vocale. Recunoașterea vorbirii ar trebui să facă comunicarea noastră cu computerul și mai ușoară, mai intuitivă și... mai naturală. Vă spun cum arată astăzi.

Un pic de istorie - cum s-a dezvoltat comunicarea cu mașina

Modalitățile de a comunica cu un computer au evoluat de-a lungul anilor. Prima interfață prin care o persoană putea emite comenzi au fost cărțile perforate, care datează din 1832. Au fost folosite la mașini pentru producția de pânză. Tastatura a început să fie folosită în 1960. Două decenii mai târziu, mouse-ul standard s-a alăturat și este încă în uz astăzi. Deși mouse-ul a împărțit puterea cu trackpad-ul, este încă cea mai populară formă de control. Datorită smartphone-urilor și tabletelor, au devenit foarte populare interfața tactilă și gesturile, care sunt folosite, în special, pentru a controla Xbox 360 Kinect. După ecranele tactile și gesturi, vine controlul vocal, dar această soluție a fost până acum atât de subdezvoltată încât uneori nu auzi despre ea.

Configurarea recunoașterii vorbirii în Windows 8

Din păcate, controlul vocal nu este încă disponibil în limba rusă. În prezent, sunt acceptate engleza, franceză, germană, japoneză, coreeană, chineză și spaniolă. Microsoft a decis să se concentreze pe cele mai mari și mai dezvoltate țări, dar este posibil ca de ceva timp să adauge această caracteristică și pentru țara noastră. Dacă încerci să-l rulezi, jură așa

Dacă tot doriți să testați această soluție, trebuie să configurați sistemul (schimbați limba) și să învățați câteva cuvinte în engleză. Pentru a face acest lucru, trebuie să mergeți la panoul de control și să selectați elementul Limbă. Dacă nu aveți altă limbă decât rusa, trebuie să faceți clic pe butonul „Adăugați limbă”, apoi să selectați una dintre limbile acceptate. În cazul nostru, este „Engleză (Statele Unite)”. Vedem că este disponibil doar aspectul în această limbă, faceți dublu clic, se va verifica disponibilitatea limbii pentru interfață, după verificare, faceți clic pe „Descărcați și instalați pachetul de limbi”, iar procesul va începe, așteptați cu răbdare să fie sarcină. Odată ce acest proces este finalizat, setați limba implicită la engleză

Acum trebuie să mergeți la ecranul de pornire al Windows 8 (cu gresie), să tastați „Recunoaștere vocală Windows” în caseta de căutare și să apăsați Enter.

Astfel, puteți lansa instrumentul de recunoaștere a vocii. Când porniți prima dată, vă va solicita să configurați microfonul, după ce ați ales, spuneți ceva de verificat.

Apoi oferiți-vă să luați lecții de pregătire. Acestea durează până la 15-20 de minute, dar sunt foarte utile și oferă informații de bază despre modul de utilizare a funcțiilor. Dar dacă nu ești puternic în engleză, cred că nu ar trebui să pierzi timpul, va fi greu să înțelegi ceva, mergi direct la luptă

Cum să lucrezi

Pentru ca computerul să înceapă să vă recunoască vorbirea, trebuie să spuneți „începeți să ascultați” (ceea ce înseamnă să începeți să ascultați) sau să apăsați butonul microfonului pentru a porni modul de ascultare. Acum puteți deschide aplicația sau pur și simplu dictați cuvinte într-un editor de text, browser sau bară de căutare

Ce putem face

În principiu, posibilitățile sunt uriașe, pe lângă cuvintele standard, îți poți crea propriile echipe. Principalele caracteristici sunt prezentate în tabel

Acțiune	Ce de spus
Selectați orice element după numele său	Faceți clic pe File,Start,View
Selectați orice element sau pictogramă	Faceți clic pe Coș de reciclare, faceți clic pe Computer, faceți clic pe (nume fișier)
Faceți dublu clic sau faceți dublu clic pe orice element	Faceți dublu clic pe Coș de reciclare, faceți dublu clic pe Computer
Comutați între aplicațiile deschise	Comutați la Paint, comutați la WordPad
defilare	derulați în sus; deruleaza in jos; derulează la stânga; Derulați spre dreapta
Includeți un nou paragraf sau un nou rând în document	alineat nou; linie nouă
Selectați un cuvânt dintr-un document
Corectarea cuvintelor	cuvânt corect
Selectați și ștergeți anumite cuvinte
Afișați o listă de comenzi aplicabile
	Actualizează comenzile de vorbire
Activați modul de ascultare
Dezactivați modul de ascultare
Restrânge microfonul	Minimizați recunoașterea vorbirii
Vizualizați Asistență și asistență Windows	Cum fac ceva? De exemplu: Cum instalez o imprimantă?

Daca nu stii sa pronunti fraza, iti sugerez sa folosesti Google Translate sau http://tutor.ru (a inteles mai bine acest site)

Aveam dorința de a-mi scrie echipele formate din simple cuvinte burgheze. Pe care îl pot pronunța. Deci nu m-a lăsat să fac asta, nu a putut porni editorul de comenzi. Drept urmare, a înțeles perfect pronunția mea a cuvintelor Unu, Doi și Deschis. Cu acest set, puteți lansa aplicația după număr în ecranul de start. Mai întâi spuneți numărul, apoi spuneți DESCHIS. Nu multe, desigur, dar consider experimentul un succes. Nu ar fi rău dacă Microsoft ar introduce limba rusă, un bun înlocuitor pentru telecomandă.

Sistemul de operare Windows 7 este echipat cu multe opțiuni care oferă din ce în ce mai multe oportunități utilizatorilor acestui sistem. Au putut introduce o funcție foarte interesantă în el, care se numește „recunoaștere a vorbirii”. Dar ce este acest sistem? Acest lucru va fi discutat.

Opțiunea în cauză permite aplicațiilor din întregul sistem să folosească un mod complet nou de interacțiune a utilizatorului cu computerul. Este sistemul de recunoaștere a vorbirii Windows 7 care vă permite să vă controlați computerul fără a utiliza tastatura, mouse-ul sau alte mijloace.

Aș dori să menționez că această inovație va fi disponibilă în alte produse Microsoft. Această caracteristică a fost observată puțin mai devreme, adică au încercat să o implementeze în Windows Vista, dar în cea de-a șaptea versiune a sistemului de operare Microsoft, controlul vocal este efectuat la un nivel mai înalt decât predecesorul său. Pentru a spune simplu, o astfel de opțiune precum recunoașterea vorbirii Windows 7 a devenit și mai funcțională.

Pe lângă tot ce s-a spus, aș dori să remarc că are o gamă destul de largă de aplicații. Utilizatorii Windows 7 cu recunoaștere a vorbirii au capacitatea de a rula programe și de a converti toate fragmentele de sunet în text, de a executa tot felul de comenzi pe computer, folosind doar vocea și dispozitivele necesare. Dar de ce este nevoie pentru ca recunoașterea vorbirii în Windows 7 să devină realitate?

În primul rând, veți avea nevoie de un microfon, care ar trebui să fie conectat la computer. În plus, trebuie să achiziționați o aplicație sau un program special care este publicat chiar de producător, adică de Microsoft. După ce toate componentele necesare sunt instalate și microfonul este conectat la computer, trebuie implementat un anumit plan de lucru:

Trebuie să executați comenzi vocale de testare și să le convertiți în text.
După ce antrenați programul de recunoaștere, va trebui să creați șabloane pentru diferite comenzi cu vocea. Pe baza acestei lucrări computerul va putea accepta și executa toate comenzile pe care le specificați.

Caracteristica de recunoaștere a vorbirii Windows 7 este utilizată în editorul de text WordPad de la Microsoft. Funcționează perfect atunci când completează diverse formulare și, de asemenea, funcționează bine în Internet Explorer și când

În plus, această opțiune va edita cu ușurință textul înregistrat anterior prin definirea comenzilor vocale speciale. Desigur, în procesul de recunoaștere a unei anumite sarcini, apar erori tipice (când apare recunoașterea eronată a anumitor sunete). În acest caz, programul oferă o listă de corespondențe ale anumitor cuvinte.

Funcția, desigur, este fenomenală, dar totuși există un „dar”. Chestia este că recunoașterea vorbirii ruse nu este acum, în principiu, disponibilă. Există versiuni excelente ale programului pentru engleză, franceză, germană și japoneză. Există, de asemenea, versiuni pentru limba chineză, spaniolă și italiană.

Dar această noutate nu este tocmai adaptată vorbirii ruse. Computerul dumneavoastră nu va putea percepe sarcinile care îi sunt atribuite, ceea ce înseamnă că vă va fi mai ușor să scrieți ceva folosind tastatura sau să efectuați anumite sarcini cu mouse-ul.

Desigur, puteți încerca să lucrați cu programe similare în limba rusă sau să acordați preferință englezei, dar rămâne totuși de sperat că în curând recunoașterea vorbirii în rusă va fi disponibilă și în modul de înaltă calitate. Și chiar atunci vei putea încerca o funcție atât de unică în practică. La urma urmei, fără îndoială, simplifică în mod clar munca pe un computer personal și reprezintă o descoperire uriașă în domeniul programării. Deci tot ce rămâne este să așteptați.

Niciun program nu poate înlocui complet munca manuală de transcriere a vorbirii înregistrate. Cu toate acestea, există soluții care pot accelera și facilita semnificativ traducerea vorbirii în text, adică simplificarea transcripției.

Transcrierea este înregistrarea unui fișier audio sau video sub formă de text. Există sarcini plătite pe Internet, când o anumită sumă de bani este plătită interpretului pentru transcrierea unui text.

Traducerea vorbirii în text este utilă

studenții să traducă prelegerile audio sau video înregistrate în text,
bloggeri care conduc site-uri web și bloguri,
scriitori, jurnaliști să scrie cărți și texte,
oameni de afaceri care au nevoie de un text după webinar, discurs etc.,
persoanele cărora le este greu să tasteze - pot dicta o scrisoare și o pot trimite rudelor sau prietenilor,
alte optiuni.

Vom descrie cele mai eficiente instrumente disponibile pe PC, aplicații mobile și servicii online.

1 Site-ul speechpad.ru

Acesta este un serviciu online care vă permite să traduceți vorbirea în text prin browserul Google Chrome. Serviciul funcționează cu un microfon și cu fișiere gata făcute. Desigur, calitatea va fi mult mai mare dacă folosești un microfon extern și te dictezi singur. Cu toate acestea, serviciul face o treabă bună chiar și cu videoclipuri YouTube.

Faceți clic pe „Activați înregistrarea”, răspundeți la întrebarea despre „Folosirea unui microfon” - pentru aceasta, faceți clic pe „Permite”.

Instrucțiunea lungă despre utilizarea serviciului poate fi restrânsă făcând clic pe butonul 1 din fig. 3. Puteți scăpa de publicitate trecând printr-o simplă înregistrare.

Orez. 3. Tastatura de vorbire de serviciu

Rezultatul final este ușor de editat. Pentru a face acest lucru, fie trebuie să corectați manual cuvântul evidențiat, fie să îl dictați din nou. Rezultatele lucrării sunt salvate în contul dvs. personal, ele pot fi și descărcate pe computer.

Lista de tutoriale video despre lucrul cu tastatura de vorbire:

Puteți transcrie videoclipuri de pe Youtube sau de pe computer, cu toate acestea, veți avea nevoie de un mixer, mai multe detalii:

Video „transcriere audio”

Serviciul funcționează în șapte limbi. Există un mic minus. Constă în faptul că, dacă trebuie să transcrieți un fișier audio finit, atunci sunetul acestuia este distribuit difuzoarelor, ceea ce creează interferențe suplimentare sub forma unui ecou.

2 Serviciu dictare.io

Un serviciu online minunat care vă va permite să traduceți vorbirea în text gratuit și ușor.

Orez. 4. Serviciu dictare.io

1 din fig. 4 - Limba rusă poate fi selectată la sfârșitul paginii. În browserul Google Chrome, limba este selectată, dar în Mozilla din anumite motive nu există o astfel de posibilitate.

Este de remarcat faptul că este implementată capacitatea de a salva automat rezultatul final. Acest lucru va preveni ștergerea accidentală ca urmare a închiderii unei file sau a unui browser. Acest serviciu nu recunoaște fișierele terminate. Functioneaza cu microfon. Trebuie să numiți semnele de punctuație atunci când dictați.

Textul este recunoscut destul de corect, nu există greșeli de ortografie. Puteți introduce singur semne de punctuație de la tastatură. Rezultatul final poate fi salvat pe computer.

3 RealSpeaker

Acest program vă permite să traduceți cu ușurință vorbirea umană în text. Este conceput pentru a funcționa pe diferite sisteme: Windows, Android, Linux, Mac. Cu ajutorul acestuia, puteți converti vorbirea care sună într-un microfon (de exemplu, poate fi încorporată într-un laptop), precum și înregistrată în fișiere audio.

Poate percepe 13 limbi ale lumii. Există o versiune beta a programului care funcționează ca un serviciu online:

Trebuie să urmați linkul de mai sus, să selectați limba rusă, să încărcați fișierul audio sau video în serviciul online și să plătiți pentru transcrierea acestuia. După transcriere, puteți copia textul primit. Cu cât fișierul pentru transcriere este mai mare, cu atât va dura mai mult timp pentru a-l procesa, mai multe detalii:

În 2017 a existat o opțiune de transcriere gratuită folosind RealSpeaker, în 2018 nu există o astfel de posibilitate. Este foarte jenant că fișierul transcris este disponibil pentru descărcare pentru toți utilizatorii, poate că acesta va fi finalizat.

Contactele dezvoltatorului (VKontakte, Facebook, Youtube, Twitter, e-mail, telefon) programului pot fi găsite pe pagina site-ului său (mai precis, în subsolul site-ului):

4 Speechlogger

O alternativă la aplicația anterioară pentru dispozitivele mobile care rulează pe Android. Disponibil gratuit în magazinul de aplicații:

Textul este editat automat, în el sunt plasate semne de punctuație. Excelent pentru a dicta note sau pentru a face liste. Drept urmare, textul se va dovedi a fi de o calitate foarte decentă.

5 Dictarea Dragonului

Aceasta este o aplicație care este distribuită gratuit pentru dispozitivele mobile de la Apple.

Programul poate funcționa cu 15 limbi. Vă permite să editați rezultatul, să selectați cuvintele dorite din listă. Este necesar să pronunțați clar toate sunetele, să nu faceți pauze inutile și să evitați intonația. Uneori există greșeli în terminațiile cuvintelor.

Aplicația Dragon Dictation este folosită de proprietari, de exemplu, pentru a dicta lista de cumpărături în magazin în timp ce se deplasează prin apartament. Voi veni acolo, va fi posibil să mă uit la textul din notă și nu este nevoie să ascult.

Indiferent de programul pe care îl utilizați în practica dumneavoastră, fiți pregătit să verificați rezultatul și să faceți anumite ajustări. Acesta este singurul mod de a obține un text impecabil, fără erori.

De asemenea, servicii utile:

Primiți articole actualizate despre alfabetizarea computerului direct în căsuța dvs. de e-mail.
Deja mai multe 3.000 de abonați