Problemi i njohjes së të folurit ende nuk është zgjidhur. Aktivizoni dhe çaktivizoni njohjen automatike të të folurit Konfigurimi i njohjes së të folurit në Windows 7

Windows Vista është OS i parë nga Microsoft që përfshin aftësitë e njohjes së të folurit. Duke përdorur këtë funksion, mund të kryeni detyra të ndryshme me zërin tuaj, të tilla si nisja e programeve, mbyllja, ruajtja dhe fshirja e skedarëve, diktimi i tekstit që do të regjistrohet fjalë për fjalë dhe redaktimi i tij. Deb Shinder, Konsulent IT, ju tregon se si ta përdorni këtë veçori.

Që nga publikimi i filmit Star Trek, shumë përdorues kompjuterësh kanë ëndërruar të hedhin tastierat dhe minjtë dhe të kontrollojnë kompjuterin e tyre me zërin e tyre. Programet që ju lejonin të shqiptoni komanda dhe t'i diktoni tekst një kompjuteri ishin bërë për shumë vite dhe ishin shumë të dobishme për ata që nuk ishin fizikisht në gjendje të përdornin metoda të tjera të hyrjes. Por për disa arsye këto programe nuk ishin të njohura.

Windows Vista është sistemi i parë operativ nga Microsoft që mund të njohë fjalimin. Më parë, funksioni i njohjes së të folurit ishte i pranishëm në Microsoft Office XP dhe Office 2003, dhe mund të përdorni gjithashtu programe nga zhvillues të tjerë, si Dragon NaturallySpeaking. Microsoft ka shtuar gjithashtu një veçori të njohjes së të folurit në Windows Mobile.

Për të filluar të flisni me kompjuterin tuaj, nuk keni nevojë të blini asgjë shtesë; Vista tashmë ka gjithçka për këtë. Veçoria është e çaktivizuar si parazgjedhje, por mund ta nisni lehtësisht nga Paneli i Kontrollit, siç tregohet në Figurën A.

Ju gjithashtu mund ta hapni këtë funksion nga menyja duke zgjedhur Të gjitha programet | Standard | Aksesueshmëria (Të gjitha programet | Aksesorët | Lehtësia e Qasjes), siç tregohet në Figurën B.

Si punon

Mund të zgjidhni një nga dy mënyrat e funksionimit të njohjes së të folurit:

Për të menaxhuar programet: Hapni dhe mbyllni programet, kaloni midis tyre, ruani dhe fshini skedarët, etj.
Të diktojë tekstin që do të shkruhet fjalë për fjalë, si dhe ta modifikojë atë.

Zhvilluesit e softuerit mund të shtojnë mbështetje për këtë funksion në programet e tyre. Është turp që njohja e të folurit aktualisht mbështet vetëm disa gjuhë: anglisht (SHBA dhe MB), gjermanisht, frëngjisht, spanjisht, japonisht dhe kinezisht (tradicionale dhe e thjeshtuar).

Vendosja e njohjes së të folurit

Përpara se të përdorni njohjen e të folurit, do t'ju duhet të kryeni hapat e mëposhtëm:

Aktivizo njohjen e të folurit.
Konfiguro mikrofonin.
Lexoni manualin (opsionale).
Praktikoni të flisni qartë (gjithashtu jo e nevojshme).

Pasi të klikoni dy herë mbi Njohja e të folurit në panelin e kontrollit ose të zgjidhni Njohjen e të folurit nga menyja, do t'ju paraqitet një dritare e cilësimeve, e cila tregohet në Figurën C.

Kur klikoni Start Speech Recognition, një panel kontrolli zanor do të shfaqet në krye të ekranit tuaj, i paraqitur në Figurën D.

Nëse e keni konfiguruar tashmë këtë funksion, atëherë priza do të regjistrohet në autostart dhe do të fillojë sa herë që Windows të niset. Një ikonë blu e kontrollit zanor do të shfaqet gjithashtu në tabaka.
Mund të thirrni menynë e kontekstit për cilësimet duke klikuar me të djathtën në ikonën e tabakasë ose në panelin e kontrollit zanor, siç tregohet në Figurën E.

Në meny do të shihni cilësimet e mëposhtme:

Aktivizo fjalimin: Kompjuteri do të dëgjojë gjithçka që ju thoni dhe do të ndjekë komandat që njeh.
Modaliteti i gjumit: Kompjuteri do të monitorojë fjalimin tuaj, por nuk do t'i përgjigjet asnjë komande derisa të thoni "Filloni të dëgjoni".
Joaktiv: Kompjuteri nuk ju dëgjon, pavarësisht se çfarë i thoni.
Hapni fletën e mashtrimit të njohjes së të folurit (Hap Kartën e Referencës së të folurit): Një fletë mashtrimi e dobishme me komanda bazë dhe informacion shtesë.
Filloni tutorialin e të folurit: Një video tutorial ku ata do t'ju tregojnë dhe ju tregojnë gjithçka.
Ndihmë: Hap ndihmë, një skedar ndihme për këtë funksion.
Opsione: Këtu mund të konfiguroni programin që të ngarkohet me Windows, të korrigjojë automatikisht tekstin, etj.
Konfigurimi: Këtu mund të rregulloni mikrofonin tuaj, të përmirësoni njohjen e të folurit dhe të hapni panelin e kontrollit.
Hapni fjalorin e të folurit: Mund të shtoni fjalë të reja (shumë të dobishme për emrat dhe fjalët që janë të vështira për t'u njohur), dhe gjithashtu mund të përjashtoni fjalët që nuk i thoni kurrë.
Tema e diktimit: Këtu mund të zgjidhni vetëm Narrative.
Vizitoni faqen e internetit Shko te Njohja e Fjalës.
Merrni informacion në lidhje me njohjen e të folurit: Kjo është kutia e njohur e dialogut Windows, në të cilën janë shkruar versioni, numri i licencës dhe emri i programit.
Njohja e hapur e të folurit (Open Speech Recognition).
Dalje: Mbyll plotësisht programin.

Përkthimi

Që kur mësimi i thellë hyri në skenën e njohjes së të folurit, numri i gabimeve në njohjen e fjalëve është ulur në mënyrë dramatike. Por pavarësisht të gjithë artikujve që mund të keni lexuar, ne ende nuk kemi njohje të të folurit në nivel njerëzor. Njohësit e të folurit kanë shumë mënyra dështimi. Për përmirësime të mëtejshme, ato duhet të identifikohen dhe të përpiqen të eliminohen. Kjo është mënyra e vetme për të kaluar nga njohja që funksionon për disa njerëz shumicën e kohës në njohjen që funksionon për të gjithë njerëzit gjatë gjithë kohës.

Përmirësime në numrin e fjalëve të njohura gabimisht. Një grup zanor testues u mblodh në një çelës telefoni në vitin 2000 nga 40 biseda të rastësishme midis dy njerëzve, gjuha amtare e të cilëve ishte anglishtja.

Të thuash se kemi arritur njohjen e të folurit në nivel njerëzor në biseda bazuar vetëm në një grup bisedash nga një central telefonik është njësoj si të thuash që një makinë robotike drejton po aq mirë sa një person, pasi e ka testuar atë në një qytet të vetëm në një vend me diell. dite pa trafik.. Zhvillimet e fundit në njohjen e të folurit janë befasuese. Por pretendimet për njohjen e të folurit në nivel njerëzor janë shumë të guximshme. Këtu janë disa fusha ku ende duhen bërë përmirësime.

Thekse dhe zhurmë

Një nga disavantazhet e dukshme të njohjes së të folurit është përpunimi thekse dhe zhurma e sfondit. Arsyeja kryesore për këtë është se shumica e të dhënave të trajnimit përbëhen nga fjalimi amerikan me një raport të lartë sinjal-zhurmë. Për shembull, një grup bisedash nga një çelës telefoni përmban vetëm biseda të njerëzve gjuha amtare e të cilëve është anglishtja (kryesisht amerikanë) me pak zhurmë në sfond.

Por vetëm rritja e të dhënave të trajnimit nuk do ta zgjidhë këtë problem. Ka shumë gjuhë që përmbajnë shumë dialekte dhe thekse. Është joreale të mblidhen të dhëna të etiketuara për të gjitha rastet. Krijimi i një njohësi të të folurit me cilësi të lartë vetëm për anglishten amerikane kërkon deri në 5 mijë orë regjistrime audio të përkthyera në tekst.

Krahasimi i konvertuesve të të folurit në tekst të njeriut me të folurit e thellë të Baidu 2 në lloje të ndryshme të të folurit. Njerëzit janë më keq në njohjen e thekseve jo-amerikane, ndoshta për shkak të bollëkut të amerikanëve mes tyre. Mendoj se njerëzit që u rritën në një rajon të caktuar do të kishin shumë më pak gabime në njohjen e theksit të atij rajoni.

Në prani të zhurmës së sfondit në një makinë në lëvizje, raporti sinjal-zhurmë mund të arrijë vlerat -5 dB. Njerëzit përballen lehtësisht me njohjen e të folurit të një personi tjetër në kushte të tilla. Njohësit automatikë përkeqësohen shumë më shpejt me rritjen e zhurmës. Grafiku tregon se sa rritet hendeku midis njerëzve me rritjen e vlerave të zhurmës (në SNR të ulët, raporti sinjal-zhurmë).

Gabimet semantike

Shpesh numri i fjalëve të njohura gabimisht nuk është qëllimi në vetvete i një sistemi të njohjes së të folurit. Ne synojmë numrin e gabimeve semantike. Ky është raporti i shprehjeve në të cilat ne e njohim gabimisht kuptimin.

Një shembull i një gabimi semantik është kur dikush sugjeron "le të takohemi të martën" dhe zgjidhësi kthen "le të takohemi sot". Ka edhe gabime në fjalë pa gabime semantike. Nëse njohësi nuk e njohu "lart" dhe u kthye "le të takohemi të martën", semantika e fjalisë nuk ndryshoi.

Duhet të përdorim me kujdes numrin e fjalëve të njohura gabimisht si kriter. Për ta ilustruar këtë, unë do t'ju jap një shembull të rastit më të keq të mundshëm. 5% e gabimeve në fjalë korrespondojnë me një fjalë që mungon nga 20. Nëse çdo fjali përmban 20 fjalë (që është mjaft mesatare për gjuhën angleze), atëherë numri i fjalive të njohura gabimisht i afrohet 100%. Mund të shpresohet që fjalët e njohura gabimisht të mos ndryshojnë kuptimin semantik të fjalive. Përndryshe, njohësi mund të deshifrojë gabimisht çdo fjali edhe me një numër 5% fjalësh të njohura gabimisht.

Kur krahasoni modelet me njerëzit, është e rëndësishme të kontrolloni thelbin e gabimeve dhe të monitoroni jo vetëm numrin e fjalëve të njohura gabimisht. Në përvojën time, njerëzit që përkthejnë fjalimin në tekst bëjnë më pak gabime dhe nuk janë aq serioze sa ato të bëra nga kompjuteri.

Studiuesit në Microsoft kohët e fundit krahasuan gabimet e njerëzve dhe njohësve kompjuterikë të niveleve të ngjashme. Një nga dallimet e gjetura është se modelja ngatërron "uh" [uh-uh...] me "uh huh" [uh-huh] shumë më shpesh se njerëzit. Të dy termat kanë semantikë shumë të ndryshme: "uh" mbush pauza, ndërsa "uh huh" tregon njohjen nga dëgjuesi. Gjithashtu, shumë gabime të të njëjtave lloje u gjetën në modele dhe njerëz.

Shumë zëra në një kanal

Ishte gjithashtu më e lehtë për të njohur bisedat e regjistruara telefonike, sepse secili altoparlant regjistrohej në një mikrofon të veçantë. Nuk ka mbivendosje të shumë zërave në një kanal audio. Njerëzit mund të kuptojnë disa folës, ndonjëherë duke folur njëkohësisht.

Një njohës i mirë i të folurit duhet të jetë në gjendje të ndajë transmetimin audio në segmente në varësi të altoparlantit (t'i nënshtrohet diarizimit). Ai gjithashtu duhet të nxjerrë kuptimin nga një regjistrim audio me dy zëra të mbivendosur (ndarja e burimit). Kjo duhet të bëhet pa një mikrofon të vendosur drejtpërdrejt në grykën e secilit altoparlant, domethënë, në mënyrë që njohësi të funksionojë mirë nëse vendoset në një vend arbitrar.

Cilësia e regjistrimit

Thekset dhe zhurma e sfondit janë vetëm dy faktorë ndaj të cilëve një njohës i të folurit duhet të jetë i qëndrueshëm. Këtu janë disa të tjera:

Reverberimi në kushte të ndryshme akustike.
Artefakte të lidhura me pajisjet.
Artefakte të kodekut të përdorur për të regjistruar dhe kompresuar sinjalin.
Frekuenca e marrjes së mostrave.
Mosha e folësit.

Shumica e njerëzve nuk mund të bëjnë dallimin midis regjistrimeve mp3 dhe wav. Para se të mund të pretendojnë performancë të krahasueshme me atë të njerëzve, njohësit duhet të bëhen të fortë ndaj këtyre burimeve të variacionit.

Kontekst

Ju mund të vini re se numri i gabimeve që njerëzit bëjnë gjatë testeve në regjistrimet nga një central telefonik është mjaft i lartë. Nëse do të flisnit me një mik që nuk kuptonte 1 fjalë nga 20, do ta kishit shumë të vështirë komunikimin.

Një nga arsyet për këtë është njohja pa marrë parasysh kontekstin. Në jetën reale, ne përdorim shumë sugjerime të ndryshme shtesë për të na ndihmuar të kuptojmë se çfarë thotë një person tjetër. Disa shembuj të kontekstit të përdorur nga njerëzit që injorohen nga njohësit e të folurit:

Historia e bisedës dhe tema që po diskutohet.
Të dhëna vizuale për folësin - shprehjet e fytyrës, lëvizjet e buzëve.
Trupi i njohurive për personin me të cilin po flasim.

Në ditët e sotme, njohësi i të folurit në Android ka një listë të kontakteve tuaja, në mënyrë që të mund të njohë emrat e miqve tuaj. Kërkimi zanor në harta përdor vendndodhjen gjeografike për të ngushtuar opsionet për të cilat dëshironi të merrni udhëzime.

Saktësia e sistemeve të njohjes rritet me përfshirjen e sinjaleve të tilla në të dhëna. Por ne sapo kemi filluar të thellohemi në llojin e kontekstit që mund të përfshijmë në përpunim dhe si mund ta përdorim atë.

Vendosja

Përparimet e fundit në njohjen e gjuhës së folur nuk mund të zhbëhen. Kur imagjinoni vendosjen e një algoritmi të njohjes së të folurit, duhet të mbani parasysh vonesën dhe fuqinë e përpunimit. Këta parametra janë të lidhur sepse algoritmet që rrisin kërkesat për fuqi gjithashtu rrisin vonesën. Por për thjeshtësi, ne do t'i diskutojmë ato veçmas.

Latenca: koha nga fundi i fjalimit të përdoruesit deri në fund të marrjes së transkriptimit. Një vonesë e vogël është një kërkesë tipike për njohjen. Kjo ndikon shumë në përvojën e përdoruesit për të punuar me produktin. Kufizimet prej dhjetëra milisekonda janë të zakonshme. Kjo mund të duket tepër kufizuese, por mbani mend se prodhimi i një transkripti është zakonisht hapi i parë në një seri llogaritjesh komplekse. Për shembull, në rastin e kërkimit zanor në internet, pas njohjes së të folurit, duhet të keni ende kohë për të kryer kërkimin.

Shtresat e përsëritura me dy drejtime janë një shembull tipik i një përmirësimi që e përkeqëson vonesën. Të gjitha rezultatet më të fundit të transkriptimit me cilësi të lartë janë marrë me ndihmën e tyre. Problemi i vetëm është se ne nuk mund të numërojmë asgjë pasi të ketë kaluar shtresa e parë dydrejtimëshe derisa personi të ketë mbaruar së foluri. Prandaj, vonesa rritet me gjatësinë e fjalisë.

Majtas: Përsëritja e drejtpërdrejtë lejon që deshifrimi të fillojë menjëherë. Djathtas: Përsëritja me dy drejtime kërkon pritje deri në fund të fjalimit përpara se të fillojë të transkriptojë.

Një mënyrë e mirë për të përfshirë në mënyrë efektive informacionin e ardhshëm në njohjen e të folurit është ende duke u kërkuar.

Fuqia llogaritëse: Ky parametër ndikohet nga kufizimet ekonomike. Kostoja e banketit duhet të merret parasysh për çdo përmirësim në saktësinë e njohësit. Nëse përmirësimi nuk arrin pragun ekonomik, ai nuk do të vendoset.

Një shembull klasik i përmirësimit të vazhdueshëm që nuk përdoret kurrë është mësimi i thellë bashkëpunues. Zvogëlimi i numrit të gabimeve me 1-2% rrallë justifikon një rritje të fuqisë llogaritëse me 2-8 herë. Modelet moderne të rrjeteve të përsëritura gjithashtu bien në këtë kategori, pasi ato janë shumë të padobishme për t'u përdorur në kërkimin e një grupi trajektoresh, megjithëse mendoj se situata do të ndryshojë në të ardhmen.

Dua të sqaroj se nuk po them se përmirësimi i saktësisë së njohjes me një rritje serioze të kostove llogaritëse është e padobishme. Ne kemi parë tashmë se si funksionon parimi "së pari ngadalë por me siguri, pastaj shpejt" në të kaluarën. Çështja është se derisa përmirësimi të jetë mjaft i shpejtë, ai nuk mund të përdoret.

Në pesë vitet e ardhshme

Ka ende shumë probleme të pazgjidhura dhe komplekse në fushën e njohjes së të folurit. Midis tyre:

Zgjerimi i aftësive të sistemeve të reja të ruajtjes së të dhënave, njohja e thekseve, të folurit në një sfond të zhurmës së fortë.
Përfshirja e kontekstit në procesin e njohjes.
Diarizimi dhe ndarja e burimit.
Numri i gabimeve semantike dhe metodat novatore për vlerësimin e njohësve.
Vonesa shumë e ulët.

Mezi pres përparimin që do të bëhet gjatë pesë viteve të ardhshme në këto dhe fusha të tjera.

Etiketa: Shtoni etiketa

Kontrolli i ekranit me prekje është tashmë standard. Sistemet më të fundit, si Windows 8, “kuptojnë” komandat zanore.Njohja e të folurit duhet të çojë në faktin se komunikimi ynë me kompjuterin do të jetë edhe më i thjeshtë, më intuitiv dhe... më i natyrshëm. Unë do t'ju tregoj se si duket sot.

Pak histori - si u zhvillua komunikimi me makinën

Mënyra se si ne komunikojmë me një kompjuter ka evoluar gjatë viteve. Ndërfaqja e parë përmes së cilës njerëzit mund të lëshonin komanda ishin kartat me grusht, të cilat datojnë që nga viti 1832. Ato përdoreshin në makina për të bërë pëlhura. Tastiera filloi të përdoret në vitin 1960. Dy dekada më vonë, miu standard u bashkua dhe përdoret ende sot. Edhe pse miu i ka ndarë fuqitë e tij me tastierën, ai është ende lloji më i popullarizuar i kontrollit. Falë telefonave inteligjentë dhe tabletëve, ndërfaqet me prekje dhe gjestet janë bërë shumë të njohura, të cilat përdoren, veçanërisht, për të kontrolluar Xbox 360 Kinect. Pas ekraneve me prekje dhe gjesteve vjen kontrolli me zë, por kjo zgjidhje deri më tani ka qenë aq e pazhvilluar sa ndonjëherë as nuk do të dëgjoni për të.

Konfigurimi i njohjes së të folurit në Windows 8

Fatkeqësisht, kontrolli zanor nuk është ende i disponueshëm në Rusisht. Gjuhët e mbështetura aktualisht janë anglisht, frëngjisht, gjermanisht, japonisht, koreanisht, kinezisht dhe spanjisht. Microsoft ka vendosur të fokusohet në vendet më të mëdha dhe më të zhvilluara, por ka mundësi që me kalimin e kohës ta shtojë këtë veçori edhe në vendin tonë. Nëse përpiqeni ta ekzekutoni, betohet kështu

Nëse ende dëshironi të provoni këtë zgjidhje, duhet të konfiguroni sistemin (të ndryshoni gjuhën) dhe të mësoni disa fjalë në anglisht. Për ta bërë këtë, duhet të shkoni në panelin e kontrollit dhe të zgjidhni Gjuha. Nëse nuk keni gjuhë tjetër përveç rusishtes, duhet të klikoni butonin "Shto gjuhën" dhe më pas të zgjidhni një nga gjuhët e mbështetura. Në rastin tonë është "Anglisht (SHBA)". Ne shohim që vetëm paraqitja në këtë gjuhë është e disponueshme, klikoni dy herë, do të kontrollojë disponueshmërinë e gjuhës për ndërfaqen, pasi të kontrolloni, klikoni "Shkarkoni dhe instaloni një paketë gjuhësore" dhe procesi do të fillojë, prisni me durim ajo të ngarkohet. Pasi të përfundojë ky proces, vendosni gjuhën e paracaktuar në anglisht

Tani duhet të shkoni në ekranin e fillimit të Windows 8 (me pllaka), të futni "Njohja e të folurit të Windows" në kërkim dhe shtypni Enter.

Kështu që mund të përdorni mjetin e njohjes së zërit. Kur ta filloni për herë të parë, ai do të ofrojë konfigurimin e mikrofonit, pasi të zgjidhni, thoni diçka për të kontrolluar.

Tjetra, ofroni për të marrë mësime trajnimi. Ato zgjasin deri në 15-20 minuta, por janë shumë të dobishme dhe ofrojnë informacion bazë se si të përdorni veçoritë. Por nëse nuk jeni të fortë në anglisht, mendoj se nuk ia vlen të humbni kohë, do të jetë e vështirë të kuptoni ndonjë gjë, shkoni direkt në betejë

Si të punoni

Në mënyrë që kompjuteri të fillojë të njohë fjalimin tuaj, duhet të thoni "filloni të dëgjoni" (që do të thotë filloni të dëgjoni) ose shtypni butonin e mikrofonit për të filluar modalitetin e dëgjimit. Tani mund të hapni aplikacionin ose thjesht të diktoni fjalë në një redaktues teksti, shfletues ose shirit kërkimi

Çfarë mund të bëjmë

Në parim, mundësitë janë të mëdha; përveç fjalëve standarde, ju mund të krijoni komandat tuaja. Karakteristikat kryesore janë paraqitur në tabelë

Veprimi	Çfarë të them
Zgjidhni çdo element me emrin e tij	Klikoni File, Start, View
Zgjidhni çdo element ose ikonë	Klikoni në Koshin e Riciklimit, Klikoni Kompjuterin, Klikoni (emri i skedarit)
Klikoni dy herë ose kliko dy herë çdo element	Klikoni dy herë mbi koshin e riciklimit, klikoni dy herë në Kompjuter
Kaloni midis aplikacioneve të hapura	Kalo te Paint, Kalo në WordPad
Lëvizni	Lëviz lart; Lëviz poshtë; Lëviz majtas; Lëviz djathtas
Përfshini një paragraf të ri ose rresht të ri në një dokument	Paragraf i ri; Linja e re
Zgjidhni një fjalë në dokument
Korrigjimi i fjalës	Fjalë e saktë
Zgjidhni dhe hiqni fjalë specifike
Shfaq listën e komandave të zbatueshme
	Rifresko komandat e të folurit
Aktivizo modalitetin e dëgjimit
Çaktivizo modalitetin e dëgjimit
Palos mikrofonin	Minimizoni njohjen e të folurit
Shikoni Ndihmën dhe Mbështetjen e Windows	Si të bëj diçka? Për shembull: Si mund të instaloj një printer?

Nëse nuk dini si ta shqiptoni frazën, ju sugjeroj të përdorni Google Translate ose http://uchilochka.rf (ai e kuptoi më mirë këtë faqe)

Kisha dëshirë të shkruaja urdhërat e mia të përbëra nga fjalë të thjeshta borgjeze. Të cilën mund ta shqiptoj. Kështu që ai nuk më la ta bëja këtë, ai nuk mund të hapte redaktorin e komandës. Si rezultat, ai e kuptoi në mënyrë të përsosur shqiptimin tim të fjalëve Një, Dy dhe Hapur. Me këtë numërues, mund të hapni një aplikacion sipas numrit në ekranin bazë. Fillimisht thoni numrin, pastaj thoni HAPUR. Jo shumë, sigurisht, por unë e konsideroj eksperimentin një sukses. Nuk do të ishte keq nëse Microsoft do të prezantonte gjuhën ruse, një zëvendësim i mirë për telekomandën.

Sistemi operativ Windows 7 është i pajisur me shumë opsione që ofrojnë gjithnjë e më shumë mundësi për përdoruesit e këtij sistemi. Ata ishin në gjendje të futnin një funksion shumë interesant në të, i cili quhet "njohja e të folurit". Por çfarë është ky sistem? Për këtë do të jetë biseda.

Opsioni në fjalë i lejon aplikacionet në të gjithë sistemin të përdorin një mënyrë krejtësisht të re të ndërveprimit të përdoruesit me kompjuterin. Është sistemi Windows 7 Speech Recognition që ju lejon të kontrolloni kompjuterin tuaj pa përdorur tastierë, maus ose mjete të tjera.

Dëshiroj të theksoj se kjo risi do të jetë e disponueshme në produkte të tjera të Microsoft. Ky funksion u vu re pak më herët, domethënë u përpoqën ta zbatonin në Windows Vista, por në versionin e shtatë të sistemit operativ të Microsoft-it, kontrolli zanor kryhet në një nivel më të lartë në krahasim me paraardhësin e tij. Për ta thënë thjesht, një opsion i tillë si njohja e të folurit në Windows 7 është bërë edhe më funksional.

Përveç gjithë asaj që u tha, dua të vërej se ka një gamë mjaft të gjerë aplikimesh. Përdoruesit e Windows 7 me njohjen e të folurit kanë aftësinë të ekzekutojnë programe dhe të konvertojnë të gjitha fragmentet e zërit në tekst, të ekzekutojnë të gjitha llojet e komandave në kompjuter, duke përdorur vetëm zërin e tyre dhe pajisjet e nevojshme. Por çfarë duhet për ta bërë realitet njohjen e të folurit në Windows 7?

Para së gjithash, do t'ju duhet një mikrofon, i cili duhet të lidhet me kompjuterin tuaj. Përveç kësaj, ju duhet të blini një aplikacion ose program të veçantë që publikohet nga vetë prodhuesi, domethënë Microsoft. Pasi të jenë instaluar të gjithë komponentët e nevojshëm dhe mikrofoni të jetë lidhur me kompjuterin, duhet të zbatohet një plan specifik pune:

Ju duhet të ekzekutoni komandat zanore të testimit dhe t'i konvertoni ato në tekst.
Pasi të keni trajnuar programin e njohjes, do t'ju duhet të krijoni shabllone për komanda të ndryshme në zërin tuaj. Është në bazë të kësaj pune që kompjuteri do të jetë në gjendje të pranojë dhe të ekzekutojë të gjitha komandat që ju specifikoni.

Funksioni i njohjes së të folurit të Windows 7 përdoret në redaktuesin e tekstit të Microsoft - WordPad. Funksionon pa të meta kur plotëson formularë të ndryshëm dhe gjithashtu performon mirë kur punon në Internet Explorer dhe kur

Përveç kësaj, ky opsion mund të modifikojë lehtësisht tekstin e regjistruar më parë duke përcaktuar komanda të veçanta zanore. Sigurisht, në procesin e njohjes së një detyre të caktuar, ndodhin gabime tipike (kur disa tinguj njihen gabimisht). Për këtë rast, programi ofron një listë të korrespondencës së fjalëve të caktuara.

Funksioni, natyrisht, është fenomenal, por ka ende një "por" këtu. Gjë është se njohja e të folurit rus tani është, në parim, e paarritshme. Ka versione të shkëlqyera të programit për anglisht, frëngjisht, gjermanisht dhe japonisht. Ekzistojnë gjithashtu versione për fjalimin kinez, spanjisht dhe italisht.

Por ky produkt i ri nuk është përshtatur plotësisht për fjalimin rus. Kompjuteri juaj nuk do të jetë në gjendje të perceptojë detyrat që i janë caktuar, që do të thotë se do të jetë më e lehtë për ju të shkruani diçka duke përdorur tastierën ose të kryeni detyra të caktuara duke përdorur miun.

Sigurisht, mund të përpiqeni të punoni me programe të ngjashme në gjuhën ruse ose t'i jepni preferencën tuaj gjuhës angleze, por ende mund të shpresoni që së shpejti njohja e të folurit në Rusisht do të jetë gjithashtu e disponueshme në modalitetin me cilësi të lartë. Dhe kjo është kur ju do të jeni në gjendje të provoni një veçori kaq unike në praktikë. Në fund të fundit, ai, pa dyshim, thjeshton qartë punën në një kompjuter personal dhe është një zbulim i madh në fushën e programimit. Pra, gjithçka që mbetet është të presim.

Asnjë program nuk mund të zëvendësojë plotësisht punën manuale të transkriptimit të fjalimit të regjistruar. Sidoqoftë, ka zgjidhje që mund të shpejtojnë dhe lehtësojnë ndjeshëm përkthimin e të folurit në tekst, domethënë, thjeshtojnë transkriptimin.

Transkriptimi është regjistrimi i një skedari audio ose video në formë teksti. Në internet ka detyra me pagesë me pagesë, kur interpretuesit i paguhet një shumë e caktuar parash për transkriptimin e tekstit.

Përkthimi nga fjalimi në tekst është i dobishëm

studentët të përkthejnë ligjëratat e regjistruara audio ose video në tekst,
blogerët që drejtojnë faqe interneti dhe blogje,
shkrimtarë, gazetarë për të shkruar libra dhe tekste,
biznesmenët e informacionit që kanë nevojë për një tekst pas webinarit, fjalimit, etj.,
njerëz që kanë vështirësi në shkrimin - ata mund të diktojnë një letër dhe t'ia dërgojnë familjes ose miqve,
opsione të tjera.

Ne do të përshkruajmë mjetet më efektive të disponueshme në PC, aplikacione celulare dhe shërbime online.

1 Uebsajti speakpad.ru

Ky është një shërbim në internet që ju lejon të përktheni fjalimin në tekst duke përdorur shfletuesin Google Chrome. Shërbimi funksionon me mikrofon dhe skedarë të gatshëm. Sigurisht, cilësia do të jetë shumë më e lartë nëse përdorni një mikrofon të jashtëm dhe diktoni veten. Sidoqoftë, shërbimi bën një punë të mirë edhe me videot në YouTube.

Klikoni "Aktivizo regjistrimin", përgjigjuni pyetjes në lidhje me "Përdorimi i mikrofonit" - për ta bërë këtë, klikoni "Lejo".

Udhëzimet e gjata për përdorimin e shërbimit mund të fshihen duke klikuar në butonin 1 në Fig. 3. Mund të shpëtoni nga reklamat duke kryer një regjistrim të thjeshtë.

Oriz. 3. Shërbimi Speechpad

Rezultati i përfunduar është i lehtë për t'u modifikuar. Për ta bërë këtë, duhet të korrigjoni manualisht fjalën e theksuar ose ta diktoni përsëri. Rezultatet e punës ruhen në llogarinë tuaj personale, ato gjithashtu mund të shkarkohen në kompjuterin tuaj.

Lista e mësimeve video për punën me tastierën e të folurit:

Ju mund të transkriptoni video nga Youtube ose nga kompjuteri juaj, megjithatë, do t'ju duhet një mikser, më shumë detaje:

Video "transkriptimi i audios"

Shërbimi funksionon në shtatë gjuhë. Ka një minus të vogël. Ai qëndron në faktin se nëse keni nevojë të transkriptoni një skedar audio të përfunduar, atëherë tingulli i tij dëgjohet përmes altoparlantëve, gjë që krijon ndërhyrje shtesë në formën e një jehone.

2 Shërbimi diktim.io

Një shërbim i mrekullueshëm në internet që ju lejon të përktheni fjalimin në tekst falas dhe me lehtësi.

Oriz. 4. Diktimi i shërbimit.io

1 në Fig. 4 – Gjuha ruse mund të zgjidhet në fund të faqes. Në shfletuesin Google Chrome, gjuha është zgjedhur, por për disa arsye në Mozilla nuk ka një mundësi të tillë.

Vlen të përmendet se aftësia për të ruajtur automatikisht rezultatin e përfunduar është zbatuar. Kjo do të parandalojë fshirjen aksidentale si rezultat i mbylljes së një skede ose shfletuesi. Ky shërbim nuk i njeh skedarët e përfunduar. Punon me mikrofon. Ju duhet të emërtoni shenjat e pikësimit kur diktoni.

Teksti njihet mjaft saktë, nuk ka gabime drejtshkrimore. Shenjat e pikësimit mund t'i vendosni vetë nga tastiera. Rezultati i përfunduar mund të ruhet në kompjuterin tuaj.

3 Real Speaker

Ky program ju lejon të përktheni lehtësisht të folurit njerëzor në tekst. Është krijuar për të punuar në sisteme të ndryshme: Windows, Android, Linux, Mac. Me ndihmën e tij, ju mund të konvertoni fjalimin e dëgjuar në një mikrofon (për shembull, mund të ndërtohet në një laptop), si dhe të regjistrohet në skedarë audio.

Mund të kuptojë 13 gjuhë të botës. Ekziston një version beta i programit që funksionon si një shërbim në internet:

Ju duhet të ndiqni lidhjen e mësipërme, të zgjidhni gjuhën ruse, të ngarkoni skedarin tuaj audio ose video në shërbimin në internet dhe të paguani për transkriptimin e tij. Pas transkriptimit, mund të kopjoni tekstin që rezulton. Sa më i madh të jetë skedari për transkriptim, aq më shumë kohë do të duhet për ta përpunuar atë, më shumë detaje:

Në vitin 2017 kishte një opsion transkriptimi falas duke përdorur RealSpeaker, por në 2018 nuk ka një opsion të tillë. Është shumë konfuze që skedari i transkriptuar është i disponueshëm për të gjithë përdoruesit për shkarkim; ndoshta kjo do të përmirësohet.

Kontaktet e zhvilluesit (VKontakte, Facebook, Youtube, Twitter, email, telefon) të programit mund të gjenden në faqen e faqes së tij të internetit (më saktë, në fund të faqes):

4 Speechlogger

Një alternativë ndaj aplikacionit të mëparshëm për pajisjet celulare që funksionojnë në Android. Në dispozicion falas në dyqanin e aplikacioneve:

Teksti redaktohet automatikisht dhe shtohen shenjat e pikësimit. Shumë i përshtatshëm për t'i diktuar shënime vetes ose për të bërë lista. Si rezultat, teksti do të jetë me cilësi shumë të mirë.

5 Diktimi i Dragoit

Ky është një aplikacion që shpërndahet pa pagesë për pajisjet mobile nga Apple.

Programi mund të punojë me 15 gjuhë. Kjo ju lejon të redaktoni rezultatin dhe të zgjidhni fjalët e dëshiruara nga lista. Ju duhet të shqiptoni qartë të gjithë tingujt, të mos bëni pauza të panevojshme dhe të shmangni intonacionin. Ndonjëherë ka gabime në fundet e fjalëve.

Aplikacioni Dragon Dictation përdoret nga pronarët, për shembull, për të diktuar një listë blerjesh në një dyqan ndërsa lëvizni nëpër apartament. Kur të arrij atje, mund të shikoj tekstin në shënim dhe nuk kam pse të dëgjoj.

Çfarëdo programi që përdorni në praktikën tuaj, jini të përgatitur për të kontrolluar dy herë rezultatet dhe për të bërë rregullime të caktuara. Kjo është mënyra e vetme për të marrë një tekst të përsosur pa gabime.

Gjithashtu shërbime të dobishme:

Merrni artikujt më të fundit të njohurive kompjuterike direkt në kutinë tuaj hyrëse.
Tashmë më shumë 3000 abonentë