• Puheentunnistuksen ongelmaa ei ole vielä ratkaistu. Automaattisen puheentunnistuksen ottaminen käyttöön ja poistaminen käytöstä Puheentunnistuksen määrittäminen Windows 7:ssä

    Windows Vista on ensimmäinen Microsoftin käyttöjärjestelmä, joka sisältää puheentunnistusominaisuudet. Tämän toiminnon avulla voit suorittaa erilaisia ​​tehtäviä äänelläsi, kuten käynnistää ohjelmia, sulkea, tallentaa ja poistaa tiedostoja, sanella sanatarkasti tallennettavaa tekstiä ja muokata sitä. IT-konsultti Deb Shinder opastaa sinua tämän ominaisuuden käytössä.

    Star Trek -elokuvan julkaisusta lähtien monet tietokoneen käyttäjät ovat haaveilleet näppäimistön ja hiiren heittämisestä ulos ja ohjaavansa tietokonettaan äänellään. Ohjelmia, joiden avulla voit puhua komentoja ja sanella tekstiä tietokoneelle, oli tehty useita vuosia, ja ne olivat erittäin hyödyllisiä niille, jotka eivät fyysisesti pystyneet käyttämään muita syöttötapoja. Mutta jostain syystä nämä ohjelmat eivät olleet suosittuja.

    Windows Vista on ensimmäinen Microsoftin käyttöjärjestelmä, joka pystyy tunnistamaan puheen. Aiemmin puheentunnistustoiminto oli Microsoft Office XP:ssä ja Office 2003:ssa, ja voit käyttää myös muiden kehittäjien ohjelmia, kuten Dragon NaturallySpeakingia. Microsoft on myös lisännyt puheentunnistusominaisuuden Windows Mobileen.

    Jotta voit alkaa puhua tietokoneellesi, sinun ei tarvitse ostaa mitään ylimääräistä; Vistassa on jo kaikki tähän. Ominaisuus on oletusarvoisesti poissa käytöstä, mutta voit käynnistää sen helposti Ohjauspaneelista kuvan A mukaisesti.

    Voit myös käynnistää tämän toiminnon valikosta valitsemalla Kaikki ohjelmat | Vakio | Helppokäyttöisyys (kaikki ohjelmat | lisävarusteet | helppokäyttöisyys), kuten kuvassa B.

    Kuinka se toimii

    Voit valita yhden kahdesta puheentunnistuksen toimintatilasta:

    • Ohjelmien hallinta: Käynnistä ja sulje ohjelmia, vaihda niiden välillä, tallenna ja poista tiedostoja ja niin edelleen.
    • Sanele tekstiä, joka kirjoitetaan ylös sanatarkasti, sekä muokkaa sitä.

    Ohjelmistokehittäjät voivat lisätä ohjelmiinsa tuen tälle toiminnolle. On sääli, että puheentunnistus tukee tällä hetkellä vain muutamia kieliä: englantia (Yhdysvallat ja Iso-Britannia), saksaa, ranskaa, espanjaa, japania ja kiinaa (perinteinen ja yksinkertaistettu).

    Puheentunnistuksen määrittäminen

    Ennen kuin voit käyttää puheentunnistusta, sinun on suoritettava seuraavat vaiheet:

    • Ota puheentunnistus käyttöön.
    • Aseta mikrofoni.
    • Lue käyttöohje (valinnainen).
    • Harjoittele puhumista selkeästi (ei myöskään välttämätöntä).

    Kun kaksoisnapsautat Puheentunnistusta Ohjauspaneelissa tai valitset Puheentunnistus valikosta, sinulle avautuu asetusikkuna, joka näkyy kuvassa C.


    Kun napsautat Käynnistä puheentunnistus, ääniohjauspaneeli tulee näkyviin näytön yläosaan, kuten kuvassa D.


    Jos olet jo määrittänyt tämän toiminnon, socket rekisteröidään automaattiseen käynnistykseen ja käynnistyy aina, kun Windows käynnistyy. Myös sininen ääniohjauskuvake tulee näkyviin lokeroon.
    Voit avata asetusten kontekstivalikon napsauttamalla hiiren kakkospainikkeella palkin kuvaketta tai ääniohjauspaneelia, kuten kuvassa E.


    Valikosta näet seuraavat asetukset:

    • Ota puhe käyttöön: Tietokone kuuntelee kaiken mitä sanot ja noudattaa tunnistamiaan komentoja.
    • Nukkumismoodi: Tietokone tarkkailee puhettasi, mutta ei vastaa komentoihin ennen kuin sanot "Aloita kuunteleminen".
    • Vinossa: Tietokone ei kuuntele sinua, vaikka kerrot sille mitä.
    • Avoin puheentunnistuksen huijauslehti (Open Speech Reference Card): Kätevä huijauslehti, jossa on peruskomentoja ja lisätietoja.
    • Aloita puheen opetusohjelma: Opetusvideo, jossa he kertovat ja näyttävät sinulle kaiken.
    • Auta: Avaa ohjeen, tätä toimintoa koskevan ohjetiedoston.
    • Vaihtoehdot: Täällä voit määrittää ohjelman latautumaan Windowsin kanssa, korjaamaan tekstiä automaattisesti jne.
    • Kokoonpano: Täällä voit säätää mikrofonia, parantaa puheentunnistusta ja avata ohjauspaneelin.
    • Avaa puhesanakirja: Voit lisätä uusia sanoja (erittäin hyödyllinen nimille ja sanoille, joita on vaikea tunnistaa), ja voit myös sulkea pois sanoja, joita et koskaan sano.
    • Sanelun aihe: Täällä voit valita vain Narratiivin.
    • Vieraile Go To The Speech Recognition -verkkosivustossa.
    • Hanki tietoa puheentunnistuksesta: Tämä on tuttu Windowsin valintaikkuna, johon kirjoitetaan ohjelman versio, lisenssinumero ja nimi.
    • Avoin puheentunnistus (Open Speech Recognition).
    • Poistu: Sulkee ohjelman kokonaan.
    • Käännös

    Sen jälkeen kun syväoppiminen tuli puheentunnistusalueelle, sanantunnistuksen virheiden määrä on vähentynyt dramaattisesti. Kaikista lukemistasi artikkeleista huolimatta meillä ei silti ole ihmistason puheentunnistusta. Puheentunnistimissa on monia vikatiloja. Lisäparannuksia varten ne on tunnistettava ja yritettävä poistaa. Tämä on ainoa tapa siirtyä tunnustuksesta, joka toimii joillekin ihmisille suurimman osan ajasta, tunnustamiseen, joka toimii kaikille ihmisille jatkuvasti.

    Väärin tunnistettujen sanojen lukumäärä on parantunut. Testiäänisarja kerättiin puhelinkytkimeen vuonna 2000 40 satunnaisesta keskustelusta kahden englannin äidinkielenä olevan henkilön välillä.

    Sanoa, että olemme saavuttaneet ihmistason puheentunnistuksen keskusteluissa, jotka perustuvat vain puhelinvaihteesta tuleviin keskusteluihin, on sama kuin sanoa, että robottiauto ajaa yhtä hyvin kuin ihminen, joka on testannut sitä yhdessä kaupungissa aurinkoisella säällä. päivä ilman liikennettä.. Puheentunnistuksen viimeaikainen kehitys on yllättävää. Mutta väitteet ihmistason puheentunnistuksesta ovat liian rohkeita. Tässä on muutamia alueita, joilla on vielä parannettavaa.

    Aksentteja ja melua

    Yksi puheentunnistuksen ilmeisistä haitoista on käsittely aksentteja ja taustamelua. Pääsyy tähän on se, että suurin osa opetustiedoista koostuu amerikkalaisesta puheesta, jolla on korkea signaali-kohinasuhde. Esimerkiksi puhelinkytkimestä lähtevien keskustelujen joukko sisältää vain sellaisten ihmisten keskusteluja, joiden äidinkieli on englanti (useimmiten amerikkalaiset) ja vähän taustamelua.

    Mutta pelkkä harjoitustietojen lisääminen ei todennäköisesti ratkaise tätä ongelmaa. On monia kieliä, jotka sisältävät monia murteita ja aksentteja. On epärealistista kerätä merkittyjä tietoja kaikista tapauksista. Korkealaatuisen puheentunnistimen luominen pelkästään amerikanenglannin kielelle vaatii jopa 5000 tuntia tekstiksi käännettyä äänitallenteita.


    Ihmisten puhe-tekstimuuntimien vertailu Baidu's Deep Speech 2:een eri puhetyypeissä. Ihmiset tunnistavat huonommin ei-amerikkalaisia ​​aksentteja, mikä johtuu ehkä siitä, että heidän joukossaan on paljon amerikkalaisia. Uskon, että ihmisillä, jotka ovat kasvaneet tietyllä alueella, olisi paljon vähemmän virheitä tunnistaessaan alueen aksenttia.

    Liikkuvan auton taustamelun läsnä ollessa signaali-kohinasuhde voi saavuttaa -5 dB:n arvot. Ihmiset selviävät helposti toisen henkilön puheen tunnistamisesta tällaisissa olosuhteissa. Automaattiset tunnistimet heikkenevät paljon nopeammin melun lisääntyessä. Kaavio näyttää, kuinka paljon ihmisten välinen ero kasvaa kohinan (alhaisella SNR:llä, signaali-kohinasuhde) arvojen kasvaessa.

    Semantisia virheitä

    Usein väärin tunnistettujen sanojen määrä ei ole puheentunnistusjärjestelmän tavoite sinänsä. Tavoittelemme semanttisten virheiden määrää. Tämä on niiden ilmaisujen osuus, joiden merkityksen tunnistamme väärin.

    Esimerkki semanttisesta virheestä on, kun joku ehdottaa "tavataan tiistaina" ja ratkaiseja palauttaa "tavataan tänään". Myös sanoissa on virheitä ilman semanttisia virheitä. Jos tunnistaja ei tunnistanut "ylös" ja palautti "tavataan tiistaina", lauseen semantiikka ei muuttunut.

    Meidän on käytettävä huolellisesti virheellisesti tunnistettujen sanojen määrää kriteerinä. Tämän havainnollistamiseksi annan sinulle esimerkin pahimmasta mahdollisesta tapauksesta. Sanavirheistä 5 % vastaa yhtä puuttuvaa sanaa 20:stä. Jos jokaisessa lauseessa on 20 sanaa (mikä on englannin kielen keskiarvo), niin väärin tunnistettujen lauseiden määrä lähestyy 100:aa. Voidaan toivoa, että väärin tunnistetut sanat eivät muuta lauseiden semanttista merkitystä. Muuten tunnistin saattaa tulkita jokaisen lauseen väärin, vaikka virheellisesti tunnistettujen sanojen määrä olisi 5 %.

    Kun verrataan malleja ihmisten kanssa, on tärkeää tarkistaa virheiden olemus ja seurata paitsi väärin tunnistettujen sanojen määrää. Kokemukseni mukaan ihmiset, jotka kääntävät puheen tekstiksi, tekevät vähemmän virheitä, eivätkä ne ole niin vakavia kuin tietokoneiden tekemät.

    Microsoftin tutkijat vertasivat äskettäin ihmisten ja tietokoneiden tunnistajien samantasoisia virheitä. Yksi havaituista eroista on se, että malli sekoittaa sanat "uh" [uh-uh...] sanaan "uh huh" [uh-huh] paljon useammin kuin ihmiset. Näillä kahdella termillä on hyvin erilainen semantiikka: "uh" täyttää tauot, kun taas "uh huh" tarkoittaa kuuntelijan kuittausta. Myös malleista ja ihmisistä löytyi monia samantyyppisiä virheitä.

    Monta ääntä yhdellä kanavalla

    Tallennettujen puhelinkeskustelujen tunnistaminen oli myös helpompaa, koska jokainen puhuja äänitettiin erilliseen mikrofoniin. Yhdellä äänikanavalla ei ole päällekkäisyyksiä useiden äänien välillä. Ihmiset voivat ymmärtää useita puhujia, joskus puhuvat samanaikaisesti.

    Hyvän puheentunnistimen pitäisi pystyä jakamaan äänivirta osiin kaiuttimesta riippuen (jolloin se on diarisoitu). Hänen on myös poimittava merkitys äänitallenteesta, jossa on kaksi päällekkäistä ääntä (lähdeerottelu). Tämä on tehtävä ilman mikrofonia, joka sijaitsee suoraan kunkin kaiuttimen suulla, eli niin, että tunnistin toimii hyvin, jos se sijoitetaan mielivaltaiseen paikkaan.

    Tallennuksen laatu

    Aksentit ja taustamelu ovat vain kaksi tekijää, joihin puheentunnistimen on oltava kestävä. Tässä muutama lisää:

    Jälkikaiunta erilaisissa akustisissa olosuhteissa.
    Laitteisiin liittyviä esineitä.
    Signaalin tallentamiseen ja pakkaamiseen käytetyn koodekin artefaktit.
    Näytteenottotaajuus.
    Puhujan ikä.

    Useimmat ihmiset eivät pysty erottamaan mp3- ja wav-tallenteita. Ennen kuin tunnistajat voivat vaatia suorituskykyä, joka on verrattavissa ihmisten suorituskykyyn, niiden on tultava kestäviksi näille vaihtelulähteille.

    Konteksti

    Saatat huomata, että puhelinkeskuksen nauhoitteissa testien aikana tekemien virheiden määrä on melko suuri. Jos puhuisit ystävällesi, joka ei ymmärtänyt yhtä sanaa 20:stä, sinun olisi erittäin vaikea kommunikoida.

    Yksi syy tähän on tunnustaminen ilman kontekstia. Käytämme tosielämässä monia erilaisia ​​lisävihjeitä, jotka auttavat meitä ymmärtämään, mitä toinen henkilö sanoo. Joitakin esimerkkejä ihmisten käyttämistä konteksteista, jotka puheentunnistimet jättävät huomiotta:

    Keskustelun historia ja käsiteltävä aihe.
    Visuaalisia vihjeitä puhujasta - ilmeet, huulten liikkeet.
    Tietokokonaisuus henkilöstä, jonka kanssa puhumme.

    Nykyään Androidin puheentunnistimessa on luettelo yhteystiedoistasi, joten se voi tunnistaa ystäviesi nimet. Karttojen puhehaku käyttää maantieteellistä sijaintia rajatakseen vaihtoehtoja, joihin haluat saada reittiohjeet.

    Tunnistusjärjestelmien tarkkuus kasvaa, kun tällaisia ​​signaaleja sisällytetään dataan. Mutta olemme vasta alkamassa syventyä siihen, minkä tyyppistä kontekstia saatamme sisällyttää käsittelyyn ja miten voimme käyttää sitä.

    Käyttöönotto

    Puhutun kielentunnistuksen viimeaikaisia ​​edistysaskeleita ei voida paljastaa. Kun kuvittelet puheentunnistusalgoritmin käyttöönoton, sinun on pidettävä mielessä latenssi ja prosessointiteho. Nämä parametrit liittyvät toisiinsa, koska tehovaatimuksia lisäävät algoritmit lisäävät myös latenssia. Mutta yksinkertaisuuden vuoksi keskustelemme niistä erikseen.

    Latenssi: aika käyttäjän puheen lopusta transkription vastaanottamisen loppuun. Pieni viive on tyypillinen tunnistamisen vaatimus. Se vaikuttaa suuresti käyttäjän kokemuksiin tuotteen kanssa työskentelystä. Kymmenien millisekuntien rajoitukset ovat yleisiä. Tämä saattaa tuntua liian rajoittavalta, mutta muista, että transkription tuottaminen on yleensä ensimmäinen askel monimutkaisten laskelmien sarjassa. Esimerkiksi puhe-Internet-haun tapauksessa puheentunnistuksen jälkeen sinulla on vielä aikaa suorittaa haku.

    Kaksisuuntaiset toistuvat kerrokset ovat tyypillinen esimerkki parannuksesta, joka pahentaa latenssia. Kaikki uusimmat korkealaatuiset transkriptiotulokset saadaan heidän avullaan. Ainoa ongelma on, että emme voi laskea mitään sen jälkeen, kun ensimmäinen kaksisuuntainen kerros on mennyt läpi, ennen kuin henkilö on lopettanut puhumisen. Siksi viive kasvaa lauseen pituuden myötä.


    Vasemmalla: Suora toistuminen mahdollistaa salauksen purkamisen alkamisen välittömästi. Oikealla: Kaksisuuntainen toistuminen vaatii odottamisen puheen loppuun ennen litteroinnin aloittamista.

    Hyvää tapaa sisällyttää tulevaisuuden tiedot tehokkaasti puheentunnistukseen etsitään edelleen.

    Laskentateho: Taloudelliset rajoitteet vaikuttavat tähän parametriin. Juhlan hinta on otettava huomioon jokaisen tunnistimen tarkkuuden parantumisen yhteydessä. Jos parannus ei saavuta taloudellista kynnystä, sitä ei oteta käyttöön.

    Klassinen esimerkki jatkuvasta parantamisesta, jota ei koskaan oteta käyttöön, on yhteistyöpohjainen syväoppiminen. Virheiden määrän vähentäminen 1-2 % oikeuttaa harvoin laskentatehon lisäämisen 2-8-kertaiseksi. Myös nykyaikaiset toistuvien verkkojen mallit kuuluvat tähän luokkaan, koska niitä on erittäin kannattamatonta käyttää joukon liikeradan etsimisessä, vaikka uskon tilanteen muuttuvan tulevaisuudessa.

    Haluan selventää, etten väitä, että tunnistustarkkuuden parantaminen laskennallisten kustannusten vakavalla kasvulla on hyödytöntä. Olemme jo nähneet, kuinka periaate "ensin hitaasti mutta varmasti, sitten nopeasti" toimii aiemmin. Asia on siinä, että ennen kuin parannus on riittävän nopea, sitä ei voida käyttää.

    Seuraavien viiden vuoden aikana

    Puheentunnistuksen alalla on edelleen monia ratkaisemattomia ja monimutkaisia ​​ongelmia. Heidän joukossa:

    Uusien tiedontallennusjärjestelmien kykyjen laajentaminen, aksenttien tunnistaminen, puhe voimakkaan kohinan taustalla.
    Kontekstin sisällyttäminen tunnustamisprosessiin.
    Diarisointi ja lähteiden erottaminen.
    Semanttisten virheiden määrä ja innovatiiviset menetelmät tunnistajien arviointiin.
    Erittäin pieni latenssi.

    Odotan innolla edistystä, joka tapahtuu seuraavien viiden vuoden aikana näillä ja muilla rintamilla.

    Tunnisteet: Lisää tunnisteita

    Kosketusnäytön ohjaus on jo vakiona. Uusimmat järjestelmät, kuten Windows 8, "ymmärtävät" äänikomennot Puheentunnistuksen pitäisi johtaa siihen, että viestintämme tietokoneen kanssa on entistä yksinkertaisempaa, intuitiivisempaa ja... luonnollisempaa. Kerron miltä se näyttää tänään.

    Hieman historiaa - kuinka viestintä koneen kanssa kehittyi

    Tapa, jolla kommunikoimme tietokoneen kanssa, on kehittynyt vuosien varrella. Ensimmäinen käyttöliittymä, jonka kautta ihmiset pystyivät antamaan komentoja, olivat reikäkortit, jotka ovat peräisin vuodelta 1832. Niitä käytettiin koneissa kankaan valmistukseen. Näppäimistöä alettiin käyttää vuonna 1960. Kaksi vuosikymmentä myöhemmin standardihiiri liittyi ja sitä käytetään edelleen. Vaikka hiiri on jakanut tehonsa ohjauslevyn kanssa, se on edelleen suosituin ohjaustyyppi. Älypuhelimien ja tablettien ansiosta kosketusrajapinnat ja eleet ovat tulleet erittäin suosituiksi, joita käytetään erityisesti Xbox 360 Kinectin ohjaamiseen. Kosketusnäyttöjen ja eleiden jälkeen tulee puheohjaus, mutta tämä ratkaisu on toistaiseksi ollut niin alikehittynyt, että joskus siitä ei edes kuule.

    Puheentunnistuksen määrittäminen Windows 8:ssa

    Valitettavasti puheohjaus ei ole vielä saatavilla venäjäksi. Tällä hetkellä tuetut kielet ovat englanti, ranska, saksa, japani, korea, kiina ja espanja. Microsoft on päättänyt keskittyä suurimpiin ja kehittyneimpiin maihin, mutta on mahdollista, että ajan myötä se lisää tämän ominaisuuden myös maahamme. Jos yrität käynnistää sen, se vannoo näin

    Jos haluat silti testata tätä ratkaisua, sinun on määritettävä järjestelmä (vaihtaa kieli) ja opittava muutama sana englanniksi. Voit tehdä tämän siirtymällä ohjauspaneeliin ja valitsemalla Kieli. Jos sinulla ei ole muuta kieltä kuin venäjä, sinun on napsautettava "Lisää kieli" -painiketta ja valittava sitten yksi tuetuista kielistä. Meidän tapauksessamme se on "englanti (USA)". Näemme, että vain tämän kielen asettelu on käytettävissä, kaksoisnapsauta, se tarkistaa käyttöliittymän kielen saatavuuden, tarkistamisen jälkeen napsauta "Lataa ja asenna kielipaketti", ja prosessi alkaa, odota kärsivällisesti se ladata. Kun tämä prosessi on valmis, aseta oletuskieleksi englanti

    Nyt sinun on siirryttävä Windows 8:n aloitusnäyttöön (laatoitettu), kirjoitettava hakuun "Windows Speech Recognition" ja painamalla Enter.

    Joten voit käyttää äänentunnistustyökalua. Kun käynnistät sen ensimmäisen kerran, se tarjoaa mikrofonin asetukset, valinnan jälkeen sano jotain tarkistettavaksi.

    Tarjoa seuraavaksi koulutustunteja. Ne kestävät jopa 15-20 minuuttia, mutta ovat erittäin hyödyllisiä ja tarjoavat perustietoja ominaisuuksien käytöstä. Mutta jos et ole vahva englanniksi, mielestäni ei kannata tuhlata aikaa, on vaikea ymmärtää mitään, mene suoraan taisteluun

    Kuinka työskennellä

    Jotta tietokone alkaa tunnistaa puhettasi, sinun on sanottava "aloita kuuntelu" (mikä tarkoittaa, että aloita kuunteleminen) tai paina mikrofonipainiketta aloittaaksesi kuuntelutilan. Nyt voit avata sovelluksen tai yksinkertaisesti sanella sanoja tekstieditoriin, selaimeen tai hakupalkkiin

    Mitä voimme tehdä

    Periaatteessa mahdollisuudet ovat valtavat, vakiosanojen lisäksi voit luoda omia komentoja. Tärkeimmät ominaisuudet on esitetty taulukossa

    Toiminta Mitä sanoa
    Valitse mikä tahansa elementti sen nimellä Napsauta Tiedosto, Käynnistä, Näytä
    Valitse mikä tahansa elementti tai kuvake Napsauta Roskakori, Napsauta Tietokone, Napsauta (tiedoston nimi)
    Kaksoisnapsauta tai kaksoisnapsauta mitä tahansa elementtiä Kaksoisnapsauta Roskakori, Kaksoisnapsauta Tietokone
    Vaihda avointen sovellusten välillä Vaihda Paintiin, vaihda WordPadiin

    Selaa

    Selaa ylöspäin; Rullaa alas;
    Vieritä vasemmalle; Vieritä oikealle

    Sisällytä asiakirjaan uusi kappale tai rivi

    Uusi kappale; Uusi rivi

    Valitse sana asiakirjasta

    Sanan korjaus

    Oikea sana

    Valitse ja poista tietyt sanat

    Näytä luettelo sovellettavista komennoista

    Päivitä puhekomennot

    Ota kuuntelutila käyttöön

    Kytke kuuntelutila pois päältä

    Tiivistä mikrofoni

    Minimoi puheentunnistus

    Katso Windowsin Ohje ja tuki

    Miten teen jotain?
    Esimerkki:Kuinka asennan tulostimen?

    Jos et tiedä, miten lause äännetään, suosittelen käyttämään Google-kääntäjää tai http://uchilochka.rf (hän ​​ymmärsi tämän sivuston paremmin)

    Minulla oli halu kirjoittaa muistiin käskyni, jotka koostuivat yksinkertaisista porvarillisista sanoista. Joka voin lausua. Joten hän ei antanut minun tehdä tätä, hän ei voinut käynnistää komentoeditoria. Tuloksena hän ymmärsi täydellisesti ääntämiseni sanoille One, Two ja Open. Tällä valitsimella voit käynnistää sovelluksen numeron perusteella aloitusnäytössä. Sano ensin numero ja sitten OPEN. Ei tietenkään paljoa, mutta pidän kokeilua onnistuneena. Ei olisi huono, jos Microsoft ottaisi käyttöön venäjän kielen, joka on hyvä kaukosäätimen korvaaja.

    Windows 7 -käyttöjärjestelmä on varustettu monilla vaihtoehdoilla, jotka tarjoavat yhä enemmän mahdollisuuksia tämän järjestelmän käyttäjille. He pystyivät tuomaan siihen erittäin mielenkiintoisen toiminnon, jota kutsutaan "puheentunnistukseksi". Mutta mikä tämä järjestelmä on? Tästä keskustelussa tulee olemaan kyse.

    Kyseinen vaihtoehto mahdollistaa sen, että sovellukset koko järjestelmässä voivat käyttää täysin uutta tapaa käyttäjän vuorovaikutukseen tietokoneen kanssa. Se on Windows 7:n puheentunnistusjärjestelmä, jonka avulla voit ohjata tietokonettasi ilman näppäimistöä, hiirtä tai muita keinoja.

    Haluaisin huomauttaa, että tämä innovaatio on saatavilla muissa Microsoftin tuotteissa. Tämä toiminto huomattiin hieman aikaisemmin, eli sitä yritettiin toteuttaa Windows Vistassa, mutta Microsoftin käyttöjärjestelmän seitsemännessä versiossa ääniohjaus suoritetaan edeltäjäänsä korkeammalla tasolla. Yksinkertaisesti sanottuna Windows 7:n puheentunnistuksen kaltaisesta vaihtoehdosta on tullut entistä toimivampi.

    Kaiken sanotun lisäksi haluan huomauttaa, että sillä on melko laaja valikoima sovelluksia. Puheentunnistuksella varustetun Windows 7:n käyttäjät voivat ajaa ohjelmia ja muuntaa kaikki äänifragmentit tekstiksi, suorittaa kaikenlaisia ​​komentoja tietokoneella käyttämällä vain ääntään ja tarvittavia laitteita. Mutta mitä Windows 7:n puheentunnistuksen tekeminen todeksi vaatii?

    Ensinnäkin tarvitset mikrofonin, joka tulee liittää tietokoneeseen. Lisäksi sinun on ostettava erityinen sovellus tai ohjelma, jonka valmistaja on itse julkaissut, eli Microsoft. Kun kaikki tarvittavat komponentit on asennettu ja mikrofoni on kytketty tietokoneeseen, tulee toteuttaa erityinen työsuunnitelma:

    • Sinun on suoritettava testiäänikomennot ja muutettava ne tekstiksi.
    • Kun olet kouluttanut tunnistusohjelman, sinun on luotava malleja eri äänikomentoille. Tämän työn perusteella tietokone pystyy hyväksymään ja suorittamaan kaikki määrittämäsi komennot.

    Windows 7:n puheentunnistustoimintoa käytetään Microsoftin tekstieditorissa WordPadissa. Se toimii moitteettomasti eri lomakkeita täytettäessä ja toimii hyvin myös Internet Explorerissa työskennellessä ja milloin

    Lisäksi tämä vaihtoehto voi helposti muokata aiemmin tallennettua tekstiä määrittämällä erityisiä äänikomentoja. Tietenkin tietyn tehtävän tunnistamisen yhteydessä tapahtuu tyypillisiä virheitä (kun jotkut äänet tunnistetaan virheellisesti). Tässä tapauksessa ohjelma tarjoaa luettelon tiettyjen sanojen vastaavuuksista.

    Toiminto on tietysti ilmiömäinen, mutta tässä on silti yksi "mutta". Asia on siinä, että venäjän puheentunnistus on nyt periaatteessa saavuttamaton. Ohjelmasta on erinomaisia ​​versioita englanniksi, ranskaksi, saksaksi ja japaniksi. On myös versioita kiinan, espanjan ja italian puheille.

    Mutta tämä uusi tuote ei ole täysin mukautettu venäjän puheeseen. Tietokoneesi ei pysty havaitsemaan sille osoitettuja tehtäviä, mikä tarkoittaa, että sinun on helpompi kirjoittaa jotain näppäimistöllä tai suorittaa tiettyjä tehtäviä hiirellä.

    Tietysti voit yrittää työskennellä vastaavien venäjänkielisten ohjelmien kanssa tai valita englannin kielen, mutta voit silti toivoa, että pian venäjänkielinen puheentunnistus on saatavilla myös korkealaatuisessa tilassa. Ja silloin voit kokeilla tällaista ainutlaatuista ominaisuutta käytännössä. Loppujen lopuksi se epäilemättä yksinkertaistaa selvästi työskentelyä henkilökohtaisella tietokoneella ja on valtava läpimurto ohjelmoinnin alalla. Ei siis muuta kuin odotella.

    Mikään ohjelma ei voi täysin korvata tallennetun puheen käsinkirjoitusta. On kuitenkin olemassa ratkaisuja, jotka voivat merkittävästi nopeuttaa ja helpottaa puheen kääntämistä tekstiksi eli yksinkertaistaa transkriptiota.

    Transkriptio on ääni- tai videotiedoston tallentaminen tekstimuodossa. Internetissä on maksullisia tehtäviä, jolloin esiintyjälle maksetaan tietty summa rahaa tekstin litteroinnista.

    Puheesta tekstiksi kääntäminen on hyödyllistä

    • opiskelijat kääntävät tallennettuja ääni- tai videoluentoja tekstiksi,
    • bloggaajat, jotka pitävät verkkosivustoja ja blogeja,
    • kirjailijat, toimittajat kirjojen ja tekstien kirjoittamiseen,
    • tietoliikemiehet, jotka tarvitsevat tekstiä webinaarin, puheen jne. jälkeen,
    • ihmiset, joilla on kirjoitusvaikeuksia - he voivat sanella kirjeen ja lähettää sen perheelle tai ystäville,
    • muita vaihtoehtoja.

    Kerromme tehokkaimmista tietokoneista, mobiilisovelluksista ja verkkopalveluista saatavilla olevista työkaluista.

    1 Verkkosivusto voicepad.ru

    Tämä on online-palvelu, jonka avulla voit kääntää puheen tekstiksi Google Chrome -selaimella. Palvelu toimii mikrofonilla ja valmiilla tiedostoilla. Tietysti laatu on paljon korkeampi, jos käytät ulkoista mikrofonia ja sanelet itse. Palvelu toimii kuitenkin hyvin myös YouTube-videoiden kanssa.

    Napsauta "Ota tallennus käyttöön", vastaa kysymykseen "Mikrofonin käyttäminen" - napsauta "Salli".

    Pitkät ohjeet palvelun käytöstä voidaan tiivistää klikkaamalla painiketta 1 kuvassa. 3. Voit päästä eroon mainonnasta suorittamalla yksinkertaisen rekisteröinnin.

    Riisi. 3. Speechpad-palvelu

    Lopputulos on helppo muokata. Tätä varten sinun on joko korjattava korostettu sana manuaalisesti tai sanettava se uudelleen. Työn tulokset tallennetaan henkilökohtaiselle tilillesi, ne voidaan myös ladata tietokoneellesi.

    Luettelo videooppitunteja puhelevyn kanssa työskentelystä:

    Voit litteroida videoita Youtubesta tai tietokoneeltasi, mutta tarvitset mikserin, lisätietoja:

    Video "äänitranskriptio"

    Palvelu toimii seitsemällä kielellä. Siinä on pieni miinus. Se johtuu siitä, että jos sinun on litteroitava valmis äänitiedosto, sen ääni kuuluu kaiuttimien kautta, mikä luo lisähäiriöitä kaiun muodossa.

    2 Palvelun sanelu.io

    Upea verkkopalvelu, jonka avulla voit kääntää puheen tekstiksi ilmaiseksi ja helposti.

    Riisi. 4. Palvelun sanelu.io

    1 kuvassa. 4 – Venäjän kieli voidaan valita sivun lopusta. Google Chrome -selaimessa kieli on valittu, mutta jostain syystä Mozillassa tällaista vaihtoehtoa ei ole.

    On huomionarvoista, että valmiin tuloksen automaattinen tallennus on otettu käyttöön. Tämä estää tahattoman poistamisen välilehden tai selaimen sulkemisen seurauksena. Tämä palvelu ei tunnista valmiita tiedostoja. Toimii mikrofonin kanssa. Sinun on nimettävä välimerkit saneleessasi.

    Teksti tunnistetaan melko oikein, kirjoitusvirheitä ei ole. Voit lisätä välimerkkejä itse näppäimistöltä. Valmis tulos voidaan tallentaa tietokoneellesi.

    3 RealSpeaker

    Tämän ohjelman avulla voit helposti kääntää ihmisen puheen tekstiksi. Se on suunniteltu toimimaan eri järjestelmissä: Windows, Android, Linux, Mac. Sen avulla voit muuntaa kuullun puheen mikrofoniksi (se voidaan esimerkiksi rakentaa kannettavaan tietokoneeseen) sekä äänittää äänitiedostoiksi.

    Ymmärtää 13 maailman kieltä. Ohjelmasta on beta-versio, joka toimii verkkopalveluna:

    Sinun tulee seurata yllä olevaa linkkiä, valita venäjän kieli, ladata ääni- tai videotiedostosi online-palveluun ja maksaa sen transkriptio. Transkription jälkeen voit kopioida tuloksena olevan tekstin. Mitä suurempi tiedosto transkriptiota varten, sitä enemmän aikaa sen käsittely vie, lisätietoja:

    Vuonna 2017 oli ilmainen transkriptiovaihtoehto RealSpeakerilla, mutta vuonna 2018 sitä ei ole. On hyvin hämmentävää, että litteroitu tiedosto on kaikkien käyttäjien ladattavissa; ehkä tätä parannetaan.

    Ohjelman kehittäjän yhteystiedot (VKontakte, Facebook, Youtube, Twitter, sähköposti, puhelin) löytyvät hänen verkkosivustonsa sivulta (tarkemmin, sivuston alatunnisteessa):

    4 Puheloggeri

    Vaihtoehto aiemmalle sovellukselle Android-käyttöjärjestelmää käyttäville mobiililaitteille. Saatavilla ilmaiseksi sovelluskaupasta:

    Tekstiä muokataan automaattisesti ja välimerkit lisätään. Erittäin kätevä sanella itsellesi muistiinpanoja tai tehdä listoja. Tämän seurauksena tekstistä tulee erittäin laadukasta.

    5 Lohikäärmeen sanelu

    Tämä on Applen mobiililaitteille ilmainen sovellus.

    Ohjelma voi toimia 15 kielellä. Sen avulla voit muokata tulosta ja valita haluamasi sanat luettelosta. Sinun on lausuttava kaikki äänet selvästi, älä pidä tarpeettomia taukoja ja vältä intonaatiota. Joskus sanojen lopuissa on virheitä.

    Dragon Dictation -sovellusta käyttävät omistajat esimerkiksi sanelemaan ostoslistaa kaupassa asunnossa liikkuessaan. Kun pääsen sinne, voin katsoa muistiinpanon tekstiä, eikä minun tarvitse kuunnella.

    Mitä tahansa ohjelmaa käytät harjoituksissasi, ole valmis tarkistamaan tulokset ja tekemään tiettyjä säätöjä. Tämä on ainoa tapa saada virheetön teksti ilman virheitä.

    Myös hyödyllisiä palveluita:

    Saat viimeisimmät tietokonelukutaitoartikkelit suoraan postilaatikkoosi.
    Jo enemmän 3000 tilaajaa

    .