• მეტყველების ამოცნობის პრობლემა ჯერ არ მოგვარებულა. მეტყველების ავტომატური ამოცნობის ჩართვა და გამორთვა Windows 7-ის მეტყველების ამოცნობის დაყენება

    Windows Vista არის პირველი ოპერაციული სისტემა Microsoft-ისგან, რომელსაც აქვს ჩაშენებული მეტყველების ამოცნობა. ამ ფუნქციის გამოყენებით, თქვენ შეგიძლიათ შეასრულოთ სხვადასხვა ამოცანები თქვენი ხმით, როგორიცაა პროგრამების გაშვება, ფაილების დახურვა, შენახვა და წაშლა, ტექსტის კარნახი, რომელიც სიტყვასიტყვით უნდა ჩაიწეროს და მისი რედაქტირება. Deb Shinder, IT კონსულტანტი, გაგაცნობთ დეტალებს, თუ როგორ გამოიყენოთ ეს ფუნქცია.

    Star Trek ფილმის გამოსვლიდან მოყოლებული, კომპიუტერის ბევრი მომხმარებელი ოცნებობდა კლავიატურების, მაუსების გადაყრაზე და კომპიუტერის ხმით გაკონტროლებაზე. პროგრამები, რომლებიც საშუალებას გაძლევთ გეთქვათ სხვადასხვა ბრძანებები, უკარნახოთ ტექსტი კომპიუტერს - შექმნილია მრავალი წლის განმავლობაში და ძალიან სასარგებლო იყო მათთვის, ვისაც ფიზიკურად არ შეეძლო შეყვანის სხვა მეთოდების გამოყენება. მაგრამ რატომღაც ეს პროგრამები არ იყო პოპულარული.

    Windows Vista არის პირველი ოპერაციული სისტემა Microsoft-ისგან, რომელსაც შეუძლია მეტყველების ამოცნობა. ადრე, მეტყველების ამოცნობის ფუნქცია წარმოდგენილი იყო Microsoft Office XP-სა და Office 2003-ში და ასევე შესაძლებელი იყო სხვა დეველოპერების პროგრამების გამოყენება, როგორიცაა Dragon NaturallySpeaking. Microsoft-მა ასევე დაამატა Windows Mobile-ს მეტყველების ამოცნობა.

    თქვენ არ გჭირდებათ ზედმეტი რამის ყიდვა კომპიუტერთან საუბრის დასაწყებად, Vista-ს უკვე აქვს ეს ყველაფერი. ნაგულისხმევად, ფუნქცია გამორთულია, მაგრამ თქვენ შეგიძლიათ მარტივად ჩართოთ იგი საკონტროლო პანელში, როგორც ეს ნაჩვენებია სურათზე A.

    თქვენ ასევე შეგიძლიათ გაუშვათ ეს ფუნქცია მენიუდან ყველა პროგრამის არჩევით სტანდარტული | ხელმისაწვდომობა (ყველა პროგრამა | აქსესუარები | წვდომის გამარტივება), როგორც ნაჩვენებია სურათზე B.

    Როგორ მუშაობს

    თქვენ შეგიძლიათ აირჩიოთ მეტყველების ამოცნობის ორი რეჟიმიდან ერთი:

    • პროგრამების სამართავად: გაუშვით და დახურეთ პროგრამები, გადაერთეთ მათ შორის, შეინახეთ და წაშალეთ ფაილები და ა.შ.
    • ტექსტის კარნახი, რომელიც ჩაიწერება სიტყვასიტყვით, ასევე მისი რედაქტირება.

    პროგრამული უზრუნველყოფის შემქმნელებს შეუძლიათ ამ ფუნქციის მხარდაჭერა თავიანთ პროგრამებში დაამატონ. შემაშფოთებელია, რომ მეტყველების ამოცნობა ამჟამად მხარს უჭერს მხოლოდ რამდენიმე ენას: ინგლისური (აშშ და დიდი ბრიტანეთი), გერმანული, ფრანგული, ესპანური, იაპონური და ჩინური (ტრადიციული და გამარტივებული).

    მეტყველების ამოცნობის დაყენება

    სანამ მეტყველების ამოცნობას გამოიყენებთ, შემდეგი ნაბიჯების შესრულება მოგიწევთ:

    • ჩართეთ მეტყველების ამოცნობა.
    • მიკროფონის დაყენება.
    • წაიკითხეთ სახელმძღვანელო (სურვილისამებრ).
    • ივარჯიშეთ მკაფიოდ, ისაუბრეთ (ასევე არ არის აუცილებელი).

    საკონტროლო პანელში Speech Recognition-ზე ორჯერ დაწკაპუნების ან მენიუდან Speech Recognition-ის არჩევის შემდეგ, თქვენ წარმოგიდგენთ დაყენების ფანჯარას, როგორც ნაჩვენებია სურათზე C.


    როდესაც დააწკაპუნებთ მეტყველების ამოცნობის დაწყებაზე, ხმოვანი მართვის პანელი გამოჩნდება თქვენი ეკრანის ზედა ნაწილში, როგორც ნაჩვენებია სურათზე D.


    თუ თქვენ უკვე გაქვთ ეს ფუნქცია კონფიგურირებული, მაშინ სოკეტი დარეგისტრირდება ავტოსტარტში და დაიწყება ყოველ ჯერზე Windows-ის ჩატვირთვისას. ცისფერი ხმის მართვის ხატულა ასევე გამოჩნდება უჯრაში.
    თქვენ შეგიძლიათ დარეკოთ კონტექსტური მენიუ პარამეტრებისთვის მარჯვენა ღილაკით უჯრის ხატულაზე ან ხმის მართვის პანელზე, როგორც ეს ნაჩვენებია სურათზე E.


    მენიუში ნახავთ შემდეგ პარამეტრებს:

    • მეტყველების ჩართვა:კომპიუტერი მოუსმენს ყველაფერს, რასაც თქვენ ამბობთ და შეასრულებს მის მიერ ამოცნობილ ბრძანებებს.
    • ლოდინის რეჟიმი (ძილი):კომპიუტერი მიჰყვება თქვენს მეტყველებას, მაგრამ არ უპასუხებს არცერთ ბრძანებას, სანამ არ იტყვით "დაიწყე მოსმენა".
    • გამორთულია:კომპიუტერი არ გისმენს, რაც არ უნდა უთხრა.
    • გახსენით მეტყველების საცნობარო ბარათი:მოსახერხებელი მოტყუების ფურცელი ძირითადი ბრძანებებით და დამატებითი ინფორმაციით.
    • მეტყველების გაკვეთილის დაწყება:ვიდეო გაკვეთილი სადაც გეტყვიან და გაჩვენებთ ყველაფერს.
    • დახმარება:ხსნის დახმარების ფაილს ამ ფუნქციის შესახებ.
    • Პარამეტრები:აქ შეგიძლიათ დააყენოთ პროგრამა Windows-ით ჩატვირთვისთვის, ტექსტის ავტომატური კორექტირება და ა.შ.
    • კონფიგურაცია:აქ შეგიძლიათ დააყენოთ თქვენი მიკროფონი, გააუმჯობესოთ მეტყველების ამოცნობა და გახსნათ მართვის პანელი.
    • გახსენით მეტყველების ლექსიკონი:შეგიძლიათ დაამატოთ ახალი სიტყვები (ძალიან სასარგებლოა სახელებისა და სიტყვებისთვის, რომელთა ამოცნობა რთულია), ასევე შეგიძლიათ გამორიცხოთ სიტყვები, რომლებსაც არასოდეს ამბობთ.
    • კარნახის თემა:აქ მხოლოდ ნარატივის არჩევა შეიძლება.
    • ეწვიეთ საიტს (გადადით სიტყვის ამოცნობის ვებსაიტზე).
    • მიიღეთ ინფორმაცია მეტყველების ამოცნობის შესახებ:ეს არის ჩვენთვის ნაცნობი Windows დიალოგური ფანჯარა, რომელშიც წერია პროგრამის ვერსია, ლიცენზიის ნომერი და სახელი.
    • გახსენით მეტყველების ამოცნობა.
    • გასვლა:მთლიანად ხურავს პროგრამას.
    • თარგმანი

    მას შემდეგ, რაც ღრმა სწავლება შევიდა მეტყველების ამოცნობის სცენაზე, სიტყვების ამოცნობაში შეცდომების რაოდენობა მკვეთრად შემცირდა. მაგრამ მიუხედავად ყველა სტატიისა, რომელიც შესაძლოა წაიკითხოთ, ჩვენ ჯერ კიდევ არ გვაქვს ადამიანის დონეზე მეტყველების ამოცნობა. მეტყველების ამომცნობებს ბევრი მარცხის რეჟიმი აქვთ. მათი შემდგომი გასაუმჯობესებლად, თქვენ უნდა ამოიცნოთ და სცადოთ მათი აღმოფხვრა. ეს არის ერთადერთი გზა გადასასვლელად იმ აღიარებიდან, რომელიც უმეტესად მუშაობს ზოგიერთ ადამიანში, აღიარებამდე, რომელიც ყოველთვის მუშაობს ყველა ადამიანისთვის.

    არასწორად ამოცნობილი სიტყვების რაოდენობის გაუმჯობესება. სატელეფონო ხმოვანი აკრიფეთ 2000 წელს აწყობილი იქნა 40 შემთხვევითი საუბრის შედეგად ორი ადამიანი, რომელთა მშობლიური ენა ინგლისურია.

    იმის თქმა, რომ ჩვენ მივაღწიეთ ადამიანის დონეს საუბრისას მეტყველების ამოცნობაში, მხოლოდ სატელეფონო განყოფილებიდან მიღებული საუბრების ერთობლიობაზე დაყრდნობით, იგივეა, რომ რობოტი მანქანა მართავს ისევე, როგორც ადამიანი, რომელმაც გამოსცადა იგი ერთ ქალაქში. მზიან დღეს ყოველგვარი მოძრაობის გარეშე. ბოლოდროინდელი ცვლილებები მეტყველების ამოცნობაში გასაოცარია. მაგრამ პრეტენზიები ადამიანის დონეზე მეტყველების ამოცნობის შესახებ ძალიან თამამია. აქ არის რამდენიმე სფერო, სადაც გაუმჯობესება ჯერ კიდევ საჭიროა.

    აქცენტები და ხმაური

    მეტყველების ამოცნობის ერთ-ერთი აშკარა მინუსი არის დამუშავება აქცენტებიდა ფონური ხმაური. ამის მთავარი მიზეზი ის არის, რომ ტრენინგის მონაცემების უმეტესობა შედგება ამერიკული დიალექტებისგან, სიგნალი-ხმაურის მაღალი თანაფარდობით. მაგალითად, სატელეფონო კომუტატორიდან საუბრების ერთობლიობაში არის მხოლოდ იმ ადამიანების საუბრები, რომელთა მშობლიური ენა ინგლისურია (ძირითადად ამერიკელები) მცირე ფონური ხმაურით.

    მაგრამ ტრენინგის მონაცემების გაზრდა თავისთავად, სავარაუდოდ, ამ პრობლემას ვერ გადაჭრის. არსებობს მრავალი ენა, რომელიც შეიცავს ბევრ დიალექტს და აქცენტს. არარეალურია ეტიკეტირებული მონაცემების შეგროვება ყველა შემთხვევისთვის. ამერიკული ინგლისურისთვის მაღალი ხარისხის მეტყველების ამომცნობის შესაქმნელად საჭიროა მხოლოდ 5000 საათამდე აუდიო ტექსტში ტრანსკრიბირება.


    მეტყველების ტექსტის მქონე ადამიანების შედარება Baidu's Deep Speech 2 მეტყველების სხვადასხვა ტიპებზე. ადამიანები უარესად ცნობენ არაამერიკულ აქცენტებს, ალბათ მათ შორის ამერიკელების სიმრავლის გამო. მე ვფიქრობ, რომ ადამიანები, რომლებიც გაიზარდნენ კონკრეტულ რეგიონში, გაცილებით ნაკლები შეცდომით გაუმკლავდნენ ამ რეგიონის აქცენტის ამოცნობას.

    მოძრავ მანქანაში ფონური ხმაურის არსებობისას, სიგნალი-ხმაურის თანაფარდობა შეიძლება იყოს -5 დბ-მდე. ადამიანები ადვილად უმკლავდებიან სხვა ადამიანის მეტყველების ამოცნობას ასეთ პირობებში. ავტომატური ამომცნობი უფრო სწრაფად იშლება ხმაურის მატებასთან ერთად. გრაფიკი გვიჩვენებს, თუ რამდენად იზრდება ადამიანების განცალკევება ხმაურის მატებასთან ერთად (დაბალი SNR, სიგნალი-ხმაურის თანაფარდობა)

    სემანტიკური შეცდომები

    ხშირად შეცდომით აღიარებული სიტყვების რაოდენობა არ არის თვითმიზანი მეტყველების ამოცნობის სისტემისთვის. ჩვენ მიზნად ისახავს სემანტიკური შეცდომების რაოდენობას. ეს არის გამონათქვამების პროპორცია, რომელშიც არასწორად ვაღიარებთ მნიშვნელობას.

    სემანტიკური შეცდომის მაგალითია, როდესაც ვინმე ამბობს "მოდით შევხვდეთ სამშაბათს" [მოდით შევხვდეთ სამშაბათს] და ამომცნობი უბრუნდება "მოდით დღეს შევხვდეთ" [მოდით შევხვდეთ დღეს]. ასევე არის შეცდომები სიტყვებში სემანტიკური შეცდომების გარეშე. თუ გადამწყვეტმა არ ამოიცნო "up" და დაბრუნდა "მოდი შევხვდეთ სამშაბათს", წინადადების სემანტიკა არ შეცვლილა.

    ჩვენ ფრთხილად უნდა გამოვიყენოთ არასწორად განსაზღვრული სიტყვების რაოდენობა, როგორც საზომი. ამის საილუსტრაციოდ, მე მოგიყვანთ უარეს შემთხვევის მაგალითს. სიტყვების შეცდომების 5% შეესაბამება 20-დან ერთ გამოტოვებულ სიტყვას. თუ თითოეულ წინადადებაში 20 სიტყვაა (რაც საკმაოდ საშუალოა ინგლისურისთვის), მაშინ არასწორად აღიარებული წინადადებების რაოდენობა უახლოვდება 100%-ს. შეიძლება ვიმედოვნებთ, რომ არასწორად აღიარებული სიტყვები არ ცვლის წინადადებების სემანტიკურ მნიშვნელობას. წინააღმდეგ შემთხვევაში, ამომცნობმა შეიძლება არასწორად მოახდინოს თითოეული წინადადების ინტერპრეტაცია 5% არასწორად აღიარებული სიტყვებითაც კი.

    მოდელების ადამიანებთან შედარებისას მნიშვნელოვანია შეცდომების არსის შემოწმება და არა მხოლოდ არასწორად აღიარებული სიტყვების რაოდენობის მონიტორინგი. ჩემი გამოცდილებიდან გამომდინარე, მეტყველება ტექსტში ადამიანები ნაკლებ შეცდომებს უშვებენ და ისინი ისეთი სერიოზული არ არიან, როგორც კომპიუტერები.

    Microsoft-ის მკვლევარებმა ცოტა ხნის წინ შეადარეს მსგავსი დონის ადამიანის და კომპიუტერის ამომცნობი შეცდომები. აღმოჩენილი ერთ-ერთი განსხვავება ისაა, რომ მოდელი უფრო ხშირად აბნევს "უჰ" [უჰ...] "უჰ ჰა" [დიახ] უფრო ხშირად, ვიდრე ხალხი. ორ ტერმინს აქვს ძალიან განსხვავებული სემანტიკა: "უჰ" ავსებს ხარვეზებს, ხოლო "უჰ ჰა" აღნიშნავს მსმენელის აღიარებას. ასევე, მოდელებმა და ადამიანებმა იპოვეს შესატყვისი ტიპების მრავალი შეცდომა.

    ბევრი ხმა ერთ არხზე

    ჩაწერილი სატელეფონო საუბრების ამოცნობა ასევე ადვილია, რადგან თითოეული დინამიკი ჩაწერილი იყო ცალკე მიკროფონზე. არ არის რამდენიმე ხმის გადახურვა ერთ აუდიო არხში. ხალხს შეუძლია გაიგოს რამდენიმე სპიკერი, ზოგჯერ ლაპარაკობს ერთდროულად.

    მეტყველების კარგ ამომცნობს უნდა შეეძლოს აუდიო ნაკადის სეგმენტებად დაყოფა მოსაუბრეზე დამოკიდებულებით (დააქვეითებს მას დიარიზაციით). მან ასევე უნდა ამოიღოს მნიშვნელობა აუდიოჩანაწერიდან ორი გადახურული ხმით (წყაროების გამიჯვნა). ეს უნდა გაკეთდეს მიკროფონის გარეშე, რომელიც მდებარეობს პირდაპირ თითოეული დინამიკის პირთან, ანუ ისე, რომ ამომცნობი კარგად მუშაობდეს თვითნებურ ადგილას მოთავსებისას.

    ჩაწერის ხარისხი

    აქცენტები და ფონის ხმაური მხოლოდ ორი ფაქტორია, რომლის წინააღმდეგაც მეტყველების ამომცნობი უნდა იყოს ძლიერი. აქ არის კიდევ რამდენიმე:

    რევერბერაცია სხვადასხვა აკუსტიკური პირობებში.
    აღჭურვილობასთან დაკავშირებული არტეფაქტები.
    კოდეკის არტეფაქტები, რომლებიც გამოიყენება სიგნალის ჩასაწერად და შეკუმშვისთვის.
    შერჩევის სიხშირე.
    სპიკერის ასაკი.

    ადამიანების უმეტესობას არ შეუძლია განსხვავება mp3 და wav ფაილებს შორის. ამომცნობები უნდა იყვნენ მტკიცენი ვარიაციის ამ წყაროების მიმართ, სანამ განაცხადებენ ადამიანის მსგავს შესრულებას.

    კონტექსტი

    ჩანს, რომ სატელეფონო სადგურიდან ჩანაწერებში ადამიანების ტესტებზე შეცდომების რაოდენობა საკმაოდ მაღალია. მეგობარს რომ ესაუბრებოდეთ, რომელსაც 20-დან 1 სიტყვა არ ესმოდა, ძალიან გაგიჭირდებათ კომუნიკაცია.

    ამის ერთ-ერთი მიზეზი კონტექსტის გარეშე აღიარებაა. რეალურ ცხოვრებაში ჩვენ ვიყენებთ ბევრ განსხვავებულ დამატებით ნიშანს, რათა დაგვეხმაროს გავიგოთ, რას ამბობს სხვა ადამიანი. კონტექსტის რამდენიმე მაგალითი, რომელიც გამოიყენება ადამიანების მიერ და იგნორირებულია მეტყველების ამომცნობების მიერ:

    საუბრის ისტორია და განსახილველი თემა.
    ვიზუალური მინიშნებები მოსაუბრეზე - სახის გამომეტყველება, ტუჩის მოძრაობა.
    ცოდნის მთლიანობა იმ ადამიანის შესახებ, ვისთანაც ვესაუბრებით.

    Android-ის მეტყველების ამომცნობს ახლა აქვს თქვენი კონტაქტების სია, ასე რომ მას შეუძლია თქვენი მეგობრების სახელების ამოცნობა. ხმოვანი ძიება რუკებზე იყენებს გეოლოკაციას იმ ვარიანტების შესამცირებლად, რომლებზეც გსურთ მიმართულებების მიღება.

    ამოცნობის სისტემების სიზუსტე იზრდება ასეთი სიგნალების მონაცემებში ჩართვით. მაგრამ ჩვენ მხოლოდ ახლა ვიწყებთ ჩაღრმავებას იმ ტიპის კონტექსტში, რომელიც შეიძლება ჩავრთოთ დამუშავებაში და როგორ გამოვიყენოთ იგი.

    განლაგება

    სალაპარაკო ენის ამოცნობის უახლესი მიღწევების გამოყენება შეუძლებელია. როდესაც წარმოიდგენთ მეტყველების ამოცნობის ალგორითმის გამოყენებას, თქვენ უნდა გაითვალისწინოთ შეყოვნება და დამუშავების ძალა. ეს პარამეტრები დაკავშირებულია, რადგან ალგორითმები, რომლებიც ზრდის ენერგიის მოთხოვნებს, ასევე ზრდის შეყოვნებას. მაგრამ სიმარტივისთვის, მათ ცალკე განვიხილავთ.

    ლატენტურობა: დრო მომხმარებლის საუბრის დასრულებიდან ტრანსკრიპტის მიღების დასრულებამდე. მცირე შეფერხება არის ტიპიური მოთხოვნა აღიარებისთვის. ეს დიდად აისახება მომხმარებლის პროდუქტთან მუშაობის გამოცდილებაზე. ხშირად არსებობს ათობით მილიწამის ზღვარი. ეს შეიძლება ძალიან მკაცრი ჩანდეს, მაგრამ გახსოვდეთ, რომ ტრანსკრიპტის გაცემა ჩვეულებრივ პირველი ნაბიჯია რთული გამოთვლების სერიიდან. მაგალითად, ხმოვანი ინტერნეტის ძიების შემთხვევაში, მეტყველების ამოცნობის შემდეგ, თქვენ ჯერ კიდევ გჭირდებათ დრო, რომ დაასრულოთ ძებნა.

    ორმხრივი განმეორებადი ფენები გაუმჯობესების ტიპიური მაგალითია, რომელიც აუარესებს ლატენტურ მდგომარეობას. მათი დახმარებით მიიღება ყველა უახლესი მაღალი ხარისხის ტრანსკრიპტის შედეგი. ერთადერთი პრობლემა ისაა, რომ ჩვენ ვერაფერს დავთვალთ პირველ ორმხრივ ფენას, სანამ ადამიანი არ დაასრულებს საუბარს. ამიტომ, დაყოვნება იზრდება სასჯელის ხანგრძლივობასთან ერთად.


    მარცხნივ: პირდაპირი განმეორება საშუალებას იძლევა დაუყოვნებლივ დაიწყოს გაშიფვრა. მარჯვენა: ორმხრივი განმეორება მოითხოვს, რომ დაელოდოთ სიტყვის დასრულებას ტრანსკრიფციის დაწყებამდე.

    კარგი გზა სამომავლო ინფორმაციის ეფექტურად ჩართვისთვის მეტყველების ამოცნობაში ჯერ კიდევ მიმდინარეობს.

    გამოთვლითი სიმძლავრე: ამ პარამეტრზე გავლენას ახდენს ეკონომიკური შეზღუდვები. თქვენ უნდა გაითვალისწინოთ ბანკეტის ღირებულება ამომცნობის სიზუსტის თითოეული გაუმჯობესებისთვის. თუ გაუმჯობესება ვერ მიაღწევს ეკონომიკურ ზღვარს, ის ვერ შეძლებს მის განთავსებას.

    უწყვეტი გაუმჯობესების კლასიკური მაგალითი, რომელიც არასოდეს გამოიყენება, არის თანამშრომლობითი ღრმა სწავლება. შეცდომების 1-2%-ით შემცირება იშვიათად ამართლებს გამოთვლითი სიმძლავრის 2-8-ჯერ გაზრდას. განმეორებადი ქსელების თანამედროვე მოდელები ასევე მიეკუთვნება ამ კატეგორიას, რადგან მათი გამოყენება ძალზე წამგებიანია მრავალი ტრაექტორიის ძიებაში, თუმცა ვფიქრობ, მომავალში სიტუაცია შეიცვლება.

    მინდა განვმარტო - მე არ ვამბობ, რომ ამოცნობის სიზუსტის გაუმჯობესება გამოთვლითი ხარჯების სერიოზული ზრდით უსარგებლოა. ჩვენ უკვე ვნახეთ, როგორ მუშაობს წარსულში პრინციპი „ჯერ ნელა, მაგრამ ზუსტად და შემდეგ სწრაფად“. საქმე იმაშია, რომ სანამ გაუმჯობესება არ არის საკმარისად სწრაფი, მისი გამოყენება შეუძლებელია.

    მომდევნო ხუთ წელიწადში

    მეტყველების ამოცნობის სფეროში ჯერ კიდევ ბევრი გადაუჭრელი და რთული პრობლემაა. Მათ შორის:

    მონაცემთა შენახვის ახალი სისტემების შესაძლებლობების გაფართოება, აქცენტების ამოცნობა, მეტყველება ძლიერი ხმაურის ფონზე.
    კონტექსტის ჩართვა აღიარების პროცესში.
    დიარიზაცია და წყაროების გამიჯვნა.
    სემანტიკური შეცდომების რაოდენობა და ამომცნობიების შეფასების ინოვაციური მეთოდები.
    ძალიან მცირე შეფერხება.

    მოუთმენლად ველი პროგრესს, რომელიც იქნება მომდევნო ხუთი წლის განმავლობაში ამ და სხვა ფრონტებზე.

    ტეგები: ტეგების დამატება

    სენსორული ეკრანის კონტროლი უკვე სტანდარტულია. უახლესი სისტემები, როგორიცაა Windows 8 „ესმის“ ხმოვანი ბრძანებები. მეტყველების ამოცნობამ უნდა გახადოს ჩვენი კომუნიკაცია კომპიუტერთან კიდევ უფრო მარტივი, ინტუიციური და... უფრო ბუნებრივი. მე გეტყვით როგორ გამოიყურება დღეს.

    ცოტა ისტორია - როგორ განვითარდა კომუნიკაცია მანქანასთან

    კომპიუტერთან კომუნიკაციის გზები წლების განმავლობაში განვითარდა. პირველი ინტერფეისი, რომლის მეშვეობითაც ადამიანს შეეძლო ბრძანებების გაცემა იყო პუნჩირებული ბარათები, რომელიც თარიღდება 1832 წლით. მათ იყენებდნენ მანქანებში ქსოვილის წარმოებისთვის. კლავიატურის გამოყენება 1960 წელს დაიწყო. ორი ათწლეულის შემდეგ, სტანდარტული მაუსი შეუერთდა და დღესაც გამოიყენება. მიუხედავად იმისა, რომ მაუსს აქვს საერთო ენერგია ტრეკიპადთან, ის მაინც კონტროლის ყველაზე პოპულარული ფორმაა. სმარტფონებისა და ტაბლეტების წყალობით ძალიან პოპულარული გახდა სენსორული ინტერფეისი და ჟესტები, რომლებიც გამოიყენება, კერძოდ, Xbox 360 Kinect-ის სამართავად. სენსორული ეკრანებისა და ჟესტების შემდეგ მოდის ხმის კონტროლი, მაგრამ ეს გამოსავალი ჯერჯერობით იმდენად განუვითარებელია, რომ ზოგჯერ ამის შესახებ არ გესმით.

    Windows 8-ში მეტყველების ამოცნობის დაყენება

    სამწუხაროდ, ხმის კონტროლი ჯერ არ არის ხელმისაწვდომი რუსულ ენაზე. ამჟამად მხარდაჭერილია ინგლისური, ფრანგული, გერმანული, იაპონური, კორეული, ჩინური და ესპანური. მაიკროსოფტმა გადაწყვიტა ფოკუსირება უმსხვილეს და განვითარებულ ქვეყნებზე გაეკეთებინა, თუმცა არ არის გამორიცხული, გარკვეული პერიოდის განმავლობაში ეს ფუნქცია ჩვენს ქვეყანასაც დაემატოს. თუ მის გაშვებას ცდილობ, ასე გეფიცება

    თუ ჯერ კიდევ გსურთ ამ გადაწყვეტის ტესტირება, თქვენ უნდა დააყენოთ სისტემა (ენის შეცვლა) და ისწავლოთ რამდენიმე სიტყვა ინგლისურად. ამისათვის თქვენ უნდა გადახვიდეთ მართვის პანელზე და აირჩიოთ პუნქტი ენა. თუ რუსულის გარდა სხვა ენა არ გაქვთ, უნდა დააჭიროთ ღილაკს „ენის დამატება“ და შემდეგ აირჩიოთ მხარდაჭერილი ენებიდან ერთ-ერთი. ჩვენს შემთხვევაში, ეს არის "ინგლისური (შეერთებული შტატები)". ჩვენ ვხედავთ, რომ ამ ენაზე მხოლოდ განლაგება არის ხელმისაწვდომი, ორჯერ დააწკაპუნეთ, შემოწმდება ინტერფეისის ენის ხელმისაწვდომობა, შემოწმების შემდეგ დააწკაპუნეთ "ჩამოტვირთეთ და დააინსტალირეთ ენის პაკეტი" და პროცესი დაიწყება, მოთმინებით დაელოდეთ დატვირთვა. ამ პროცესის დასრულების შემდეგ, დააყენეთ ნაგულისხმევი ენა ინგლისურად

    ახლა თქვენ უნდა გადახვიდეთ Windows 8-ის დაწყების ეკრანზე (კრამიტით), ჩაწერეთ „Windows Speech Recognition“ საძიებო ველში და დააჭირეთ Enter.

    ამრიგად, შეგიძლიათ გაუშვათ ხმის ამოცნობის ინსტრუმენტი. როდესაც პირველად დაიწყებთ, ის მოგთხოვთ მიკროფონის კონფიგურაციას, არჩევის შემდეგ, თქვით რაიმე შესამოწმებლად.

    შემდეგ შესთავაზეთ სასწავლო გაკვეთილების გავლა. ისინი გრძელდება 15-20 წუთამდე, მაგრამ ძალიან სასარგებლოა და იძლევა ძირითად ინფორმაციას ფუნქციების გამოყენების შესახებ. მაგრამ თუ ინგლისურად არ ხარ ძლიერი, ვფიქრობ, არ უნდა დაკარგო დრო, გაგიჭირდება რაიმეს გამოცნობა, პირდაპირ ბრძოლაში წადი

    Როგორ იმუშაო

    იმისათვის, რომ კომპიუტერმა დაიწყოს თქვენი მეტყველების ამოცნობა, უნდა თქვათ „დაიწყე მოსმენა“ (რაც ნიშნავს მოსმენის დაწყებას), ან დააჭირეთ მიკროფონის ღილაკს მოსმენის რეჟიმის დასაწყებად. ახლა თქვენ შეგიძლიათ გახსნათ აპლიკაცია ან უბრალოდ უკარნახოთ სიტყვები ტექსტის რედაქტორში, ბრაუზერში ან საძიებო ზოლში

    რა ვქნათ

    პრინციპში, შესაძლებლობები უზარმაზარია, სტანდარტული სიტყვების გარდა, შეგიძლიათ შექმნათ თქვენი საკუთარი გუნდები. ძირითადი მახასიათებლები ნაჩვენებია ცხრილში

    მოქმედება Რა უნდა ვთქვა
    აირჩიეთ ნებისმიერი ელემენტი მისი სახელით დააჭირეთ ფაილს, დაწყებას, ნახვას
    აირჩიეთ ნებისმიერი ელემენტი ან ხატი დააჭირეთ Recycle Bin-ს, დააწკაპუნეთ კომპიუტერზე, დააწკაპუნეთ (ფაილის სახელი)
    ორჯერ ან ორჯერ დააწკაპუნეთ ნებისმიერ ნივთზე ორჯერ დააწკაპუნეთ Recycle Bin-ზე, ორჯერ დააწკაპუნეთ კომპიუტერზე
    გადართეთ ღია აპლიკაციებს შორის გადაერთეთ Paint-ზე, გადართეთ WordPad-ზე

    გადახვევა

    გადახვევა ზემოთ; გადაფურცლეთ ქვემოთ;
    გადახვევა მარცხნივ; გადახვევა მარჯვნივ

    ჩართეთ ახალი აბზაცი ან ახალი სტრიქონი დოკუმენტში

    ახალი აბზაცი; ახალი ხაზი

    აირჩიეთ სიტყვა დოკუმენტში

    სიტყვების კორექტირება

    სწორი სიტყვა

    აირჩიეთ და წაშალეთ გარკვეული სიტყვები

    აჩვენეთ მოქმედი ბრძანებების სია

    განაახლეთ მეტყველების ბრძანებები

    ჩართეთ მოსმენის რეჟიმი

    მოსმენის რეჟიმის გამორთვა

    მიკროფონის ჩაკეცვა

    შეამცირეთ მეტყველების ამოცნობა

    იხილეთ Windows-ის დახმარება და მხარდაჭერა

    როგორ გავაკეთო რამე?
    მაგალითად: როგორ დავაყენო პრინტერი?

    თუ არ იცით როგორ გამოთქვათ ფრაზა, გირჩევთ გამოიყენოთ Google Translate ან http://tutor.ru (მან ეს საიტი უკეთ გაიგო)

    გამიჩნდა სურვილი ჩამეწერა ჩემი გუნდები, რომლებიც შედგებოდა უბრალო ბურჟუაზიული სიტყვებისგან. რომლის წარმოთქმაც შემიძლია. ასე რომ, მან არ მომცა ამის საშუალება, მან ვერ დაიწყო ბრძანების რედაქტორი. შედეგად, მან შესანიშნავად ესმოდა ჩემი სიტყვების ერთი, ორი და ღია გამოთქმა. ამ ნაკრებით შეგიძლიათ აპლიკაცია გაუშვათ ნომრის მიხედვით მთავარ ეკრანზე. ჯერ თქვით ნომერი, შემდეგ თქვით OPEN. რა თქმა უნდა, ბევრი არა, მაგრამ ექსპერიმენტს წარმატებულად ვთვლი. ცუდი არ იქნება მაიკროსოფტმა რუსული ენაც შემოიღო, დისტანციური მართვის კარგი შემცვლელი.

    Windows 7 ოპერაციული სისტემა აღჭურვილია მრავალი ვარიანტით, რაც უფრო და უფრო მეტ შესაძლებლობას აძლევს ამ სისტემის მომხმარებლებს. მათ შეძლეს მასში ძალიან საინტერესო ფუნქციის დანერგვა, რომელსაც „მეტყველების ამოცნობა“ ჰქვია. მაგრამ რა არის ეს სისტემა? ეს იქნება განხილული.

    მოცემული ვარიანტი საშუალებას აძლევს აპლიკაციებს მთელ სისტემაში გამოიყენონ კომპიუტერთან მომხმარებლის ურთიერთქმედების სრულიად ახალი გზა. ეს არის Windows 7 მეტყველების ამოცნობის სისტემა, რომელიც საშუალებას გაძლევთ მართოთ თქვენი კომპიუტერი კლავიატურის, მაუსის ან სხვა საშუალებების გამოყენების გარეშე.

    მინდა აღვნიშნო, რომ ეს სიახლე ხელმისაწვდომი იქნება Microsoft-ის სხვა პროდუქტებში. ეს ფუნქცია ცოტა ადრე შენიშნეს, ანუ ცდილობდნენ მისი დანერგვა Windows Vista-ში, მაგრამ Microsoft-ის ოპერაციული სისტემის მეშვიდე ვერსიაში ხმის კონტროლი უფრო მაღალ დონეზეა შესრულებული, ვიდრე მისი წინამორბედი. მარტივად რომ ვთქვათ, ისეთი ვარიანტი, როგორიცაა Windows 7 მეტყველების ამოცნობა, კიდევ უფრო ფუნქციონალური გახდა.

    გარდა იმისა, რაც ითქვა, მინდა აღვნიშნო, რომ მას აქვს აპლიკაციების საკმაოდ ფართო სპექტრი. Windows 7-ის მომხმარებლებს მეტყველების ამოცნობით შეუძლიათ გაუშვან პროგრამები და გადაიყვანონ ყველა ხმის ფრაგმენტი ტექსტად, შეასრულონ ყველა სახის ბრძანება კომპიუტერზე, მხოლოდ მათი ხმის და საჭირო მოწყობილობების გამოყენებით. მაგრამ რა არის საჭირო იმისათვის, რომ Windows 7 მეტყველების ამოცნობა რეალობად იქცეს?

    პირველ რიგში, დაგჭირდებათ მიკროფონი, რომელიც უნდა იყოს დაკავშირებული თქვენს კომპიუტერთან. გარდა ამისა, თქვენ უნდა შეიძინოთ სპეციალური აპლიკაცია ან პროგრამა, რომელიც გამოქვეყნებულია თავად მწარმოებლის მიერ, ანუ Microsoft-ის მიერ. მას შემდეგ, რაც ყველა საჭირო კომპონენტი დამონტაჟდება და მიკროფონი კომპიუტერთან არის დაკავშირებული, უნდა განხორციელდეს გარკვეული სამუშაო გეგმა:

    • თქვენ უნდა შეასრულოთ სატესტო ხმოვანი ბრძანებები და გადაიყვანოთ ისინი ტექსტად.
    • ამოცნობის პროგრამის მომზადების შემდეგ, თქვენ უნდა შექმნათ შაბლონები სხვადასხვა ბრძანებებისთვის თქვენი ხმით. სწორედ ამ სამუშაოს საფუძველზე შეძლებს კომპიუტერი მიიღოს და შეასრულოს თქვენ მიერ მითითებული ყველა ბრძანება.

    Windows 7 მეტყველების ამოცნობის ფუნქცია გამოიყენება Microsoft-ის WordPad ტექსტურ რედაქტორში. ის უნაკლოდ მუშაობს სხვადასხვა ფორმის შევსებისას და ასევე კარგად მუშაობს Internet Explorer-ში და როდის

    გარდა ამისა, ეს ვარიანტი ადვილად არედაქტირებს ადრე ჩაწერილ ტექსტს სპეციალური ხმოვანი ბრძანებების განსაზღვრით. რა თქმა უნდა, კონკრეტული ამოცანის ამოცნობის პროცესში ხდება ტიპიური შეცდომები (როდესაც ხდება გარკვეული ბგერების მცდარი ამოცნობა). ამ შემთხვევაში, პროგრამა უზრუნველყოფს გარკვეული სიტყვების შესაბამისობის ჩამონათვალს.

    ფუნქცია, რა თქმა უნდა, ფენომენალურია, მაგრამ მაინც არის ერთი "მაგრამ". საქმე ის არის, რომ რუსული მეტყველების აღიარება ახლა, პრინციპში, მიუწვდომელია. არსებობს პროგრამის შესანიშნავი ვერსიები ინგლისურ, ფრანგულ, გერმანულ და იაპონურ ენაზე. ასევე არსებობს ვერსიები ჩინური, ესპანური და იტალიური მეტყველებისთვის.

    მაგრამ ეს სიახლე არ არის საკმაოდ ადაპტირებული რუსული მეტყველებისთვის. თქვენი კომპიუტერი ვერ აღიქვამს მისთვის დაკისრებულ ამოცანებს, რაც ნიშნავს, რომ გაგიადვილდებათ რაიმეს დაწერა კლავიატურის გამოყენებით ან გარკვეული დავალებების შესრულება მაუსით.

    რა თქმა უნდა, შეგიძლიათ სცადოთ მუშაობა მსგავს რუსულენოვან პროგრამებთან ან უპირატესობა მიანიჭოთ ინგლისურს, მაგრამ მაინც რჩება იმედი, რომ მალე რუსულად მეტყველების ამოცნობა ასევე ხელმისაწვდომი იქნება მაღალი ხარისხის რეჟიმში. და სწორედ მაშინ შეძლებთ პრაქტიკაში სცადოთ ასეთი უნიკალური ფუნქცია. ყოველივე ამის შემდეგ, ეს, ეჭვგარეშეა, აშკარად ამარტივებს მუშაობას პერსონალურ კომპიუტერზე და არის უზარმაზარი გარღვევა პროგრამირების სფეროში. ასე რომ, რჩება მხოლოდ ლოდინი.

    არცერთ პროგრამას არ შეუძლია მთლიანად ჩაანაცვლოს ჩაწერილი მეტყველების გადაწერის ხელით მუშაობა. თუმცა, არსებობს გადაწყვეტილებები, რომლებსაც შეუძლიათ მნიშვნელოვნად დააჩქარონ და ხელი შეუწყონ მეტყველების ტექსტად თარგმნას, ანუ გაამარტივონ ტრანსკრიფცია.

    ტრანსკრიფცია არის აუდიო ან ვიდეო ფაილის ტექსტის სახით ჩაწერა. ინტერნეტში არის ფასიანი დავალებები, როდესაც ტექსტის გადასაწერად შემსრულებელს უხდიან გარკვეულ თანხას.

    მეტყველების ტექსტის თარგმნა სასარგებლოა

    • სტუდენტები თარგმნონ ჩაწერილი აუდიო ან ვიდეო ლექციები ტექსტად,
    • ბლოგერები წამყვანი ვებსაიტები და ბლოგები,
    • მწერლები, ჟურნალისტები წიგნებისა და ტექსტების დასაწერად,
    • საინფორმაციო ბიზნესმენები, რომლებსაც სჭირდებათ ტექსტი ვებინარის, გამოსვლის და ა.შ.
    • ადამიანები, რომლებსაც უჭირთ აკრეფა - მათ შეუძლიათ უკარნახონ წერილი და გაუგზავნონ ნათესავებსა და მეგობრებს,
    • სხვა ვარიანტები.

    ჩვენ აღვწერთ ყველაზე ეფექტურ ინსტრუმენტებს, რომლებიც ხელმისაწვდომია კომპიუტერზე, მობილურ აპლიკაციებსა და ონლაინ სერვისებზე.

    1 საიტი speakpad.ru

    ეს არის ონლაინ სერვისი, რომელიც საშუალებას გაძლევთ თარგმნოთ მეტყველება ტექსტად Google Chrome ბრაუზერის საშუალებით. სერვისი მუშაობს მიკროფონით და მზა ფაილებით. რა თქმა უნდა, ხარისხი გაცილებით მაღალი იქნება, თუ გარე მიკროფონს გამოიყენებთ და საკუთარ თავს კარნახობთ. თუმცა, სერვისი კარგად ასრულებს YouTube ვიდეოებსაც კი.

    დააჭირეთ "ჩაწერის ჩართვას", უპასუხეთ კითხვას "მიკროფონის გამოყენება" - ამისათვის დააჭირეთ "დაშვებას".

    გრძელი ინსტრუქცია სერვისის გამოყენების შესახებ შეიძლება დაიშალოს 1 ღილაკზე დაწკაპუნებით ნახ. 3. რეკლამისგან თავის დაღწევა მარტივი რეგისტრაციის გავლის გზით შეგიძლიათ.

    ბრინჯი. 3. სერვისის ლაპარაკი

    დასრულებული შედეგის რედაქტირება მარტივია. ამისათვის თქვენ ან ხელით უნდა შეასწოროთ მონიშნული სიტყვა ან ხელახლა უკარნახოთ. სამუშაოს შედეგები ინახება თქვენს პირად ანგარიშში, მათი ჩამოტვირთვა ასევე შესაძლებელია თქვენს კომპიუტერში.

    ვიდეო გაკვეთილების სია ლაპარაკის პადთან მუშაობის შესახებ:

    შეგიძლიათ ვიდეოების გადაწერა Youtube-დან ან თქვენი კომპიუტერიდან, თუმცა დაგჭირდებათ მიქსერი, მეტი დეტალი:

    ვიდეო "აუდიო ტრანსკრიფცია"

    სერვისი მუშაობს შვიდ ენაზე. არის პატარა მინუსი. ეს მდგომარეობს იმაში, რომ თუ თქვენ გჭირდებათ დასრულებული აუდიო ფაილის ტრანსკრიფცია, მაშინ მისი ხმა ნაწილდება დინამიკებზე, რაც ქმნის დამატებით ჩარევას ექოს სახით.

    2 სერვისის კარნახი.io

    მშვენიერი ონლაინ სერვისი, რომელიც საშუალებას მოგცემთ თარგმნოთ მეტყველება ტექსტად უფასოდ და მარტივად.

    ბრინჯი. 4. სერვისის კარნახი.io

    1 ნახ. 4 - რუსული ენის არჩევა შესაძლებელია გვერდის ბოლოს. Google Chrome ბრაუზერში შერჩეულია ენა, მაგრამ Mozilla-ში რატომღაც ასეთი შესაძლებლობა არ არსებობს.

    აღსანიშნავია, რომ დასრულებული შედეგის ავტომატური შენახვის შესაძლებლობა დანერგილია. ეს ხელს შეუშლის შემთხვევით წაშლას ჩანართის ან ბრაუზერის დახურვის შედეგად. ეს სერვისი არ ცნობს დასრულებულ ფაილებს. მუშაობს მიკროფონით. თქვენ უნდა დაასახელოთ სასვენი ნიშნები, როდესაც კარნახობთ.

    ტექსტი საკმაოდ სწორად არის აღიარებული, ორთოგრაფიული შეცდომები არ არის. სასვენი ნიშნები თავად შეგიძლიათ ჩასვათ კლავიატურაზე. დასრულებული შედეგი შეიძლება შეინახოთ თქვენს კომპიუტერში.

    3 RealSpeaker

    ეს პროგრამა საშუალებას გაძლევთ მარტივად თარგმნოთ ადამიანის მეტყველება ტექსტად. იგი შექმნილია სხვადასხვა სისტემებზე სამუშაოდ: Windows, Android, Linux, Mac. მისი დახმარებით თქვენ შეგიძლიათ გადაიყვანოთ მეტყველება, რომელიც ჟღერს მიკროფონად (მაგალითად, შეიძლება ჩაშენდეს ლეპტოპში), ასევე ჩაწეროთ აუდიო ფაილებში.

    შეუძლია მსოფლიოს 13 ენის აღქმა. არსებობს პროგრამის ბეტა ვერსია, რომელიც მუშაობს როგორც ონლაინ სერვისი:

    თქვენ უნდა მიჰყვეთ ზემოთ მოცემულ ბმულს, აირჩიოთ რუსული ენა, ატვირთოთ თქვენი აუდიო ან ვიდეო ფაილი ონლაინ სერვისში და გადაიხადოთ მისი ტრანსკრიფცია. ტრანსკრიფციის შემდეგ შეგიძლიათ მიღებული ტექსტის კოპირება. რაც უფრო დიდია ფაილი ტრანსკრიფციისთვის, მით მეტი დრო დასჭირდება მის დამუშავებას, მეტი დეტალი:

    2017 წელს იყო უფასო ტრანსკრიფციის ვარიანტი RealSpeaker-ის გამოყენებით, 2018 წელს ასეთი შესაძლებლობა არ არსებობს. ძალიან უხერხულია, რომ ტრანსკრიბირებული ფაილი ყველა მომხმარებლისთვის ხელმისაწვდომია ჩამოსატვირთად, ალბათ ეს დასრულდება.

    პროგრამის დეველოპერის კონტაქტები (VKontakte, Facebook, Youtube, Twitter, ელ.ფოსტა, ტელეფონი) შეგიძლიათ იხილოთ მისი ვებსაიტის გვერდზე (უფრო ზუსტად, საიტის ქვედა ნაწილში):

    4 Speechlogger

    წინა აპლიკაციის ალტერნატივა მობილური მოწყობილობებისთვის, რომლებიც მუშაობენ Android-ზე. ხელმისაწვდომია უფასოდ აპლიკაციების მაღაზიაში:

    ტექსტის რედაქტირება ხდება ავტომატურად, მასში მოთავსებულია პუნქტუაციის ნიშნები. შესანიშნავია ნოტების კარნახისთვის ან სიების შესაქმნელად. შედეგად, ტექსტი აღმოჩნდება ძალიან ღირსეული ხარისხის.

    5 დრაკონის კარნახი

    ეს არის აპლიკაცია, რომელიც უფასოდ ვრცელდება Apple-ის მობილური მოწყობილობებისთვის.

    პროგრამას შეუძლია 15 ენაზე მუშაობა. ის საშუალებას გაძლევთ შეცვალოთ შედეგი, აირჩიოთ სასურველი სიტყვები სიიდან. აუცილებელია ყველა ბგერის მკაფიოდ წარმოთქმა, არ გააკეთოთ ზედმეტი პაუზები და მოერიდეთ ინტონაციას. ზოგჯერ არის შეცდომები სიტყვების ბოლოებში.

    Dragon Dictation აპლიკაციას იყენებენ მფლობელები, მაგალითად, ბინაში გადაადგილებისას მაღაზიაში სავაჭრო სიის კარნახად. იქ მოვალ, შენიშვნაში ტექსტის ყურება შესაძლებელი იქნება და მოსმენა არ არის საჭირო.

    ნებისმიერ პროგრამას, რომელსაც იყენებთ თქვენს პრაქტიკაში, მზად იყავით, რომ გადაამოწმოთ შედეგი და განახორციელოთ გარკვეული კორექტირება. ეს არის ერთადერთი გზა, რომ მიიღოთ უზადო ტექსტი შეცდომების გარეშე.

    ასევე სასარგებლო მომსახურება:

    მიიღეთ უახლესი სტატიები კომპიუტერული წიგნიერების შესახებ პირდაპირ თქვენს შემოსულებში.
    უკვე მეტი 3000 აბონენტი

    .