• Завдання розпізнавання мови поки що не вирішено. Увімкнення та вимкнення автоматичного розпізнавання мовлення Налаштування розпізнавання мовлення windows 7

    Windows Vista - перша ОС від Microsoft, в яку вбудована можливість розпізнавання мови. Використовуючи цю функцію, Ви можете виконувати голосом різні завдання, такі як запуск програм, закриття, збереження та видалення файлів, диктувати текст, який буде дослівно записаний, а також його редагувати. Деб Шиндер (Deb Shinder), IT консультант, докладно розповість вам, як користуватись цією функцією.

    Ще з часів виходу фільму Стар Трек (Star Trek) багато комп'ютерних користувачів мріяли викинути клавіатури, мишки і голосом контролювати свій комп'ютер. Програми, які дозволяли говорити різні команди, диктувати текст комп'ютеру - робили протягом багатьох років і були дуже корисні тим, хто фізично не міг використовувати інші методи введення. Але чомусь ці програми не були популярними.

    Windows Vista – перша операційна система від Microsoft, яка може розпізнавати мову. Раніше функція розпізнавання мови була присутня у Microsoft Office XP і Office 2003, також можна було використовувати програми інших розробників, наприклад Dragon NaturallySpeaking. Ще Microsoft додала функцію розпізнавання мовлення у Windows Mobile.

    Щоб почати розмовляти з комп'ютером, вам не доведеться нічого додатково купувати, Vista вже все є для цього. За замовчуванням функція вимкнена, але ви легко зможете її запустити в Панелі управління (Control Panel), як показано на Малюнку A.

    Також можна запустити цю функцію в меню, вибравши Всі Програми | Стандартні | Спеціальні можливості (All Programs | Accessories | Ease Of Access), як показано на малюнку B.

    Як це працює

    Ви можете вибрати один із двох режимів роботи розпізнавання мови:

    • Для керування програмами: Запускати та закривати програми, перемикатися між ними, зберігати та видаляти файли тощо.
    • Щоб диктувати текст, який буде дослівно записаний, а також редагувати його.

    Розробники софту можуть додавати підтримку цієї функції до своїх програм. Прикро, що на даний момент розпізнавання мови підтримує лише кілька мов: Англійська (США та Сполучене Королівство), Німецька, Французька, Іспанська, Японська та Китайська (традиційна та спрощена).

    Налаштування розпізнавання мовлення

    Перш ніж ви зможете використовувати розпізнавання мови, вам доведеться виконати такі кроки:

    • Увімкніть розпізнавання мовлення.
    • Налаштувати мікрофон.
    • Прочитати посібник (не обов'язково).
    • Потренуватися чітко, говорити (теж необов'язково).

    Після подвійного клацання на Розпізнавання Мовлення (Speech Recognition) в Панелі керування (Control Panel) або вибору Розпізнавання Мова в меню, перед вами відкриється вікно налаштування, яке показано на малюнку C.


    Коли натисніть Start Speech Recognition, на верхній частині екрана з'явиться панель керування голосом, вона показана на малюнку D.


    Якщо у вас вже налаштовано цю функцію, панелька пропишеться в автостарт і запускатиметься при кожному завантаженні Windows. Ще в треї з'явиться синенька іконка керування голосом.
    Ви можете викликати контекстне меню для налаштування, клацнувши правою кнопкою миші на іконку в треї, або на панель керування голосом, як показано на малюнку E.


    У меню ви побачите такі настройки:

    • Включення мови (Turn Speech On):Комп'ютер слухатиме все, що ви кажете, і виконуватиме команди, які розпізнає.
    • Режим очікування (Sleep):Комп'ютер стежитиме за вашою промовою, але не реагуватиме на жодну команду, поки ви не скажете "Почати слухати (Start listening)".
    • Вимкнено (Off):Комп'ютер вас не слухає, щоб ви йому не говорили.
    • Відкрити шпаргалку з розпізнавання мови (Open Speech Reference Card):Зручна шпаргалка з основними командами та додатковою інформацією.
    • Розпочати курс навчання (Start Speech Tutorial):Відеоурок, де вам все розкажуть та покажуть.
    • Допомога (Help):Відкриває довідку, хелп фаїл про цю функцію.
    • Опції (Options):Тут можна налаштувати завантаження програми разом з Windows, автоматичне коригування тексту і т.д.
    • Налаштування (Configuration):Тут ви зможете налаштувати свій мікрофон, покращити розпізнавання мови та відкрити панель керування.
    • Відкрити голосовий словник (Open The Speech Dictionary):Ви можете додати нові слова (дуже стане в нагоді для імен і слів, складних для розпізнавання), також можна буде виключити слова, які ви ніколи не вимовляєте.
    • Тема диктанту (Dictation Topic):Тут можна вибрати тільки оповідання (Narrative).
    • Відвідайте сайт (Go To The Speech Recognition Web site).
    • Отримати інформацію (Get Information About Speech Recognition):Це звичне нам діалогове вікно Windows, в якому написана версія, номер ліцензії та назва програми.
    • Відкрити розпізнавання мови (Open Speech Recognition).
    • Вийти (Exit):Повністю закриває програму.
    • Переклад

    З того часу, як на сцену розпізнавання мови вийшло глибинне навчання, кількість помилок у розпізнаванні слів кардинально зменшилася. Але, незважаючи на всі статті, які ви могли читати, у нас досі немає розпізнавання мови людського рівня. У розпізнавачів мови багато видів відмов. Для подальшого покращення їх потрібно виділити та постаратися усунути. Це єдиний спосіб перейти від розпізнавання, що підходить для деяких людей більшу частину часу, до розпізнавання, що працює для всіх людей весь час.

    Поліпшення кількості помилково розпізнаних слів. Тестовий голосовий набір було зібрано на телефонному комутаторі у 2000 році з 40 випадкових розмов двох осіб, чия рідна мова – англійська

    Говорити про те, що ми досягли рівня людини в розпізнаванні мови в розмовах, ґрунтуючись лише на наборі розмов з телефонного комутатора, це все одно, що стверджувати, що робомобіль водить не гірше за людину, протестувавши його в єдиному місті в сонячний день без жодного вуличного руху . Зрушення, що відбулися в справі розпізнавання мови останнім часом, дивовижні. Але заяви щодо розпізнавання мови на рівні людини надто сміливі. Ось кілька областей, в яких все ще потрібно досягати поліпшень.

    Акценти та шум

    Один із очевидних недоліків розпізнавання мови – обробка акцентівта фонового шуму. Основна причина цього в тому, що більшість тренувальних даних складається з американської говірки з високим ставленням сигналу до шуму. Наприклад, у наборі розмов з телефонного комутатора є лише розмови людей, чия рідна мова – англійська (переважно це американці) з невеликим фоновим шумом.

    Але збільшення тренувальних даних саме собою, швидше за все, не вирішить цю проблему. Існує безліч мов, що містять багато діалектів та акцентів. Неможливо зібрати розмічені дані всім випадків. Створення високоякісного розпізнавача мови лише для американської англійської вимагає до 5 тисяч годин аудіозаписів, переведених у текст.


    Порівняння людей, які займаються перетворенням мови на текст, з Baidu's Deep Speech 2 на різних типах мови. Люди гірше справляються з розпізнаванням неамериканських акцентів – можливо через велику кількість американців серед них. Думаю, що люди, які виросли у певному регіоні, зі значно меншою кількістю помилок впоралися б із розпізнаванням акценту цього регіону.

    За наявності фонового шуму в машині, що рухається, відношення сигнал/шум може досягати величин -5 дБ. Люди легко справляються з розпізнаванням мови іншої людини за таких умов. Автоматичні розпізнавачі набагато швидше погіршують показники зі збільшенням шуму. На графіку видно, як сильно збільшується відрив людей зі збільшенням шуму (при низьких значеннях SNR, signal-to-noise ratio)

    Семантичні помилки

    Часто кількість помилково розпізнаних слів перестав бути самоціллю системи розпізнавання промови. Ми націлюємося на кількість семантичних помилок. Це та частка висловлювань, у яких ми неправильно розпізнаємо сенс.

    Приклад семантичної помилки – коли хтось пропонує let's meet up Tuesday [давайте зустрінемося у вівторок] а розпізнавач видає let's meet up today [давайте зустрінемося сьогодні]. Бувають і помилки у словах без семантичних помилок. Якщо розпізнавач не розпізнав «up» і видав let's meet Tuesday, семантика пропозиції не змінилася.

    Нам потрібно акуратно використовувати кількість помилково розпізнаних слів як критерій. Для ілюстрації цього я дам вам приклад із найгіршим із можливих випадків. 5% помилок у словах відповідає одному пропущеному слову з 20. Якщо кожному реченні 20 слів (що у англійської цілком у межах середнього), кількість неправильно розпізнаних речень наближається до 100%. Можна сподіватися, що неправильно розпізнані слова не змінюють семантичний зміст речень. А інакше розпізнавач може неправильно розшифрувати кожну пропозицію навіть із 5% кількістю помилково розпізнаних слів.

    Порівнюючи моделі з людьми, важливо перевіряти суть помилок і стежити не лише за кількістю неправильно розпізнаних слів. На мій досвід, люди, які транслюють мову в текст, роблять менше помилок і вони не такі серйозні, як у комп'ютерів.

    Дослідники з Microsoft нещодавно порівняли помилки людей та комп'ютерних розпізнавачів схожого рівня. Одна із знайдених відмінностей – модель плутає “uh” [е-е-е…] із “uh huh” [ага] набагато частіше за людей. У цих двох термінів дуже різна семантика: “uh” заповнює паузи, а “uh huh” означає підтвердження з боку слухача. Також у моделей і людей виявили багато помилок типів, що збігаються.

    Багато голосів в одному каналі

    Розпізнавати записані телефонні розмови простіше ще й тому, що кожного записувача записували на окремий мікрофон. Там не відбувається накладення кількох голосів в одному аудіоканалі. Люди ж можуть розуміти кількох ораторів, які іноді говорять одночасно.

    Хороший розпізнавач мови повинен вміти розділяти аудіопотік на сегменти в залежності від того, хто говорить (піддавати його діаризації). Також він повинен отримати сенс з аудіозапису з двома голосами, що накладаються один на одного (поділ джерел). Це необхідно робити без мікрофона, розташованого прямо біля рота кожного зі спікерів, тобто так, щоб розпізнавач працював добре, будучи розміщеним у довільному місці.

    Якість запису

    Акценти та фоновий шум – всього два фактори, до яких розпізнавач мови повинен бути стійким. Ось ще кілька:

    Реверберація у різних акустичних умовах.
    Артефакти пов'язані з обладнанням.
    Артефакти кодека, що використовується для запису та стиснення сигналу.
    Частота дискретизації.
    Вік мовця.

    Більшість людей не відрізнять на слух записів із mp3 та wav-файлів. Перш ніж заявляти про показники, які можна порівняти з людськими, розпізнавачі повинні стати стійкими і до перелічених джерел варіацій.

    Контекст

    Можна помітити, що кількість помилок, які люди роблять на тестах у записах з телефонної станції, є досить високою. Якби ви розмовляли з другом, який не розумів би 1 слово з 20, вам було б дуже складно спілкуватися.

    Однією з причин цього є розпізнавання без урахування контексту. У реальному житті ми використовуємо безліч різних додаткових ознак, які допомагають нам розуміти, що говорить інша людина. Деякі приклади контексту, які використовуються людьми, та ігноровані розпізнавателями мови:

    Історія розмови та тема, що обговорюється.
    Візуальні підказки про говорить – вираз обличчя, рух губ.
    Сукупність знань про людину, з якою ми говоримо.

    Зараз у розпізнавача мови Android є список ваших контактів, тому він вміє розпізнавати імена ваших друзів. Голосовий пошук на картах використовує геолокацію для звуження кількості можливих варіантів, до яких ви хочете побудувати маршрут.

    Точність систем розпізнавання збільшується із включенням у дані подібних сигналів. Але ми тільки починаємо заглиблюватися в тип контексту, який ми могли б включити до обробки та методів його використання.

    Розгортання

    Останні досягнення у розпізнаванні розмовної мови неможливо розгорнути. Уявляючи собі розгортання алгоритму розпізнавання мови, треба пам'ятати про затримки та обчислювальні потужності. Ці параметри пов'язані, оскільки алгоритми, що збільшують вимоги до потужності, збільшують затримку. Але для простоти обговоримо їх окремо.

    Затримка: час від закінчення промови користувача до закінчення транскрипції. Невелика затримка – типова вимога для розпізнавання. Вона дуже впливає на відчуття користувача від роботи з продуктом. Часто зустрічається обмеження у десятки мілісекунд. Це може здатися надто суворим, але згадайте, що видача розшифровки – це зазвичай перший крок у серії складних обчислень. Наприклад, у разі голосового інтернет-пошуку після розпізнавання мови потрібно ще встигнути здійснити пошук.

    Двонаправлені рекурентні шари – типовий приклад покращення, що погіршує ситуацію із затримкою. Всі останні результати розшифровки високої якості виходять за їх допомогою. Проблема тільки в тому, що ми не можемо нічого підраховувати після проходу першого двонаправленого шару, поки людина не перестала говорити. Тому затримка збільшується із довжиною пропозиції.


    Зліва: пряма рекурентність дозволяє починати розшифровку відразу. Праворуч: двоспрямована рекурентність вимагає почекати закінчення мови перед тим, як починати розшифровку.

    Хороший спосіб ефективно включати майбутню інформацію в розпізнавання мови поки що шукають.

    Обчислювальна потужність: цей параметр впливають економічні обмеження. Необхідно враховувати вартість банкету кожного поліпшення точності розпізнавателя. Якщо покращення не досягає економічного порогу, розгорнути його не вдасться.

    Класичний приклад постійного покращення, яке ніколи не розгортають – спільне глибинне навчання. Зменшення кількості помилок на 1-2% рідко виправдовує збільшення обчислювальних потужностей у 2-8 разів. Сучасні моделі рекурентних мереж теж потрапляють до цієї категорії, оскільки їх дуже невигідно використовувати у пошуку по пучку траєкторій, хоча, гадаю, у майбутньому ситуація зміниться.

    Хочу уточнити – я не кажу, що покращення точності розпізнавання із серйозним збільшенням обчислювальних витрат марно. Ми вже бачили, як у минулому працює принцип «спочатку повільно, але точно, а потім швидко». Сенс у тому, що доти, поки поліпшення стане досить швидким, використовувати його не можна.

    У наступні п'ять років

    У сфері розпізнавання мови залишається чимало невирішених і складних проблем. Серед них:

    Розширення можливостей нових систем зберігання даних, розпізнавання акцентів, промови на тлі сильного шуму.
    Включення контексту у процес розпізнавання.
    Діаризація та поділ джерел.
    Кількість семантичних помилок та інноваційні методи оцінки розпізнавачів.
    Дуже мала затримка.

    З нетерпінням чекаю прогресу, який буде досягнутий у наступні п'ять років цими та іншими напрямками.

    Теги: Додати теги

    Керування за допомогою сенсорного екрана – це вже стандарт. Нові системи, такі як Windows 8 «розуміють» голосові команди. Розпізнавання мови повинно призвести до того, що наш зв'язок з комп'ютером буде ще простіше, інтуїтивніше і природніше. Я розповім, як це виглядає на сьогоднішній момент.

    Небагато історії — як розвивалося спілкування з машиною

    Способи спілкування з комп'ютером розвивалися багато років. Першим інтерфейсом, через який людина могла давати команди, були перфокарти, які сягають 1832 року. Вони використовувалися у машинах для виробництва тканини. Клавіатуру почали використовувати в 1960 році. Через два десятиліття приєдналася стандартна миша і використовується до цього дня. Хоча миша поділилася повноваженнями з трекпадом, але вона все ще найпопулярніший вид управління. Завдяки смарфонам і планшетам став дуже популярним сенсорний інтерфейс та жести, які використовуються, зокрема, для керування Xbox 360 Kinect. Після сенсорних екранів і жестів, йде голосове управління, але це рішення досі було так розвинене, що часом про неї і не почуєш.

    Налаштування розпізнавання мовлення у Windows 8

    На жаль, голосове управління поки що не доступне російською мовою. Підтримуються поки що англійська, французька, німецька, японська, корейська, китайська та іспанська мови. Microsoft вирішила зосередитись на найбільших і найрозвиненіших країнах, але не виключено, що протягом деякого часу він додасть цієї функції і для нашої країни. Якщо спробувати запустити, отак лається

    Якщо ви все ще хочете протестувати це рішення, необхідно налаштувати систему (змінити мову) та вивчити пару слів англійською. Щоб це зробити, потрібно перейти до панелі керування, а потім вибрати Мова. Якщо у вас немає іншої мови, крім російської, необхідно натиснути кнопку «Додати мову», а потім вибрати одну з мов, що підтримуються. У нашому випадку це «Англійська (США)». Бачимо, що доступна тільки розкладка цією мовою, двічі клацаємо, піде перевірка доступності мови для інтерфейсу, після перевірки натискаємо «Завантажити та встановити мовний пакет», і піде процес, терпляче чекаємо коли завантажиться. Як тільки цей процес завершиться, встановіть англійською мовою за промовчанням

    Тепер потрібно перейти на початковий екран Windows 8 (плитковий), у пошук ввести Windows Speech Recognition і натиснути Enter.

    Таким чином, ви можете запустити інструмент розпізнавання голосу. При першому запуску він запропонує налаштувати мікрофон, після вибору, що небудь скажіть, щоб перевірити.

    Далі запропонувати пройти навчальні уроки. Вони тривають до 15-20 хвилин, але дуже корисні та містять основні відомості про використання функцій. Але якщо ви в англійській не сильні, я думаю не варто витрачати час, важко буде щось розібрати, відразу в бій

    Як працювати

    Для того, щоб комп'ютер почав розпізнавати ваше мовлення, необхідно сказати «start listening» (що означає почати слухати), або натисніть кнопку мікрофона для запуску режиму прослуховування. Тепер можна відкрити програму або просто диктувати слова в текстовий редактор, рядок браузера або пошуку

    Що ми можемо робити

    У принципі, можливості величезні, крім стандартних слів можна створювати свої команди. Основні можливості наведені у таблиці

    Дія Що сказати
    Виберіть будь-який елемент на його ім'я Click File,Start,View
    Виберіть будь-який елемент або піктограму Click Recycle Bin, Click Computer, Click (назва файлу)
    Двічі натисніть або двічі клацніть будь-який елемент Double-clickRecycle Bin,Double-click Computer
    Перемикання між відкритими програмами Switch to Paint,Switch to WordPad

    Прокручування

    Scroll up; Scroll down;
    Scroll left; Scroll right

    Увімкнути новий пункт або новий рядок у документі

    New paragraph; New line

    Виберіть слово у документі

    Коригування слова

    Correct word

    Виберіть та видаліть певні слова

    Показати перелік застосовних команд

    Refresh speech commands

    Увімкніть режим прослуховування

    Вимкніть режим прослуховування

    Згорнути мікрофон

    Minimize speech recognition

    Переглянути Windows, довідки та підтримку

    How do I do something?
    Наприклад:How do I install a printer?

    Якщо ви не знаєте, як вимовляється фраза, я пропоную вам використовувати Google Translate або http://училочка.рф (цього сайту він краще розумів)

    Було в мене бажання записати свої команди, що складаються з простих буржуазних слів. Які я можу вимовити. То він мені й не дав цього зробити, не зумів запустити редактор команд. У результаті він чудово розумів мою вимову слів One, Two та Open. Цим набором можна запустити програму за номером у початковому екрані. Спершу сказати номер, потім сказати OPEN. Не густо звичайно, але я вважаю експеримент удалим. Було б непогано, якби Microsoft ввів російську мову, хороша заміна пульту дистанційного керування.

    Операційна система Windows 7 оснащена багатьма налаштуваннями, які дають все більше можливостей користувачам цієї системи. У неї змогли впровадити дуже цікаву функцію, яка зветься «розпізнавання мови». Але що така система? Про це й йтиметься розмова.

    Опція, про яку йдеться, дозволяє застосовувати в додатках усієї системи абсолютно новий спосіб взаємодії користувача з комп'ютером. Саме система "Розпізнавання мовлення Windows 7" допускає можливість керування комп'ютером, не використовуючи при цьому клавіатуру, мишу та інші засоби.

    Хочеться відзначити, що ця інновація буде доступна і в інших продуктах Microsoft. Ця функція була помічена трохи раніше, тобто її спробували впровадити у Windows Vista, але у сьомій версії операційної системи компанії Microsoft голосове управління виконане на вищому рівні порівняно з попередником. Якщо сказати простіше, така опція, як розпізнавання мовлення Windows 7, стала ще більш функціональною.

    Крім всього сказаного, хочеться відзначити, що вона має досить широкий спектр застосування. Користувачі Windows 7 з функцією розпізнавання мовлення мають можливість запускати програми і конвертувати всі звукові фрагменти в текст, виконувати всілякі команди на комп'ютері, використовуючи лише свій голос та необхідні пристрої. Але що потрібно для того, щоб розпізнавання мовлення Windows 7 стало реальним?

    Перш за все, вам знадобиться мікрофон, який слід підключити до комп'ютера. Крім цього, необхідно придбати спеціальну програму або програму, яка видається самим виробником, тобто компанією Microsoft. Після того, як усі необхідні компоненти будуть встановлені, а мікрофон підключений до комп'ютера, слід здійснити ще певний план роботи:

    • Необхідно виконати тестові голосові команди та конвертувати їх у текст.
    • Після того, як ви проведете навчання програми розпізнавання, потрібно буде створити шаблони різних команд своїм голосом. Саме на основі даної роботи комп'ютер зможе приймати та виконувати всі задані команди.

    Функція розпізнавання мовлення Windows 7 використовується в текстовому редакторі Microsoft - WordPad. Вона безвідмовно функціонує при заповненні різних форм, а також добре проявляє себе в роботі в Internet Explorer і при

    Крім цього, дана опція легко відредагує записаний раніше текст, визначивши спеціальні голосові команди. Звичайно, у процесі розпізнавання того чи іншого завдання трапляються типові помилки (коли відбувається помилкове розпізнавання деяких звуків). На цей випадок у програмі передбачено перелік відповідностей тих чи інших слів.

    Функція, звичайно, феноменальна, але все ж таки тут є одне «але». Вся справа в тому, що розпізнавання російської мови сьогодні, в принципі, недоступне. Є чудові версії програми для англійської, французької, німецької та японської мови. Існують також версії для китайської, іспанської та італійської мови.

    Але ця новинка не зовсім адаптована для російської мови. Ваш комп'ютер не зможе сприймати поставлені перед ним завдання, а значить, вам простіше написати щось за допомогою клавіатури або ж виконати певні завдання за допомогою миші.

    Звичайно, ви можете спробувати попрацювати з подібними російськомовними програмами або ж віддати свою перевагу англійській мові, але все ж таки залишається сподіватися, що незабаром розпізнавання мови російською мовою теж буде доступне в якісному режимі. І саме тоді ви зможете випробувати на практиці таку унікальну функцію. Адже вона, без сумніву, явно полегшує роботу на персональному комп'ютері і є величезним проривом у сфері програмування. Тож залишається лише чекати.

    Жодна програма не зможе повністю замінити ручну роботу з розшифровування записаного мовлення. Однак існують рішення, які дозволяють суттєво прискорити та полегшити переклад мови в текст, тобто спростити транскрибацію.

    Транскрибація – це запис аудіо або відеофайлу в текстовому вигляді. Є в інтернеті платні завдання, коли за транскрибацію тексту виконавцю виплачується деяка сума грошей.

    Переклад мови в текст корисний

    • студентам для перекладу записаних аудіо- або відеолекцій у текст,
    • блогерам, що ведуть сайти та блоги,
    • письменникам, журналістам для написання книг та текстів,
    • інфобізнесменам, яким потрібен текст після проведеного ними вебінару, виступу тощо,
    • людям, яким складно друкувати – вони можуть надиктувати листа і надіслати його рідним чи близьким,
    • інші варіанти.

    Опишемо найефективніші інструменти, доступні на ПК, мобільні програми та онлайн-сервіси.

    1 Сайт speechpad.ru

    Це онлайн-сервіс, який дає змогу через браузер Google Chrome перекладати мову в текст. Сервіс працює з мікрофоном та з готовими файлами. Звичайно, якість буде значно вищою, якщо використовувати зовнішній мікрофон та диктувати самому. Однак сервіс непогано справляється навіть із відеороликами на YouTube.

    Натискаємо «Включити запис», відповідаємо на запитання про «Використання мікрофона» – для цього натискаємо «Дозволити».

    Довгу інструкцію щодо використання сервісу можна згорнути, натиснувши на кнопку 1 на рис. 3. Рекламу можна позбутися, пройшовши нескладну реєстрацію.

    Мал. 3. Сервіс speechpad

    Готовий результат легко редагується. Для цього потрібно або виправити вручну виділене слово, або надиктувати його заново. Результати роботи зберігаються в особистому кабінеті, їх можна скачати на свій комп'ютер.

    Список відео-уроків з роботи зі speechpad:

    Можна транскрибувати відео з Youtube або зі свого комп'ютера, щоправда, знадобиться мікшер.

    Відео «транскрибування аудіо»

    Працює сервіс із сімома мовами. Є невеликий мінус. Він у тому, що й потрібно транскрибировать готовий аудіо-файл, його звучання лунає у колонки, що створює додаткові перешкоди як луна.

    2 Сервіс dictation.io

    Чудовий онлайн-сервіс, який дозволить безкоштовно та легко перекладати мову в текст.

    Мал. 4. Сервіс dictation.io

    1 на рис. 4 – російську мову можна вибрати наприкінці сторінки. У браузері Google Chrome мова вибирається, а в Мозіллі чомусь немає такої можливості.

    Примітно те, що реалізовано можливість автозберігати готовий результат. Це убереже від випадкового видалення в результаті закриття вкладки або браузера. Готові файли цей сервіс не розпізнає. Працює із мікрофоном. Потрібно називати розділові знаки, коли проводите диктовку.

    Текст розпізнається досить коректно, орфографічних помилок немає. Можна самостійно вставляти розділові знаки з клавіатури. Готовий результат можна зберегти на комп'ютері.

    3 RealSpeaker

    Ця програма дозволяє легко переводити людську мову на текст. Вона призначена для роботи у різних системах: Windows, Android, Linux, Mac. З її допомогою можна перетворювати мову, що звучить у мікрофон (наприклад, він може бути вбудований в ноутбук), а також записану в аудіофайли.

    Може сприймати 13 мов світу. Існує бета-версія програми, яка працює в режимі онлайн-сервісу:

    Потрібно перейти за вказаним вище посиланням, вибрати російську мову, завантажити на онлайн-сервіс свій аудіо- або відео-файл та оплатити його транскрибацію. Після транскрибації можна буде скопіювати отриманий текст. Чим більше файл для транскрибації, тим більше часу знадобиться на його обробку, докладніше:

    У 2017 році був безкоштовний варіант транскрибації за допомогою RealSpeaker, у 2018 році такої можливості немає. Сильно бентежить той момент, що транскрибований файл доступний всім користувачам для скачування, можливо, це буде доопрацьовано.

    Контакти розробника (ВКонтакті, Facebook, Youtube, Твіттер, електронна пошта, телефон) програми можна знайти на сторінці його сайту (точніше, у підвалі сайту):

    4 Speechlogger

    Альтернатива попередньому додатку для мобільних пристроїв, що працюють на Android. Доступно безкоштовно в магазині додатків:

    Текст редагується автоматично, в ньому розставляються розділові знаки. Дуже зручно для того, щоб надиктувати собі нотатки або складати списки. В результаті текст вийде дуже гідної якості.

    5 Dragon Dictation

    Ця програма, яка розповсюджується безкоштовно для мобільних пристроїв від компанії Apple.

    Програма може працювати з 15 мовами. Вона дозволяє редагувати результат, вибирати потрібні слова зі списку. Потрібно чітко промовляти всі звуки, не робити зайвих пауз та уникати інтонації. Іноді виникають помилки у закінченнях слів.

    Додаток Dragon Dictation використовують власники, наприклад, щоб переміщаючись по квартирі, надиктувати список покупок в магазині. Прийду туди, можна буде подивитися на текст у дописі, і не треба слухати.

    Яку б програму Ви не використовували у своїй практиці, будьте готові перевіряти ще раз результат і вносити певні корективи. Тільки так можна отримати бездоганний текст без помилок.

    Також корисні послуги:

    Отримуйте актуальні статті з комп'ютерної грамотності прямо на вашу поштову скриньку.
    Вже більше 3.000 передплатників

    .