• Le problème de la reconnaissance vocale n'a pas encore été résolu. Activer et désactiver la reconnaissance vocale automatique Configurer les fenêtres de reconnaissance vocale 7

    Windows Vista est le premier système d'exploitation de Microsoft à intégrer la reconnaissance vocale. Grâce à cette fonction, vous pouvez effectuer diverses tâches avec votre voix, telles que lancer des programmes, fermer, enregistrer et supprimer des fichiers, dicter le texte à enregistrer textuellement et le modifier. Deb Shinder, consultante en informatique, vous expliquera en détail comment utiliser cette fonctionnalité.

    Depuis la sortie du film Star Trek, de nombreux utilisateurs d'ordinateurs ont rêvé de jeter les claviers, les souris et de contrôler leur ordinateur avec leur voix. Des programmes qui vous permettaient de prononcer différentes commandes, de dicter du texte à un ordinateur - ont été créés pendant de nombreuses années et ont été très utiles pour ceux qui n'étaient pas physiquement capables d'utiliser d'autres méthodes de saisie. Mais pour une raison quelconque, ces programmes n'étaient pas populaires.

    Windows Vista est le premier système d'exploitation de Microsoft capable de reconnaître la parole. Auparavant, la fonctionnalité de reconnaissance vocale était présente dans Microsoft Office XP et Office 2003, et il était également possible d'utiliser des programmes d'autres développeurs, tels que Dragon NaturallySpeaking. Microsoft a également ajouté la reconnaissance vocale à Windows Mobile.

    Vous n'avez rien à acheter de plus pour commencer à parler à votre ordinateur, Vista a déjà tout. Par défaut, la fonction est désactivée, mais vous pouvez facilement l'activer dans le panneau de configuration, comme illustré à la figure A.

    Vous pouvez également lancer cette fonctionnalité à partir du menu en sélectionnant Tous les programmes | Norme | Accessibilité (Tous les programmes | Accessoires | Facilité d'accès), comme illustré à la Figure B.

    Comment ça fonctionne

    Vous pouvez choisir l'un des deux modes de reconnaissance vocale :

    • Pour gérer les programmes : Démarrez et fermez les programmes, passez de l'un à l'autre, enregistrez et supprimez des fichiers, etc.
    • Pour dicter le texte, qui sera enregistré textuellement, ainsi que pour le modifier.

    Les développeurs de logiciels peuvent ajouter la prise en charge de cette fonctionnalité à leurs programmes. Malheureusement, la reconnaissance vocale ne prend actuellement en charge que quelques langues : anglais (États-Unis et Royaume-Uni), allemand, français, espagnol, japonais et chinois (traditionnel et simplifié).

    Configuration de la reconnaissance vocale

    Avant de pouvoir utiliser la reconnaissance vocale, vous devrez effectuer les étapes suivantes :

    • Activez la reconnaissance vocale.
    • Configurez le microphone.
    • Lisez le manuel (facultatif).
    • Pratiquez clairement, parlez (également pas nécessaire).

    Après avoir double-cliqué sur Reconnaissance vocale dans le Panneau de configuration ou sélectionné Reconnaissance vocale dans le menu, une fenêtre de configuration s'affichera, comme illustré à la figure C.


    Lorsque vous cliquez sur Démarrer la reconnaissance vocale, un panneau de commande vocale apparaît en haut de votre écran, comme illustré à la figure D.


    Si vous avez déjà configuré cette fonction, le socket sera enregistré dans le démarrage automatique et démarrera à chaque démarrage de Windows. Une icône de commande vocale bleue apparaîtra également dans la barre d'état.
    Vous pouvez appeler le menu contextuel des paramètres en cliquant avec le bouton droit sur l'icône de la barre d'état ou sur le panneau de commande vocale, comme illustré à la figure E.


    Dans le menu, vous verrez les paramètres suivants :

    • Activer la reconnaissance vocale : L'ordinateur écoutera tout ce que vous direz et exécutera les commandes qu'il reconnaît.
    • Mode veille (veille): L'ordinateur suivra votre discours, mais ne répondra à aucune commande tant que vous n'aurez pas dit « Commencer à écouter ».
    • Désactivé: L'ordinateur ne vous écoute pas, quoi que vous lui disiez.
    • Carte de référence du discours ouvert : Une feuille de triche pratique avec des commandes de base et des informations supplémentaires.
    • Démarrer le didacticiel vocal : Tutoriel vidéo où tout vous sera dit et montré.
    • Aider: Ouvre un fichier d'aide sur cette fonction.
    • Option : Ici, vous pouvez configurer le programme à charger avec Windows, la correction automatique du texte, etc.
    • Configuration: Ici, vous pouvez configurer votre microphone, améliorer la reconnaissance vocale et ouvrir le panneau de configuration.
    • Ouvrez le dictionnaire vocal : Vous pouvez ajouter de nouveaux mots (très utile pour les noms et les mots difficiles à reconnaître), et vous pouvez également exclure des mots que vous ne prononcez jamais.
    • Sujet de dictée : Seul Narratif peut être sélectionné ici.
    • Visitez le site (Allez sur le site Web de reconnaissance vocale).
    • Obtenir des informations sur la reconnaissance vocale : Il s'agit de la boîte de dialogue Windows qui nous est familière, dans laquelle la version, le numéro de licence et le nom du programme sont écrits.
    • Reconnaissance vocale ouverte.
    • Sortie: Ferme complètement le programme.
    • Traduction

    Depuis que l'apprentissage en profondeur est entré sur la scène de la reconnaissance vocale, le nombre d'erreurs dans la reconnaissance des mots a considérablement diminué. Mais malgré tous les articles que vous avez pu lire, nous n'avons toujours pas de reconnaissance vocale au niveau humain. Les reconnaissances vocales ont de nombreux modes de défaillance. Pour les améliorer davantage, vous devez les identifier et essayer de les éliminer. C'est le seul moyen de passer d'une reconnaissance qui fonctionne pour certaines personnes la plupart du temps à une reconnaissance qui fonctionne pour tout le monde tout le temps.

    Améliorations du nombre de mots mal identifiés. Un test de numérotation vocale a été assemblé sur un standard téléphonique en 2000 à partir de 40 conversations aléatoires entre deux personnes dont la langue maternelle est l'anglais.

    Dire qu'on a atteint le niveau d'un humain en reconnaissance vocale dans les conversations, en se basant uniquement sur un ensemble de conversations d'un standard téléphonique, c'est comme dire qu'une voiture robotisée roule aussi bien qu'une personne, après l'avoir testée dans une seule ville par une journée ensoleillée sans aucune circulation. Les changements récents dans la reconnaissance vocale sont étonnants. Mais les affirmations sur la reconnaissance vocale au niveau humain sont trop audacieuses. Voici quelques domaines où des améliorations doivent encore être apportées.

    Accents et bruit

    L'un des inconvénients évidents de la reconnaissance vocale est le traitement accents et le bruit de fond. La raison principale en est que la plupart des données d'apprentissage consistent en des dialectes américains avec un rapport signal/bruit élevé. Par exemple, dans un ensemble de conversations provenant d'un standard téléphonique, il n'y a que des conversations de personnes dont la langue maternelle est l'anglais (principalement des américains) avec peu de bruit de fond.

    Mais l'augmentation des données d'entraînement ne résoudra probablement pas ce problème. Il existe de nombreuses langues contenant de nombreux dialectes et accents. Il n'est pas réaliste de collecter des données étiquetées pour tous les cas. La création d'un outil de reconnaissance vocale de haute qualité pour l'anglais américain ne nécessite que jusqu'à 5 000 heures d'audio transcrites en texte.


    Comparaison des personnes de la parole au texte avec Deep Speech 2 de Baidu sur différents types de discours. Les gens reconnaissent moins bien les accents non américains, peut-être à cause de l'abondance d'Américains parmi eux. Je pense que les gens qui ont grandi dans une région particulière auraient réussi à reconnaître l'accent de cette région avec beaucoup moins d'erreurs.

    En présence de bruit de fond dans une voiture en mouvement, le rapport signal sur bruit peut descendre jusqu'à -5 dB. Les gens font facilement face à la reconnaissance vocale d'une autre personne dans de telles conditions. Les reconnaissances automatiques se dégradent beaucoup plus rapidement à mesure que le bruit augmente. Le graphique montre de combien la séparation des personnes augmente avec l'augmentation du bruit (à faible SNR, rapport signal sur bruit)

    Erreurs sémantiques

    Souvent, le nombre de mots reconnus par erreur n'est pas une fin en soi pour un système de reconnaissance vocale. Nous ciblons le nombre d'erreurs sémantiques. C'est la proportion d'expressions dont nous reconnaissons incorrectement le sens.

    Un exemple d'erreur sémantique est lorsque quelqu'un dit "rencontrons-nous mardi" [rencontrons-nous mardi] et que le module de reconnaissance renvoie "rencontrons-nous aujourd'hui" [rencontrons-nous aujourd'hui]. Il y a aussi des erreurs dans les mots sans erreurs sémantiques. Si le résolveur ne reconnaissait pas "up" et retournait "rencontrons-nous mardi", la sémantique de la phrase ne changeait pas.

    Nous devons utiliser soigneusement le nombre de mots mal identifiés comme étalon. Pour illustrer cela, je vais vous donner un exemple du pire des cas. 5% des erreurs de mots correspondent à un mot manquant sur 20. S'il y a 20 mots dans chaque phrase (ce qui est tout à fait dans la moyenne de l'anglais), alors le nombre de phrases mal reconnues approche les 100%. On peut espérer que les mots mal reconnus ne changent pas le sens sémantique des phrases. Sinon, le module de reconnaissance peut mal interpréter chaque phrase même avec 5 % de mots mal reconnus.

    Lors de la comparaison de modèles avec des personnes, il est important de vérifier l'essence des erreurs et de surveiller non seulement le nombre de mots incorrectement reconnus. D'après mon expérience, les personnes qui utilisent la synthèse vocale font moins d'erreurs et ne sont pas aussi sérieuses que les ordinateurs.

    Des chercheurs de Microsoft ont récemment comparé les erreurs de reconnaissances humaines et informatiques d'un niveau similaire. L'une des différences constatées est que le modèle confond "euh" [uh…] avec "uh huh" [yeah] beaucoup plus souvent que les gens. Les deux termes ont une sémantique très différente : "uh" comble les lacunes, tandis que "uh huh" dénote un accusé de réception de la part de l'auditeur. En outre, les modèles et les personnes ont trouvé de nombreuses erreurs de types correspondants.

    Plusieurs voix sur un seul canal

    La reconnaissance des conversations téléphoniques enregistrées est également plus facile car chaque intervenant a été enregistré sur un microphone séparé. Il n'y a pas de chevauchement de plusieurs voix dans un canal audio. Les gens peuvent comprendre plusieurs locuteurs, parlant parfois en même temps.

    Un bon système de reconnaissance vocale doit être capable de diviser le flux audio en segments en fonction du locuteur (le soumettre à une diarisation). Il doit aussi extraire du sens d'un enregistrement audio à deux voix superposées (séparation des sources). Cela doit être fait sans microphone situé directement à la bouche de chacun des haut-parleurs, c'est-à-dire pour que le reconnaisseur fonctionne bien lorsqu'il est placé à un endroit arbitraire.

    Qualité d'enregistrement

    Les accents et le bruit de fond ne sont que deux facteurs contre lesquels un système de reconnaissance vocale doit être robuste. En voici quelques autres :

    Réverbération dans différentes conditions acoustiques.
    Artefacts associés à l'équipement.
    Artefacts du codec utilisé pour enregistrer et compresser le signal.
    Fréquence d'échantillonnage.
    L'âge du locuteur.

    La plupart des gens ne peuvent pas faire la différence entre les fichiers mp3 et wav. Les reconnaisseurs doivent devenir robustes à ces sources de variation avant de revendiquer des performances de type humain.

    Contexte

    On peut voir que le nombre d'erreurs que les gens font sur les tests dans les enregistrements du central téléphonique est assez élevé. Si vous parliez à un ami qui ne comprenait pas 1 mot sur 20, il vous serait très difficile de communiquer.

    L'une des raisons en est la reconnaissance sans contexte. Dans la vraie vie, nous utilisons de nombreux signes supplémentaires différents pour nous aider à comprendre ce que dit l'autre personne. Quelques exemples de contexte utilisé par les humains et ignoré par les systèmes de reconnaissance vocale :

    L'historique de la conversation et le sujet en discussion.
    Indices visuels sur l'orateur - expressions faciales, mouvement des lèvres.
    L'ensemble des connaissances sur la personne à qui nous parlons.

    La reconnaissance vocale d'Android dispose désormais d'une liste de vos contacts, ce qui lui permet de reconnaître les noms de vos amis. La recherche vocale sur les cartes utilise la géolocalisation pour affiner les options vers lesquelles vous souhaitez obtenir un itinéraire.

    La précision des systèmes de reconnaissance augmente avec l'inclusion de tels signaux dans les données. Mais nous commençons seulement à nous plonger dans le type de contexte que nous pourrions inclure dans le traitement et comment l'utiliser.

    Déploiement

    Les progrès récents dans la reconnaissance du langage parlé ne peuvent pas être déployés. Lorsque vous envisagez de déployer un algorithme de reconnaissance vocale, vous devez garder à l'esprit la latence et la puissance de traitement. Ces paramètres sont liés car les algorithmes qui augmentent les besoins en énergie augmentent également la latence. Mais pour plus de simplicité, nous les aborderons séparément.

    Latence : le temps écoulé entre la fin du discours de l'utilisateur et la fin de la réception de la transcription. Un petit retard est une exigence typique pour la reconnaissance. Cela affecte grandement l'expérience de travail de l'utilisateur avec le produit. Il y a souvent une limite de dizaines de millisecondes. Cela peut sembler trop strict, mais rappelez-vous que l'émission d'un relevé de notes est généralement la première étape d'une série de calculs compliqués. Par exemple, dans le cas d'une recherche vocale sur Internet, après la reconnaissance vocale, il faut encore avoir le temps de terminer la recherche.

    Les couches récurrentes bidirectionnelles sont un exemple typique d'amélioration qui aggrave la situation de latence. Tous les derniers résultats de transcription de haute qualité sont obtenus avec leur aide. Le seul problème est que nous ne pouvons rien compter au-delà de la première couche bidirectionnelle tant que la personne n'a pas fini de parler. Par conséquent, le délai augmente avec la durée de la peine.


    Gauche : la récurrence directe permet au décryptage de commencer immédiatement. À droite : la récurrence bidirectionnelle nécessite d'attendre la fin du discours avant de commencer à transcrire.

    Un bon moyen d'intégrer efficacement les informations futures dans la reconnaissance vocale est toujours à la recherche.

    Puissance de calcul : Ce paramètre est impacté par des contraintes économiques. Vous devez tenir compte du coût du banquet pour chaque amélioration de la précision du reconnaisseur. Si une amélioration n'atteint pas le seuil économique, elle ne pourra pas la déployer.

    Un exemple classique d'amélioration continue qui n'est jamais déployé est l'apprentissage collaboratif en profondeur. Réduire le nombre d'erreurs de 1 à 2 % justifie rarement une augmentation de la puissance de calcul de 2 à 8 fois. Les modèles modernes de réseaux récurrents entrent également dans cette catégorie, car ils sont très peu rentables à utiliser dans la recherche d'un tas de trajectoires, bien que je pense que la situation changera à l'avenir.

    Je tiens à clarifier - je ne dis pas que l'amélioration de la précision de la reconnaissance avec une augmentation importante des coûts de calcul est inutile. Nous avons déjà vu comment le principe «d'abord lentement, mais précisément, puis rapidement» fonctionnait dans le passé. Le fait est que tant que l'amélioration n'est pas assez rapide, elle ne peut pas être utilisée.

    Au cours des cinq prochaines années

    Il existe encore de nombreux problèmes non résolus et complexes dans le domaine de la reconnaissance vocale. Parmi eux:

    Extension des capacités des nouveaux systèmes de stockage de données, reconnaissance des accents, parole sur fond de bruit fort.
    L'inclusion du contexte dans le processus de reconnaissance.
    Diarisation et séparation des sources.
    Le nombre d'erreurs sémantiques et les méthodes innovantes d'évaluation des reconnaisseurs.
    Très peu de retard.

    J'attends avec impatience les progrès qui seront réalisés au cours des cinq prochaines années sur ces fronts et sur d'autres.

    Balises : Ajouter des balises

    Le contrôle de l'écran tactile est déjà standard. Les derniers systèmes comme Windows 8 « comprennent » les commandes vocales, la reconnaissance vocale devrait rendre notre communication avec l'ordinateur encore plus facile, plus intuitive et… plus naturelle. Je vais vous dire à quoi ça ressemble aujourd'hui.

    Un peu d'histoire - comment la communication avec la machine s'est développée

    Les moyens de communiquer avec un ordinateur ont évolué au fil des ans. La première interface à travers laquelle une personne pouvait émettre des commandes était les cartes perforées, qui remontent à 1832. Ils étaient utilisés dans des machines pour la production de tissu. Le clavier a commencé à être utilisé en 1960. Deux décennies plus tard, la souris standard a rejoint et est toujours utilisée aujourd'hui. Bien que la souris partage le pouvoir avec le trackpad, c'est toujours la forme de contrôle la plus populaire. Grâce aux smartphones et aux tablettes, l'interface tactile et les gestes sont devenus très populaires, qui servent notamment à contrôler la Xbox 360 Kinect. Après les écrans tactiles et les gestes, vient la commande vocale, mais cette solution était jusqu'à présent tellement sous-développée que parfois on n'en entendait pas parler.

    Configuration de la reconnaissance vocale dans Windows 8

    Malheureusement, la commande vocale n'est pas encore disponible en russe. Actuellement pris en charge sont l'anglais, le français, l'allemand, le japonais, le coréen, le chinois et l'espagnol. Microsoft a décidé de se concentrer sur les pays les plus grands et les plus développés, mais il est possible que pendant un certain temps, il ajoute également cette fonctionnalité pour notre pays. Si vous essayez de le faire fonctionner, il jure comme ça

    Si vous souhaitez toujours tester cette solution, vous devez configurer le système (changer de langue) et apprendre quelques mots en anglais. Pour ce faire, vous devez accéder au panneau de configuration et sélectionner l'élément Langue. Si vous n'avez pas d'autre langue que le russe, vous devez cliquer sur le bouton "Ajouter une langue", puis sélectionner l'une des langues prises en charge. Dans notre cas, il s'agit de "English (United States)". Nous voyons que seule la mise en page dans cette langue est disponible, double-cliquez, la disponibilité de la langue pour l'interface sera vérifiée, après vérification, cliquez sur "Télécharger et installer le pack de langue", et le processus démarrera, attendez patiemment qu'il charger. Une fois ce processus terminé, définissez la langue par défaut sur l'anglais

    Vous devez maintenant accéder à l'écran de démarrage de Windows 8 (carrelé), tapez "Windows Speech Recognition" dans la zone de recherche et appuyez sur Entrée.

    Ainsi, vous pouvez lancer l'outil de reconnaissance vocale. Lorsque vous démarrez pour la première fois, il vous invite à configurer le microphone, après avoir choisi, dites quelque chose à vérifier.

    Proposez ensuite de suivre des cours de formation. Ils durent jusqu'à 15-20 minutes, mais sont très utiles et fournissent des informations de base sur l'utilisation des fonctionnalités. Mais si vous n'êtes pas fort en anglais, je pense qu'il ne faut pas perdre de temps, il sera difficile de comprendre quoi que ce soit, allez directement au combat

    Comment travailler

    Pour que l'ordinateur commence à reconnaître votre parole, vous devez dire "commencer à écouter" (ce qui signifie commencer à écouter) ou appuyer sur le bouton du microphone pour démarrer le mode d'écoute. Vous pouvez maintenant ouvrir l'application ou simplement dicter des mots dans un éditeur de texte, un navigateur ou une barre de recherche

    Que pouvons-nous faire

    En principe, les possibilités sont énormes, en plus des mots standards, vous pouvez créer vos propres équipes. Les principales caractéristiques sont présentées dans le tableau

    Action Quoi dire
    Sélectionnez n'importe quel élément par son nom Cliquez sur Fichier, Démarrer, Afficher
    Sélectionnez n'importe quel élément ou icône Cliquez sur Corbeille, Cliquez sur Ordinateur, Cliquez sur (nom du fichier)
    Double-cliquez ou double-cliquez sur n'importe quel élément Double-cliquez sur Corbeille, Double-cliquez sur Ordinateur
    Basculer entre les applications ouvertes Passez à Paint, passez à WordPad

    défilement

    faites défiler vers le haut ; défiler vers le bas;
    faites défiler vers la gauche ; Faites défiler vers la droite

    Inclure un nouveau paragraphe ou une nouvelle ligne dans le document

    nouveau paragraphe ; nouvelle ligne

    Sélectionner un mot dans un document

    Correction de mots

    le bon mot

    Sélectionner et supprimer certains mots

    Afficher une liste des commandes applicables

    Actualiser les commandes vocales

    Activer le mode d'écoute

    Désactiver le mode d'écoute

    Réduire le microphone

    Minimiser la reconnaissance vocale

    Afficher l'aide et le support Windows

    Comment puis-je faire quelque chose ?
    Par exemple : Comment installer une imprimante ?

    Si vous ne savez pas comment prononcer la phrase, je vous suggère d'utiliser Google Translate ou http://tutor.ru (il a mieux compris ce site)

    J'avais envie d'écrire mes équipes composées de simples mots bourgeois. Que je peux prononcer. Il ne m'a donc pas laissé faire cela, il n'a pas pu démarrer l'éditeur de commandes. En conséquence, il a parfaitement compris ma prononciation des mots Un, Deux et Ouvert. Avec cet ensemble, vous pouvez lancer l'application par numéro dans l'écran d'accueil. Dites d'abord le numéro, puis dites OUVERT. Pas beaucoup, bien sûr, mais je considère l'expérience comme un succès. Ce ne serait pas mal si Microsoft introduisait la langue russe, un bon remplacement pour la télécommande.

    Le système d'exploitation Windows 7 est doté de nombreuses options qui offrent de plus en plus de possibilités aux utilisateurs de ce système. Ils ont pu y introduire une fonction très intéressante, qui s'appelle la "reconnaissance vocale". Mais quel est ce système ? Cela sera discuté.

    L'option en question permet aux applications du système d'utiliser une toute nouvelle façon d'interagir avec l'ordinateur. Il s'agit du système de reconnaissance vocale de Windows 7 qui vous permet de contrôler votre ordinateur sans utiliser de clavier, de souris ou d'autres moyens.

    Je tiens à souligner que cette innovation sera disponible dans d'autres produits Microsoft. Cette fonctionnalité a été remarquée un peu plus tôt, c'est-à-dire qu'ils ont essayé de l'implémenter dans Windows Vista, mais dans la septième version du système d'exploitation Microsoft, le contrôle vocal est effectué à un niveau supérieur à celui de son prédécesseur. Pour faire simple, une option telle que la reconnaissance vocale de Windows 7 est devenue encore plus fonctionnelle.

    En plus de tout ce qui a été dit, je tiens à souligner qu'il a un éventail d'applications assez large. Les utilisateurs de Windows 7 avec reconnaissance vocale ont la possibilité d'exécuter des programmes et de convertir tous les fragments sonores en texte, d'exécuter toutes sortes de commandes sur l'ordinateur, en utilisant uniquement leur voix et les appareils nécessaires. Mais que faut-il pour faire de la reconnaissance vocale de Windows 7 une réalité ?

    Tout d'abord, vous aurez besoin d'un microphone, qui doit être connecté à votre ordinateur. De plus, vous devez acheter une application ou un programme spécial publié par le fabricant lui-même, c'est-à-dire par Microsoft. Une fois tous les composants nécessaires installés et le microphone connecté à l'ordinateur, un certain plan de travail doit être mis en œuvre :

    • Vous devez exécuter des commandes vocales de test et les convertir en texte.
    • Après avoir formé le programme de reconnaissance, vous devrez créer des modèles pour différentes commandes avec votre voix. C'est sur la base de ce travail que l'ordinateur pourra accepter et exécuter toutes les commandes que vous spécifiez.

    La fonction de reconnaissance vocale de Windows 7 est utilisée dans l'éditeur de texte WordPad de Microsoft. Il fonctionne parfaitement lors du remplissage de divers formulaires, et fonctionne également bien dans Internet Explorer et lorsque

    De plus, cette option éditera facilement le texte précédemment enregistré en définissant des commandes vocales spéciales. Bien sûr, lors du processus de reconnaissance d'une tâche particulière, des erreurs typiques se produisent (lorsqu'une reconnaissance erronée de certains sons se produit). Dans ce cas, le programme fournit une liste de correspondances de certains mots.

    La fonction, bien sûr, est phénoménale, mais il y a toujours un "mais". Le fait est que la reconnaissance de la parole russe n'est désormais, en principe, pas disponible. Il existe d'excellentes versions du programme en anglais, français, allemand et japonais. Il existe également des versions pour le chinois, l'espagnol et l'italien.

    Mais cette nouveauté n'est pas tout à fait adaptée au discours russe. Votre ordinateur ne pourra pas percevoir les tâches qui lui sont assignées, ce qui signifie qu'il vous sera plus facile d'écrire quelque chose avec le clavier ou d'effectuer certaines tâches avec la souris.

    Bien sûr, vous pouvez essayer de travailler avec des programmes similaires en russe ou donner votre préférence à l'anglais, mais il reste à espérer que bientôt la reconnaissance vocale en russe sera également disponible en mode haute qualité. Et à ce moment-là, vous pourrez essayer une fonction aussi unique dans la pratique. Après tout, cela simplifie sans aucun doute clairement le travail sur un ordinateur personnel et constitue une énorme percée dans le domaine de la programmation. Il ne reste donc plus qu'à patienter.

    Aucun programme ne peut complètement remplacer le travail manuel de transcription de la parole enregistrée. Cependant, il existe des solutions qui peuvent considérablement accélérer et faciliter la traduction de la parole en texte, c'est-à-dire simplifier la transcription.

    La transcription est l'enregistrement d'un fichier audio ou vidéo sous forme de texte. Il existe des tâches payantes sur Internet, lorsqu'une certaine somme d'argent est versée à l'interprète pour la transcription d'un texte.

    La traduction de la parole en texte est utile

    • les étudiants à traduire des cours audio ou vidéo enregistrés en texte,
    • les blogueurs qui dirigent des sites Web et des blogs,
    • des écrivains, des journalistes pour écrire des livres et des textes,
    • les hommes d'affaires d'information qui ont besoin d'un texte après leur webinaire, discours, etc.,
    • les personnes qui ont du mal à taper - elles peuvent dicter une lettre et l'envoyer à des parents ou à des amis,
    • autres options.

    Nous décrirons les outils les plus efficaces disponibles sur PC, les applications mobiles et les services en ligne.

    1 Site speechpad.ru

    Il s'agit d'un service en ligne qui vous permet de traduire la parole en texte via le navigateur Google Chrome. Le service fonctionne avec un microphone et avec des fichiers prêts à l'emploi. Bien sûr, la qualité sera bien meilleure si vous utilisez un microphone externe et que vous vous dictez vous-même. Cependant, le service fait du bon travail même avec les vidéos YouTube.

    Cliquez sur "Activer l'enregistrement", répondez à la question sur "Utiliser un microphone" - pour cela, cliquez sur "Autoriser".

    La longue instruction sur la façon d'utiliser le service peut être réduite en cliquant sur le bouton 1 de la fig. 3. Vous pouvez vous débarrasser de la publicité en passant par une simple inscription.

    Riz. 3. Clavier de service

    Le résultat final est facile à modifier. Pour ce faire, vous devez soit corriger manuellement le mot en surbrillance, soit le dicter à nouveau. Les résultats des travaux sont enregistrés dans votre compte personnel, ils peuvent également être téléchargés sur votre ordinateur.

    Liste des didacticiels vidéo sur l'utilisation du speechpad :

    Vous pouvez retranscrire des vidéos depuis Youtube ou depuis votre ordinateur, cependant, il vous faudra un mixeur, plus de détails :

    Vidéo "transcription audio"

    Le service fonctionne en sept langues. Il y a un petit moins. Cela réside dans le fait que si vous avez besoin de transcrire un fichier audio fini, son son est distribué aux haut-parleurs, ce qui crée des interférences supplémentaires sous la forme d'un écho.

    2 Service dictée.io

    Un merveilleux service en ligne qui vous permettra de traduire la parole en texte gratuitement et facilement.

    Riz. 4. Service dictée.io

    1 sur la fig. 4 - La langue russe peut être sélectionnée à la fin de la page. Dans le navigateur Google Chrome, la langue est sélectionnée, mais dans Mozilla, pour une raison quelconque, cette possibilité n'existe pas.

    Il est à noter que la possibilité d'enregistrer automatiquement le résultat final est implémentée. Cela empêchera une suppression accidentelle à la suite de la fermeture d'un onglet ou d'un navigateur. Ce service ne reconnaît pas les fichiers finis. Fonctionne avec un microphone. Vous devez nommer les signes de ponctuation lorsque vous dictez.

    Le texte est reconnu assez correctement, il n'y a pas de fautes d'orthographe. Vous pouvez insérer vous-même des signes de ponctuation à partir du clavier. Le résultat final peut être enregistré sur votre ordinateur.

    3 vrais haut-parleurs

    Ce programme vous permet de traduire facilement la parole humaine en texte. Il est conçu pour fonctionner sur différents systèmes : Windows, Android, Linux, Mac. Avec son aide, vous pouvez convertir la parole qui sonne dans un microphone (par exemple, elle peut être intégrée dans un ordinateur portable), ainsi que enregistrée dans des fichiers audio.

    Peut percevoir 13 langues du monde. Il existe une version bêta du programme qui fonctionne comme un service en ligne :

    Vous devez suivre le lien ci-dessus, sélectionner la langue russe, télécharger votre fichier audio ou vidéo sur le service en ligne et payer sa transcription. Après la transcription, vous pouvez copier le texte reçu. Plus le fichier à transcrire est volumineux, plus il faudra de temps pour le traiter, plus de détails :

    En 2017, il y avait une option de transcription gratuite utilisant RealSpeaker, en 2018, il n'y a pas une telle possibilité. Il est très gênant que le fichier transcrit soit disponible pour tous les utilisateurs en téléchargement, peut-être que cela sera finalisé.

    Les contacts du développeur (VKontakte, Facebook, Youtube, Twitter, e-mail, téléphone) du programme se trouvent sur la page de son site Web (plus précisément, dans le pied de page du site) :

    4 Enregistreur vocal

    Une alternative à l'application précédente pour les appareils mobiles fonctionnant sous Android. Disponible gratuitement dans l'App Store :

    Le texte est édité automatiquement, des signes de ponctuation y sont placés. Idéal pour dicter des notes ou faire des listes. En conséquence, le texte se révélera d'une qualité très décente.

    5 Dragon Dictée

    Il s'agit d'une application distribuée gratuitement pour les appareils mobiles d'Apple.

    Le programme peut fonctionner avec 15 langues. Il vous permet d'éditer le résultat, de sélectionner les mots souhaités dans la liste. Il est nécessaire de prononcer clairement tous les sons, de ne pas faire de pauses inutiles et d'éviter l'intonation. Parfois, il y a des erreurs dans la fin des mots.

    L'application Dragon Dictation est utilisée par les propriétaires, par exemple, pour dicter la liste des courses dans le magasin tout en se déplaçant dans l'appartement. J'y viendrai, il sera possible de regarder le texte dans la note, et il n'y a pas besoin d'écouter.

    Quel que soit le programme que vous utilisez dans votre pratique, soyez prêt à revérifier le résultat et à faire certains ajustements. C'est le seul moyen d'obtenir un texte impeccable sans erreurs.

    Services également utiles :

    Recevez des articles à jour sur la culture informatique directement dans votre boîte de réception.
    Déjà plus 3.000 abonnés

    .