El problema del reconocimiento de voz aún no se ha resuelto. Activar y desactivar el reconocimiento de voz automático Configurar el reconocimiento de voz en Windows 7

Windows Vista es el primer sistema operativo de Microsoft que incluye capacidades de reconocimiento de voz. Con esta función, puede realizar diversas tareas con su voz, como iniciar programas, cerrar, guardar y eliminar archivos, dictar texto que se grabará palabra por palabra y editarlo. Deb Shinder, consultora de TI, le explica cómo utilizar esta función.

Desde el estreno de la película Star Trek, muchos usuarios de ordenadores han soñado con deshacerse de teclados y ratones y controlar su ordenador con la voz. Los programas que permitían pronunciar comandos y dictar texto a una computadora se habían desarrollado durante muchos años y eran muy útiles para aquellos que físicamente no podían usar otros métodos de entrada. Pero por alguna razón estos programas no eran populares.

Windows Vista es el primer sistema operativo de Microsoft que puede reconocer el habla. Anteriormente, la función de reconocimiento de voz estaba presente en Microsoft Office XP y Office 2003, y también se podían utilizar programas de otros desarrolladores, como Dragon NaturallySpeaking. Microsoft también ha agregado una función de reconocimiento de voz a Windows Mobile.

Para empezar a hablar con tu ordenador no necesitas comprar nada extra, Vista ya lo tiene todo para ello. La función está deshabilitada de forma predeterminada, pero puede iniciarla fácilmente desde el Panel de control, como se muestra en la Figura A.

También puede iniciar esta función desde el menú seleccionando Todos los programas | Estándar | Accesibilidad (Todos los programas | Accesorios | Facilidad de acceso), como se muestra en la Figura B.

Cómo funciona

Puede elegir uno de los dos modos operativos de reconocimiento de voz:

Para administrar programas: inicie y cierre programas, cambie entre ellos, guarde y elimine archivos, etc.
Dictar texto que será escrito palabra por palabra, así como editarlo.

Los desarrolladores de software pueden agregar soporte para esta función a sus programas. Es una pena que el reconocimiento de voz actualmente sólo admita unos pocos idiomas: inglés (EE. UU. y Reino Unido), alemán, francés, español, japonés y chino (tradicional y simplificado).

Configurar el reconocimiento de voz

Antes de poder utilizar el reconocimiento de voz, deberá completar los siguientes pasos:

Activa el reconocimiento de voz.
Configure el micrófono.
Lea el manual (opcional).
Practica hablar con claridad (tampoco es necesario).

Después de hacer doble clic en Reconocimiento de voz en el Panel de control o seleccionar Reconocimiento de voz en el menú, se le presentará una ventana de configuración, que se muestra en la Figura C.

Cuando hace clic en Iniciar reconocimiento de voz, aparecerá un panel de control de voz en la parte superior de la pantalla, como se muestra en la Figura D.

Si ya ha configurado esta función, el socket se registrará en el inicio automático y se iniciará cada vez que se inicie Windows. También aparecerá un icono de control de voz azul en la bandeja.
Puede abrir el menú contextual para la configuración haciendo clic derecho en el icono de la bandeja o en el panel de control por voz, como se muestra en la Figura E.

En el menú verá las siguientes configuraciones:

Activar voz: La computadora escuchará todo lo que digas y seguirá los comandos que reconoce.
Modo de sueño: La computadora monitoreará su discurso, pero no responderá a ningún comando hasta que diga "Empiece a escuchar".
Apagado: La computadora no te escucha, no importa lo que le digas.
Hoja de referencia de reconocimiento de voz abierta (Tarjeta de referencia de voz abierta): Una práctica hoja de trucos con comandos básicos e información adicional.
Iniciar tutorial de discurso: Un vídeo tutorial donde te lo contarán y mostrarán todo.
Ayuda: Abre ayuda, un archivo de ayuda sobre esta función.
Opciones: Aquí puede configurar el programa para que se cargue con Windows, corrija el texto automáticamente, etc.
Configuración: Aquí puede ajustar su micrófono, mejorar el reconocimiento de voz y abrir el panel de control.
Abra el diccionario de voz: Puedes agregar nuevas palabras (muy útil para nombres y palabras difíciles de reconocer), y también puedes excluir palabras que nunca dices.
Tema de dictado: Aquí sólo puedes seleccionar Narrativa.
Visite el sitio web Ir al reconocimiento de voz.
Obtenga información sobre el reconocimiento de voz: Este es el conocido cuadro de diálogo de Windows, en el que están escritos la versión, el número de licencia y el nombre del programa.
Reconocimiento de voz abierto (Reconocimiento de voz abierto).
Salida: Cierra completamente el programa.

Traducción

Desde que el aprendizaje profundo entró en la escena del reconocimiento de voz, la cantidad de errores en el reconocimiento de palabras ha disminuido drásticamente. Pero a pesar de todos los artículos que hayas leído, todavía no tenemos reconocimiento de voz a nivel humano. Los reconocedores de voz tienen muchos modos de falla. Para seguir mejorando, es necesario identificarlos y tratar de eliminarlos. Ésta es la única manera de pasar del reconocimiento que funciona para algunas personas la mayor parte del tiempo al reconocimiento que funciona para todas las personas todo el tiempo.

Mejoras en el número de palabras reconocidas incorrectamente. En el año 2000 se recopiló un conjunto de voces de prueba en un conmutador telefónico a partir de 40 conversaciones aleatorias entre dos personas cuya lengua materna era el inglés.

Decir que hemos alcanzado el reconocimiento de voz a nivel humano en conversaciones basadas únicamente en un conjunto de conversaciones desde una centralita telefónica es lo mismo que decir que un coche robótico conduce tan bien como una persona, habiéndolo probado en una sola ciudad en un día soleado. Día sin tráfico. . Los recientes avances en el reconocimiento de voz son sorprendentes. Pero las afirmaciones sobre el reconocimiento de voz a nivel humano son demasiado audaces. Aquí hay algunas áreas en las que aún es necesario realizar mejoras.

Acentos y ruido

Una de las desventajas obvias del reconocimiento de voz es el procesamiento. acentos y ruido de fondo. La razón principal de esto es que la mayoría de los datos de entrenamiento consisten en habla estadounidense con una alta relación señal-ruido. Por ejemplo, un conjunto de conversaciones desde un conmutador telefónico contiene sólo conversaciones de personas cuyo idioma nativo es el inglés (en su mayoría estadounidenses) con poco ruido de fondo.

Pero el aumento de los datos de entrenamiento por sí solo probablemente no resuelva este problema. Hay muchos idiomas que contienen muchos dialectos y acentos. No es realista recopilar datos etiquetados para todos los casos. Crear un reconocedor de voz de alta calidad sólo para inglés americano requiere hasta 5 mil horas de grabaciones de audio traducidas a texto.

Comparación de convertidores humanos de voz a texto con Deep Speech 2 de Baidu en diferentes tipos de voz. La gente reconoce peor los acentos no estadounidenses, tal vez debido a la abundancia de estadounidenses entre ellos. Creo que las personas que crecieron en una determinada región cometerían muchos menos errores al reconocer el acento de esa región.

En presencia de ruido de fondo en un coche en movimiento, la relación señal/ruido puede alcanzar valores de -5 dB. Las personas se las arreglan fácilmente para reconocer el habla de otra persona en tales condiciones. Los reconocedores automáticos se deterioran mucho más rápido a medida que aumenta el ruido. El gráfico muestra cuánto aumenta la brecha entre las personas al aumentar los valores de ruido (a baja SNR, relación señal-ruido).

Errores semánticos

A menudo, el número de palabras reconocidas incorrectamente no es el objetivo en sí mismo de un sistema de reconocimiento de voz. Nos centramos en el número de errores semánticos. Ésta es la proporción de expresiones en las que reconocemos incorrectamente el significado.

Un ejemplo de error semántico es cuando alguien sugiere "reunámonos el martes" y el solucionador devuelve "reunámonos hoy". También hay errores en palabras sin errores semánticos. Si el reconocedor no reconoció "arriba" y respondió "nos vemos el martes", la semántica de la oración no cambió.

Debemos utilizar con cuidado como criterio el número de palabras reconocidas incorrectamente. Para ilustrar esto, les daré un ejemplo del peor de los casos posibles. El 5% de los errores en las palabras corresponde a una palabra faltante entre 20. Si cada oración contiene 20 palabras (lo cual es bastante promedio para el idioma inglés), entonces el número de oraciones reconocidas incorrectamente se acerca al 100%. Se puede esperar que las palabras mal reconocidas no cambien el significado semántico de las oraciones. De lo contrario, el reconocedor puede descifrar incorrectamente cada oración incluso con un 5% de palabras reconocidas incorrectamente.

Al comparar modelos con personas, es importante comprobar la esencia de los errores y controlar no sólo la cantidad de palabras reconocidas incorrectamente. En mi experiencia, las personas que traducen voz a texto cometen menos errores y no son tan graves como los que cometen las computadoras.

Los investigadores de Microsoft compararon recientemente los errores de los reconocedores humanos y de computadoras de niveles similares. Una de las diferencias encontradas es que el modelo confunde “uh” [uh-uh...] con “uh huh” [uh-huh] mucho más a menudo que las personas. Los dos términos tienen una semántica muy diferente: "uh" llena las pausas, mientras que "uh huh" denota reconocimiento por parte del oyente. Además, se encontraron muchos errores del mismo tipo en modelos y personas.

Muchas voces en un canal.

También fue más fácil reconocer las conversaciones telefónicas grabadas porque cada orador fue grabado en un micrófono separado. No hay superposición de varias voces en un canal de audio. Las personas pueden entender a varios hablantes, a veces hablando simultáneamente.

Un buen reconocedor de voz debería poder dividir el flujo de audio en segmentos según el hablante (sujeto a diarización). También debe extraer significado de una grabación de audio con dos voces superpuestas (separación de fuentes). Esto debe hacerse sin un micrófono ubicado directamente en la boca de cada hablante, es decir, para que el reconocedor funcione bien si se coloca en una ubicación arbitraria.

Calidad de grabación

Los acentos y el ruido de fondo son sólo dos factores a los que un reconocedor de voz debe ser resistente. Aquí hay algunos más:

Reverberación en diferentes condiciones acústicas.
Artefactos relacionados con el equipo.
Artefactos del códec utilizados para grabar y comprimir la señal.
Frecuencia de muestreo.
La edad del hablante.

La mayoría de la gente no puede distinguir entre grabaciones mp3 y wav. Antes de que puedan afirmar un rendimiento comparable al de los humanos, los reconocedores deben volverse resistentes a estas fuentes de variación.

Contexto

Puede observar que la cantidad de errores que cometen las personas durante las pruebas en las grabaciones de una central telefónica es bastante alta. Si estuvieras hablando con un amigo que no entendiera 1 palabra de 20, te resultaría muy difícil comunicarte.

Una de las razones de esto es el reconocimiento sin tener en cuenta el contexto. En la vida real, utilizamos muchas señales adicionales diferentes para ayudarnos a comprender lo que dice otra persona. Algunos ejemplos de contexto utilizado por humanos que los reconocedores de voz ignoran:

La historia de la conversación y el tema que se está discutiendo.
Pistas visuales sobre el hablante: expresiones faciales, movimientos de los labios.
El conjunto de conocimientos sobre la persona con la que estamos hablando.

Hoy en día, el reconocedor de voz de Android tiene una lista de tus contactos, por lo que puede reconocer los nombres de tus amigos. La búsqueda por voz en mapas utiliza la geolocalización para limitar las opciones a las que desea obtener indicaciones.

La precisión de los sistemas de reconocimiento aumenta con la inclusión de dichas señales en los datos. Pero apenas estamos comenzando a profundizar en el tipo de contexto que podríamos incluir en el procesamiento y cómo podemos usarlo.

Despliegue

Los avances recientes en el reconocimiento del lenguaje hablado no se pueden deshacer. Al imaginar la implementación de un algoritmo de reconocimiento de voz, es necesario tener en cuenta la latencia y la potencia de procesamiento. Estos parámetros están relacionados porque los algoritmos que aumentan los requisitos de energía también aumentan la latencia. Pero para simplificar, los analizaremos por separado.

Latencia: el tiempo desde que finaliza el discurso del usuario hasta que finaliza la recepción de la transcripción. Un pequeño retraso es un requisito típico para el reconocimiento. Influye en gran medida en la experiencia del usuario al trabajar con el producto. Las limitaciones de decenas de milisegundos son comunes. Esto puede parecer demasiado restrictivo, pero recuerde que producir una transcripción suele ser el primer paso de una serie de cálculos complejos. Por ejemplo, en el caso de la búsqueda por voz en Internet, después del reconocimiento de voz, aún necesita tiempo para realizar la búsqueda.

Las capas recurrentes bidireccionales son un ejemplo típico de una mejora que empeora la latencia. Con su ayuda se obtienen todos los últimos resultados de transcripción de alta calidad. El único problema es que no podemos contar nada después de que haya pasado la primera capa bidireccional hasta que la persona haya terminado de hablar. Por lo tanto, la demora aumenta con la duración de la sentencia.

Izquierda: la recurrencia directa permite que el descifrado comience inmediatamente. Derecha: la recurrencia bidireccional requiere esperar hasta el final del discurso antes de comenzar a transcribir.

Todavía se está buscando una buena manera de incorporar eficazmente información futura en el reconocimiento de voz.

Potencia de cálculo: este parámetro se ve afectado por limitaciones económicas. Se debe tener en cuenta el coste del banquete por cada mejora en la precisión del reconocedor. Si la mejora no alcanza el umbral económico, no se implementará.

Un ejemplo clásico de mejora continua que nunca se implementa es el aprendizaje profundo colaborativo. Reducir el número de errores entre un 1 y un 2% rara vez justifica un aumento de la potencia informática entre 2 y 8 veces. Los modelos modernos de redes recurrentes también entran en esta categoría, ya que no es rentable utilizarlos para buscar un montón de trayectorias, aunque creo que la situación cambiará en el futuro.

Quiero aclarar que no estoy diciendo que mejorar la precisión del reconocimiento con un aumento importante en los costos computacionales sea inútil. Ya hemos visto cómo funciona en el pasado el principio de “primero lento pero seguro, luego rápido”. La cuestión es que hasta que la mejora no sea lo suficientemente rápida, no se podrá utilizar.

En los próximos cinco años

Todavía quedan muchos problemas complejos y sin resolver en el campo del reconocimiento de voz. Entre ellos:

Ampliar las capacidades de nuevos sistemas de almacenamiento de datos, reconocimiento de acentos, habla en un contexto de ruido fuerte.
Incorporar el contexto al proceso de reconocimiento.
Diarización y separación de fuentes.
Número de errores semánticos y métodos innovadores para evaluar reconocedores.
Latencia muy baja.

Espero con interés los avances que se lograrán durante los próximos cinco años en estos y otros frentes.

Etiquetas: Agregar etiquetas

El control de pantalla táctil ya es estándar. Los sistemas más modernos, como Windows 8, “entienden” los comandos de voz y el reconocimiento de voz debería hacer que nuestra comunicación con el ordenador sea aún más sencilla, más intuitiva y... más natural. Te diré cómo luce hoy.

Un poco de historia: cómo se desarrolló la comunicación con la máquina

La forma en que nos comunicamos con una computadora ha evolucionado a lo largo de los años. La primera interfaz a través de la cual los humanos podían emitir comandos fueron las tarjetas perforadas, que datan de 1832. Se utilizaban en máquinas para fabricar telas. El teclado comenzó a utilizarse en 1960. Dos décadas después, se unió el ratón estándar y todavía se utiliza hoy en día. Aunque el mouse ha compartido sus poderes con el trackpad, sigue siendo el tipo de control más popular. Gracias a los teléfonos inteligentes y las tabletas, se han vuelto muy populares las interfaces táctiles y los gestos, que se utilizan, en particular, para controlar Xbox 360 Kinect. Después de las pantallas táctiles y los gestos viene el control por voz, pero esta solución hasta ahora está tan poco desarrollada que a veces ni siquiera oirás hablar de ella.

Configurar el reconocimiento de voz en Windows 8

Lamentablemente, el control por voz aún no está disponible en ruso. Los idiomas admitidos actualmente son inglés, francés, alemán, japonés, coreano, chino y español. Microsoft ha decidido centrarse en los países más grandes y desarrollados, pero es posible que con el tiempo añada esta característica también a nuestro país. Si intentas arrancarlo, jura así.

Si aún deseas probar esta solución, debes configurar el sistema (cambiar el idioma) y aprender algunas palabras en inglés. Para hacer esto, debe ir al panel de control y seleccionar Idioma. Si no tiene un idioma que no sea el ruso, debe hacer clic en el botón “Agregar idioma” y luego seleccionar uno de los idiomas admitidos. En nuestro caso es “inglés (EE.UU.)”. Vemos que solo está disponible el diseño en este idioma, hacemos doble clic, verificará la disponibilidad del idioma para la interfaz, luego de verificar, hacemos clic en "Descargar e instalar un paquete de idioma", y comenzará el proceso, espere pacientemente. que se cargue. Una vez que se complete este proceso, configure el idioma predeterminado en inglés.

Ahora debe ir a la pantalla de inicio de Windows 8 (en mosaico), ingresar "Reconocimiento de voz de Windows" en la búsqueda y presionar Enter.

Para que pueda ejecutar la herramienta de reconocimiento de voz. Cuando lo inicie por primera vez, le ofrecerá configurar el micrófono, luego de elegir, diga algo para verificar.

A continuación, ofrézcase a tomar lecciones de capacitación. Duran entre 15 y 20 minutos, pero son muy útiles y brindan información básica sobre cómo utilizar las funciones. Pero si no dominas el inglés, creo que no vale la pena perder el tiempo, será difícil entender algo, ve directamente a la batalla.

Como trabajar

Para que la computadora comience a reconocer su discurso, debe decir "comenzar a escuchar" (que significa comenzar a escuchar) o presionar el botón del micrófono para iniciar el modo de escucha. Ahora puedes abrir la aplicación o simplemente dictar palabras en un editor de texto, navegador o barra de búsqueda.

Qué podemos hacer

En principio, las posibilidades son enormes: además de las palabras estándar, puedes crear tus propios comandos. Las características principales se muestran en la tabla.

Acción	Qué decir
Selecciona cualquier elemento por su nombre	Haga clic en Archivo, Inicio, Ver
Selecciona cualquier elemento o icono	Haga clic en Papelera de reciclaje, haga clic en Computadora, haga clic en (nombre de archivo)
Haga doble clic o haga doble clic en cualquier elemento	Haga doble clic en Papelera de reciclaje, Haga doble clic en Computadora
Cambiar entre aplicaciones abiertas	Cambiar a Paint, cambiar a WordPad
Desplazarse	Desplazarse hacia arriba; Desplácese hacia abajo; Desplácese hacia la izquierda; Desplácese hacia la derecha
Incluir un nuevo párrafo o nueva línea en un documento	Nuevo párrafo; Nueva línea
Seleccione una palabra en el documento.
Corrección de palabras	Palabra correcta
Seleccionar y eliminar palabras específicas
Mostrar lista de comandos aplicables
	Actualizar comandos de voz
Activar el modo de escucha
Desactivar el modo de escucha
Contraer micrófono	Minimizar el reconocimiento de voz
Ver ayuda y soporte técnico de Windows	¿Cómo hago algo? Por ejemplo: ¿Cómo instalo una impresora?

Si no sabes pronunciar la frase, te sugiero que uses Google Translate o http://uchilochka.rf (él entendió mejor este sitio)

Tenía el deseo de escribir mis órdenes en simples palabras burguesas. Que puedo pronunciar. Entonces no me dejó hacer esto, no pudo iniciar el editor de comandos. Como resultado, entendió perfectamente mi pronunciación de las palabras Uno, Dos y Abierto. Con este dial, puede iniciar una aplicación por número en la pantalla de inicio. Primero diga el número, luego diga ABRIR. No mucho, por supuesto, pero considero que el experimento fue un éxito. No estaría mal que Microsoft introdujera el idioma ruso, un buen sustituto del mando a distancia.

El sistema operativo Windows 7 está equipado con muchas opciones que brindan cada vez más oportunidades a los usuarios de este sistema. Pudieron introducirle una función muy interesante, que se llama "reconocimiento de voz". ¿Pero qué es este sistema? De esto se tratará la conversación.

La opción en cuestión permite que las aplicaciones de todo el sistema utilicen una forma completamente nueva de interacción del usuario con la computadora. Es el sistema de reconocimiento de voz de Windows 7 que le permite controlar su computadora sin usar teclado, mouse u otros medios.

Me gustaría señalar que esta innovación estará disponible en otros productos de Microsoft. Esta función se notó un poco antes, es decir, intentaron implementarla en Windows Vista, pero en la séptima versión del sistema operativo de Microsoft el control por voz se realiza a un nivel superior en comparación con su predecesor. En pocas palabras, una opción como el reconocimiento de voz en Windows 7 se ha vuelto aún más funcional.

Además de todo lo dicho, me gustaría señalar que tiene un abanico de aplicaciones bastante amplio. Los usuarios de Windows 7 con reconocimiento de voz tienen la capacidad de ejecutar programas y convertir todos los fragmentos de sonido en texto, ejecutar todo tipo de comandos en la computadora, usando solo su voz y los dispositivos necesarios. Pero, ¿qué se necesita para que el reconocimiento de voz de Windows 7 sea una realidad?

En primer lugar, necesitará un micrófono, que deberá estar conectado a su computadora. Además, debe adquirir una aplicación o programa especial publicado por el propio fabricante, es decir, Microsoft. Una vez instalados todos los componentes necesarios y conectado el micrófono al ordenador, se debe implementar un plan de trabajo específico:

Debe ejecutar comandos de voz de prueba y convertirlos a texto.
Después de entrenar el programa de reconocimiento, necesitarás crear plantillas para diferentes comandos con tu voz. Es sobre la base de este trabajo que la computadora podrá aceptar y ejecutar todos los comandos que usted especifique.

La función de reconocimiento de voz de Windows 7 se utiliza en el editor de texto de Microsoft: WordPad. Funciona perfectamente al completar varios formularios y también funciona bien cuando se trabaja en Internet Explorer y cuando

Además, esta opción puede editar fácilmente texto grabado previamente definiendo comandos de voz especiales. Por supuesto, en el proceso de reconocer una tarea en particular, se producen errores típicos (cuando algunos sonidos se reconocen erróneamente). Para este caso, el programa proporciona una lista de correspondencias de determinadas palabras.

La función, por supuesto, es fenomenal, pero todavía hay un "pero". El caso es que el reconocimiento de voz en ruso es ahora, en principio, inaccesible. Existen excelentes versiones del programa para inglés, francés, alemán y japonés. También hay versiones para habla china, española e italiana.

Pero este nuevo producto no está totalmente adaptado al habla rusa. Su computadora no podrá percibir las tareas que se le asignan, lo que significa que le resultará más fácil escribir algo usando el teclado o realizar ciertas tareas con el mouse.

Por supuesto, puede intentar trabajar con programas similares en ruso o dar preferencia al idioma inglés, pero aún puede esperar que pronto el reconocimiento de voz en ruso también esté disponible en modo de alta calidad. Y ahí es cuando podrás probar en la práctica una característica tan única. Después de todo, esto, sin lugar a dudas, simplifica claramente el trabajo en una computadora personal y es un gran avance en el campo de la programación. Así que sólo queda esperar.

Ningún programa puede reemplazar completamente el trabajo manual de transcribir discursos grabados. Sin embargo, existen soluciones que pueden acelerar y facilitar significativamente la traducción de voz a texto, es decir, simplificar la transcripción.

La transcripción es la grabación de un archivo de audio o vídeo en forma de texto. Hay tareas remuneradas en Internet, cuando al intérprete se le paga una cierta cantidad de dinero por transcribir el texto.

La traducción de voz a texto es útil

estudiantes para traducir conferencias de audio o video grabadas a texto,
blogueros que ejecutan sitios web y blogs,
escritores, periodistas para escribir libros y textos,
empresarios de la información que necesitan un texto después de su seminario web, discurso, etc.,
personas que tienen dificultades para escribir: pueden dictar una carta y enviársela a familiares o amigos,
otras opciones.

Describiremos las herramientas más efectivas disponibles en PC, aplicaciones móviles y servicios en línea.

1 Sitio web discursopad.ru

Este es un servicio en línea que le permite traducir voz a texto utilizando el navegador Google Chrome. El servicio funciona con un micrófono y archivos ya preparados. Eso sí, la calidad será mucho mayor si utilizas un micrófono externo y dictas tú mismo. Sin embargo, el servicio hace un buen trabajo incluso con vídeos de YouTube.

Haga clic en "Habilitar grabación", responda la pregunta sobre "Usar un micrófono"; para hacer esto, haga clic en "Permitir".

Las largas instrucciones sobre el uso del servicio se pueden contraer haciendo clic en el botón 1 en la Fig. 3. Podrás deshacerte de la publicidad completando un simple registro.

Arroz. 3. Servicio de bloc de notas

El resultado final es fácil de editar. Para hacer esto, debe corregir manualmente la palabra resaltada o dictarla nuevamente. Los resultados del trabajo se guardan en su cuenta personal y también se pueden descargar a su computadora.

Lista de lecciones en video sobre cómo trabajar con el panel de voz:

Puedes transcribir videos de Youtube o desde tu computadora, sin embargo, necesitarás un mezclador, más detalles:

Vídeo "transcripción de audio"

El servicio funciona en siete idiomas. Hay un pequeño inconveniente. Se basa en el hecho de que si es necesario transcribir un archivo de audio terminado, su sonido se escucha a través de los parlantes, lo que crea una interferencia adicional en forma de eco.

2 Servicio dictado.io

Un maravilloso servicio en línea que le permite traducir voz a texto de forma gratuita y sencilla.

Arroz. 4. Servicio de dictado.io

1 en la figura. 4 – Se puede seleccionar el idioma ruso al final de la página. En el navegador Google Chrome, se selecciona el idioma, pero por alguna razón en Mozilla no existe esa opción.

Cabe destacar que se ha implementado la capacidad de guardar automáticamente el resultado final. Esto evitará la eliminación accidental como resultado de cerrar una pestaña o un navegador. Este servicio no reconoce archivos terminados. Funciona con micrófono. Debe nombrar signos de puntuación al dictar.

El texto se reconoce bastante correctamente, no hay errores ortográficos. Puede insertar signos de puntuación usted mismo desde el teclado. El resultado final se puede guardar en su computadora.

3 altavoz real

Este programa te permite traducir fácilmente el habla humana a texto. Está diseñado para funcionar en diferentes sistemas: Windows, Android, Linux, Mac. Con su ayuda, puede convertir el habla escuchada en un micrófono (por ejemplo, puede integrarse en una computadora portátil), así como grabarla en archivos de audio.

Puede comprender 13 idiomas del mundo. Existe una versión beta del programa que funciona como un servicio online:

Debe seguir el enlace de arriba, seleccionar el idioma ruso, cargar su archivo de audio o video en el servicio en línea y pagar por su transcripción. Después de la transcripción, puede copiar el texto resultante. Cuanto más grande sea el archivo para transcripción, más tiempo llevará procesarlo, más detalles:

En 2017 existía una opción de transcripción gratuita usando RealSpeaker, pero en 2018 ya no existe tal opción. Es muy confuso que el archivo transcrito esté disponible para que todos los usuarios lo descarguen; tal vez esto se mejore.

Los contactos del desarrollador (VKontakte, Facebook, Youtube, Twitter, correo electrónico, teléfono) del programa se pueden encontrar en la página de su sitio web (más precisamente, en el pie de página del sitio):

4 registrador de discursos

Una alternativa a la aplicación anterior para dispositivos móviles con Android. Disponible gratis en la tienda de aplicaciones:

El texto se edita automáticamente y se añaden signos de puntuación. Muy conveniente para dictarse notas o hacer listas. Como resultado, el texto tendrá una calidad muy decente.

5 Dictado del Dragón

Esta es una aplicación que se distribuye de forma gratuita para dispositivos móviles de Apple.

El programa puede funcionar con 15 idiomas. Le permite editar el resultado y seleccionar las palabras deseadas de la lista. Es necesario pronunciar claramente todos los sonidos, no hacer pausas innecesarias y evitar la entonación. A veces hay errores en las terminaciones de las palabras.

Los propietarios utilizan la aplicación Dragon Dictation, por ejemplo, para dictar una lista de compras en una tienda mientras se desplazan por el apartamento. Cuando llego allí, puedo mirar el texto de la nota y no tengo que escuchar.

Cualquiera que sea el programa que utilice en su práctica, esté preparado para comprobar los resultados y hacer ciertos ajustes. Ésta es la única manera de conseguir un texto impecable y sin errores.

También servicios útiles:

Reciba los últimos artículos sobre conocimientos informáticos directamente en su bandeja de entrada.
Ya mas 3.000 suscriptores