• Das Problem der Spracherkennung ist noch nicht gelöst. Automatische Spracherkennung ein- und ausschalten. Spracherkennung unter Windows 7 einrichten

    Windows Vista ist das erste Betriebssystem von Microsoft, das über eine integrierte Spracherkennung verfügt. Mit dieser Funktion können Sie verschiedene Aufgaben mit Ihrer Stimme ausführen, z. B. Programme starten, Dateien schließen, speichern und löschen, wörtlich aufzunehmenden Text diktieren und bearbeiten. Deb Shinder, IT-Beraterin, führt Sie durch die Details zur Verwendung dieser Funktion.

    Seit der Veröffentlichung des Star Trek-Films träumen viele Computerbenutzer davon, Tastaturen und Mäuse wegzuwerfen und ihren Computer mit ihrer Stimme zu steuern. Programme, mit denen man verschiedene Befehle aussprechen und einem Computer Text diktieren konnte, gibt es schon seit vielen Jahren und waren sehr nützlich für diejenigen, die körperlich nicht in der Lage waren, andere Eingabemethoden zu verwenden. Aber aus irgendeinem Grund waren diese Programme nicht beliebt.

    Windows Vista ist das erste Betriebssystem von Microsoft, das Sprache erkennen kann. Zuvor war die Spracherkennungsfunktion in Microsoft Office XP und Office 2003 vorhanden, es konnten aber auch Programme anderer Entwickler wie Dragon NaturallySpeaking verwendet werden. Microsoft hat Windows Mobile auch um Spracherkennung erweitert.

    Sie müssen nichts extra kaufen, um mit Ihrem Computer zu kommunizieren, Vista bietet bereits alles. Standardmäßig ist die Funktion deaktiviert, Sie können sie jedoch problemlos in der Systemsteuerung aktivieren, wie in Abbildung A dargestellt.

    Sie können diese Funktion auch über das Menü starten, indem Sie Alle Programme | auswählen Standard | Barrierefreiheit (Alle Programme | Zubehör | Einfacher Zugriff), wie in Abbildung B dargestellt.

    Wie es funktioniert

    Sie können einen von zwei Spracherkennungsmodi wählen:

    • So verwalten Sie Programme: Starten und schließen Sie Programme, wechseln Sie zwischen ihnen, speichern und löschen Sie Dateien usw.
    • Den Text zu diktieren, der wörtlich aufgenommen wird, und ihn zu bearbeiten.

    Softwareentwickler können ihren Programmen Unterstützung für diese Funktion hinzufügen. Ärgerlicherweise unterstützt die Spracherkennung derzeit nur wenige Sprachen: Englisch (USA und Großbritannien), Deutsch, Französisch, Spanisch, Japanisch und Chinesisch (traditionell und vereinfacht).

    Spracherkennung einrichten

    Bevor Sie die Spracherkennung verwenden können, müssen Sie die folgenden Schritte ausführen:

    • Aktivieren Sie die Spracherkennung.
    • Richten Sie das Mikrofon ein.
    • Lesen Sie das Handbuch (optional).
    • Üben Sie deutlich, sprechen Sie (auch nicht notwendig).

    Nachdem Sie in der Systemsteuerung auf „Spracherkennung“ doppelklicken oder „Spracherkennung“ aus dem Menü auswählen, wird ein Setup-Fenster angezeigt, wie in Abbildung C dargestellt.


    Wenn Sie auf „Spracherkennung starten“ klicken, wird oben auf Ihrem Bildschirm ein Sprachsteuerungsfeld angezeigt, wie in Abbildung D dargestellt.


    Wenn Sie diese Funktion bereits konfiguriert haben, wird der Socket beim Autostart registriert und bei jedem Windows-Start gestartet. Außerdem wird in der Taskleiste ein blaues Sprachsteuerungssymbol angezeigt.
    Sie können das Kontextmenü für Einstellungen aufrufen, indem Sie mit der rechten Maustaste auf das Taskleistensymbol klicken, oder über das Sprachsteuerungsfeld, wie in Abbildung E dargestellt.


    Im Menü sehen Sie folgende Einstellungen:

    • Sprache einschalten: Der Computer hört auf alles, was Sie sagen, und führt die Befehle aus, die er erkennt.
    • Standby-Modus (Schlafmodus): Der Computer folgt Ihrer Rede, reagiert jedoch nicht auf Befehle, bis Sie „Beginnen Sie mit dem Zuhören“ sagen.
    • Aus: Der Computer hört Ihnen nicht zu, egal was Sie ihm sagen.
    • Referenzkarte „Open Speech“: Ein praktischer Spickzettel mit grundlegenden Befehlen und zusätzlichen Informationen.
    • Starten Sie das Sprach-Tutorial: Video-Tutorial, in dem Ihnen alles erklärt und gezeigt wird.
    • Hilfe:Öffnet eine Hilfedatei zu dieser Funktion.
    • Optionen: Hier können Sie das Programm so einrichten, dass es mit Windows geladen wird, automatische Textkorrektur usw.
    • Aufbau: Hier können Sie Ihr Mikrofon einrichten, die Spracherkennung verbessern und das Bedienfeld öffnen.
    • Öffnen Sie das Sprachwörterbuch: Sie können neue Wörter hinzufügen (sehr nützlich für Namen und Wörter, die schwer zu erkennen sind) und Sie können auch Wörter ausschließen, die Sie nie sagen.
    • Diktatthema: Hier kann nur Erzählung ausgewählt werden.
    • Besuchen Sie die Website (Gehen Sie zur Website zur Spracherkennung).
    • Erhalten Sie Informationen zur Spracherkennung: Hierbei handelt es sich um den uns bekannten Windows-Dialog, in den Version, Lizenznummer und Name des Programms eingetragen werden.
    • Offene Spracherkennung.
    • Ausfahrt: Schließt das Programm vollständig.
    • Übersetzung

    Seit Deep Learning Einzug in die Spracherkennungsszene hält, ist die Zahl der Fehler bei der Worterkennung dramatisch zurückgegangen. Aber trotz all der Artikel, die Sie vielleicht gelesen haben, verfügen wir immer noch nicht über eine Spracherkennung auf menschlicher Ebene. Spracherkenner haben viele Fehlermodi. Um sie weiter zu verbessern, müssen Sie sie identifizieren und versuchen, sie zu beseitigen. Dies ist der einzige Weg, von einer Anerkennung, die für manche Menschen die meiste Zeit funktioniert, zu einer Anerkennung zu gelangen, die für alle Menschen immer funktioniert.

    Verbesserungen bei der Anzahl falsch identifizierter Wörter. Im Jahr 2000 wurde an einer Telefonzentrale aus 40 zufälligen Gesprächen zwischen zwei Personen, deren Muttersprache Englisch ist, eine Test-Sprachwahl zusammengestellt.

    Zu sagen, dass wir bei der Spracherkennung in Gesprächen das Niveau eines Menschen erreicht haben, und das nur auf einer Reihe von Gesprächen aus einer Telefonzentrale, ist so, als würde man sagen, dass ein Roboterauto genauso gut fährt wie ein Mensch, nachdem man es in einer einzigen Stadt getestet hat an einem sonnigen Tag ohne Verkehr. Die jüngsten Veränderungen in der Spracherkennung sind erstaunlich. Aber Behauptungen über Spracherkennung auf menschlicher Ebene sind zu gewagt. Hier sind einige Bereiche, in denen noch Verbesserungen vorgenommen werden müssen.

    Akzente und Lärm

    Einer der offensichtlichen Nachteile der Spracherkennung ist die Verarbeitung Akzente und Hintergrundgeräusche. Der Hauptgrund dafür ist, dass die meisten Trainingsdaten aus amerikanischen Dialekten mit einem hohen Signal-Rausch-Verhältnis bestehen. Beispielsweise gibt es in einer Reihe von Gesprächen von einer Telefonzentrale aus nur Gespräche mit Personen, deren Muttersprache Englisch ist (hauptsächlich Amerikaner), mit wenig Hintergrundgeräuschen.

    Aber die Erhöhung der Trainingsdaten allein wird dieses Problem höchstwahrscheinlich nicht lösen. Es gibt viele Sprachen mit vielen Dialekten und Akzenten. Es ist unrealistisch, für alle Fälle gekennzeichnete Daten zu sammeln. Für die Erstellung einer hochwertigen Spracherkennung für amerikanisches Englisch sind lediglich bis zu 5.000 Stunden Audio in Text transkribiert.


    Vergleich von Speech-to-Text-Personen mit Baidus Deep Speech 2 zu verschiedenen Arten von Sprache. Menschen sind schlechter darin, nichtamerikanische Akzente zu erkennen, vielleicht weil es unter ihnen viele Amerikaner gibt. Ich denke, dass Menschen, die in einer bestimmten Region aufgewachsen sind, den Akzent dieser Region mit viel weniger Fehlern erkannt hätten.

    Bei Hintergrundgeräuschen in einem fahrenden Auto kann das Signal-Rausch-Verhältnis bis zu -5 dB betragen. Unter solchen Bedingungen kommen Menschen problemlos mit der Spracherkennung einer anderen Person zurecht. Automatische Erkennungsfunktionen verschlechtern sich viel schneller, wenn das Rauschen zunimmt. Die Grafik zeigt, wie stark der Personenabstand mit zunehmendem Lärm (bei niedrigem SNR, Signal-Rausch-Verhältnis) zunimmt.

    Semantische Fehler

    Oftmals ist die Anzahl der fehlerhaft erkannten Wörter kein Selbstzweck eines Spracherkennungssystems. Wir zielen auf die Anzahl der semantischen Fehler ab. Dies ist der Anteil der Ausdrücke, bei denen wir die Bedeutung falsch erkennen.

    Ein Beispiel für einen semantischen Fehler ist, wenn jemand sagt „Treffen wir uns am Dienstag“ [Treffen wir uns am Dienstag] und der Erkenner zurückgibt „Treffen wir uns heute“ [Treffen wir uns heute]. Es gibt auch Fehler in Wörtern ohne semantische Fehler. Wenn der Resolver „up“ nicht erkannte und „Treffen wir uns am Dienstag“ zurückgab, änderte sich die Semantik des Satzes nicht.

    Wir müssen die Anzahl der falsch identifizierten Wörter sorgfältig als Maßstab verwenden. Um dies zu veranschaulichen, gebe ich Ihnen ein Worst-Case-Beispiel. 5 % der Wortfehler entsprechen einem fehlenden Wort von 20. Wenn jeder Satz 20 Wörter enthält (was durchaus im Durchschnitt für Englisch liegt), dann nähert sich die Zahl der falsch erkannten Sätze 100 %. Es bleibt zu hoffen, dass falsch erkannte Wörter die semantische Bedeutung der Sätze nicht verändern. Andernfalls kann es vorkommen, dass der Erkenner jeden Satz falsch interpretiert, selbst wenn 5 % der Wörter falsch erkannt werden.

    Beim Vergleich von Modellen mit Menschen ist es wichtig, das Wesen der Fehler zu überprüfen und nicht nur die Anzahl falsch erkannter Wörter zu überwachen. Meiner Erfahrung nach machen Speech-to-Text-Menschen weniger Fehler und sind nicht so schwerwiegend wie Computer.

    Forscher von Microsoft haben kürzlich die Fehler menschlicher und computergestützter Erkennungsgeräte auf ähnlichem Niveau verglichen. Einer der festgestellten Unterschiede besteht darin, dass das Modell „uh“ [uh…] viel häufiger mit „uh huh“ [yeah] verwechselt als Menschen. Die beiden Begriffe haben eine sehr unterschiedliche Semantik: „uh“ füllt die Lücken, während „uh huh“ eine Bestätigung des Zuhörers bezeichnet. Außerdem fanden Models und Personen viele Fehler bei passenden Typen.

    Viele Stimmen in einem Kanal

    Auch das Erkennen aufgezeichneter Telefongespräche ist einfacher, da jeder Sprecher mit einem separaten Mikrofon aufgezeichnet wurde. Es gibt keine Überlappung mehrerer Stimmen in einem Audiokanal. Menschen können mehrere Sprecher verstehen, manchmal auch gleichzeitig.

    Ein guter Spracherkenner sollte in der Lage sein, den Audiostream je nach Sprecher in Segmente zu unterteilen (ihn einer Diarisierung zu unterziehen). Er muss auch einer Audioaufnahme mit zwei überlappenden Stimmen Bedeutung entlocken (Quellentrennung). Dies muss ohne ein Mikrofon erfolgen, das sich direkt am Mund jedes Sprechers befindet, damit der Erkenner gut funktioniert, wenn er an einem beliebigen Ort platziert wird.

    Aufnahmequalität

    Akzente und Hintergrundgeräusche sind nur zwei Faktoren, gegen die ein Spracherkenner robust sein muss. Hier noch ein paar:

    Nachhall bei unterschiedlichen akustischen Bedingungen.
    Mit der Ausrüstung verbundene Artefakte.
    Artefakte des Codecs, der zum Aufzeichnen und Komprimieren des Signals verwendet wird.
    Abtastfrequenz.
    Das Alter des Sprechers.

    Die meisten Menschen können den Unterschied zwischen MP3- und WAV-Dateien nicht erkennen. Erkenner müssen gegenüber diesen Variationsquellen robust werden, bevor sie eine menschenähnliche Leistung beanspruchen können.

    Kontext

    Man erkennt, dass die Zahl der Fehler, die Menschen bei Tests in Aufzeichnungen aus der Telefonzentrale machen, recht hoch ist. Wenn Sie mit einem Freund sprechen würden, der eines von 20 Wörtern nicht versteht, wäre es für Sie sehr schwierig zu kommunizieren.

    Einer der Gründe dafür ist die Anerkennung ohne Kontext. Im wirklichen Leben verwenden wir viele verschiedene zusätzliche Zeichen, um zu verstehen, was die andere Person sagt. Einige Beispiele für Kontexte, die von Menschen verwendet und von Spracherkennern ignoriert werden:

    Der Verlauf des Gesprächs und das diskutierte Thema.
    Visuelle Hinweise auf den Sprecher – Mimik, Lippenbewegung.
    Der Wissensbestand über die Person, mit der wir sprechen.

    Die Spracherkennung von Android verfügt jetzt über eine Liste Ihrer Kontakte, sodass sie die Namen Ihrer Freunde erkennen kann. Die Sprachsuche auf Karten nutzt die Geolokalisierung, um die Optionen einzugrenzen, zu denen Sie Wegbeschreibungen erhalten möchten.

    Die Genauigkeit von Erkennungssystemen steigt mit der Einbeziehung solcher Signale in die Daten. Aber wir fangen gerade erst an, uns mit der Art von Kontext zu befassen, die wir in die Verarbeitung einbeziehen könnten, und wie man ihn nutzt.

    Einsatz

    Jüngste Fortschritte bei der Erkennung gesprochener Sprache können nicht genutzt werden. Wenn Sie über den Einsatz eines Spracherkennungsalgorithmus nachdenken, müssen Sie die Latenz und die Verarbeitungsleistung im Auge behalten. Diese Parameter hängen zusammen, da Algorithmen, die den Strombedarf erhöhen, auch die Latenz erhöhen. Der Einfachheit halber werden wir sie jedoch separat besprechen.

    Latenz: Die Zeit vom Ende der Rede des Benutzers bis zum Ende des Erhalts des Transkripts. Eine kleine Verzögerung ist eine typische Voraussetzung für die Erkennung. Dies wirkt sich stark auf die Erfahrung des Benutzers bei der Arbeit mit dem Produkt aus. Oft gibt es eine Grenze von mehreren zehn Millisekunden. Dies mag zu streng erscheinen, aber denken Sie daran, dass die Ausstellung eines Zeugnisses normalerweise der erste Schritt in einer Reihe komplizierter Berechnungen ist. Beispielsweise muss man bei einer Sprachsuche im Internet nach der Spracherkennung noch Zeit haben, die Suche abzuschließen.

    Bidirektionale wiederkehrende Schichten sind ein typisches Beispiel für eine Verbesserung, die die Latenzsituation verschlechtert. Mit ihrer Hilfe werden stets die neuesten, qualitativ hochwertigen Transkriptergebnisse erzielt. Das einzige Problem besteht darin, dass wir nichts über die erste bidirektionale Ebene hinaus zählen können, bis die Person mit dem Sprechen fertig ist. Daher nimmt die Verzögerung mit der Länge des Satzes zu.


    Links: Durch die direkte Wiederholung kann die Entschlüsselung sofort beginnen. Rechts: Bei der bidirektionalen Wiederholung müssen Sie bis zum Ende der Rede warten, bevor Sie mit der Transkription beginnen.

    Es wird noch nach einer guten Möglichkeit gesucht, zukünftige Informationen effizient in die Spracherkennung einzubinden.

    Rechenleistung: Dieser Parameter wird durch wirtschaftliche Zwänge beeinflusst. Sie müssen die Bankettkosten für jede Verbesserung der Genauigkeit der Erkennung berücksichtigen. Wenn eine Verbesserung die wirtschaftliche Schwelle nicht erreicht, kann sie nicht umgesetzt werden.

    Ein klassisches Beispiel für kontinuierliche Verbesserung, die nie umgesetzt wird, ist kollaboratives Deep Learning. Eine Reduzierung der Fehleranzahl um 1-2 % rechtfertigt selten eine Steigerung der Rechenleistung um das 2- bis 8-fache. Moderne Modelle rekurrenter Netzwerke fallen ebenfalls in diese Kategorie, da ihre Verwendung bei der Suche nach einer Reihe von Trajektorien sehr unrentabel ist, obwohl ich denke, dass sich die Situation in Zukunft ändern wird.

    Ich möchte es klarstellen: Ich sage nicht, dass eine Verbesserung der Erkennungsgenauigkeit bei einem erheblichen Anstieg der Rechenkosten nutzlos ist. Wie das Prinzip „Erst langsam, aber präzise und dann schnell“ funktioniert, haben wir bereits in der Vergangenheit gesehen. Der Punkt ist, dass die Verbesserung nicht genutzt werden kann, solange sie nicht schnell genug erfolgt.

    In den nächsten fünf Jahren

    Im Bereich der Spracherkennung gibt es noch viele ungelöste und komplexe Probleme. Unter ihnen:

    Erweiterung der Fähigkeiten neuer Datenspeichersysteme, Erkennung von Akzenten, Sprache vor dem Hintergrund starker Geräusche.
    Die Einbeziehung des Kontexts in den Erkennungsprozess.
    Diarisierung und Trennung von Quellen.
    Die Anzahl semantischer Fehler und innovative Methoden zur Bewertung von Erkennern.
    Sehr geringe Verzögerung.

    Ich freue mich auf die Fortschritte, die in den nächsten fünf Jahren an diesen und anderen Fronten erzielt werden.

    Tags: Tags hinzufügen

    Die Touchscreen-Steuerung ist bereits Standard. Neueste Systeme wie Windows 8 „verstehen“ Sprachbefehle. Spracherkennung soll unsere Kommunikation mit dem Computer noch einfacher, intuitiver und… natürlicher machen. Ich verrate euch, wie es heute aussieht.

    Ein bisschen Geschichte – wie sich die Kommunikation mit der Maschine entwickelte

    Die Möglichkeiten zur Kommunikation mit einem Computer haben sich im Laufe der Jahre weiterentwickelt. Die erste Schnittstelle, über die ein Mensch Befehle erteilen konnte, waren Lochkarten aus dem Jahr 1832. Sie wurden in Maschinen zur Herstellung von Stoffen eingesetzt. Die Verwendung der Tastatur begann im Jahr 1960. Zwei Jahrzehnte später kam die Standardmaus hinzu und wird noch heute verwendet. Obwohl sich die Maus die Macht mit dem Trackpad teilt, ist sie immer noch die beliebteste Form der Steuerung. Dank Smartphones und Tablets erfreuen sich die Touch-Oberfläche und Gesten großer Beliebtheit, die insbesondere zur Steuerung der Xbox 360 Kinect eingesetzt werden. Nach Touchscreens und Gesten kommt die Sprachsteuerung, aber diese Lösung ist bisher so unterentwickelt, dass man manchmal nichts davon hört.

    Spracherkennung in Windows 8 einrichten

    Leider ist die Sprachsteuerung noch nicht auf Russisch verfügbar. Derzeit werden Englisch, Französisch, Deutsch, Japanisch, Koreanisch, Chinesisch und Spanisch unterstützt. Microsoft hat beschlossen, sich auf die größten und am weitesten entwickelten Länder zu konzentrieren, es ist jedoch möglich, dass diese Funktion für einige Zeit auch für unser Land hinzugefügt wird. Wenn Sie versuchen, es auszuführen, flucht es so

    Wenn Sie diese Lösung dennoch testen möchten, müssen Sie das System einrichten (die Sprache ändern) und ein paar Wörter auf Englisch lernen. Dazu müssen Sie zur Systemsteuerung gehen und den Punkt Sprache auswählen. Wenn Sie keine andere Sprache als Russisch haben, müssen Sie auf die Schaltfläche „Sprache hinzufügen“ klicken und dann eine der unterstützten Sprachen auswählen. In unserem Fall ist es „English (United States)“. Wir sehen, dass nur das Layout in dieser Sprache verfügbar ist. Doppelklicken Sie, um die Sprachverfügbarkeit für die Benutzeroberfläche zu überprüfen. Klicken Sie nach der Überprüfung auf „Sprachpaket herunterladen und installieren“ und der Vorgang wird gestartet. Warten Sie geduldig darauf Belastung. Sobald dieser Vorgang abgeschlossen ist, stellen Sie die Standardsprache auf Englisch ein

    Jetzt müssen Sie zum Windows 8-Startbildschirm (gekachelt) gehen, „Windows Speech Recognition“ in das Suchfeld eingeben und die Eingabetaste drücken.

    So können Sie das Spracherkennungstool starten. Beim ersten Start werden Sie aufgefordert, das Mikrofon zu konfigurieren. Sagen Sie nach der Auswahl etwas zur Überprüfung.

    Dann bieten Sie an, Schulungsstunden zu nehmen. Sie dauern bis zu 15–20 Minuten, sind aber sehr nützlich und bieten grundlegende Informationen zur Verwendung der Funktionen. Aber wenn Sie nicht gut in Englisch sind, sollten Sie meiner Meinung nach keine Zeit verschwenden, es wird schwierig sein, etwas zu verstehen, und direkt in die Schlacht ziehen

    Wie man arbeitet

    Damit der Computer mit der Erkennung Ihrer Sprache beginnen kann, müssen Sie „Start Listening“ sagen (was „Start Listening“ bedeutet) oder die Mikrofontaste drücken, um den Hörmodus zu starten. Jetzt können Sie die Anwendung öffnen oder einfach Wörter in einen Texteditor, Browser oder eine Suchleiste diktieren

    Was können wir tun

    Im Prinzip sind die Möglichkeiten riesig, neben Standardwörtern kann man auch eigene Teams erstellen. Die Hauptmerkmale sind in der Tabelle aufgeführt

    Aktion Was soll ich sagen
    Wählen Sie ein beliebiges Element anhand seines Namens aus Klicken Sie auf Datei, Start, Anzeigen
    Wählen Sie ein beliebiges Element oder Symbol aus Klicken Sie auf „Papierkorb“, auf „Computer“, auf „(Dateiname)“
    Doppelklicken oder doppelklicken Sie auf ein beliebiges Element Doppelklicken Sie auf „Papierkorb“, doppelklicken Sie auf „Computer“.
    Wechseln Sie zwischen geöffneten Anwendungen Wechseln Sie zu Paint, wechseln Sie zu WordPad

    Scrollen

    hochscrollen; runterscrollen;
    nach links scrollen; Scrollen Sie nach rechts

    Fügen Sie einen neuen Absatz oder eine neue Zeile in das Dokument ein

    neuer Absatz; Neue Zeile

    Wählen Sie ein Wort in einem Dokument aus

    Wortkorrektur

    richtiges Wort

    Wählen Sie bestimmte Wörter aus und löschen Sie sie

    Zeigt eine Liste der anwendbaren Befehle an

    Sprachbefehle aktualisieren

    Schalten Sie den Hörmodus ein

    Deaktivieren Sie den Hörmodus

    Mikrofon einklappen

    Spracherkennung minimieren

    Sehen Sie sich die Windows-Hilfe und den Support an

    Wie mache ich etwas?
    Zum Beispiel: Wie installiere ich einen Drucker?

    Wenn Sie nicht wissen, wie man den Satz ausspricht, empfehle ich Ihnen, Google Translate oder http://tutor.ru zu verwenden (er hat diese Seite besser verstanden).

    Ich hatte den Wunsch, meine Sätze aufzuschreiben, die aus einfachen bürgerlichen Wörtern bestehen. Was ich aussprechen kann. Also ließ er mich das nicht tun, er konnte den Befehlseditor nicht starten. Dadurch verstand er meine Aussprache der Wörter One, Two und Open perfekt. Mit diesem Set können Sie die Anwendung per Nummer auf dem Startbildschirm starten. Sagen Sie zuerst die Nummer und dann „ÖFFNEN“. Natürlich nicht viel, aber ich halte das Experiment für einen Erfolg. Es wäre nicht schlecht, wenn Microsoft die russische Sprache einführen würde, einen guten Ersatz für die Fernbedienung.

    Das Betriebssystem Windows 7 ist mit vielen Optionen ausgestattet, die den Benutzern dieses Systems immer mehr Möglichkeiten bieten. Sie konnten darin eine sehr interessante Funktion einführen, die sich „Spracherkennung“ nennt. Aber was ist dieses System? Dies wird besprochen.

    Die betreffende Option ermöglicht es Anwendungen im gesamten System, eine völlig neue Art der Benutzerinteraktion mit dem Computer zu nutzen. Es handelt sich um das Spracherkennungssystem von Windows 7, mit dem Sie Ihren Computer steuern können, ohne eine Tastatur, eine Maus oder andere Hilfsmittel zu verwenden.

    Ich möchte darauf hinweisen, dass diese Neuerung auch in anderen Microsoft-Produkten verfügbar sein wird. Diese Funktion wurde etwas früher bemerkt, das heißt, man versuchte, sie in Windows Vista zu implementieren, aber in der siebten Version des Microsoft-Betriebssystems erfolgt die Sprachsteuerung auf einem höheren Niveau als beim Vorgänger. Vereinfacht gesagt ist eine Option wie die Spracherkennung von Windows 7 noch funktionaler geworden.

    Zusätzlich zu allem, was gesagt wurde, möchte ich darauf hinweisen, dass es ein ziemlich breites Anwendungsspektrum hat. Benutzer von Windows 7 mit Spracherkennung haben die Möglichkeit, Programme auszuführen, alle Tonfragmente in Text umzuwandeln und alle Arten von Befehlen auf dem Computer auszuführen, indem sie nur ihre Stimme und die erforderlichen Geräte verwenden. Aber was ist nötig, um die Spracherkennung von Windows 7 Wirklichkeit werden zu lassen?

    Zunächst benötigen Sie ein Mikrofon, das an Ihren Computer angeschlossen werden sollte. Darüber hinaus müssen Sie eine spezielle Anwendung oder ein spezielles Programm erwerben, das vom Hersteller selbst, also von Microsoft, veröffentlicht wird. Nachdem alle notwendigen Komponenten installiert und das Mikrofon an den Computer angeschlossen sind, sollte ein bestimmter Arbeitsplan umgesetzt werden:

    • Sie müssen Sprachbefehle testen und in Text umwandeln.
    • Nachdem Sie das Erkennungsprogramm trainiert haben, müssen Sie mit Ihrer Stimme Vorlagen für verschiedene Befehle erstellen. Auf der Grundlage dieser Arbeit ist der Computer in der Lage, alle von Ihnen angegebenen Befehle anzunehmen und auszuführen.

    Die Spracherkennungsfunktion von Windows 7 wird im WordPad-Texteditor von Microsoft verwendet. Es funktioniert einwandfrei beim Ausfüllen verschiedener Formulare und funktioniert auch im Internet Explorer gut

    Darüber hinaus ermöglicht diese Option die einfache Bearbeitung des zuvor aufgezeichneten Textes durch die Definition spezieller Sprachbefehle. Natürlich treten beim Erkennen einer bestimmten Aufgabe typische Fehler auf (wenn bestimmte Geräusche falsch erkannt werden). In diesem Fall stellt das Programm eine Liste der Entsprechungen bestimmter Wörter bereit.

    Die Funktion ist natürlich phänomenal, aber dennoch gibt es ein „Aber“. Die Sache ist, dass die Anerkennung der russischen Sprache derzeit grundsätzlich nicht möglich ist. Es gibt hervorragende Versionen des Programms für Englisch, Französisch, Deutsch und Japanisch. Es gibt auch Versionen für die chinesische, spanische und italienische Sprache.

    Diese Neuheit ist jedoch nicht ganz für die russische Sprache geeignet. Ihr Computer kann die ihm zugewiesenen Aufgaben nicht wahrnehmen, was bedeutet, dass es für Sie einfacher ist, etwas mit der Tastatur zu schreiben oder bestimmte Aufgaben mit der Maus auszuführen.

    Natürlich können Sie versuchen, mit ähnlichen russischsprachigen Programmen zu arbeiten oder Englisch den Vorzug zu geben, aber es bleibt zu hoffen, dass die Spracherkennung in Russisch bald auch im Hochqualitätsmodus verfügbar sein wird. Und genau dann können Sie eine solch einzigartige Funktion in der Praxis ausprobieren. Schließlich vereinfacht es zweifellos die Arbeit am PC deutlich und ist ein großer Durchbruch auf dem Gebiet der Programmierung. Es bleibt also nur noch zu warten.

    Kein Programm kann die manuelle Arbeit der Transkription aufgezeichneter Sprache vollständig ersetzen. Es gibt jedoch Lösungen, die die Übersetzung von Sprache in Text deutlich beschleunigen und erleichtern, also die Transkription vereinfachen können.

    Unter Transkription versteht man die Aufnahme einer Audio- oder Videodatei in Textform. Im Internet gibt es kostenpflichtige kostenpflichtige Aufträge, bei denen dem Interpreten für die Transkription eines Textes ein bestimmter Geldbetrag gezahlt wird.

    Die Übersetzung von Sprache in Text ist nützlich

    • Studierende können aufgezeichnete Audio- oder Videovorlesungen in Text übersetzen,
    • Blogger, die Websites und Blogs führen,
    • Schriftsteller, Journalisten zum Verfassen von Büchern und Texten,
    • Informationsunternehmer, die nach ihrem Webinar, ihrer Rede usw. einen Text benötigen,
    • Menschen, denen das Tippen schwer fällt – sie können einen Brief diktieren und an Verwandte oder Freunde senden,
    • andere Optionen.

    Wir beschreiben die effektivsten Tools, die für PC, mobile Anwendungen und Online-Dienste verfügbar sind.

    1 Website speakpad.ru

    Dies ist ein Onlinedienst, der es Ihnen ermöglicht, Sprache über den Google Chrome-Browser in Text zu übersetzen. Der Dienst funktioniert mit einem Mikrofon und mit vorgefertigten Dateien. Natürlich ist die Qualität deutlich höher, wenn man ein externes Mikrofon nutzt und selbst diktiert. Allerdings leistet der Dienst auch bei YouTube-Videos gute Arbeit.

    Klicken Sie auf „Aufnahme aktivieren“, beantworten Sie die Frage zur „Verwendung eines Mikrofons“ – klicken Sie dazu auf „Zulassen“.

    Die ausführliche Anleitung zur Nutzung des Dienstes kann durch Klicken auf die Schaltfläche 1 in Abb. ausgeblendet werden. 3. Sie können die Werbung durch eine einfache Registrierung loswerden.

    Reis. 3. Service-Sprachpad

    Das fertige Ergebnis lässt sich leicht bearbeiten. Dazu müssen Sie entweder das markierte Wort manuell korrigieren oder es erneut diktieren. Die Ergebnisse der Arbeit werden in Ihrem persönlichen Konto gespeichert und können auch auf Ihren Computer heruntergeladen werden.

    Liste der Video-Tutorials zum Arbeiten mit Speechpad:

    Sie können Videos von YouTube oder von Ihrem Computer transkribieren, Sie benötigen jedoch einen Mixer, weitere Details:

    Video „Audio-Transkription“

    Der Dienst ist in sieben Sprachen verfügbar. Es gibt einen kleinen Nachteil. Es liegt darin, dass, wenn Sie eine fertige Audiodatei transkribieren müssen, deren Ton an die Lautsprecher verteilt wird, was zu zusätzlichen Störungen in Form eines Echos führt.

    2 Dienst dictation.io

    Ein wunderbarer Online-Dienst, mit dem Sie Sprache kostenlos und einfach in Text übersetzen können.

    Reis. 4. Dienst dictation.io

    1 in Abb. 4 - Am Ende der Seite kann die russische Sprache ausgewählt werden. Im Google Chrome-Browser ist die Sprache ausgewählt, in Mozilla gibt es diese Möglichkeit jedoch aus irgendeinem Grund nicht.

    Bemerkenswert ist, dass die Möglichkeit zum automatischen Speichern des fertigen Ergebnisses implementiert ist. Dadurch wird ein versehentliches Löschen durch das Schließen eines Tabs oder Browsers verhindert. Dieser Dienst erkennt keine fertigen Dateien. Funktioniert mit einem Mikrofon. Beim Diktieren müssen Sie Satzzeichen benennen.

    Der Text wird ganz korrekt erkannt, es gibt keine Rechtschreibfehler. Sie können Satzzeichen selbst über die Tastatur einfügen. Das fertige Ergebnis können Sie auf Ihrem Computer speichern.

    3 RealSpeaker

    Mit diesem Programm können Sie menschliche Sprache ganz einfach in Text übersetzen. Es ist für den Betrieb auf verschiedenen Systemen konzipiert: Windows, Android, Linux, Mac. Mit seiner Hilfe können Sie erklingende Sprache in ein Mikrofon umwandeln (z. B. in einen Laptop einbauen) sowie in Audiodateien aufzeichnen.

    Kann 13 Sprachen der Welt verstehen. Es gibt eine Betaversion des Programms, die als Onlinedienst funktioniert:

    Sie müssen dem obigen Link folgen, die russische Sprache auswählen, Ihre Audio- oder Videodatei in den Onlinedienst hochladen und für die Transkription bezahlen. Nach der Transkription können Sie den empfangenen Text kopieren. Je größer die zu transkribierende Datei ist, desto länger dauert die Verarbeitung. Weitere Details:

    Im Jahr 2017 gab es eine kostenlose Transkriptionsmöglichkeit mit RealSpeaker, im Jahr 2018 gibt es diese Möglichkeit nicht mehr. Es ist sehr peinlich, dass die transkribierte Datei allen Benutzern zum Download zur Verfügung steht, vielleicht wird dies noch finalisiert.

    Die Kontakte des Entwicklers (VKontakte, Facebook, Youtube, Twitter, E-Mail, Telefon) des Programms finden Sie auf der Seite seiner Website (genauer gesagt in der Fußzeile der Website):

    4 Sprachlogger

    Eine Alternative zur vorherigen Anwendung für mobile Geräte mit Android. Kostenlos im App Store erhältlich:

    Der Text wird automatisch bearbeitet, Satzzeichen werden darin platziert. Ideal zum Diktieren von Notizen oder zum Erstellen von Listen. Dadurch wird der Text von sehr guter Qualität sein.

    5 Drachendiktat

    Hierbei handelt es sich um eine Anwendung, die von Apple kostenlos für Mobilgeräte vertrieben wird.

    Das Programm kann mit 15 Sprachen arbeiten. Sie können das Ergebnis bearbeiten und die gewünschten Wörter aus der Liste auswählen. Es ist notwendig, alle Laute deutlich auszusprechen, keine unnötigen Pausen einzulegen und Intonation zu vermeiden. Manchmal gibt es Fehler in den Endungen von Wörtern.

    Mit der Dragon Dictation-Anwendung können Eigentümer beispielsweise die Einkaufsliste im Laden diktieren, während sie sich in der Wohnung bewegen. Ich werde dorthin kommen, es wird möglich sein, den Text in der Notiz anzusehen, und es besteht keine Notwendigkeit, zuzuhören.

    Welches Programm Sie auch immer in Ihrer Praxis verwenden, seien Sie darauf vorbereitet, das Ergebnis noch einmal zu überprüfen und bestimmte Anpassungen vorzunehmen. Nur so entsteht ein einwandfreier Text ohne Fehler.

    Auch nützliche Dienste:

    Erhalten Sie aktuelle Artikel zum Thema Computerkenntnisse direkt in Ihren Posteingang.
    Schon mehr 3.000 Abonnenten

    .