• لم يتم حل مشكلة التعرف على الكلام بعد. تشغيل التعرف التلقائي على الكلام وإيقاف تشغيله إعداد نوافذ التعرف على الكلام 7

    Windows Vista هو أول نظام تشغيل من Microsoft يحتوي على ميزة التعرف على الكلام المضمنة. باستخدام هذه الوظيفة ، يمكنك أداء مهام مختلفة بصوتك ، مثل تشغيل البرامج وإغلاق الملفات وحفظها وحذفها وإملاء النص المطلوب تسجيله حرفيًا وتحريره. سيرشدك Deb Shinder ، مستشار تكنولوجيا المعلومات ، إلى تفاصيل كيفية استخدام هذه الميزة.

    منذ إصدار فيلم Star Trek ، حلم العديد من مستخدمي الكمبيوتر بإلقاء لوحات المفاتيح والفئران والتحكم في أجهزة الكمبيوتر الخاصة بهم بأصواتهم. البرامج التي تسمح لك بالتحدث بأوامر مختلفة ، وإملاء نص على الكمبيوتر - تم إنشاؤها لسنوات عديدة وكانت مفيدة جدًا لأولئك الذين لم يكونوا قادرين جسديًا على استخدام طرق إدخال أخرى. لكن لسبب ما لم تكن هذه البرامج شائعة.

    Windows Vista هو أول نظام تشغيل من Microsoft يمكنه التعرف على الكلام. في السابق ، كانت ميزة التعرف على الكلام موجودة في Microsoft Office XP و Office 2003 ، وكان من الممكن أيضًا استخدام برامج من مطورين آخرين ، مثل Dragon NaturallySpeaking. أضافت Microsoft أيضًا التعرف على الكلام إلى Windows Mobile.

    لست مضطرًا لشراء أي شيء إضافي لبدء التحدث إلى جهاز الكمبيوتر الخاص بك ، فإن نظام التشغيل Vista يحتوي بالفعل على كل شيء. افتراضيًا ، يتم تعطيل الوظيفة ، ولكن يمكنك تمكينها بسهولة في لوحة التحكم ، كما هو موضح في الشكل أ.

    يمكنك أيضًا تشغيل هذه الميزة من القائمة عن طريق تحديد كافة البرامج | قياسي | إمكانية الوصول (كافة البرامج | الملحقات | سهولة الوصول) ، كما هو موضح في الشكل ب.

    كيف تعمل

    يمكنك اختيار أحد وضعي التعرف على الكلام:

    • لإدارة البرامج: ابدأ البرامج وأغلقها ، وقم بالتبديل بينها ، وحفظ الملفات وحذفها ، وما إلى ذلك.
    • لإملاء النص الذي سيتم تسجيله حرفيًا وكذلك تحريره.

    يمكن لمطوري البرامج إضافة دعم لهذه الميزة إلى برامجهم. مزعج ، لا يدعم التعرف على الكلام حاليًا سوى عدد قليل من اللغات: الإنجليزية (الولايات المتحدة والمملكة المتحدة) والألمانية والفرنسية والإسبانية واليابانية والصينية (التقليدية والمبسطة).

    إعداد التعرف على الكلام

    قبل أن تتمكن من استخدام التعرف على الكلام ، سيتعين عليك إكمال الخطوات التالية:

    • قم بتشغيل التعرف على الكلام.
    • قم بإعداد الميكروفون.
    • اقرأ الدليل (اختياري).
    • تدرب بوضوح وتحدث (ليس ضروريًا أيضًا).

    بعد النقر المزدوج فوق Speech Recognition (التعرف على الكلام) في لوحة التحكم أو تحديد Speech Recognition (التعرف على الكلام) من القائمة ، ستظهر لك نافذة إعداد كما هو موضح في الشكل C.


    عند النقر فوق بدء التعرف على الكلام ، ستظهر لوحة تحكم صوتية أعلى الشاشة ، كما هو موضح في الشكل د.


    إذا تم تكوين هذه الوظيفة بالفعل ، فسيتم تسجيل المقبس في التشغيل التلقائي وسيبدأ في كل مرة يقوم فيها Windows بالتمهيد. سيظهر أيضًا رمز تحكم صوتي أزرق في الدرج.
    يمكنك استدعاء قائمة السياق للإعدادات بالنقر بزر الماوس الأيمن على أيقونة العلبة ، أو على لوحة التحكم الصوتي ، كما هو موضح في الشكل E.


    في القائمة سترى الإعدادات التالية:

    • تشغيل الكلام:سيستمع الكمبيوتر إلى كل ما تقوله وينفذ الأوامر التي يتعرف عليها.
    • وضع الاستعداد (السكون):سيتبع الكمبيوتر كلامك ، لكنه لن يستجيب لأية أوامر حتى تقول "ابدأ الاستماع".
    • عن:الكمبيوتر لا يستمع إليك مهما قلته.
    • فتح بطاقة مرجع الكلام:ورقة غش سهلة الاستخدام تحتوي على أوامر أساسية ومعلومات إضافية.
    • بدء البرنامج التعليمي للكلام:فيديو تعليمي حيث سيتم إخبارك وعرض كل شيء.
    • يساعد:يفتح ملف تعليمات حول هذه الوظيفة.
    • خيارات:هنا يمكنك إعداد البرنامج ليتم تحميله بنظام Windows ، والتصحيح التلقائي للنص ، وما إلى ذلك.
    • إعدادات:هنا يمكنك إعداد الميكروفون وتحسين التعرف على الكلام وفتح لوحة التحكم.
    • افتح قاموس الكلام:يمكنك إضافة كلمات جديدة (مفيدة جدًا للأسماء والكلمات التي يصعب التعرف عليها) ، ويمكنك أيضًا استبعاد الكلمات التي لم تقلها مطلقًا.
    • موضوع الإملاء:يمكن اختيار السرد فقط هنا.
    • قم بزيارة الموقع (Go To The Speech Recognition Web site).
    • الحصول على معلومات حول التعرف على الكلام:هذا هو مربع حوار Windows المألوف لنا ، حيث يتم كتابة الإصدار ورقم الترخيص واسم البرنامج.
    • فتح التعرف على الكلام.
    • مخرج:يغلق البرنامج تمامًا.
    • ترجمة

    منذ دخول التعلم العميق إلى مشهد التعرف على الكلام ، انخفض عدد الأخطاء في التعرف على الكلمات بشكل كبير. ولكن على الرغم من جميع المقالات التي قد تكون قرأتها ، ما زلنا لا نملك التعرف على الكلام على مستوى الإنسان. أدوات التعرف على الكلام لديها العديد من أوضاع الفشل. لزيادة تحسينها ، تحتاج إلى تحديدها ومحاولة القضاء عليها. هذه هي الطريقة الوحيدة للانتقال من الاعتراف الذي يعمل مع بعض الأشخاص في معظم الأوقات إلى الاعتراف الذي يصلح لجميع الأشخاص في كل الأوقات.

    تحسينات في عدد الكلمات التي تم تحديدها بشكل خاطئ. تم تجميع اختبار الاتصال الهاتفي الصوتي على لوحة مفاتيح الهاتف في عام 2000 من 40 محادثة عشوائية بين شخصين لغتهم الأم هي الإنجليزية.

    إن القول بأننا وصلنا إلى مستوى الإنسان في التعرف على الكلام في المحادثات ، استنادًا إلى مجموعة من المحادثات من لوحة مفاتيح الهاتف ، يشبه القول بأن سيارة آلية تسير بالإضافة إلى شخص ، بعد أن اختبرتها في مدينة واحدة. في يوم مشمس بدون أي حركة مرور. التحولات الأخيرة في التعرف على الكلام مذهلة. لكن الادعاءات حول التعرف على الكلام على المستوى البشري جريئة للغاية. فيما يلي بعض المجالات التي لا تزال بحاجة إلى إجراء تحسينات عليها.

    اللهجات والضوضاء

    إحدى عيوب التعرف على الكلام الواضحة هي المعالجة لهجاتوضوضاء في الخلفية. السبب الرئيسي لذلك هو أن معظم بيانات التدريب تتكون من لهجات أمريكية ذات نسبة إشارة إلى ضوضاء عالية. على سبيل المثال ، في مجموعة من المحادثات من لوحة مفاتيح الهاتف ، هناك محادثات فقط لأشخاص لغتهم الأم هي الإنجليزية (معظمهم من الأمريكيين) مع ضوضاء قليلة في الخلفية.

    لكن زيادة بيانات التدريب بحد ذاتها لن تحل هذه المشكلة على الأرجح. هناك العديد من اللغات التي تحتوي على العديد من اللهجات واللهجات. من غير الواقعي جمع البيانات المصنفة لجميع الحالات. يتطلب إنشاء أداة تعرف على الكلام عالية الجودة للغة الإنجليزية الأمريكية ما يصل إلى 5000 ساعة من نسخ الصوت إلى نص.


    مقارنة بين الأشخاص الذين يقومون بتحويل الكلام إلى نص مع خطاب Baidu's Deep Speech 2 في أنواع مختلفة من الكلام. الناس أسوأ في التعرف على اللهجات غير الأمريكية ، ربما بسبب كثرة الأمريكيين بينهم. أعتقد أن الأشخاص الذين نشأوا في منطقة معينة كانوا سيتعاملون مع التعرف على لهجة تلك المنطقة بأخطاء أقل بكثير.

    في حالة وجود ضوضاء في الخلفية في سيارة متحركة ، يمكن أن تكون نسبة الإشارة إلى الضوضاء منخفضة تصل إلى -5 ديسيبل. يتعامل الناس بسهولة مع التعرف على الكلام لشخص آخر في مثل هذه الظروف. تتحلل أدوات التعرف التلقائية بشكل أسرع مع زيادة الضوضاء. يوضح الرسم البياني مدى زيادة انفصال الأشخاص مع زيادة الضوضاء (عند انخفاض نسبة الإشارة إلى الضوضاء)

    الأخطاء الدلالية

    غالبًا ما لا يكون عدد الكلمات التي تم التعرف عليها بشكل خاطئ غاية في حد ذاته لنظام التعرف على الكلام. نحن نستهدف عدد الأخطاء الدلالية. هذه هي نسبة التعبيرات التي ندرك فيها المعنى بشكل غير صحيح.

    مثال على الخطأ الدلالي هو عندما يقول أحدهم "لنلتقي الثلاثاء" [لنلتقي يوم الثلاثاء] ويعود أداة التعرف "لنلتقي اليوم" [دعنا نجتمع اليوم]. هناك أيضًا أخطاء في الكلمات بدون أخطاء دلالية. إذا لم يتعرف المحلل على "أعلى" وعاد "فلنلتقي الثلاثاء" ، فإن دلالات الجملة لم تتغير.

    نحن بحاجة إلى استخدام عدد الكلمات التي تم التعرف عليها بشكل خاطئ كمعيار. لتوضيح ذلك ، سأعطيك أسوأ مثال. 5٪ من أخطاء الكلمات تتطابق مع كلمة واحدة مفقودة من أصل 20. إذا كان هناك 20 كلمة في كل جملة (وهو بالضبط ضمن المتوسط ​​للغة الإنجليزية) ، فإن عدد الجمل التي تم التعرف عليها بشكل غير صحيح يقترب من 100٪. يمكن أن نأمل أن الكلمات التي يتم التعرف عليها بشكل خاطئ لا تغير المعنى الدلالي للجمل. خلاف ذلك ، قد يخطئ أداة التعرف في تفسير كل جملة حتى مع وجود 5٪ من الكلمات التي تم التعرف عليها بشكل خاطئ.

    عند مقارنة النماذج مع الأشخاص ، من المهم التحقق من جوهر الأخطاء ومراقبة ليس فقط عدد الكلمات التي تم التعرف عليها بشكل غير صحيح. من واقع خبرتي ، يرتكب الأشخاص الذين يقومون بتحويل الكلام إلى نص أخطاء أقل وهم ليسوا بجدية أجهزة الكمبيوتر.

    قام باحثون من Microsoft مؤخرًا بمقارنة أخطاء أدوات التعرف على الإنسان والحاسوب بمستوى مماثل. أحد الاختلافات التي تم العثور عليها هو أن النموذج يخلط بين "أه" [أه ...] و "أه هوه" [نعم] كثيرًا أكثر من الناس. المصطلحان لهما دلالات مختلفة: "أه" يملأ الفراغات ، بينما "أه هوه" تدل على إقرار من المستمع. أيضًا ، عثرت النماذج والأشخاص على العديد من الأخطاء في أنواع المطابقة.

    أصوات كثيرة في قناة واحدة

    التعرف على المحادثات الهاتفية المسجلة أسهل أيضًا لأنه تم تسجيل كل مكبر صوت على ميكروفون منفصل. لا يوجد تداخل لأصوات متعددة في قناة صوتية واحدة. يمكن للناس فهم عدة متحدثين ، وفي بعض الأحيان يتحدثون في نفس الوقت.

    يجب أن تكون أداة التعرّف على الكلام الجيدة قادرة على تقسيم البث الصوتي إلى مقاطع اعتمادًا على السماعة (تخضعه للتسجيل الصوتي). يجب عليه أيضًا استخراج المعنى من تسجيل صوتي بصوتين متداخلين (فصل المصادر). يجب القيام بذلك بدون وجود ميكروفون عند فوهة كل مكبرات صوت ، أي بحيث يعمل أداة التعرف بشكل جيد عند وضعها في مكان عشوائي.

    جودة التسجيل

    تعتبر اللكنات والضوضاء الخلفية عاملين فقط يجب أن تكون أداة التعرف على الكلام قوية في مواجهتهما. وفيما يلي بعض أكثر:

    صدى في مختلف الظروف الصوتية.
    المصنوعات اليدوية المرتبطة بالمعدات.
    المصنوعات اليدوية من برنامج الترميز المستخدم لتسجيل وضغط الإشارة.
    تردد أخذ العينات.
    عمر المتحدث.

    لا يستطيع معظم الناس التمييز بين ملفات mp3 و wav. يجب أن تصبح أدوات التعرف قوية على مصادر الاختلاف هذه قبل المطالبة بأداء يشبه أداء الإنسان.

    سياق

    يمكن ملاحظة أن عدد الأخطاء التي يرتكبها الأشخاص في الاختبارات في التسجيلات من مقسم الهاتف مرتفع جدًا. إذا كنت تتحدث إلى صديق لم يفهم كلمة واحدة من أصل 20 ، فسيكون من الصعب جدًا عليك التواصل.

    أحد أسباب ذلك هو الاعتراف بدون سياق. في الحياة الواقعية ، نستخدم العديد من العلامات الإضافية المختلفة لمساعدتنا على فهم ما يقوله الشخص الآخر. بعض الأمثلة على السياق الذي يستخدمه البشر ويتجاهله أدوات التعرف على الكلام:

    تاريخ المحادثة والموضوع قيد المناقشة.
    إشارات بصرية عن السماعة - تعابير الوجه ، حركة الشفاه.
    جسم المعرفة عن الشخص الذي نتحدث إليه.

    تحتوي أداة التعرف على الكلام في Android الآن على قائمة بجهات الاتصال الخاصة بك ، حتى تتمكن من التعرف على أسماء أصدقائك. يستخدم البحث الصوتي على الخرائط تحديد الموقع الجغرافي لتضييق الخيارات التي تريد الحصول على الاتجاهات إليها.

    تزداد دقة أنظمة التعرف مع إدراج مثل هذه الإشارات في البيانات. لكننا بدأنا للتو في الخوض في نوع السياق الذي قد ندرجه في المعالجة وكيفية استخدامه.

    تعيين

    لا يمكن نشر التطورات الحديثة في التعرف على اللغة المنطوقة. عند تخيل نشر خوارزمية التعرف على الكلام ، تحتاج إلى مراعاة زمن الانتقال وقوة المعالجة. ترتبط هذه المعلمات لأن الخوارزميات التي تزيد من متطلبات الطاقة تزيد أيضًا من زمن الوصول. لكن من أجل البساطة ، سنناقشها بشكل منفصل.

    الكمون: الوقت من نهاية حديث المستخدم إلى نهاية استلام النص. التأخير البسيط هو مطلب نموذجي للاعتراف. إنه يؤثر بشكل كبير على تجربة المستخدم في العمل مع المنتج. غالبًا ما يكون هناك حد لعشرات المللي ثانية. قد يبدو هذا صارمًا للغاية ، لكن تذكر أن إصدار نص هو عادة الخطوة الأولى في سلسلة من العمليات الحسابية المعقدة. على سبيل المثال ، في حالة البحث الصوتي عبر الإنترنت ، بعد التعرف على الكلام ، لا تزال بحاجة إلى الوقت لإكمال البحث.

    تعد الطبقات المتكررة ثنائية الاتجاه مثالًا نموذجيًا على التحسن الذي يؤدي إلى تفاقم حالة الكمون. يتم الحصول على أحدث نتائج النصوص عالية الجودة بمساعدتهم. المشكلة الوحيدة هي أنه لا يمكننا عد أي شيء يتجاوز الطبقة ثنائية الاتجاه الأولى حتى ينتهي الشخص من التحدث. لذلك ، يزيد التأخير مع طول الجملة.


    على اليسار: يسمح التكرار المباشر ببدء فك التشفير على الفور. على اليمين: يتطلب منك التكرار ثنائي الاتجاه الانتظار حتى نهاية الخطاب قبل البدء في الكتابة.

    لا يزال البحث عن طريقة جيدة لدمج المعلومات المستقبلية بكفاءة في التعرف على الكلام.

    قوة الحوسبة: تتأثر هذه المعلمة بالقيود الاقتصادية. يجب مراعاة تكلفة المأدبة لكل تحسين في دقة أداة التعرف. إذا لم يصل التحسين إلى العتبة الاقتصادية ، فلن يكون قادرًا على نشره.

    يعد التعلم العميق التعاوني أحد الأمثلة الكلاسيكية للتحسين المستمر الذي لا يتم نشره مطلقًا. نادرًا ما يبرر تقليل عدد الأخطاء بنسبة 1-2٪ زيادة قوة الحوسبة بمقدار 2-8 مرات. تندرج النماذج الحديثة للشبكات المتكررة أيضًا في هذه الفئة ، نظرًا لأنها غير مربحة جدًا للاستخدام في البحث عن مجموعة من المسارات ، على الرغم من أنني أعتقد أن الوضع سيتغير في المستقبل.

    أريد أن أوضح - لا أقول إن تحسين دقة التعرف مع زيادة كبيرة في التكاليف الحسابية لا طائل من ورائه. لقد رأينا بالفعل كيف يعمل مبدأ "أولاً ببطء ، ولكن بدقة ، ثم بسرعة" في الماضي. النقطة المهمة هي أنه حتى يتم التحسين بالسرعة الكافية ، لا يمكن استخدامه.

    في السنوات الخمس المقبلة

    لا يزال هناك العديد من المشكلات المعقدة التي لم يتم حلها في مجال التعرف على الكلام. فيما بينها:

    توسيع قدرات أنظمة تخزين البيانات الجديدة ، والتعرف على اللهجات ، والكلام على خلفية الضوضاء القوية.
    إدراج السياق في عملية الاعتراف.
    التسجيل وفصل المصادر.
    عدد الأخطاء الدلالية والأساليب المبتكرة لتقييم أدوات التعرف.
    القليل من التأخير.

    إنني أتطلع إلى التقدم الذي سيتم إحرازه خلال السنوات الخمس المقبلة على هذه الجبهات وغيرها.

    العلامات: أضف علامات

    التحكم في شاشة اللمس هو المعيار بالفعل. أحدث الأنظمة مثل Windows 8 "فهم" الأوامر الصوتية. يجب أن يجعل التعرف على الكلام اتصالنا بالكمبيوتر أسهل وأكثر سهولة و ... أكثر طبيعية. سأخبرك كيف تبدو اليوم.

    قليل من التاريخ - كيف تطور التواصل مع الآلة

    تطورت طرق الاتصال بجهاز الكمبيوتر على مر السنين. كانت الواجهة الأولى التي يمكن لأي شخص من خلالها إصدار الأوامر هي البطاقات المثقوبة التي يعود تاريخها إلى عام 1832. تم استخدامها في آلات لإنتاج القماش. بدأ استخدام لوحة المفاتيح في عام 1960. بعد عقدين من الزمن ، انضم الماوس القياسي ولا يزال قيد الاستخدام حتى اليوم. على الرغم من مشاركة الماوس في الطاقة مع لوحة التتبع ، إلا أنه لا يزال أكثر أشكال التحكم شيوعًا. بفضل الهواتف الذكية والأجهزة اللوحية ، أصبحت واجهة اللمس والإيماءات شائعة جدًا ، والتي تُستخدم بشكل خاص للتحكم في Xbox 360 Kinect. بعد شاشات اللمس والإيماءات ، يأتي التحكم الصوتي ، ولكن هذا الحل لم يتم تطويره حتى الآن لدرجة أنك لا تسمع عنه في بعض الأحيان.

    إعداد التعرف على الكلام في Windows 8

    لسوء الحظ ، لا تتوفر ميزة التحكم الصوتي باللغة الروسية بعد. المدعومة حاليًا هي الإنجليزية والفرنسية والألمانية واليابانية والكورية والصينية والإسبانية. قررت Microsoft التركيز على أكبر البلدان وأكثرها تقدمًا ، ولكن من المحتمل أن تضيف هذه الميزة لبلدنا أيضًا لبعض الوقت. إذا حاولت تشغيله ، فإنه يقسم على هذا النحو

    إذا كنت لا تزال ترغب في اختبار هذا الحل ، فأنت بحاجة إلى إعداد النظام (تغيير اللغة) وتعلم كلمتين باللغة الإنجليزية. للقيام بذلك ، تحتاج إلى الانتقال إلى لوحة التحكم وتحديد عنصر اللغة. إذا لم يكن لديك أي لغة أخرى غير الروسية ، فيجب النقر فوق الزر "إضافة لغة" ، ثم تحديد إحدى اللغات المدعومة. في حالتنا ، هي "الإنجليزية (الولايات المتحدة)". نرى أن التصميم بهذه اللغة فقط هو المتاح ، انقر نقرًا مزدوجًا ، وسيتم التحقق من توفر اللغة للواجهة ، بعد التحقق ، انقر فوق "تنزيل وتثبيت حزمة اللغة" ، وستبدأ العملية ، انتظر بصبر حتى حمولة. بمجرد اكتمال هذه العملية ، اضبط اللغة الافتراضية على الإنجليزية

    أنت الآن بحاجة إلى الانتقال إلى شاشة بدء Windows 8 (تجانب) ، واكتب "Windows Speech Recognition" في مربع البحث واضغط على Enter.

    وبالتالي ، يمكنك تشغيل أداة التعرف على الصوت. عند بدء التشغيل لأول مرة ، سيطالبك بتهيئة الميكروفون ، بعد الاختيار ، قل شيئًا للتحقق منه.

    ثم اعرض أن تأخذ دروسًا تدريبية. تدوم ما يصل إلى 15-20 دقيقة ، ولكنها مفيدة جدًا وتوفر معلومات أساسية حول كيفية استخدام الميزات. لكن إذا لم تكن قويًا في اللغة الإنجليزية ، أعتقد أنه لا يجب عليك إضاعة الوقت ، فسيكون من الصعب تحديد أي شيء ، والذهاب مباشرة إلى المعركة

    كيف تعمل

    لكي يبدأ الكمبيوتر في التعرف على كلامك ، يجب أن تقول "ابدأ الاستماع" (مما يعني بدء الاستماع) ، أو الضغط على زر الميكروفون لبدء وضع الاستماع. يمكنك الآن فتح التطبيق أو ببساطة إملاء الكلمات في محرر نصوص أو متصفح أو شريط بحث

    ماذا نستطيع ان نفعل

    من حيث المبدأ ، الاحتمالات هائلة ، بالإضافة إلى الكلمات القياسية ، يمكنك إنشاء فرقك الخاصة. الميزات الرئيسية موضحة في الجدول

    فعل ماذا اقول
    حدد أي عنصر باسمه انقر فوق ملف ، ابدأ ، عرض
    حدد أي عنصر أو رمز انقر فوق سلة المحذوفات ، انقر فوق الكمبيوتر ، انقر فوق (اسم الملف)
    انقر نقرًا مزدوجًا أو انقر نقرًا مزدوجًا فوق أي عنصر انقر نقرًا مزدوجًا فوق سلة إعادة التدوير ، وانقر نقرًا مزدوجًا فوق الكمبيوتر
    التبديل بين التطبيقات المفتوحة قم بالتبديل إلى الرسام ، قم بالتبديل إلى الدفتر

    التمرير

    انتقل إلى أعلى؛ حرك الفأرة لأسفل؛
    انتقل إلى اليسار انتقل إلى اليمين

    تضمين فقرة جديدة أو سطر جديد في المستند

    فقرة جديدة؛ خط جديد

    حدد كلمة في وثيقة

    تصحيح الكلمات

    كلمة صحيحة

    حدد وحذف كلمات معينة

    اعرض قائمة بالأوامر القابلة للتطبيق

    قم بتحديث أوامر الكلام

    قم بتشغيل وضع الاستماع

    تعطيل وضع الاستماع

    تصغير الميكروفون

    تصغير التعرف على الكلام

    عرض تعليمات ودعم Windows

    كيف افعل شيئا؟
    على سبيل المثال: كيف أقوم بتثبيت طابعة؟

    إذا كنت لا تعرف كيفية نطق العبارة ، أقترح عليك استخدام الترجمة من Google أو http://tutor.ru (لقد فهم هذا الموقع بشكل أفضل)

    كانت لدي رغبة في كتابة فريقي المكونة من كلمات برجوازية بسيطة. الذي يمكنني نطقه. لذلك لم يسمح لي بالقيام بذلك ، ولم يتمكن من بدء محرر الأوامر. ونتيجة لذلك ، فهم تمامًا طريقة نطق الكلمات واحد ، اثنان ، ومفتوح. باستخدام هذه المجموعة ، يمكنك تشغيل التطبيق حسب الرقم في الشاشة الرئيسية. قل الرقم أولاً ، ثم قل OPEN. ليس كثيرًا بالطبع ، لكنني أعتبر التجربة ناجحة. لن يكون سيئًا إذا قدمت Microsoft اللغة الروسية ، وهي بديل جيد لجهاز التحكم عن بعد.

    تم تجهيز نظام التشغيل Windows 7 بالعديد من الخيارات التي توفر المزيد والمزيد من الفرص لمستخدمي هذا النظام. كانوا قادرين على تقديم وظيفة مثيرة للاهتمام للغاية ، والتي تسمى "التعرف على الكلام". لكن ما هو هذا النظام؟ سيتم مناقشة هذا.

    يسمح الخيار المعني للتطبيقات في جميع أنحاء النظام باستخدام طريقة جديدة تمامًا لتفاعل المستخدم مع الكمبيوتر. إنه نظام التعرف على الكلام Windows 7 الذي يسمح لك بالتحكم في جهاز الكمبيوتر الخاص بك دون استخدام لوحة المفاتيح أو الماوس أو أي وسيلة أخرى.

    أود أن أشير إلى أن هذا الابتكار سيكون متاحًا في منتجات Microsoft الأخرى. تمت ملاحظة هذه الميزة قبل ذلك بقليل ، أي أنهم حاولوا تنفيذها في نظام التشغيل Windows Vista ، ولكن في الإصدار السابع من نظام التشغيل Microsoft ، يتم إجراء التحكم الصوتي بمستوى أعلى من سابقه. ببساطة ، أصبح خيار مثل التعرف على الكلام في Windows 7 أكثر فاعلية.

    بالإضافة إلى كل ما قيل ، أود أن أشير إلى أنه يحتوي على مجموعة واسعة من التطبيقات. يتمتع مستخدمو Windows 7 الذين لديهم ميزة التعرف على الكلام بالقدرة على تشغيل البرامج وتحويل جميع أجزاء الصوت إلى نص ، وتنفيذ جميع أنواع الأوامر على الكمبيوتر ، باستخدام صوتهم والأجهزة اللازمة فقط. ولكن ما الذي يتطلبه الأمر لجعل التعرف على الكلام في Windows 7 حقيقة؟

    بادئ ذي بدء ، ستحتاج إلى ميكروفون متصل بجهاز الكمبيوتر الخاص بك. بالإضافة إلى ذلك ، يجب عليك شراء تطبيق أو برنامج خاص تنشره الشركة المصنعة نفسها ، أي بواسطة Microsoft. بعد تثبيت جميع المكونات الضرورية وتوصيل الميكروفون بالكمبيوتر ، يجب تنفيذ خطة عمل معينة:

    • تحتاج إلى تنفيذ أوامر صوتية تجريبية وتحويلها إلى نص.
    • بعد تدريب برنامج التعرف ، ستحتاج إلى إنشاء قوالب لأوامر مختلفة بصوتك. بناءً على هذا العمل ، سيتمكن الكمبيوتر من قبول وتنفيذ جميع الأوامر التي تحددها.

    تُستخدم ميزة التعرف على الكلام في Windows 7 في محرر نصوص WordPad من Microsoft. إنه يعمل بشكل لا تشوبه شائبة عند ملء النماذج المختلفة ، كما أنه يعمل بشكل جيد في Internet Explorer ومتى

    بالإضافة إلى ذلك ، سيعمل هذا الخيار على تحرير النص المسجل مسبقًا بسهولة عن طريق تحديد أوامر صوتية خاصة. بالطبع ، في عملية التعرف على مهمة معينة ، تحدث أخطاء نموذجية (عندما يحدث التعرف الخاطئ على أصوات معينة). في هذه الحالة ، يقدم البرنامج قائمة بمراسلات كلمات معينة.

    الوظيفة ، بالطبع ، استثنائية ، لكن لا يزال هناك واحد "لكن". الشيء هو أن الاعتراف بالخطاب الروسي الآن ، من حيث المبدأ ، غير متاح. هناك إصدارات ممتازة من البرنامج للغة الإنجليزية والفرنسية والألمانية واليابانية. هناك أيضًا إصدارات للخطاب الصيني والإسباني والإيطالي.

    لكن هذه الحداثة لا تتكيف تمامًا مع الخطاب الروسي. لن يتمكن جهاز الكمبيوتر الخاص بك من إدراك المهام الموكلة إليه ، مما يعني أنه سيكون من الأسهل عليك كتابة شيء ما باستخدام لوحة المفاتيح أو أداء مهام معينة باستخدام الماوس.

    بالطبع ، يمكنك محاولة العمل مع برامج مماثلة باللغة الروسية أو إعطاء تفضيلاتك للغة الإنجليزية ، ولكن لا يزال من المأمول أن يصبح التعرف على الكلام باللغة الروسية متاحًا قريبًا في وضع عالي الجودة. وعندها فقط ستتمكن من تجربة مثل هذه الوظيفة الفريدة في الممارسة العملية. بعد كل شيء ، من دون شك ، يبسط العمل بشكل واضح على جهاز كمبيوتر شخصي ويعد طفرة هائلة في مجال البرمجة. لذلك كل ما تبقى هو الانتظار.

    لا يمكن لأي برنامج أن يحل تماما محل العمل اليدوي الخاص بنسخ الكلام المسجل. ومع ذلك ، هناك حلول يمكن أن تسرع بشكل كبير وتسهل ترجمة الكلام إلى نص ، أي تبسيط النسخ.

    النسخ هو تسجيل ملف صوتي أو فيديو في شكل نصي. هناك مهام مدفوعة الأجر على الإنترنت ، عندما يتم دفع مبلغ معين من المال إلى المؤدي مقابل نسخ نص ما.

    الكلام إلى ترجمة النص مفيد

    • الطلاب لترجمة المحاضرات الصوتية أو المرئية المسجلة إلى نصوص ،
    • المدونون الذين يقودون المواقع والمدونات ،
    • الكتاب والصحفيين لكتابة الكتب والنصوص ،
    • رجال الأعمال في مجال المعلومات الذين يحتاجون إلى نص بعد ندوتهم التعليمية على الويب ، والكلام ، وما إلى ذلك ،
    • الأشخاص الذين يجدون صعوبة في الكتابة - يمكنهم إملاء خطاب وإرساله إلى الأقارب أو الأصدقاء ،
    • خيارات أخرى.

    سنصف أكثر الأدوات فعالية المتاحة على أجهزة الكمبيوتر وتطبيقات الهاتف المحمول والخدمات عبر الإنترنت.

    1 موقع speechpad.ru

    هذه خدمة عبر الإنترنت تتيح لك ترجمة الكلام إلى نص من خلال متصفح Google Chrome. تعمل الخدمة مع ميكروفون ومع ملفات جاهزة. بالطبع ، ستكون الجودة أعلى بكثير إذا كنت تستخدم ميكروفونًا خارجيًا وتملي نفسك. ومع ذلك ، فإن الخدمة تقوم بعمل جيد حتى مع مقاطع فيديو YouTube.

    انقر فوق "تمكين التسجيل" ، أجب عن السؤال حول "استخدام ميكروفون" - لهذا ، انقر فوق "السماح".

    يمكن طي التعليمات الطويلة حول كيفية استخدام الخدمة بالنقر فوق الزر 1 في الشكل. 3. يمكنك التخلص من الإعلانات من خلال تسجيل بسيط.

    أرز. 3. خدمة لوحة الكلام

    النتيجة النهائية سهلة التحرير. للقيام بذلك ، تحتاج إما إلى تصحيح الكلمة المميزة يدويًا أو إملائها مرة أخرى. يتم حفظ نتائج العمل في حسابك الشخصي ، ويمكن أيضًا تنزيلها على جهاز الكمبيوتر الخاص بك.

    قائمة دروس الفيديو حول العمل باستخدام لوحة الكلام:

    يمكنك نسخ مقاطع الفيديو من Youtube أو من جهاز الكمبيوتر الخاص بك ، ومع ذلك ، ستحتاج إلى جهاز مزج ، مزيد من التفاصيل:

    فيديو "نسخ الصوت"

    تعمل الخدمة بسبع لغات. هناك ناقص صغير. يكمن في حقيقة أنه إذا كنت بحاجة إلى نسخ ملف صوتي مكتمل ، فسيتم توزيع صوته على مكبرات الصوت ، مما يخلق تداخلًا إضافيًا في شكل صدى.

    2 خدمة الإملاء

    خدمة رائعة عبر الإنترنت تتيح لك ترجمة الكلام إلى نص مجانًا وبسهولة.

    أرز. 4. خدمة الإملاء

    1 في الشكل. 4 - يمكن اختيار اللغة الروسية في نهاية الصفحة. في متصفح Google Chrome ، يتم تحديد اللغة ، ولكن في Mozilla لسبب ما لا يوجد مثل هذا الاحتمال.

    يشار إلى أنه يتم تنفيذ القدرة على الحفظ التلقائي للنتيجة النهائية. سيمنع هذا الحذف غير المقصود نتيجة لإغلاق علامة تبويب أو متصفح. لا تتعرف هذه الخدمة على الملفات النهائية. يعمل مع ميكروفون. تحتاج إلى تسمية علامات الترقيم عندما تملي.

    يتم التعرف على النص بشكل صحيح تمامًا ، ولا توجد أخطاء إملائية. يمكنك إدراج علامات الترقيم بنفسك من لوحة المفاتيح. يمكن حفظ النتيجة النهائية على جهاز الكمبيوتر الخاص بك.

    3 برنامج RealSpeaker

    يتيح لك هذا البرنامج ترجمة الكلام البشري بسهولة إلى نص. إنه مصمم للعمل على أنظمة مختلفة: Windows ، Android ، Linux ، Mac. بمساعدتها ، يمكنك تحويل الكلام الذي يصدر صوتًا إلى ميكروفون (على سبيل المثال ، يمكن دمجه في جهاز كمبيوتر محمول) ، وكذلك تسجيله في ملفات صوتية.

    يمكنه استيعاب 13 لغة في العالم. يوجد إصدار تجريبي من البرنامج يعمل كخدمة عبر الإنترنت:

    تحتاج إلى اتباع الرابط أعلاه ، وتحديد اللغة الروسية ، وتحميل ملف الصوت أو الفيديو الخاص بك إلى الخدمة عبر الإنترنت ودفع مقابل نسخها. بعد النسخ ، يمكنك نسخ النص المستلم. كلما زاد حجم ملف النسخ ، زاد الوقت المستغرق في معالجته ، والمزيد من التفاصيل:

    في عام 2017 ، كان هناك خيار نسخ مجاني باستخدام RealSpeaker ، في عام 2018 لا يوجد مثل هذا الاحتمال. من المحرج جدًا أن يكون الملف المكتوب متاحًا لجميع المستخدمين للتنزيل ، وربما يتم الانتهاء من ذلك.

    يمكن العثور على جهات اتصال المطور (VKontakte ، Facebook ، Youtube ، Twitter ، البريد الإلكتروني ، الهاتف) للبرنامج على صفحة موقعه على الويب (بتعبير أدق ، في تذييل الموقع):

    4 Speechlogger

    بديل للتطبيق السابق للأجهزة المحمولة التي تعمل بنظام Android. متاح مجانًا في متجر التطبيقات:

    يتم تحرير النص تلقائيًا ، وتوضع علامات الترقيم فيه. عظيم لإملاء الملاحظات أو عمل القوائم. نتيجة لذلك ، سيصبح النص ذا جودة عالية جدًا.

    5 إملاء التنين

    هذا تطبيق يتم توزيعه مجانًا للأجهزة المحمولة من Apple.

    يمكن للبرنامج العمل بـ 15 لغة. يسمح لك بتحرير النتيجة وتحديد الكلمات المطلوبة من القائمة. من الضروري نطق جميع الأصوات بوضوح ، ولا تقم بإيقافات غير ضرورية وتجنب التنغيم. في بعض الأحيان توجد أخطاء في نهايات الكلمات.

    يتم استخدام تطبيق Dragon Dictation من قبل المالكين ، على سبيل المثال ، لإملاء قائمة التسوق في المتجر أثناء التنقل في الشقة. سوف آتي إلى هناك ، سيكون من الممكن إلقاء نظرة على النص في الملاحظة ، ولا داعي للاستماع.

    أيًا كان البرنامج الذي تستخدمه في ممارستك ، كن مستعدًا للتحقق مرة أخرى من النتيجة وإجراء بعض التعديلات. هذه هي الطريقة الوحيدة للحصول على نص بدون أخطاء.

    أيضا خدمات مفيدة:

    احصل على مقالات محدثة حول محو الأمية الحاسوبية مباشرة إلى صندوق الوارد الخاص بك.
    بالفعل أكثر 3.000 مشترك

    .