• স্পিচ রিকগনিশনের সমস্যা এখনো সমাধান হয়নি। স্বয়ংক্রিয় বক্তৃতা শনাক্তকরণ চালু এবং বন্ধ করুন Windows 7-এ বক্তৃতা শনাক্তকরণ সেট আপ করা

    উইন্ডোজ ভিস্তা হ'ল মাইক্রোসফ্টের প্রথম ওএস যা বক্তৃতা শনাক্তকরণ ক্ষমতা অন্তর্ভুক্ত করে। এই ফাংশনটি ব্যবহার করে, আপনি আপনার ভয়েসের সাহায্যে বিভিন্ন কাজ সম্পাদন করতে পারেন, যেমন প্রোগ্রাম চালু করা, ফাইলগুলি বন্ধ করা, সংরক্ষণ করা এবং মুছে ফেলা, টেক্সট লেখা যা শব্দার্থে রেকর্ড করা হবে এবং এটি সম্পাদনা করা। দেব শিন্দার, আইটি কনসালট্যান্ট, এই বৈশিষ্ট্যটি কীভাবে ব্যবহার করবেন তা আপনাকে নিয়ে চলে।

    স্টার ট্রেক মুভিটি মুক্তি পাওয়ার পর থেকে, অনেক কম্পিউটার ব্যবহারকারী কীবোর্ড এবং ইঁদুরগুলিকে ফেলে দেওয়ার এবং তাদের ভয়েস দিয়ে তাদের কম্পিউটার নিয়ন্ত্রণ করার স্বপ্ন দেখেছে। যে প্রোগ্রামগুলি আপনাকে কম্পিউটারে কমান্ড বলতে এবং পাঠ্য নির্দেশ করার অনুমতি দেয় সেগুলি বহু বছর ধরে করা হয়েছিল এবং যারা শারীরিকভাবে অন্যান্য ইনপুট পদ্ধতি ব্যবহার করতে অক্ষম তাদের জন্য খুব দরকারী ছিল। কিন্তু কোনো কারণে এসব অনুষ্ঠান জনপ্রিয় হয়নি।

    উইন্ডোজ ভিস্তা হ'ল মাইক্রোসফ্টের প্রথম অপারেটিং সিস্টেম যা স্পিচ চিনতে পারে। পূর্বে, স্পিচ রিকগনিশন ফাংশনটি Microsoft Office XP এবং Office 2003-এ উপস্থিত ছিল এবং আপনি অন্যান্য ডেভেলপারের প্রোগ্রামগুলিও ব্যবহার করতে পারেন, যেমন Dragon NaturallySpeaking। মাইক্রোসফট উইন্ডোজ মোবাইলে একটি স্পিচ রিকগনিশন ফিচার যোগ করেছে।

    আপনার কম্পিউটারে কথা বলা শুরু করার জন্য, আপনাকে অতিরিক্ত কিছু কিনতে হবে না; ভিস্তার কাছে ইতিমধ্যেই এর জন্য সবকিছু রয়েছে। বৈশিষ্ট্যটি ডিফল্টরূপে অক্ষম করা থাকে, তবে আপনি সহজেই এটিকে কন্ট্রোল প্যানেল থেকে চালু করতে পারেন, যেমন চিত্র A-তে দেখানো হয়েছে।

    আপনি সমস্ত প্রোগ্রাম নির্বাচন করে মেনু থেকে এই ফাংশনটি চালু করতে পারেন | স্ট্যান্ডার্ড | অ্যাক্সেসযোগ্যতা (সমস্ত প্রোগ্রাম

    কিভাবে এটা কাজ করে

    আপনি দুটি স্পিচ রিকগনিশন অপারেটিং মোডের মধ্যে একটি বেছে নিতে পারেন:

    • প্রোগ্রামগুলি পরিচালনা করতে: প্রোগ্রামগুলি চালু এবং বন্ধ করুন, তাদের মধ্যে স্যুইচ করুন, ফাইলগুলি সংরক্ষণ করুন এবং মুছুন ইত্যাদি।
    • টেক্সট লিখতে হবে যেটি শব্দগুচ্ছ লেখা হবে, সেইসাথে এটি সম্পাদনা করুন।

    সফ্টওয়্যার বিকাশকারীরা তাদের প্রোগ্রামগুলিতে এই ফাংশনের জন্য সমর্থন যোগ করতে পারে। এটা লজ্জাজনক যে বক্তৃতা স্বীকৃতি বর্তমানে শুধুমাত্র কয়েকটি ভাষা সমর্থন করে: ইংরেজি (মার্কিন যুক্তরাষ্ট্র এবং যুক্তরাজ্য), জার্মান, ফ্রেঞ্চ, স্প্যানিশ, জাপানি এবং চীনা (ঐতিহ্যগত এবং সরলীকৃত)।

    স্পিচ রিকগনিশন সেট আপ করা হচ্ছে

    আপনি বক্তৃতা শনাক্তকরণ ব্যবহার করার আগে, আপনাকে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করতে হবে:

    • স্পিচ রিকগনিশন চালু করুন।
    • মাইক্রোফোন সেট আপ করুন।
    • ম্যানুয়াল পড়ুন (ঐচ্ছিক)।
    • স্পষ্টভাবে কথা বলার অভ্যাস করুন (এছাড়াও প্রয়োজনীয় নয়)।

    কন্ট্রোল প্যানেলে স্পিচ রিকগনিশনে ডাবল-ক্লিক করার পরে বা মেনু থেকে স্পিচ রিকগনিশন নির্বাচন করার পরে, আপনাকে একটি সেটিংস উইন্ডো উপস্থাপন করা হবে, যা চিত্র সি-তে দেখানো হয়েছে।


    আপনি যখন স্টার্ট স্পিচ রিকগনিশন ক্লিক করবেন, তখন আপনার স্ক্রিনের শীর্ষে একটি ভয়েস কন্ট্রোল প্যানেল প্রদর্শিত হবে, চিত্র D-এ দেখানো হয়েছে।


    আপনি যদি ইতিমধ্যে এই ফাংশনটি কনফিগার করে থাকেন, তাহলে সকেটটি অটোস্টার্টে নিবন্ধিত হবে এবং প্রতিবার উইন্ডোজ বুট করার সময় শুরু হবে। একটি নীল ভয়েস কন্ট্রোল আইকন ট্রেতে উপস্থিত হবে।
    আপনি ট্রে আইকনে বা ভয়েস কন্ট্রোল প্যানেলে ডান-ক্লিক করে সেটিংসের জন্য প্রসঙ্গ মেনুতে কল করতে পারেন, যেমন চিত্র E-তে দেখানো হয়েছে।


    মেনুতে আপনি নিম্নলিখিত সেটিংস দেখতে পাবেন:

    • বক্তৃতা চালু করুন:কম্পিউটার আপনি যা বলবেন তা শুনবে এবং যে কমান্ডগুলিকে স্বীকৃতি দেবে তা অনুসরণ করবে৷
    • সুপ্ত অবস্থা:কম্পিউটার আপনার বক্তৃতা নিরীক্ষণ করবে, কিন্তু আপনি "শুনুন শুরু করুন" না বলা পর্যন্ত কোনো আদেশে সাড়া দেবে না।
    • বন্ধ:আপনি যাই বলুন না কেন কম্পিউটার আপনার কথা শোনে না।
    • স্পিচ রিকগনিশন চিট শীট খুলুন (ওপেন স্পিচ রেফারেন্স কার্ড):মৌলিক কমান্ড এবং অতিরিক্ত তথ্য সহ একটি সহজ চিট শীট।
    • স্পিচ টিউটোরিয়াল শুরু করুন:একটি ভিডিও টিউটোরিয়াল যেখানে তারা আপনাকে সবকিছু বলবে এবং দেখাবে।
    • সাহায্য:সাহায্য খোলে, এই ফাংশন সম্পর্কে একটি সাহায্য ফাইল।
    • বিকল্প:এখানে আপনি উইন্ডোজের সাথে লোড করার জন্য প্রোগ্রামটি কনফিগার করতে পারেন, স্বয়ংক্রিয়ভাবে পাঠ্য সংশোধন করতে পারেন ইত্যাদি।
    • কনফিগারেশন:এখানে আপনি আপনার মাইক্রোফোন সামঞ্জস্য করতে, বক্তৃতা শনাক্তকরণ উন্নত করতে এবং নিয়ন্ত্রণ প্যানেল খুলতে পারেন৷
    • স্পিচ ডিকশনারী খুলুন:আপনি নতুন শব্দ যোগ করতে পারেন (নাম এবং শব্দগুলির জন্য খুব দরকারী যেগুলি চিনতে অসুবিধা হয়), এবং আপনি এমন শব্দগুলিও বাদ দিতে পারেন যা আপনি কখনও বলেন না।
    • ডিকটেশন বিষয়:এখানে আপনি শুধুমাত্র বর্ণনা নির্বাচন করতে পারেন।
    • স্পিচ রিকগনিশন ওয়েব সাইটে যান দেখুন।
    • স্পিচ রিকগনিশন সম্পর্কে তথ্য পান:এটি একটি পরিচিত উইন্ডোজ ডায়ালগ বক্স, যেখানে প্রোগ্রামটির সংস্করণ, লাইসেন্স নম্বর এবং নাম লেখা আছে।
    • ওপেন স্পিচ রিকগনিশন (ওপেন স্পিচ রিকগনিশন)।
    • প্রস্থান করুন:প্রোগ্রামটি সম্পূর্ণভাবে বন্ধ করে দেয়।
    • অনুবাদ

    যেহেতু গভীর শিক্ষাটি বক্তৃতা শনাক্তকরণ দৃশ্যে প্রবেশ করেছে, তাই শব্দ শনাক্তকরণে ত্রুটির সংখ্যা নাটকীয়ভাবে হ্রাস পেয়েছে। কিন্তু আপনি যে সমস্ত নিবন্ধ পড়েছেন তা সত্ত্বেও, আমাদের এখনও মানব-স্তরের বক্তৃতা স্বীকৃতি নেই। বক্তৃতা শনাক্তকারীদের অনেক ব্যর্থতা মোড আছে। আরও উন্নতির জন্য, তাদের চিহ্নিত করা এবং নির্মূল করার চেষ্টা করা দরকার। এই স্বীকৃতি থেকে সরে যাওয়ার একমাত্র উপায় যা কিছু লোকের জন্য বেশিরভাগ সময় সেই স্বীকৃতির জন্য কাজ করে যা সব সময় সব মানুষের জন্য কাজ করে।

    ভুলভাবে স্বীকৃত শব্দের সংখ্যার উন্নতি। 2000 সালে একটি টেলিফোন সুইচে একটি পরীক্ষামূলক ভয়েস সেট সংগ্রহ করা হয়েছিল 40টি এলোমেলো কথোপকথন থেকে দুটি ব্যক্তির মধ্যে যাদের মাতৃভাষা ছিল ইংরেজি।

    শুধুমাত্র একটি টেলিফোন সুইচবোর্ড থেকে কথোপকথনের সেটের ভিত্তিতে কথোপকথনে আমরা মানব-স্তরের স্পিচ রিকগনিশনে পৌঁছেছি, এটা বলার মতোই যে একটি রোবোটিক গাড়ি যেমন একজন ব্যক্তি চালায়, এটি একটি একক শহরে রোদে পরীক্ষা করে কোন যানজট ছাড়া দিন.. বক্তৃতা শনাক্তকরণের সাম্প্রতিক উন্নয়ন বিস্ময়কর। কিন্তু মানব-স্তরের স্পিচ রিকগনিশনের দাবিগুলো খুবই সাহসী। এখানে কয়েকটি ক্ষেত্র রয়েছে যেখানে এখনও উন্নতি করা দরকার।

    উচ্চারণ এবং শব্দ

    বক্তৃতা স্বীকৃতির একটি সুস্পষ্ট অসুবিধা হল প্রক্রিয়াকরণ উচ্চারণএবং পটভূমির শব্দ। এর প্রধান কারণ হল যে বেশিরভাগ প্রশিক্ষণ ডেটা উচ্চ সংকেত-টু-শব্দ অনুপাত সহ আমেরিকান বক্তৃতা নিয়ে গঠিত। উদাহরণস্বরূপ, একটি টেলিফোন সুইচ থেকে কথোপকথনের একটি সেটে কেবলমাত্র সেই লোকদের কথোপকথন থাকে যাদের স্থানীয় ভাষা ইংরেজি (বেশিরভাগ আমেরিকান) সামান্য পটভূমিতে শব্দ।

    তবে একা প্রশিক্ষণের ডেটা বাড়ানো সম্ভবত এই সমস্যার সমাধান করবে না। অনেক উপভাষা এবং উচ্চারণ ধারণকারী অনেক ভাষা আছে। সমস্ত ক্ষেত্রে লেবেলযুক্ত ডেটা সংগ্রহ করা অবাস্তব। শুধুমাত্র আমেরিকান ইংরেজির জন্য একটি উচ্চ-মানের স্পিচ শনাক্তকারী তৈরি করতে 5 হাজার ঘন্টা পর্যন্ত অডিও রেকর্ডিং টেক্সটে অনুবাদ করা প্রয়োজন।


    মানুষের স্পিচ-টু-টেক্সট রূপান্তরকারীর তুলনা Baidu-এর ডিপ স্পিচ 2-এর সাথে বিভিন্ন বক্তৃতার ধরন। অ-আমেরিকান উচ্চারণগুলি চিনতে লোকেরা আরও খারাপ, সম্ভবত তাদের মধ্যে আমেরিকানদের প্রাচুর্যের কারণে। আমি মনে করি যে যারা একটি নির্দিষ্ট অঞ্চলে বেড়ে উঠেছেন তাদের সেই অঞ্চলের উচ্চারণ চিনতে অনেক কম ত্রুটি থাকবে।

    চলন্ত গাড়িতে পটভূমির শব্দের উপস্থিতিতে, সংকেত-থেকে-শব্দের অনুপাত -5 dB এর মান পৌঁছাতে পারে। লোকেরা সহজেই এই জাতীয় পরিস্থিতিতে অন্য ব্যক্তির বক্তৃতা সনাক্ত করতে পারে। স্বয়ংক্রিয় শনাক্তকারীরা আওয়াজ বাড়ার সাথে সাথে খুব দ্রুত ক্ষয় হয়। গ্রাফটি দেখায় যে ক্রমবর্ধমান শব্দের সাথে (কম SNR, সংকেত-থেকে-শব্দ অনুপাত) মানগুলির সাথে মানুষের মধ্যে ব্যবধান কতটা বৃদ্ধি পায়।

    শব্দার্থিক ত্রুটি

    প্রায়শই ভুলভাবে স্বীকৃত শব্দের সংখ্যা নিজেই একটি বক্তৃতা শনাক্তকরণ সিস্টেমের লক্ষ্য নয়। আমরা শব্দার্থিক ত্রুটির সংখ্যা লক্ষ্য করি। এটি এমন অভিব্যক্তির অনুপাত যেখানে আমরা অর্থটি ভুলভাবে চিনতে পারি।

    শব্দার্থগত ত্রুটির একটি উদাহরণ হল যখন কেউ পরামর্শ দেয় "আসুন মঙ্গলবার দেখা করি" এবং সমাধানকারী ফিরে আসে "চলুন আজ দেখা করি।" শব্দার্থগত ত্রুটি ছাড়া শব্দের ত্রুটিও রয়েছে। যদি শনাক্তকারী "আপ" চিনতে না পারে এবং "আসুন মঙ্গলবার দেখা করি" ফিরে আসে, তবে বাক্যের শব্দার্থ পরিবর্তন হয়নি।

    আমরা সাবধানে একটি মানদণ্ড হিসাবে ভুলভাবে স্বীকৃত শব্দ সংখ্যা ব্যবহার করতে হবে. এটি ব্যাখ্যা করার জন্য, আমি আপনাকে সবচেয়ে খারাপ সম্ভাব্য ক্ষেত্রে একটি উদাহরণ দেব। শব্দের 5% ত্রুটিগুলি 20টির মধ্যে একটি অনুপস্থিত শব্দের সাথে মিলে যায়৷ যদি প্রতিটি বাক্যে 20টি শব্দ থাকে (যা ইংরেজি ভাষার জন্য বেশ গড়), তাহলে ভুলভাবে স্বীকৃত বাক্যগুলির সংখ্যা 100% এর কাছাকাছি হয়৷ কেউ আশা করতে পারেন যে ভুলভাবে স্বীকৃত শব্দ বাক্যগুলির শব্দার্থিক অর্থ পরিবর্তন করে না। অন্যথায়, শনাক্তকারী ভুলভাবে স্বীকৃত শব্দের 5% সংখ্যা সহ প্রতিটি বাক্যকে ভুলভাবে পাঠোদ্ধার করতে পারে।

    লোকেদের সাথে মডেলগুলির তুলনা করার সময়, ত্রুটিগুলির সারমর্ম পরীক্ষা করা এবং ভুলভাবে স্বীকৃত শব্দের সংখ্যাই নয় শুধুমাত্র নিরীক্ষণ করা গুরুত্বপূর্ণ। আমার অভিজ্ঞতায়, যারা বক্তৃতাকে পাঠ্যে অনুবাদ করে তারা কম ত্রুটি করে এবং তারা কম্পিউটার দ্বারা তৈরি করা মতো গুরুতর নয়।

    মাইক্রোসফ্টের গবেষকরা সম্প্রতি একই স্তরের মানুষ এবং কম্পিউটার শনাক্তকারীদের ত্রুটির তুলনা করেছেন। পাওয়া পার্থক্যগুলির মধ্যে একটি হল যে মডেলটি "উহ" [উহ-উহ...] "উহ হুহ" [উহ-হুহ] মানুষের তুলনায় অনেক বেশি গুলিয়ে ফেলে। দুটি পদের খুব আলাদা শব্দার্থ আছে: "উহ" বিরতি পূরণ করে, যখন "উহ হুহ" শ্রোতার কাছ থেকে স্বীকৃতি বোঝায়। এছাড়াও, মডেল এবং লোকেদের মধ্যে একই ধরণের অনেক ত্রুটি পাওয়া গেছে।

    এক চ্যানেলে অনেক কণ্ঠ

    রেকর্ড করা টেলিফোন কথোপকথনগুলি সনাক্ত করাও সহজ ছিল কারণ প্রতিটি স্পিকার একটি পৃথক মাইক্রোফোনে রেকর্ড করা হয়েছিল। একটি অডিও চ্যানেলে একাধিক ভয়েসের কোনো ওভারল্যাপ নেই। মানুষ অনেক স্পিকার বুঝতে পারে, কখনও কখনও একই সাথে কথা বলে।

    একজন ভাল বক্তৃতা শনাক্তকারীর অডিও স্ট্রীমকে স্পিকারের উপর নির্ভর করে ভাগে ভাগ করতে সক্ষম হওয়া উচিত (এটি ডায়েরাইজেশনের সাপেক্ষে)। তাকে অবশ্যই দুটি ওভারল্যাপিং ভয়েস (উৎস বিচ্ছেদ) সহ একটি অডিও রেকর্ডিং থেকে অর্থ বের করতে হবে। এটি অবশ্যই প্রতিটি স্পিকারের মুখে সরাসরি অবস্থিত একটি মাইক্রোফোন ছাড়াই করা উচিত, অর্থাৎ, যাতে স্বেচ্ছাচারী স্থানে স্থাপন করা হলে সনাক্তকারীটি ভালভাবে কাজ করে।

    রেকর্ডিং গুণমান

    অ্যাকসেন্ট এবং ব্যাকগ্রাউন্ড নয়েজ দুটি বিষয় যা একজন বক্তৃতা শনাক্তকারীকে অবশ্যই শক্তিশালী হতে হবে। এখানে কয়েকটি আরো:

    বিভিন্ন শাব্দ অবস্থার মধ্যে reverberation.
    সরঞ্জাম-সম্পর্কিত শিল্পকর্ম।
    সংকেত রেকর্ড এবং সংকুচিত করতে ব্যবহৃত কোডেক এর শিল্পকর্ম।
    স্যাম্পলিং ফ্রিকোয়েন্সি।
    বক্তার বয়স।

    বেশিরভাগ মানুষ mp3 এবং wav রেকর্ডিংয়ের মধ্যে পার্থক্য বলতে পারে না। মানুষের সাথে তুলনীয় কর্মক্ষমতা দাবি করার আগে, স্বীকৃতিদাতাদের এই বৈচিত্র্যের উত্সগুলির জন্য শক্তিশালী হতে হবে।

    প্রসঙ্গ

    আপনি লক্ষ্য করতে পারেন যে টেলিফোন এক্সচেঞ্জ থেকে রেকর্ডিংয়ে পরীক্ষার সময় লোকেরা যে ভুলগুলি করে তার সংখ্যা বেশ বেশি। আপনি যদি এমন একজন বন্ধুর সাথে কথা বলছিলেন যিনি 20টির মধ্যে 1টি শব্দ বোঝেন না, তাহলে যোগাযোগ করতে আপনার খুব কঠিন সময় হবে।

    এর একটি কারণ হল প্রেক্ষাপট বিবেচনায় না নিয়ে স্বীকৃতি। বাস্তব জীবনে, আমরা অন্য ব্যক্তি কী বলছে তা বুঝতে সাহায্য করার জন্য আমরা বিভিন্ন অতিরিক্ত সংকেত ব্যবহার করি। মানুষের দ্বারা ব্যবহৃত প্রেক্ষাপটের কিছু উদাহরণ যা বক্তৃতা শনাক্তকারীরা উপেক্ষা করে:

    কথোপকথনের ইতিহাস এবং আলোচিত বিষয়।
    স্পিকার সম্পর্কে চাক্ষুষ সূত্র - মুখের অভিব্যক্তি, ঠোঁটের নড়াচড়া।
    আমরা যার সাথে কথা বলছি তার সম্পর্কে জ্ঞানের শরীর।

    আজকাল, Android এর স্পিচ শনাক্তকারীর কাছে আপনার পরিচিতিগুলির একটি তালিকা রয়েছে, তাই এটি আপনার বন্ধুদের নাম চিনতে পারে৷ ম্যাপে ভয়েস অনুসন্ধান ভৌগলিক অবস্থান ব্যবহার করে আপনি যে বিকল্পগুলির দিকনির্দেশ পেতে চান তা সংকুচিত করে৷

    তথ্যে এই ধরনের সংকেত অন্তর্ভুক্ত করার সাথে স্বীকৃতি সিস্টেমের নির্ভুলতা বৃদ্ধি পায়। কিন্তু আমরা সবেমাত্র প্রসেসিং-এ আমরা যে ধরনের প্রেক্ষাপট অন্তর্ভুক্ত করতে পারি এবং কীভাবে আমরা এটি ব্যবহার করতে পারি তা নিয়ে আলোচনা করতে শুরু করেছি।

    স্থাপনা

    কথ্য ভাষা স্বীকৃতি সাম্প্রতিক অগ্রগতি আনরোল করা যাবে না. একটি বক্তৃতা শনাক্তকরণ অ্যালগরিদম স্থাপন করার কল্পনা করার সময়, আপনাকে লেটেন্সি এবং প্রক্রিয়াকরণ শক্তি মাথায় রাখতে হবে। এই পরামিতিগুলি সম্পর্কিত কারণ অ্যালগরিদমগুলি যেগুলি পাওয়ার প্রয়োজনীয়তা বাড়ায় সেগুলিও বিলম্ব বাড়ায়৷ কিন্তু সরলতার জন্য, আমরা তাদের আলাদাভাবে আলোচনা করব।

    লেটেন্সি: ব্যবহারকারীর বক্তৃতা শেষ থেকে ট্রান্সক্রিপশন প্রাপ্তির শেষ পর্যন্ত সময়। একটি ছোট বিলম্ব স্বীকৃতির জন্য একটি সাধারণ প্রয়োজন। এটি পণ্যটির সাথে কাজ করার ব্যবহারকারীর অভিজ্ঞতাকে ব্যাপকভাবে প্রভাবিত করে। দশ মিলিসেকেন্ডের সীমাবদ্ধতা সাধারণ। এটি অত্যধিক সীমাবদ্ধ বলে মনে হতে পারে, কিন্তু মনে রাখবেন যে একটি প্রতিলিপি তৈরি করা সাধারণত জটিল গণনার একটি সিরিজের প্রথম ধাপ। উদাহরণস্বরূপ, ভয়েস ইন্টারনেট অনুসন্ধানের ক্ষেত্রে, বক্তৃতা স্বীকৃতির পরে, আপনার এখনও অনুসন্ধানটি সম্পাদন করার জন্য সময় থাকতে হবে।

    দ্বিমুখী পুনরাবৃত্ত স্তরগুলি একটি উন্নতির একটি সাধারণ উদাহরণ যা বিলম্বকে আরও খারাপ করে তোলে। সব সর্বশেষ উচ্চ মানের প্রতিলিপি ফলাফল তাদের সাহায্যে প্রাপ্ত করা হয়. একমাত্র সমস্যা হল যে ব্যক্তিটি কথা বলা শেষ না হওয়া পর্যন্ত আমরা প্রথম দ্বিমুখী স্তরটি অতিক্রম করার পরে কিছু গণনা করতে পারি না। অতএব, বাক্যের দৈর্ঘ্যের সাথে বিলম্ব বৃদ্ধি পায়।


    বাম: সরাসরি পুনরাবৃত্তি ডিক্রিপশন অবিলম্বে শুরু করার অনুমতি দেয়। ডানদিকে: দ্বিমুখী পুনরাবৃত্তির জন্য প্রতিলিপি শুরু করার আগে বক্তৃতা শেষ হওয়া পর্যন্ত অপেক্ষা করতে হবে।

    স্পিচ রিকগনিশনে ভবিষ্যত তথ্যকে কার্যকরভাবে যুক্ত করার একটি ভালো উপায় এখনও খোঁজা হচ্ছে।

    কম্পিউটিং শক্তি: এই পরামিতি অর্থনৈতিক সীমাবদ্ধতা দ্বারা প্রভাবিত হয়। স্বীকৃতিদাতার নির্ভুলতার প্রতিটি উন্নতির জন্য ভোজসভার খরচ অবশ্যই বিবেচনায় নেওয়া উচিত। উন্নতি অর্থনৈতিক প্রান্তিক পর্যায়ে না পৌঁছালে, এটি স্থাপন করা হবে না।

    ক্রমাগত উন্নতির একটি সর্বোত্তম উদাহরণ যা কখনই স্থাপন করা হয় না তা হল সহযোগিতামূলক গভীর শিক্ষা। ত্রুটির সংখ্যা 1-2% হ্রাস করা খুব কমই 2-8 গুণ দ্বারা কম্পিউটিং শক্তি বৃদ্ধিকে সমর্থন করে। পুনরাবৃত্ত নেটওয়ার্কগুলির আধুনিক মডেলগুলিও এই বিভাগে পড়ে, যেহেতু তারা একগুচ্ছ ট্র্যাজেক্টোরিজ অনুসন্ধানে ব্যবহার করা খুব অলাভজনক, যদিও আমি মনে করি ভবিষ্যতে পরিস্থিতি পরিবর্তন হবে।

    আমি স্পষ্ট করতে চাই যে আমি বলছি না যে গণনামূলক খরচে গুরুতর বৃদ্ধির সাথে স্বীকৃতির নির্ভুলতা উন্নত করা অকেজো। আমরা ইতিমধ্যে দেখেছি যে "প্রথমে ধীরে ধীরে কিন্তু নিশ্চিতভাবে, তারপর দ্রুত" নীতিটি অতীতে কীভাবে কাজ করে। বিন্দু হল যে উন্নতি যথেষ্ট দ্রুত না হওয়া পর্যন্ত, এটি ব্যবহার করা যাবে না।

    আগামী পাঁচ বছরে

    বক্তৃতা স্বীকৃতির ক্ষেত্রে এখনও অনেক অমীমাংসিত এবং জটিল সমস্যা রয়েছে। তাদের মধ্যে:

    নতুন ডেটা স্টোরেজ সিস্টেমের ক্ষমতা প্রসারিত করা, উচ্চারণের স্বীকৃতি, শক্তিশালী শব্দের পটভূমিতে বক্তৃতা।
    স্বীকৃতি প্রক্রিয়ার মধ্যে প্রসঙ্গ অন্তর্ভুক্ত করা।
    ডায়েরাইজেশন এবং উত্স বিচ্ছেদ।
    স্বীকৃতদের মূল্যায়নের জন্য শব্দার্থগত ত্রুটি এবং উদ্ভাবনী পদ্ধতির সংখ্যা।
    খুব কম লেটেন্সি।

    এই এবং অন্যান্য ফ্রন্টে আগামী পাঁচ বছরে যে অগ্রগতি হবে তার জন্য আমি উন্মুখ।

    ট্যাগ: ট্যাগ যোগ করুন

    টাচ স্ক্রিন নিয়ন্ত্রণ ইতিমধ্যেই আদর্শ। সর্বশেষ সিস্টেম যেমন Windows 8, ভয়েস কমান্ড "বুঝে" আজকে কেমন লাগছে তা বলবো।

    একটু ইতিহাস - কিভাবে যন্ত্রের সাথে যোগাযোগ গড়ে উঠেছিল

    আমরা যেভাবে কম্পিউটারের সাথে যোগাযোগ করি তা বছরের পর বছর ধরে বিকশিত হয়েছে। প্রথম ইন্টারফেস যার মাধ্যমে মানুষ কমান্ড জারি করতে পারে তা ছিল পাঞ্চ কার্ড, যা 1832 সালের দিকে। এগুলো কাপড় তৈরিতে মেশিনে ব্যবহার করা হতো। 1960 সালে কীবোর্ড ব্যবহার করা শুরু হয়। দুই দশক পরে, স্ট্যান্ডার্ড মাউস যোগ দেয় এবং আজও ব্যবহৃত হয়। যদিও মাউস ট্র্যাকপ্যাডের সাথে তার ক্ষমতাগুলি ভাগ করেছে, এটি এখনও সবচেয়ে জনপ্রিয় নিয়ন্ত্রণ প্রকার। স্মার্টফোন এবং ট্যাবলেটগুলির জন্য ধন্যবাদ, স্পর্শ ইন্টারফেস এবং অঙ্গভঙ্গিগুলি খুব জনপ্রিয় হয়ে উঠেছে, যা বিশেষত Xbox 360 Kinect নিয়ন্ত্রণ করতে ব্যবহৃত হয়। টাচ স্ক্রিন এবং অঙ্গভঙ্গিগুলির পরে ভয়েস নিয়ন্ত্রণ আসে, তবে এই সমাধানটি এতটাই অনুন্নত হয়েছে যে কখনও কখনও আপনি এটি সম্পর্কে শুনতেও পাবেন না।

    উইন্ডোজ 8 এ স্পিচ রিকগনিশন সেট আপ করা হচ্ছে

    দুর্ভাগ্যবশত, ভয়েস নিয়ন্ত্রণ রাশিয়ান ভাষায় এখনও উপলব্ধ নয়। বর্তমানে সমর্থিত ভাষাগুলি হল ইংরেজি, ফ্রেঞ্চ, জার্মান, জাপানি, কোরিয়ান, চাইনিজ এবং স্প্যানিশ। মাইক্রোসফ্ট বৃহত্তম এবং সবচেয়ে উন্নত দেশগুলিতে ফোকাস করার সিদ্ধান্ত নিয়েছে, তবে এটি সম্ভব যে সময়ের সাথে সাথে এটি আমাদের দেশেও এই বৈশিষ্ট্যটি যুক্ত করবে। আপনি যদি এটি চালানোর চেষ্টা করেন তবে এটি এইরকম শপথ করে

    আপনি যদি এখনও এই সমাধানটি পরীক্ষা করতে চান তবে আপনাকে সিস্টেমটি কনফিগার করতে হবে (ভাষা পরিবর্তন করুন) এবং ইংরেজিতে কয়েকটি শব্দ শিখতে হবে। এটি করার জন্য, আপনাকে নিয়ন্ত্রণ প্যানেলে যেতে হবে এবং ভাষা নির্বাচন করতে হবে। আপনার যদি রাশিয়ান ছাড়া অন্য কোনো ভাষা না থাকে, তাহলে আপনাকে অবশ্যই "ভাষা যোগ করুন" বোতামে ক্লিক করতে হবে এবং তারপর সমর্থিত ভাষাগুলির মধ্যে একটি নির্বাচন করতে হবে। আমাদের ক্ষেত্রে এটি "ইংরেজি (USA)"। আমরা দেখতে পাচ্ছি যে শুধুমাত্র এই ভাষার লেআউটটি উপলব্ধ, ডাবল-ক্লিক করুন, এটি ইন্টারফেসের জন্য ভাষার উপলব্ধতা পরীক্ষা করবে, চেক করার পরে, "ডাউনলোড করুন এবং একটি ভাষা প্যাক ইনস্টল করুন" এ ক্লিক করুন এবং প্রক্রিয়াটি শুরু হবে, ধৈর্য সহকারে অপেক্ষা করুন এটা লোড করতে. এই প্রক্রিয়া সম্পূর্ণ হলে, ইংরেজিতে ডিফল্ট ভাষা সেট করুন

    এখন আপনাকে উইন্ডোজ 8 স্টার্ট স্ক্রিনে যেতে হবে (টাইল করা), অনুসন্ধানে "উইন্ডোজ স্পিচ রিকগনিশন" লিখুন এবং এন্টার টিপুন।

    তাই আপনি ভয়েস রিকগনিশন টুল চালাতে পারেন। আপনি যখন প্রথম এটি শুরু করবেন, এটি মাইক্রোফোন কনফিগার করার প্রস্তাব দেবে, নির্বাচন করার পরে, চেক করার জন্য কিছু বলুন।

    এরপরে, প্রশিক্ষণের পাঠ গ্রহণের প্রস্তাব করুন। এগুলি 15-20 মিনিট পর্যন্ত স্থায়ী হয়, তবে খুব দরকারী এবং বৈশিষ্ট্যগুলি কীভাবে ব্যবহার করতে হয় সে সম্পর্কে প্রাথমিক তথ্য সরবরাহ করে। তবে আপনি যদি ইংরেজিতে শক্তিশালী না হন তবে আমি মনে করি এটি সময় নষ্ট করার মতো নয়, কিছু বোঝা কঠিন হবে, সরাসরি যুদ্ধে যান

    কিভাবে কাজ করে

    কম্পিউটার আপনার বক্তৃতা শনাক্ত করা শুরু করার জন্য, আপনাকে অবশ্যই বলতে হবে "শুরু করা" (যার অর্থ শোনা শুরু করুন), অথবা শোনার মোড শুরু করতে মাইক্রোফোন বোতাম টিপুন। এখন আপনি একটি টেক্সট এডিটর, ব্রাউজার বা সার্চ বারে অ্যাপ্লিকেশন খুলতে পারেন বা কেবল শব্দগুলি লিখতে পারেন৷

    আমরা কি করতে পারি

    নীতিগতভাবে, সম্ভাবনাগুলি বিশাল; স্ট্যান্ডার্ড শব্দগুলি ছাড়াও, আপনি নিজের কমান্ড তৈরি করতে পারেন। প্রধান বৈশিষ্ট্যগুলি টেবিলে দেখানো হয়েছে

    কর্ম কি বলতে
    নাম অনুসারে যেকোনো উপাদান নির্বাচন করুন ফাইল, শুরু, দেখুন ক্লিক করুন
    যেকোনো উপাদান বা আইকন নির্বাচন করুন রিসাইকেল বিন ক্লিক করুন, কম্পিউটারে ক্লিক করুন, ক্লিক করুন (ফাইলের নাম)
    যেকোন এলিমেন্টে ডাবল-ক্লিক বা ডাবল-ক্লিক করুন রিসাইকেল বিনে ডাবল-ক্লিক করুন, কম্পিউটারে ডাবল-ক্লিক করুন
    খোলা অ্যাপ্লিকেশনগুলির মধ্যে স্যুইচ করুন পেইন্টে স্যুইচ করুন, ওয়ার্ডপ্যাডে স্যুইচ করুন

    স্ক্রল করুন

    উপরে স্ক্রল কর; নিচে নামুন;
    বাম দিকে স্ক্রোল করুন; ডানদিকে স্ক্রোল করুন

    একটি নথিতে একটি নতুন অনুচ্ছেদ বা নতুন লাইন অন্তর্ভুক্ত করুন

    নতুন অনুচ্ছেদ; নতুন লাইন

    নথিতে একটি শব্দ নির্বাচন করুন

    শব্দ সংশোধন

    সঠিক শব্দ

    নির্দিষ্ট শব্দ নির্বাচন করুন এবং সরান

    প্রযোজ্য কমান্ডের তালিকা দেখান

    স্পিচ কমান্ড রিফ্রেশ করুন

    শোনার মোড চালু করুন

    শোনার মোড বন্ধ করুন

    মাইক্রোফোন সঙ্কুচিত করুন

    স্পিচ রিকগনিশন কমিয়ে দিন

    উইন্ডোজ হেল্প এবং সাপোর্ট দেখুন

    আমি কিভাবে কিছু করতে পারি?
    উদাহরণস্বরূপ: আমি কিভাবে একটি প্রিন্টার ইনস্টল করব?

    আপনি যদি বাক্যাংশটি উচ্চারণ করতে না জানেন তবে আমি আপনাকে Google অনুবাদ বা http://uchilochka.rf ব্যবহার করার পরামর্শ দিচ্ছি (তিনি এই সাইটটি আরও ভালভাবে বুঝতে পেরেছিলেন)

    আমি সহজ বুর্জোয়া শব্দের সমন্বয়ে আমার আদেশগুলি লিখতে চেয়েছিলাম। যা আমি উচ্চারণ করতে পারি। তাই তিনি আমাকে এটি করতে দেননি, তিনি কমান্ড এডিটর চালু করতে পারেননি। ফলস্বরূপ, তিনি আমার এক, দুই এবং খোলা শব্দগুলির উচ্চারণ পুরোপুরি বুঝতে পেরেছিলেন। এই ডায়ালের মাধ্যমে, আপনি হোম স্ক্রিনে নম্বর দ্বারা একটি অ্যাপ্লিকেশন চালু করতে পারেন। প্রথমে নম্বর বলুন, তারপর OPEN বলুন। অনেক কিছু না, অবশ্যই, তবে আমি পরীক্ষাটিকে সফল বলে মনে করি। মাইক্রোসফ্ট রাশিয়ান ভাষা চালু করলে খারাপ হবে না, রিমোট কন্ট্রোলের জন্য একটি ভাল প্রতিস্থাপন।

    উইন্ডোজ 7 অপারেটিং সিস্টেম অনেকগুলি বিকল্প দিয়ে সজ্জিত যা এই সিস্টেমের ব্যবহারকারীদের আরও বেশি সুযোগ প্রদান করে। তারা এটিতে একটি খুব আকর্ষণীয় ফাংশন প্রবর্তন করতে সক্ষম হয়েছিল, যাকে বলা হয় "স্পিচ রিকগনিশন"। কিন্তু এই ব্যবস্থা কি? এই নিয়েই আলোচনা হবে।

    প্রশ্নে থাকা বিকল্পটি সমগ্র সিস্টেম জুড়ে অ্যাপ্লিকেশনগুলিকে কম্পিউটারের সাথে ব্যবহারকারীর ইন্টারঅ্যাকশনের সম্পূর্ণ নতুন উপায় ব্যবহার করার অনুমতি দেয়। এটি Windows 7 স্পিচ রিকগনিশন সিস্টেম যা আপনাকে কীবোর্ড, মাউস বা অন্যান্য উপায় ব্যবহার না করেই আপনার কম্পিউটার নিয়ন্ত্রণ করতে দেয়।

    আমি নোট করতে চাই যে এই উদ্ভাবন অন্যান্য Microsoft পণ্যগুলিতে উপলব্ধ হবে। এই ফাংশনটি একটু আগে লক্ষ্য করা গেছে, অর্থাৎ, তারা এটি উইন্ডোজ ভিস্তাতে প্রয়োগ করার চেষ্টা করেছিল, কিন্তু মাইক্রোসফ্টের অপারেটিং সিস্টেমের সপ্তম সংস্করণে, ভয়েস নিয়ন্ত্রণ তার পূর্বসূরির তুলনায় উচ্চ স্তরে সঞ্চালিত হয়। সহজভাবে বলতে গেলে, উইন্ডোজ 7-এ স্পিচ রিকগনিশনের মতো একটি বিকল্প আরও কার্যকরী হয়ে উঠেছে।

    যা বলা হয়েছে তার পাশাপাশি, আমি নোট করতে চাই যে এটিতে মোটামুটি বিস্তৃত অ্যাপ্লিকেশন রয়েছে। স্পিচ রিকগনিশন সহ উইন্ডোজ 7 এর ব্যবহারকারীদের প্রোগ্রাম চালানোর এবং সমস্ত শব্দের টুকরোকে পাঠ্যে রূপান্তর করার ক্ষমতা রয়েছে, কেবলমাত্র তাদের ভয়েস এবং প্রয়োজনীয় ডিভাইসগুলি ব্যবহার করে কম্পিউটারে সমস্ত ধরণের কমান্ড চালানোর ক্ষমতা রয়েছে। কিন্তু Windows 7 স্পিচ রিকগনিশনকে বাস্তবে পরিণত করতে কী লাগে?

    প্রথমত, আপনার একটি মাইক্রোফোন প্রয়োজন হবে, যা আপনার কম্পিউটারের সাথে সংযুক্ত হওয়া উচিত। এছাড়াও, আপনাকে একটি বিশেষ অ্যাপ্লিকেশন বা প্রোগ্রাম ক্রয় করতে হবে যা প্রস্তুতকারকের দ্বারা প্রকাশিত হয়, অর্থাৎ মাইক্রোসফ্ট। সমস্ত প্রয়োজনীয় উপাদানগুলি ইনস্টল করার পরে এবং মাইক্রোফোনটি কম্পিউটারের সাথে সংযুক্ত হওয়ার পরে, একটি নির্দিষ্ট কাজের পরিকল্পনা বাস্তবায়ন করা উচিত:

    • আপনাকে টেস্ট ভয়েস কমান্ড চালাতে হবে এবং সেগুলিকে টেক্সটে রূপান্তর করতে হবে।
    • আপনি স্বীকৃতি প্রোগ্রামটি প্রশিক্ষণের পরে, আপনাকে আপনার ভয়েসের বিভিন্ন কমান্ডের জন্য টেমপ্লেট তৈরি করতে হবে। এই কাজের ভিত্তিতেই কম্পিউটার আপনার নির্দিষ্ট করা সমস্ত কমান্ড গ্রহণ এবং কার্যকর করতে সক্ষম হবে।

    উইন্ডোজ 7 স্পিচ রিকগনিশন ফাংশনটি মাইক্রোসফ্টের পাঠ্য সম্পাদক - ওয়ার্ডপ্যাডে ব্যবহৃত হয়। বিভিন্ন ফর্ম পূরণ করার সময় এটি নির্দোষভাবে কাজ করে এবং ইন্টারনেট এক্সপ্লোরারে কাজ করার সময় এবং যখন

    উপরন্তু, এই বিকল্পটি বিশেষ ভয়েস কমান্ড সংজ্ঞায়িত করে পূর্বে রেকর্ড করা পাঠ্য সহজেই সম্পাদনা করতে পারে। অবশ্যই, একটি নির্দিষ্ট কাজ শনাক্ত করার প্রক্রিয়ায়, সাধারণ ত্রুটি ঘটে (যখন কিছু শব্দ ভুলভাবে স্বীকৃত হয়)। এই ক্ষেত্রে, প্রোগ্রাম নির্দিষ্ট শব্দের চিঠিপত্রের একটি তালিকা প্রদান করে।

    ফাংশন, অবশ্যই, অসাধারণ, কিন্তু এখানে এখনও একটি "কিন্তু" আছে। বিষয় হল রাশিয়ান বক্তৃতা স্বীকৃতি এখন, নীতিগতভাবে, দুর্গম। ইংরেজি, ফরাসি, জার্মান এবং জাপানিদের জন্য প্রোগ্রামটির চমৎকার সংস্করণ রয়েছে। চীনা, স্প্যানিশ এবং ইতালীয় বক্তৃতার সংস্করণও রয়েছে।

    কিন্তু এই নতুন পণ্য সম্পূর্ণরূপে রাশিয়ান বক্তৃতা জন্য অভিযোজিত নয়. আপনার কম্পিউটার এটির জন্য নির্ধারিত কাজগুলি উপলব্ধি করতে সক্ষম হবে না, যার অর্থ কীবোর্ড ব্যবহার করে কিছু লিখতে বা মাউস ব্যবহার করে কিছু কাজ সম্পাদন করা আপনার পক্ষে সহজ হবে।

    অবশ্যই, আপনি অনুরূপ রাশিয়ান-ভাষার প্রোগ্রামগুলির সাথে কাজ করার চেষ্টা করতে পারেন বা ইংরেজি ভাষাকে আপনার অগ্রাধিকার দিতে পারেন, তবে আপনি এখনও আশা করতে পারেন যে শীঘ্রই রাশিয়ান ভাষায় বক্তৃতা স্বীকৃতিও উচ্চ-মানের মোডে উপলব্ধ হবে। এবং তখনই আপনি অনুশীলনে এমন একটি অনন্য বৈশিষ্ট্য ব্যবহার করে দেখতে সক্ষম হবেন। সর্বোপরি, এটি নিঃসন্দেহে একটি ব্যক্তিগত কম্পিউটারে কাজকে স্পষ্টভাবে সহজ করে তোলে এবং এটি প্রোগ্রামিংয়ের ক্ষেত্রে একটি বিশাল অগ্রগতি। তাই অপেক্ষা করা বাকি।

    রেকর্ড করা বক্তৃতা প্রতিলিপি করার ম্যানুয়াল কাজকে কোনো প্রোগ্রাম সম্পূর্ণরূপে প্রতিস্থাপন করতে পারে না। যাইহোক, এমন কিছু সমাধান রয়েছে যা পাঠ্যের মধ্যে বক্তৃতার অনুবাদকে উল্লেখযোগ্যভাবে গতি বাড়াতে এবং সহজতর করতে পারে, অর্থাৎ ট্রান্সক্রিপশনকে সরল করে।

    ট্রান্সক্রিপশন হল পাঠ্য আকারে একটি অডিও বা ভিডিও ফাইলের রেকর্ডিং। ইন্টারনেটে অর্থপ্রদানের কাজ রয়েছে, যখন অভিনয়কারীকে পাঠ্যটি প্রতিলিপি করার জন্য একটি নির্দিষ্ট পরিমাণ অর্থ প্রদান করা হয়।

    স্পিচ টু টেক্সট অনুবাদ দরকারী

    • শিক্ষার্থীরা রেকর্ড করা অডিও বা ভিডিও লেকচারকে পাঠ্যে অনুবাদ করতে,
    • ব্লগাররা ওয়েবসাইট এবং ব্লগ চালাচ্ছেন,
    • বই এবং পাঠ্য লেখার জন্য লেখক, সাংবাদিক,
    • তথ্য ব্যবসায়ী যাদের ওয়েবিনার, বক্তৃতা ইত্যাদির পরে একটি পাঠ্য প্রয়োজন,
    • যাদের টাইপ করতে অসুবিধা হয় - তারা একটি চিঠি লিখে পরিবার বা বন্ধুদের কাছে পাঠাতে পারে,
    • অন্যান্য অপশন.

    আমরা পিসি, মোবাইল অ্যাপ্লিকেশন এবং অনলাইন পরিষেবাগুলিতে উপলব্ধ সবচেয়ে কার্যকর সরঞ্জামগুলি বর্ণনা করব৷

    1 ওয়েবসাইট speechpad.ru

    এটি একটি অনলাইন পরিষেবা যা আপনাকে Google Chrome ব্রাউজার ব্যবহার করে টেক্সটে বক্তৃতা অনুবাদ করতে দেয়৷ পরিষেবাটি একটি মাইক্রোফোন এবং রেডিমেড ফাইলগুলির সাথে কাজ করে৷ অবশ্যই, আপনি যদি একটি বাহ্যিক মাইক্রোফোন ব্যবহার করেন এবং নিজেকে নির্দেশ করেন তবে গুণমানটি অনেক বেশি হবে। যাইহোক, ইউটিউব ভিডিওগুলির সাথেও পরিষেবাটি একটি ভাল কাজ করে।

    "রেকর্ডিং সক্ষম করুন" এ ক্লিক করুন, "একটি মাইক্রোফোন ব্যবহার" সম্পর্কে প্রশ্নের উত্তর দিন - এটি করতে, "অনুমতি দিন" এ ক্লিক করুন।

    পরিষেবা ব্যবহার সম্পর্কে দীর্ঘ নির্দেশাবলী চিত্রের 1 বোতামে ক্লিক করে ভেঙে ফেলা যেতে পারে৷ 3. আপনি একটি সহজ নিবন্ধন সম্পন্ন করে বিজ্ঞাপন পরিত্রাণ পেতে পারেন.

    ভাত। 3. স্পিচপ্যাড পরিষেবা

    সমাপ্ত ফলাফল সম্পাদনা করা সহজ. এটি করার জন্য, আপনাকে হয় হাইলাইট করা শব্দটি ম্যানুয়ালি সংশোধন করতে হবে বা এটি আবার নির্দেশ করতে হবে। কাজের ফলাফলগুলি আপনার ব্যক্তিগত অ্যাকাউন্টে সংরক্ষিত হয়, সেগুলি আপনার কম্পিউটারেও ডাউনলোড করা যেতে পারে।

    স্পিচপ্যাডের সাথে কাজ করার ভিডিও পাঠের তালিকা:

    আপনি ইউটিউব বা আপনার কম্পিউটার থেকে ভিডিও ট্রান্সক্রাইব করতে পারেন, তবে আপনার একটি মিক্সার প্রয়োজন হবে, আরও বিশদ:

    ভিডিও "অডিও ট্রান্সক্রিপশন"

    সেবাটি সাতটি ভাষায় কাজ করে। একটি ছোট বিয়োগ আছে. এটি এই সত্যের মধ্যে রয়েছে যে আপনার যদি একটি সমাপ্ত অডিও ফাইল প্রতিলিপি করার প্রয়োজন হয় তবে এর শব্দটি স্পিকারগুলির মাধ্যমে শোনা যায়, যা একটি প্রতিধ্বনি আকারে অতিরিক্ত হস্তক্ষেপ তৈরি করে।

    2 পরিষেবা dictation.io

    একটি দুর্দান্ত অনলাইন পরিষেবা যা আপনাকে বিনামূল্যে এবং সহজে পাঠ্যে বক্তৃতা অনুবাদ করতে দেয়।

    ভাত। 4. সার্ভিস dictation.io

    চিত্রে 1. 4 – পৃষ্ঠার শেষে রাশিয়ান ভাষা নির্বাচন করা যেতে পারে। গুগল ক্রোম ব্রাউজারে, ভাষাটি নির্বাচন করা হয়েছে, তবে কিছু কারণে মজিলায় এমন কোনও বিকল্প নেই।

    এটি লক্ষণীয় যে সমাপ্ত ফলাফলটি স্বয়ংক্রিয়ভাবে সংরক্ষণ করার ক্ষমতা প্রয়োগ করা হয়েছে। এটি একটি ট্যাব বা ব্রাউজার বন্ধ করার ফলে দুর্ঘটনাজনিত মুছে ফেলা প্রতিরোধ করবে। এই পরিষেবাটি সমাপ্ত ফাইলগুলিকে চিনতে পারে না৷ একটি মাইক্রোফোন দিয়ে কাজ করে। নির্দেশ করার সময় আপনাকে বিরাম চিহ্নের নাম দিতে হবে।

    পাঠ্যটি বেশ সঠিকভাবে স্বীকৃত, কোন বানান ত্রুটি নেই। আপনি কীবোর্ড থেকে নিজেকে বিরাম চিহ্ন সন্নিবেশ করতে পারেন। সমাপ্ত ফলাফল আপনার কম্পিউটারে সংরক্ষণ করা যেতে পারে.

    3 রিয়েল স্পিকার

    এই প্রোগ্রামটি আপনাকে সহজে মানুষের বক্তৃতা পাঠ্যে অনুবাদ করতে দেয়। এটি বিভিন্ন সিস্টেমে কাজ করার জন্য ডিজাইন করা হয়েছে: উইন্ডোজ, অ্যান্ড্রয়েড, লিনাক্স, ম্যাক। এর সাহায্যে, আপনি শোনা বক্তৃতাকে মাইক্রোফোনে রূপান্তর করতে পারেন (উদাহরণস্বরূপ, এটি একটি ল্যাপটপে তৈরি করা যেতে পারে), পাশাপাশি অডিও ফাইলগুলিতে রেকর্ড করা যেতে পারে।

    13টি বিশ্বের ভাষা বুঝতে পারে। প্রোগ্রামটির একটি বিটা সংস্করণ রয়েছে যা একটি অনলাইন পরিষেবা হিসাবে কাজ করে:

    আপনাকে উপরের লিঙ্কটি অনুসরণ করতে হবে, রাশিয়ান ভাষা নির্বাচন করতে হবে, অনলাইন পরিষেবাতে আপনার অডিও বা ভিডিও ফাইল আপলোড করতে হবে এবং এর প্রতিলিপির জন্য অর্থ প্রদান করতে হবে। ট্রান্সক্রিপশনের পরে, আপনি ফলস্বরূপ পাঠ্যটি অনুলিপি করতে পারেন। ট্রান্সক্রিপশনের জন্য ফাইল যত বড় হবে, এটি প্রক্রিয়া করতে তত বেশি সময় লাগবে, আরও বিশদ:

    2017 সালে RealSpeaker ব্যবহার করে একটি বিনামূল্যে ট্রান্সক্রিপশন বিকল্প ছিল, কিন্তু 2018 সালে এমন কোন বিকল্প নেই। এটা খুবই বিভ্রান্তিকর যে প্রতিলিপিকৃত ফাইলটি ডাউনলোড করার জন্য সকল ব্যবহারকারীর জন্য উপলব্ধ; সম্ভবত এটি উন্নত করা হবে।

    প্রোগ্রামটির বিকাশকারীর পরিচিতিগুলি (ভিকন্টাক্টে, ফেসবুক, ইউটিউব, টুইটার, ইমেল, ফোন) তার ওয়েবসাইটের পৃষ্ঠায় পাওয়া যাবে (আরো সঠিকভাবে, সাইটের ফুটারে):

    4 স্পিচলগার

    Android এ চলমান মোবাইল ডিভাইসের জন্য পূর্ববর্তী অ্যাপ্লিকেশনের একটি বিকল্প। অ্যাপ স্টোরে বিনামূল্যে পাওয়া যায়:

    পাঠ্য স্বয়ংক্রিয়ভাবে সম্পাদনা করা হয় এবং বিরাম চিহ্ন যোগ করা হয়। নিজের কাছে নোট লিখতে বা তালিকা তৈরি করার জন্য খুব সুবিধাজনক। ফলস্বরূপ, পাঠ্যটি খুব শালীন মানের হবে।

    5 ড্রাগন ডিকটেশন

    এটি এমন একটি অ্যাপ্লিকেশন যা অ্যাপল থেকে মোবাইল ডিভাইসের জন্য বিনামূল্যে বিতরণ করা হয়।

    প্রোগ্রামটি 15টি ভাষায় কাজ করতে পারে। এটি আপনাকে ফলাফল সম্পাদনা করতে এবং তালিকা থেকে পছন্দসই শব্দ নির্বাচন করতে দেয়। আপনাকে স্পষ্টভাবে সমস্ত শব্দ উচ্চারণ করতে হবে, অপ্রয়োজনীয় বিরতি করবেন না এবং স্বরধ্বনি এড়াতে হবে। অনেক সময় শব্দের শেষাংশে ভুল থাকে।

    ড্রাগন ডিক্টেশন অ্যাপ্লিকেশনটি মালিকরা ব্যবহার করে, উদাহরণস্বরূপ, অ্যাপার্টমেন্টের চারপাশে ঘোরাঘুরির সময় একটি দোকানে একটি শপিং তালিকা নির্দেশ করতে। আমি যখন সেখানে পৌঁছাই, আমি নোটের পাঠ্যটি দেখতে পারি এবং আমাকে শুনতে হবে না।

    আপনি আপনার অনুশীলনে যে প্রোগ্রামই ব্যবহার করুন না কেন, ফলাফলগুলিকে দুবার চেক করতে এবং নির্দিষ্ট সমন্বয় করতে প্রস্তুত থাকুন। এটি ত্রুটি ছাড়াই একটি ত্রুটিহীন পাঠ্য পাওয়ার একমাত্র উপায়।

    এছাড়াও দরকারী পরিষেবা:

    আপনার ইনবক্সে সরাসরি কম্পিউটার সাক্ষরতার সর্বশেষ নিবন্ধগুলি পান৷.
    ইতিমধ্যে আরো 3,000 গ্রাহক

    .