به گزارش خبرگزاری مهر به نقل از فیز، از قابلیت تبدیل صدا به متن در موبایل گرفته تا زیرنویسهایی که ویدیوها را قابلدسترستر میکنند، تبدیل گفتار به نوشتار در زندگی روزمره جا افتاده است. در پشت صحنه، هوش مصنوعی کارهای سنگین را انجام میدهد و کلام گفتاری را با سرعت و دقتی که زمانی غیرممکن به نظر میرسید، به متن تبدیل میکند.
در همین راستا ابر رایانه Lonestar۶ در مرکز رایانش پیشرفته تگزاس به محققان گفتارشناسی دانشگاه تگزاس در دالاس امکان داد مرزهای شناسایی خودکار زبان(ASR) برای کودکان را ارتقا دهند. پژوهشگران با ابداع انتزاعات ریاضی به نام «واحدهای گفتاری گسسته» از صدا به عنوان نوعی رمزگذاری ناشناس، میتوانند مشکلات گفتار و زبان را در کودکان خردسال شناسایی و مداخل پزشکی سریعتری را برای کمک به آنها فراهم کنند.
ساتویک داتا، دانشجوی دکترای مدرسه مهندسی و علوم کامپیوتر اریک جانسون و بورسیه تحصیلات تکمیلی یوجین مکدرموت در دانشگاه تگزاس در دالاس می گوید:هدف ما این است که بتوانیم نحوه صحبت کردن کودکان را درک و تحلیل کنیم.
وی در این باره می افزاید:طی سالها، توسعه چنین سیستمهایی به خصوص برای کودکان بسیار چالشبرانگیز بوده است. زیرا کودکان به خصوص کمتر از هشته سال سن هنوز در حال یادگیری مهارتهای گفتاری و صوتی خود هستند و دانش شان از دستور زبان هم کامل نیست. گفتار آنها تفاوت زیادی با دادههای گفتاری بزرگسالان دارد که اغلب برای آموزش سیستمهای ASR متنباز استفاده میشود و این باعث میشود عملکرد مدلها در تشخیص گفتار کودکان ضعیف باشد.
این پروژه با همکاری چند محقق دیگر انجام شد. وقتی پروژه در دوران محدودیتهای مربوط به کووید-۱۹ آغاز شد، پژوهشگران تنها به مجموعه دادههای موجود از بیش از هزار کودک دسترسی داشتند که از طریق هدستها در جلسات آموزشی مجازی ضبط شده بود. پس از کاهش محدودیتها، آنها توانستند دادههای جدیدی را در محیطهای واقعی جمعآوری کند و کودکان پیشدبستانی را در محیطهای پرسر و صدای مراکز مراقبت روزانه با استفاده از دستگاه ضبط کوچکی به نام «لنا» ثبت کنند. این دستگاه بهطور مخفیانه در جیب تیشرت سفارشی آنها قرار گرفته بود.
تحقیق مذکور وجهه ای جدید از تشخیص گفتار خودکار با استفاده از واحدهای گسسته گفتار را بررسی می کند، که میتوان آنها را به عنوان نمایشهای انتزاعی ریاضی از گفتار در نظر گرفت. نکته کلیدی این است که تولید توالی خروجی از واحدهای گسسته گفتار، عملا امکان بازگشت به عقب و بازسازی موج اصلی گفتار را غیرممکن و در نتیجه درجهای از حفاظت حریم خصوصی را فراهم میکند.
به گفته داتا به محض اینکه گفتار بارگذاری شود، میتوان آن را به واحدهای گسسته گفتار تبدیل کرد، و در این حالت دیگر نگرانی از بابت نقض حریم خصوصی وجود ندارد، زیرا گفتار اصلی دیگر وجود ندارد و امکان تولید آن مجدداً وجود ندارد.
فرآیند تبدیل به واحدهای گسسته گفتار، لایههای افزونگی دادهای را حذف کرده و نیازهای کلی آموزش و محاسباتی مدل تشخیص گفتار خودکار (ASR) را کاهش میدهد.