پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

 
  • language
  • language
  • ورود/عضویت

ارائه مدل تشخیص نارسایی‌های گفتاری با استفاده از یادگیری عمیق

ارائه مدل تشخیص نارسایی‌های گفتاری با استفاده از یادگیری عمیق

  • شماره درخواست:
  • تاریخ اعلام: 1399/09/10
  • تاریخ انقضا: 1399/10/04

فرصت ها:

براساس پیشنهاد‌ها قابل‌ مذاکره خواهد بود.

میزان سرمایه گذاری:

براساس پیشنهاد‌ها قابل‌ مذاکره خواهد بود.

برنامه زمان بندی:

تماس جهت اطلاعات بیشتر:

۰۲۱۸۸۳۹۸۵۶۳ – ۰۲۱۸۸۳۹۸۵۴۳

پست الکترونیک:

Proposal@boomerangtt.com

ضرورت مسئله

امروزه موضوع علم داده و هوش مصنوعی به‌عنوان ابزاری برای مدل‌سازی و تحلیل‌داده‌ها، آینده‌پژوهی، پیش‌بینی و تصمیم‌سازی موردتوجه ویژه قرار گرفته است. در این میان موضوعات پزشکی هم برای پیاده‌سازی سیستم‌های تشخیصی و پیش‌بینی به‌عنوان سیستم‌های پشتیبان تصمیم‌گیری بالینی (CDSS) تلاش کرده است از این ابزارها استفاده مناسبی داشته باشد؛ اما به دلایل متعدد حوزه گفتاردرمانی در این زمینه نتوانسته است از این پتانسیل بهره‌برداری مناسبی به عمل آورد. متأسفانه با توجه به پیچیدگی‌هایی که در تحلیل گفتار وجود دارد و با توجه به تعدد و تنوع لهجه‌ها و گویه‌های کشورمان، بستر مناسبی برای تشخیص نارسایی‌های گفتاری به کمک هوش مصنوعی و یادگیری عمیق ایجاد نشده است. از طرفی به دلیل عدم آگاهی خانواده‌ها نسبت به معضلاتی که در پسِ نارسایی‌های گفتاری نهفته است (نظیر کاهش اعتمادبه‌نفس، کاهش قدرت یادگیری و انزوای اجتماعی فرد) و میزان خطای متخصصین این حوزه با توجه به ظرافت‌ها و سختی امر تشخیص، تعداد افرادی که از این معضلات رنج می‌برند روزبه‌روز رو به افزایش بوده و به دلیل عدم مراجعه در زمان مناسب درمان را غیرممکن یا بسیار مشکل خواهند کرد. لذا ضرورت دارد موضوع تحلیل گفتار زبان فارسی برای رسیدن به ابزاری قدرتمند، سریع و سهل‌الوصول برای همه افراد جامعه برای کشف مشکلات گفتاری موردتوجه قرار گیرد.  

مشروح مسئله تحقیقاتی

به‌طورکلی موضوع گفتار از دو نظر مورد بررسی قرار می‌گیرد: (ویژگی‌های فیزیکی و ویژگی‌های پروزودیک)
  • ویژگی‌های فیزیکی: از این منظر، صدا و گفتار تبدیل به ویژگی‌های کمی و فیزیکی مانند فرکانس، جیتر و غیره می‌شود و با مطالعه این ویژگی‌های می‌توان صدا یا گفتار را به‌صورت کمی مطالعه نمود. این ویژگی هیچ ارتباطی به ملودی، زبان و گویش ندارد و به‌صورت کمی قابل ارزیابی است.
  • ویژگی‌های پروزودیک: ویژگی‌های پروزودیک همان ویژگی‌های لحن و آهنگ صداست که کاملاً وابسته به گویش، لهجه و زبان است و به‌صورت کمی قابل‌اندازه‌گیری نیست. بیشتر متخصصان گفتاردرمانی برای یافتن مشکلات گفتاری از این ویژگی‌ها استفاده می‌کنند. از این ویژگی‌ها می‌توان به لحن بیان جمله، سرعت ادای کلمات، استرس روی حروف در کلمه و کلمات در جمله اشاره نمود.
به‌منظور تشخیص نارسایی‌های گفتاری با استفاده از یادگیری عمیق، در این پروژه تحقیقاتی مدنظر است تا به کمک متخصصان گفتاردرمانی و انفورماتیک پزشکی، ابتدا مجموعه جملات استانداردی ایجاد گردد که نشان‌دهنده ویژگی‌های کامل پروزودیک زبان باشد، سپس به کمک متخصصان گفتاردرمانی، باید Data set مناسب از افراد تشکیل گردد و جملات مذکور توسط این افراد بیان و ضبط شود. در مرحله بعد می‌بایست صداها توسط متخصصان گفتاردرمانی برچسب‌گذاری شود و Data set استاندار گفتاردرمانی که شامل تمام ویژگی‌های پروزودیک است تشکیل گردد. در این مرحله به کمک متخصصان انفورماتیک پزشکی، باید مدل هوش مصنوعی مبتنی بر Deep learning پیاده‌سازی شود و بین ویژگی‌های فیزیکال و پروزودیک ارتباط برقرار شود. بدین ترتیب تا این مرحله تمام ویژگی‌های فیزیکی صدا توسط برنامه‌های موجود استخراج گشته و ارتباط معنادار، ریاضیاتی، محاسباتی و قابل‌فهم با ویژگی‌های پروزودیک توسط هوش مصنوعی برقرار شده است. درنهایت هر ویژگی پروزودیک باید از روی ویژگی فیزیکال قابل‌محاسبه باشد و با تشکیل یک شبکه عصبی عمیق و آموزش دادن آن، نارسایی‌های گفتاری برای فایل‌های صوتی جدید توسط هوش مصنوعی قابل‌تشخیص گردد.  

خروجی‌های مورد انتظار تحقیق

  • پیاده‌سازی مدل مناسب یادگیری عمیق جهت تشخیص نارسایی‌های گفتاری با توجه به مجموعه دادگان ایجادشده
  • ارائه مستند مربوط به ارزیابی مدل پیاده‌سازی شده

گام های تحقیق

  • تعیین جملات استاندارد (تعیین جملات استاندارد زبان فارسی که ویژگی‌های پروزودیک و فیزیکی را به‌صورت واضح نمایان کند.)
  • ایجاد مجموعه دادگان مناسب برای مدل‌سازی گفتار زبان فارسی برای طیف سنی خاص
  • برچسب‌گذاری داده‌ها
  • ایجاد یک نگاشت بین ویژگی‌ها پروزودیک و ویژگی‌های فرکانسی (فیزیکی)
  • پیاده‌سازی مدل یادگیری عمیق برای تشخیص نارسایی‌های گفتاری
  • ارزیابی و مستندسازی

الزامات تحقیق

  • میزان دقت (Accuracy) مدل به‌دست‌آمده حداقل 90 درصد باشد
  • جهت ارزیابی میزان دقت مدل پیاده‌سازی شده باید از مجموعه خارج از مجموعه آموزش استفاده گردد.
  • نوع فایل و ویژگی‌های محیط ضبط صدای نمونه‌های پژوهش، نباید به‌عنوان محدودیت‌های تأثیرگذار بر دقت مدل به‌دست‌آمده اعلام شوند.

معیارهای ارزیابی و انتخاب مجری

  • تحصیلات و سوابق تیم تحقیقاتی و تناسب آن با مسئله
  • رویکرد فنی تیم تحقیقاتی به مسئله
  • دسترسی به تجهیزات آزمایشگاهی و مواد اولیه و سایر الزامات اجرای تحقیق
  • زمان و هزینه اجرای تحقیق

تسهیم مالکیت فکری

  • مالکیت معنوی: مجری در مالکیت معنوی ناشی از اجرای تحقیق سهیم خواهد بود و انتشار مقاله مشترک توسط مجری و متقاضی در ژورنال‌های داخلی و خارجی، ارائه مقاله در کنفرانس‌ها و سمینارها با موافقت و اشاره به نام همه دست‌اندرکاران مجاز خواهد بود.
  • مالکیت منافع مادی: با توجه به مدل کسب‌وکار شتاب‌دهنده‌ متقاضی، 35 درصد از منافع مالی ناشی از توسعه این فناوری متعلق به شتاب‌دهنده‌ متقاضی بوده و 65 درصد از منافع مالی نیز به مجری تعلق خواهد گرفت.

  ارسال پروپوزال

پروپوزال‌ها صرفاً باید در چارچوب موردنظر صندوق نوآوری و شکوفایی، تدوین و حداکثر تا تاریخ 4 دی‌ماه 1399 در سامانه غزال به آدرس https://ghazal.inif.ir/grant ارسال شوند. پروپوزال‌هایی که در چارچوبی غیرازآن، یا به روش‌های دیگر به دست صندوق برسند، وارد فرایند ارزیابی نخواهند شد.