ضرورت مسئله
امروزه موضوع علم داده و هوش مصنوعی بهعنوان ابزاری برای مدلسازی و تحلیلدادهها، آیندهپژوهی، پیشبینی و تصمیمسازی موردتوجه ویژه قرار گرفته است. در این میان موضوعات پزشکی هم برای پیادهسازی سیستمهای تشخیصی و پیشبینی بهعنوان سیستمهای پشتیبان تصمیمگیری بالینی (
CDSS) تلاش کرده است از این ابزارها استفاده مناسبی داشته باشد؛ اما به دلایل متعدد حوزه گفتاردرمانی در این زمینه نتوانسته است از این پتانسیل بهرهبرداری مناسبی به عمل آورد. متأسفانه با توجه به پیچیدگیهایی که در تحلیل گفتار وجود دارد و با توجه به تعدد و تنوع لهجهها و گویههای کشورمان، بستر مناسبی برای تشخیص نارساییهای گفتاری به کمک هوش مصنوعی و یادگیری عمیق ایجاد نشده است. از طرفی به دلیل عدم آگاهی خانوادهها نسبت به معضلاتی که در پسِ نارساییهای گفتاری نهفته است (نظیر کاهش اعتمادبهنفس، کاهش قدرت یادگیری و انزوای اجتماعی فرد) و میزان خطای متخصصین این حوزه با توجه به ظرافتها و سختی امر تشخیص، تعداد افرادی که از این معضلات رنج میبرند روزبهروز رو به افزایش بوده و به دلیل عدم مراجعه در زمان مناسب درمان را غیرممکن یا بسیار مشکل خواهند کرد.
لذا ضرورت دارد موضوع تحلیل گفتار زبان فارسی برای رسیدن به ابزاری قدرتمند، سریع و سهلالوصول برای همه افراد جامعه برای کشف مشکلات گفتاری موردتوجه قرار گیرد.
مشروح مسئله تحقیقاتی
بهطورکلی موضوع گفتار از دو نظر مورد بررسی قرار میگیرد: (ویژگیهای فیزیکی و ویژگیهای پروزودیک)
- ویژگیهای فیزیکی: از این منظر، صدا و گفتار تبدیل به ویژگیهای کمی و فیزیکی مانند فرکانس، جیتر و غیره میشود و با مطالعه این ویژگیهای میتوان صدا یا گفتار را بهصورت کمی مطالعه نمود. این ویژگی هیچ ارتباطی به ملودی، زبان و گویش ندارد و بهصورت کمی قابل ارزیابی است.
- ویژگیهای پروزودیک: ویژگیهای پروزودیک همان ویژگیهای لحن و آهنگ صداست که کاملاً وابسته به گویش، لهجه و زبان است و بهصورت کمی قابلاندازهگیری نیست. بیشتر متخصصان گفتاردرمانی برای یافتن مشکلات گفتاری از این ویژگیها استفاده میکنند. از این ویژگیها میتوان به لحن بیان جمله، سرعت ادای کلمات، استرس روی حروف در کلمه و کلمات در جمله اشاره نمود.
بهمنظور تشخیص نارساییهای گفتاری با استفاده از یادگیری عمیق، در این پروژه تحقیقاتی مدنظر است تا به کمک متخصصان گفتاردرمانی و انفورماتیک پزشکی، ابتدا مجموعه جملات استانداردی ایجاد گردد که نشاندهنده ویژگیهای کامل پروزودیک زبان باشد، سپس به کمک متخصصان گفتاردرمانی، باید
Data set مناسب از افراد تشکیل گردد و جملات مذکور توسط این افراد بیان و ضبط شود. در مرحله بعد میبایست صداها توسط متخصصان گفتاردرمانی برچسبگذاری شود و
Data set استاندار گفتاردرمانی که شامل تمام ویژگیهای پروزودیک است تشکیل گردد. در این مرحله به کمک متخصصان انفورماتیک پزشکی، باید مدل هوش مصنوعی مبتنی بر
Deep learning پیادهسازی شود و بین ویژگیهای فیزیکال و پروزودیک ارتباط برقرار شود. بدین ترتیب تا این مرحله تمام ویژگیهای فیزیکی صدا توسط برنامههای موجود استخراج گشته و ارتباط معنادار، ریاضیاتی، محاسباتی و قابلفهم با ویژگیهای پروزودیک توسط هوش مصنوعی برقرار شده است. درنهایت هر ویژگی پروزودیک باید از روی ویژگی فیزیکال قابلمحاسبه باشد و با تشکیل یک شبکه عصبی عمیق و
آموزش دادن آن، نارساییهای گفتاری برای فایلهای صوتی جدید توسط هوش مصنوعی قابلتشخیص گردد.
خروجیهای مورد انتظار تحقیق
- پیادهسازی مدل مناسب یادگیری عمیق جهت تشخیص نارساییهای گفتاری با توجه به مجموعه دادگان ایجادشده
- ارائه مستند مربوط به ارزیابی مدل پیادهسازی شده
گام های تحقیق
- تعیین جملات استاندارد (تعیین جملات استاندارد زبان فارسی که ویژگیهای پروزودیک و فیزیکی را بهصورت واضح نمایان کند.)
- ایجاد مجموعه دادگان مناسب برای مدلسازی گفتار زبان فارسی برای طیف سنی خاص
- برچسبگذاری دادهها
- ایجاد یک نگاشت بین ویژگیها پروزودیک و ویژگیهای فرکانسی (فیزیکی)
- پیادهسازی مدل یادگیری عمیق برای تشخیص نارساییهای گفتاری
- ارزیابی و مستندسازی
الزامات تحقیق
- میزان دقت (Accuracy) مدل بهدستآمده حداقل 90 درصد باشد
- جهت ارزیابی میزان دقت مدل پیادهسازی شده باید از مجموعه خارج از مجموعه آموزش استفاده گردد.
- نوع فایل و ویژگیهای محیط ضبط صدای نمونههای پژوهش، نباید بهعنوان محدودیتهای تأثیرگذار بر دقت مدل بهدستآمده اعلام شوند.
معیارهای ارزیابی و انتخاب مجری
- تحصیلات و سوابق تیم تحقیقاتی و تناسب آن با مسئله
- رویکرد فنی تیم تحقیقاتی به مسئله
- دسترسی به تجهیزات آزمایشگاهی و مواد اولیه و سایر الزامات اجرای تحقیق
- زمان و هزینه اجرای تحقیق
تسهیم مالکیت فکری
- مالکیت معنوی: مجری در مالکیت معنوی ناشی از اجرای تحقیق سهیم خواهد بود و انتشار مقاله مشترک توسط مجری و متقاضی در ژورنالهای داخلی و خارجی، ارائه مقاله در کنفرانسها و سمینارها با موافقت و اشاره به نام همه دستاندرکاران مجاز خواهد بود.
- مالکیت منافع مادی: با توجه به مدل کسبوکار شتابدهنده متقاضی، 35 درصد از منافع مالی ناشی از توسعه این فناوری متعلق به شتابدهنده متقاضی بوده و 65 درصد از منافع مالی نیز به مجری تعلق خواهد گرفت.
ارسال پروپوزال
پروپوزالها صرفاً باید در چارچوب موردنظر صندوق نوآوری و شکوفایی، تدوین و حداکثر تا تاریخ 4 دیماه 1399 در سامانه غزال به آدرس
https://ghazal.inif.ir/grant ارسال شوند. پروپوزالهایی که در چارچوبی غیرازآن، یا به روشهای دیگر به دست صندوق برسند، وارد فرایند ارزیابی نخواهند شد.
پاسخ دهید