سمینار ارشد رشته برق الکترونیک: بکارگیری ساختار آمیختار عصبی و آماری برای به هنجارسازی اطلاعات

بازشناسی خودکار گفتار (ASR) به فرایندی گفته می شود که گفتار انسان را به متن یا فرمان معادل تبدیل می کند. این مسئله رایانه ها یا ماشین ها را قادر می سازد تا گفتار انسان را بشنوند و در مقابل آن واکنش مناسب نشان دهند، مسئله ای که منجر به برقراری ارتباط سریع و آسان با ماشین های اطراف شده و انسان را از دکمه ها و کلیدها برای برقراری ارتباط بی نیاز می سازد.
در حقیقت بازشناسی گفتار تبدیل یک سیگنال صوتی به رشته ای از لغات می باشد. این کار فرآیندی بسیار پیچیده است که علت آن پیچیدگی اندام های تولید کننده و تشخیص دهنده گفتار در انسان و ناشناخته بودن نحوه عملکرد آنهاست. مسائل مختلفی مانند تفاوت صدای کاربران مختلف، نوع بیان کلمات، نویزها و شرایط محیطی، تعداد کلمات مورد نظر و معنی و مفهوم گفتار، پیچیدگی سیستم های تشخیص گفتار را تعیین می کنند.
از میان رویکردهای مختلفی که برای بازشناسی گفتار وجود دارد، رویکرد مبتنی بر بازشناسی الگو موفق ترین آنهاست و تقریبا تمامی سیستم های موفق امروزی براساس آن عمل می کنند. در این رویکرد، گفتار به کمک تعدادی واحد آوایی (مانند کلمه، هجا، سه واجی یا واج) مدل می شود و در بازشناسی نیز از تشخیص این واحدها و کنار هم قرار دادن آنها، متن متناسب با گفتار تشخیص داده می شود. سیستم های بازشناسی گفتار با این رویکرد دارای دو فاز آموزش و آزمون می باشند که در فاز آموزش الگوهای مربوط به هر کلاس که همان واحدهای آوایی هستند، با استفاده از روش هایی مدلسازی می شوند. مقایسه گفتار ورودی با الگوهای آموزش داده شده جهت تشخیص واحدهای آوایی موجود در گفتار ورودی، در فاز آزمون انجام می گردد. در فاز آموزش معمولا دو نوع مدل آوایی و زبانی آماده می

شود که در فاز آزمون از آنها استفاده شود. استخراج مدل های آوایی از روی دادگان گفتاری با استفاده از روش های مختلفی امکانپذیر است که از مهمترین آنها می توان روش های مدل پیچش زمانی پویا یا DTW (که در گوشی های تلفن همراه برای شماره گیری صوتی با بیان نام فرد به کار می رود)، شبکه عصبی مصنوعی و مدل مخفی مارکوف (HMM) را نام برد. از میان این روش ها، مدل مخفی مارکوف به نسبت سایرین موفق تر عمل کرده و عمده سیستم های کاربردی امروزی از آن استفاده می نمایند.

یکی از ویژگی های مهم گفتار، حالت گفتار فرد می باشد. به عبارت دیگر انتقال حالت درونی فرد به شنونده در مکالمات اهمیت بسزایی دارد زیرا اگر حالت بیان یک جمله تغییر کند، آن عبارت می تواند مفهوم متفاوت و یا حتی متناقض پیدا کند. اعمال حالت و یا تاکید به گفتار موجب تغییرات اساسی در پارامترهای استخراج شده از گفتار گردیده و بازشناسی گفتار با حالت را با چالشی بزرگ مواجه نموده و نرخ بازشناسی را کاهش می دهد.
برخلاف زبان انگلیسی که سابقه کار در زمینه بازشناسی گفتار برای آن به حدود پنج دهه پیش برمی گردد، کارهای انجام شده در این زمینه برای زبان فارسی قدمتی به اندازه کمتر از دو دهه دارد. شروع فعالیت های تحقیقاتی در زمینه بازشناسی گفتار روی زبان فارسی در داخل کشور به اوایل دهه 70 شمسی برمی گردد که عمده کارهای انجام شده نیز به صورت تحقیقات دانشگاهی پراکنده بوده است. با تاسیس “پژوهشکده پردازش هوشمند علائم” در اواسط سال 1371 و شکل گیری پردازش گفتار به همراه گروهی جهت تهیه دادگان صوتی، جهشی نسبتا جدی به سوی داشتن چنین تکنولوژی برای زبان فارسی صورت گرفت. تهیه دادگان های گفتاری مختلف از جمله فارس دات (FarsDat) برای محیط عادی در سال 1375 و برای گفتار تلفنی (TFarsDat) در سال 1378 از کارهای اساسی این پژوهشکده در این زمینه بوده است.
از چند سال قبل تحقیقات مستقلی در خصوص بازشناسی گفتار فارسی با حالت در دانشکده تحصیلات تکمیلی دانشگاه آزاد اسلامی – واحد تهران جنوب آغاز شده و با آماده سازی دیتابیس اختصاصی از گویندگان متفاوت، گام های مهمی در این تکنیک نوظهور برداشته شده است. در این گزارش کوشش گردیده تا با استفاده از نتایج تجربیات و پروژه های پیشین و افزودن ویژگی های جدید به سیستم بازشناسی، نرخ بازشناسی این نوع از گفتار بهبود یابد.
هدف ما در این پروژه توسعه سیستم های آمیختار برای به هنجارسازی فرمنت ها در بازشناسی گفتار با حالت می باشد. در طراحی بخش شبکه عصبی از شبکه MLP برای نگاشت فرمنت های مختلف استفاده کرده و با مقایسه عملکرد، بهترین روش انتخاب شده است. برای آموزش و آزمون نیز از دادگان تهیه شده در دانشکده تحصیلات تکمیلی واحد تهرا نجنوب که مبتنی بر جملات فارس دات می باشد، استفاده گردیده است.
ساختار این گزارش به صورت خلاصه به این شرح می باشد: در فصل اول به پیشینه این تحقیق اشاره گذرایی خواهد گردید. در فصل دوم شرح مختصری درباره انواع فایل هایی که در این تحقیق استفاده خواهیم کرد، ارائه می دهیم. در فصل سوم به نحوه هنجارسازی فرمنت ها و استفاده از نتیجه به دست آمده در سیستم بازشناسی گفتار مورد بررسی قرار می گیرد. در فصل چهارم با استفاده از نتایج فصل سوم، روش های مختلف پیچش فرکانسی بررسی شده و ضرایب کپسترال جدید باز تولید خواهد گردید. در فصل پنجم نیز در مورد روش های ذکر شده نتیجه گیری صورت گرفته است. در فصل ششم، متن کامل کدهای نوشته شده برای این تحقیق ضمیمه گردیده است.

فرم در حال بارگذاری ...

فید نظر برای این مطلب

وبلاگ

توضیح وبلاگ من

سمینار ارشد رشته برق الکترونیک: بکارگیری ساختار آمیختار عصبی و آماری برای به هنجارسازی اطلاعات