بازشناسی خودکار گفتار (ASR) به فرایندی گفته می شود که گفتار انسان را به متن یا فرمان معادل تبدیل می کند. این مسئله رایانه ها یا ماشین ها را قادر می سازد تا گفتار انسان را بشنوند و در مقابل آن واکنش مناسب نشان دهند، مسئله ای که منجر به برقراری ارتباط سریع و آسان با ماشین های اطراف شده و انسان را از دکمه ها و کلیدها برای برقراری ارتباط بی نیاز می سازد.
در حقیقت بازشناسی گفتار تبدیل یک سیگنال صوتی به رشته ای از لغات می باشد. این کار فرآیندی بسیار پیچیده است که علت آن پیچیدگی اندام های تولید کننده و تشخیص دهنده گفتار در انسان و ناشناخته بودن نحوه عملکرد آنهاست. مسائل مختلفی مانند تفاوت صدای کاربران مختلف، نوع بیان کلمات، نویزها و شرایط محیطی، تعداد کلمات مورد نظر و معنی و مفهوم گفتار، پیچیدگی سیستم های تشخیص گفتار را تعیین می کنند.
از میان رویکردهای مختلفی که برای بازشناسی گفتار وجود دارد، رویکرد مبتنی بر بازشناسی الگو موفق ترین آنهاست و تقریبا تمامی سیستم های موفق امروزی براساس آن عمل می کنند. در این رویکرد، گفتار به کمک تعدادی واحد آوایی (مانند کلمه، هجا، سه واجی یا واج) مدل می شود و در بازشناسی نیز از تشخیص این واحدها و کنار هم قرار دادن آنها، متن متناسب با گفتار تشخیص داده می شود. سیستم های بازشناسی گفتار با این رویکرد دارای دو فاز آموزش و آزمون می باشند که در فاز آموزش الگوهای مربوط به هر کلاس که همان واحدهای آوایی هستند، با استفاده از روش هایی مدلسازی می شوند. مقایسه گفتار ورودی با الگوهای آموزش داده شده جهت تشخیص واحدهای آوایی موجود در گفتار ورودی، در فاز آزمون انجام می گردد. در فاز آموزش معمولا دو نوع مدل آوایی و زبانی آماده می
شود که در فاز آزمون از آنها استفاده شود. استخراج مدل های آوایی از روی دادگان گفتاری با استفاده از روش های مختلفی امکانپذیر است که از مهمترین آنها می توان روش های مدل پیچش زمانی پویا یا DTW (که در گوشی های تلفن همراه برای شماره گیری صوتی با بیان نام فرد به کار می رود)، شبکه عصبی مصنوعی و مدل مخفی مارکوف (HMM) را نام برد. از میان این روش ها، مدل مخفی مارکوف به نسبت سایرین موفق تر عمل کرده و عمده سیستم های کاربردی امروزی از آن استفاده می نمایند.
یکی از ویژگی های مهم گفتار، حالت گفتار فرد می باشد. به عبارت دیگر انتقال حالت درونی فرد به شنونده در مکالمات اهمیت بسزایی دارد زیرا اگر حالت بیان یک جمله تغییر کند، آن عبارت می تواند مفهوم متفاوت و یا حتی متناقض پیدا کند. اعمال حالت و یا تاکید به گفتار موجب تغییرات اساسی در پارامترهای استخراج شده از گفتار گردیده و بازشناسی گفتار با حالت را با چالشی بزرگ مواجه نموده و نرخ بازشناسی را کاهش می دهد.
برخلاف زبان انگلیسی که سابقه کار در زمینه بازشناسی گفتار برای آن به حدود پنج دهه پیش برمی گردد، کارهای انجام شده در این زمینه برای زبان فارسی قدمتی به اندازه کمتر از دو دهه دارد. شروع فعالیت های تحقیقاتی در زمینه بازشناسی گفتار روی زبان فارسی در داخل کشور به اوایل دهه 70 شمسی برمی گردد که عمده کارهای انجام شده نیز به صورت تحقیقات دانشگاهی پراکنده بوده است. با تاسیس “پژوهشکده پردازش هوشمند علائم” در اواسط سال 1371 و شکل گیری پردازش گفتار به همراه گروهی جهت تهیه دادگان صوتی، جهشی نسبتا جدی به سوی داشتن چنین تکنولوژی برای زبان فارسی صورت گرفت. تهیه دادگان های گفتاری مختلف از جمله فارس دات (FarsDat) برای محیط عادی در سال 1375 و برای گفتار تلفنی (TFarsDat) در سال 1378 از کارهای اساسی این پژوهشکده در این زمینه بوده است.
از چند سال قبل تحقیقات مستقلی در خصوص بازشناسی گفتار فارسی با حالت در دانشکده تحصیلات تکمیلی دانشگاه آزاد اسلامی – واحد تهران جنوب آغاز شده و با آماده سازی دیتابیس اختصاصی از گویندگان متفاوت، گام های مهمی در این تکنیک نوظهور برداشته شده است. در این گزارش کوشش گردیده تا با استفاده از نتایج تجربیات و پروژه های پیشین و افزودن ویژگی های جدید به سیستم بازشناسی، نرخ بازشناسی این نوع از گفتار بهبود یابد.
هدف ما در این پروژه توسعه سیستم های آمیختار برای به هنجارسازی فرمنت ها در بازشناسی گفتار با حالت می باشد. در طراحی بخش شبکه عصبی از شبکه MLP برای نگاشت فرمنت های مختلف استفاده کرده و با مقایسه عملکرد، بهترین روش انتخاب شده است. برای آموزش و آزمون نیز از دادگان تهیه شده در دانشکده تحصیلات تکمیلی واحد تهرا نجنوب که مبتنی بر جملات فارس دات می باشد، استفاده گردیده است.
ساختار این گزارش به صورت خلاصه به این شرح می باشد: در فصل اول به پیشینه این تحقیق اشاره گذرایی خواهد گردید. در فصل دوم شرح مختصری درباره انواع فایل هایی که در این تحقیق استفاده خواهیم کرد، ارائه می دهیم. در فصل سوم به نحوه هنجارسازی فرمنت ها و استفاده از نتیجه به دست آمده در سیستم بازشناسی گفتار مورد بررسی قرار می گیرد. در فصل چهارم با استفاده از نتایج فصل سوم، روش های مختلف پیچش فرکانسی بررسی شده و ضرایب کپسترال جدید باز تولید خواهد گردید. در فصل پنجم نیز در مورد روش های ذکر شده نتیجه گیری صورت گرفته است. در فصل ششم، متن کامل کدهای نوشته شده برای این تحقیق ضمیمه گردیده است.
دستیبابی چندگانه با تقسیم كد چند حاملی (MC – CDMA) كه تركیبی كارآمد از چند تافتی با تقسیم فركانس متعامد (OFDM) و CDMA بوده و سمبل های داده را در حوزه فركانس كسترده می سازد به نرخ بالای داده و قدرت پوشش بالا در مقابل خطا دست می یابد. این روش مزیت های تحسین آمیز دیگری مانند استخراج چندگانگی شبه بهینه از چند مسیرگی، اجتناب از تداخل میان سمبلی (ISI)، بهره برداری كارا از پهنای باند و انعطاف در تولید نرخ داده های گوناگون نیز به همراه دارد. از طرف دیگر استفاده از تكنیك MIMO، امكان دستیابی به گذردهی بالا و پیاده سازی چند تافتی فضایی یا همان مقاوم سازی پیوند مخابراتی را با استفاده از كدگذارهای فضا – فركانس، فضا – زمان یا فضا – زمان – فركانس فراهم می سازد. بنابراین می توان پیش بینی كرد كه تركیب این دو تكنیك تحت قالب سامانه های CDMA – MIMO MC یكی از اصلی ترین گزینه های مورد نظر در مخابرات بی سیم باند گسترده نسل چهارم محسوب شود.
همان گونه كه از سیمای چند وجهی سامانه MIMO MC – CDMA مشاهده می شود، قابلیت های ذاتی آن پرشمار بوده و از نحوه كدگذاری در فضا، زمان و فركانس تا تخصیص انواع كدهای گسترده ساز و تولید نرخ داده های متفاوت را در بر می گیرد. در عین حال به سبب تنوع پراكندگی داده ها در بستر سمبلهای زمانی متوالی، فركانس زیر حاملهای مجاور، آنتن هایی با همبستگی مكانی و زمانی، مسیرهای مختلف متغیر با زمان ناشی از كاربر سیار و كاربران متعدد یك سامانه مخابراتی، نقاط ضعف بالقوه ای نیز ازدل پیچیدگی های سامانه MIMO MC – CDMA پدیدار می شود كه شامل تداخل ناشی از سایر كاربران، سایر زیر حاملها و حتی سایر آنتها، انحراف فركانس حامل (CFO) و نسبت بالای اوج به متوسط توان (PAPR) است. بنابراین صورت بندی اهم فرصتها و تهدیدهای پیش رو در این سامانه و تحلیل و ارزیابی آنها تحت شرایط و پارامترهای مختلف، مباحثی هستند كه خط سیر این پایان نامه را تشكیل داده اند.
تاریخچه مختصری از سامانه OFDM به همراه معرفی نسبی مزایا و معایب آن، معرفی CDMA و مقایسه آن با سایر سامانه های دستیابی چند گانه و همچنین توضیحات مقدماتی در باب ظرفیت سامانه MIMO، یعنی هر سه مولفه سامانه اصلی در فصل اول تحت پوشش مناسب قرار گرفته است.
ساختار سامانه MC – CDMA در ابعاد گوناگون و عملكرد آن در شرایط مختلف موضوع فصل بعدی است. در بخش اول آن ، ساختمان فرستنده ها و گیرنده های MC – CDMA و MC – DS – CDMA و MT – CDMA مورد بحث قرار می گیرد. سپس در بخش دوم كدهای گسرده ساز در دو قالب كدهای شبه نویز و كدهای متعامد معرفی می شود و بخش سوم عملكرد سامانه های MC – CDMA را در محیطهای همزمان مورد بررسی قرار می دهد.
تحلیل جنبه های مختلف سامانه MIMO MC – CDMA در فصل سوم انجام می شود. نخست، كدگذاری فضا – فركانس لایه دار و طراحی گیرنده بر مبنای این كدگذاری انجام می شود. اثرات عدم توازن پارامترها و بویژه PAPR موضوع بخش دوم فصل سوم را به خود اختصاص می دهد و در انتها، عملكرد و ظرفیت سامانه STBC MC – CDMA غیر همزمان با وجود انحراف فركانس حامل، پایان بخش این فصل می باشد.
فصل چهارم در بردارنده موضوع اصلی پایان نامه میباشد كه شبیه سازی نیز بر مبنای آن انجام شده است. علاقه به خدمات بی سیم با نرخ داده بالا مانند داده، تصویر و ویدیو بدان معناست كه سامانه های مخابراتی سیار نسل بعد بایستی به نحوی كارآمد از عهده ترافیكی نامتجانس برآیند. برای رسیدن به سامانه ای كه خدمات انواع مختلف ترافیك را به صورتی كارا به انجام برساند توسعه سامانه ای كه به صورتی یكنواخت و هموار با چندین نرخ داده كار می كند ضروری است. تاكنون طرحهای چند نرخه مختلفی مانند طرحهای جایگذاری شده طیفی و جایگذاری نشده طیفی در سامانه های MC – CDMA مورد كاوش قرار گرفته اند. همچنین طرحهای ML و آشكارسازی خطی بكار برده شده اند اما چنانكه پیش از این دانسته می شد، ML پیچیدگی محاسباتی قابل ملاحظه ای دارد كه كاربردش را محدود می كند. گیرنده های خطی نیز جهت تضعیف و كاهش تداخل دستیابی چند گانه (MAI) در سامانه ای با بار زیاد كاربر چندان نیرومند نمی باشند. بنابراین تمركز هدف در این پایان نامه به تحلیل گیرنده های كارا برای سامانه های MIMO MC – CDMA چند نرخی معطوف می باشد.
همانند سامانه های CDMA دنباله مستقیم، چندین راهبرد چند تافتی جهت طراحی یك سامانه چند حاملی چند كاربره چند نرخه وجود دارد. سر راست ترین راه، اختصاص چند كانال مخابراتی به صورت موازی به كاربرانی با نرخ بالاتر یا به بیان دیگر چند دنباله گسترده ساز به این كاربران می باشد (MC – CDMA چند کدی). گزینه دیگر استفاده از تكنیك ضریب گسترنده متغیر (VSF) میباشد که در آن به تمامی كاربران پهنای باند مشترك و تعداد زیر حامل مشابهی تخصیص یافته اما بهره پردازش كاربران نرخ بالا كوچكتر از كاربران نرخ پایین بوده و لذا نسبت به كاربران نرخ بالا توان ارسال سمبلهای كمتری را در یك سمبل OFDM دارند.
با توجه به محدودیت آشكار ساز ML، انواع مختلفی از آشکار سازهای خطی MMSE تحقیق شده اند. همچنین گیرنده های دارای حذف تداخل متوالی (SIC) یا موازی (PIC) نیز تاکنون مطالعه شده اند. علاوه بر ساختارهای مذكور، تكنیك های آشكارسازی غیر بهینه ولی دقیق دیگری نیز وجود دارد كه پیچیده تر می باشند. مثلاً الگوریتم فینك – پست (كد گشایی كروی) برای كدهای مشبك در كاناهای پژمردگی ریلی و گوسی توسعه داده شده است. با این حال ضعف اصلی كدگشایی كروی ناپایداری آن در اندازه لیست می باشد. همچنین كاربرد آشكارسازی كروی در منظومه ای با مدولاسیون غیر صحیح چندان سر راست نیست. نیز در این كدگشایی الگوریتم ساده ای برای تشخیص شعاع كره جستجو وجود ندارد چرا كه تعداد كاربران فعال، سطح نویز و نقایصی چون خطای تخمین كانال در آن موثر است. بنابراین در فصل چهارم بیشترین سهم به توسعه یك گیرنده SF – MMSE / HIC در پیوند فراسو سامانه MIMO MC – CDMA چند نرخه داده شده است. سهم دیگر متعلق به تحققی جدید از گیرنده SF – MMSE / HIC وفقی شبیه بینا می باشد كه دو موضوع كلیدی یعنی تخمین شبه كور كانال MIMO MC – CDMA چند نرخه و فرو نشانی تداخل به صورت وفقی كور را هدف گیری كرده است. چون رویكردهای كور نمی توانند بر ابهام ضریب مختلط كانال فائق آیند سمبلهای راهنما به كار گرفته می شود كه این خود به روش شبه كور منجر می شود. برمبنای مدل یكپارچه سامانه كه شامل هر دو طرح چند كدی و VSF می شود، تخمین كانال به انجام می رسد. بعلاوه جهت دستیابی به بهره چند گانگی بیشتر، ایجاد مشخصات مختلف در زیر حاملهای متفاوت كه حامل سمبل داده یكسانی هستند بوسیله میانگذاری زیر حامل به انجام می رسد.
نتیجه گیری نهایی و جمع بندی تحقیق حاضر به همراه پیشنهادات مرتبط با توسعه ایده ها در زمینه سامانه قدرتمند MIMO MC – CDMA نیز حسن ختام این پایان نامه است كه در فصل پنجم تنظیم شده است.
با توجه به اینكه یكی از مهمترین هزینه ها در صنعت هزینه های تعمیر و نگهداری و توقف روند تولید ناشی از خطاها می باشد، بحث تشخیص به موقع خطا به منظور پیشگیری از گسترش آن از اهمیت بالایی در صنعت برخوردار است. بسیاری از محققان و مهندسان در سالهای اخیر توجه خود را به تشخیص خطا و نگهداری پیشگیرانه که هدف آن جلوگیری از خطاهای بزرگ در موتورهاست، معطوف کرده اند. تا کنون روشهای مخرب و غیر مخرب زیادی پیشنهاد شده اند. روشهای غیر مخرب روشهایی هستند که بر پایه اندازه گیریهای ساده و ارزان بنا شده اند و نیازی به تغییر ساختار موتور ندارند.
اخیراً تشخیص خطا در ماشینهای الکتریکی از روشهای متداول قدیمی به سمت روشهای مبتنی بر هوش مصنوعی می رود. متغیرهای زیادی در ماشین می توانند به عنوان سیگنال تشخیص خطا بكار گرفته شوند. به دلیل ساده بودن نمونه برداری از ولتاژها و جریانهای استاتور و
در دسترس بودن حسگرهای لازم برای اندازه گیری، استفاده از این سیگنالها مناسب به نظر می رسد.
در این پروژه سعی می شود با استفاده از تحلیل سیگنال جریان استاتور برای تشخیص بعضی خطاها در موتور القایی مورد بررسی قرار گیرد. و سپس با انتخاب متد مناسب روشی برای تشخیص خطاهای مهم نظیر خطای ترک خوردگی میله های روتور و خطای عدم هم محوری استاتور و روتور ارائه خواهد شد.
این پایان نامه در نه فصل به شرح زیر تنظیم شده است:
ابتدا در فصل دو به معرفی انواع خطاهای رایج در ماشینهای القایی، علل وقوع و نیز اثرات و پی آمدهای آنها خواهیم پرداخت. در فصل سه ضمن معرفی راهكارهای مختلف بكار رفته برای تشخیص خطا در ماشینهای القایی، مزایا و معایب آنها بررسی می شود. سپس در فصل چهار در مورد روشهای مدلسازی دینامیكی موتور القایی معیوب بحث می شود. در فصل پنج به تعمیم نظریه تابع سیم پیچی در حالت عدم هم محوری روتور و استاتور خواهیم پرداخت. در فصل شش محاسبه اندوكتانسهای موتور القایی سه فاز قفس سنجابی در حالتهای مختلف عدم هم محوری انجام خواهد شد. تحلیل كامپیوتری موتور القایی سه فاز القایی در حالت عدم هم محوری بین روتور و استاتور و تشخیص عیب با استفاده از آنالیز FFT در فصل هفتم ارائه می گردد. در فصل هشتم نیز به تحلیل كامپیوتری موتور القایی سه فاز قفس سنجابی در حالتهای مختلف شكستگی میله های روتور ودر نهایت به تشخیص عیب موتور با استفاده از آنالیز FFT خواهیم پرداخت.
فصل نهم نیز به نتیجه گیری و بیان پیشنهادات اختصاص دارد.
استاندارد DVB برای کاربردهای پخش ویدئویی تدوین شده است. این استاندارد به علت سادگی، در دسترس بودن و ارزانی تجهیزات مربوطه مورد استقبال قرار گرفته است. این فناوری امروزه توسط بسیاری از اپراتورهای شبکه مورد استفاده قرار می گیرد. DVB ابتدا برای پخش یک طرفه ویدئویی و ترافیک MPEG طراحی شده بود. استاندارد DVB-S در سال 1994 ارائه گردید و با استفاده از مدولاسیون QPSK و ترکیب کدینگ کانولوشنال و RS، پخش تلویزیونی دیجیتال ماهواره ای را به صورت یکطرفه از سمت ایستگاه مرکزی به مشترکین ارائه نمود. در این استاندارد، فشرده سازی تصویر براساس MPEG-2 انجام می گردد. در استاندارد DVB-S2 از مدولاسیون های مختلفی مانند QPSK و PSK8 و APSK16 و APSK32 استفاده می شود. استاندارد DVB-RCS که در سال 2004 ارائه گردید، با اختصاص کانال برگشتی ماهواره ای از سمت مشترکین به ایستگاه مرکزی، امکان برقراری سرویس های دو طرفه براساس تقاضا را فراهم نمود. مدولاسیون در نظر گرفته شده برای این استاندارد از نوع QPSK است و از کدینگ ترکیبی کانولوشنال و RS، یا توربو کدینگ در آن استفاده می شود. ترکیب دو استاندارد DVB-RCS و DVB-S2 به همراه استفاده از مدولاسیون مستقیم در باند Ka، منجر به پدید آمدن نسل جدید استاندارد DVB-RCS شده است که علاوه بر استفاده از قابلیت های DVB-S2، با استفاده از کانال برگشتی ماهواره ای می توان مدولاسیون و کدینگ وفقی را پیاده سازی نمود. کیفیت سیگنال دریافتی از ایستگاه مرکزی به صورت نسبت توان حامل به نویز از طریق لینک برگشتی توسط هر مشترک به ایستگاه مرکزی انتقال یافته و ایستگاه مرکزی با توجه به کیفیت سیگنال دریافتی، نوع مدولاسیون و کدینگ را برای هر مشترک تعیین نموده و اطلاعات درخواستی را ارسال می نماید. وجود کانال برگشتی در استاندارد DVB-RCS به همراه
امکان مدولاسیون و کدینگ متغیر در استاندارد DVB-S2 موجب گردیده تا مدولاسیون و کدینگ وفقی در شبکه های نسل جدید راندمان ارسال را به میزان 100 تا 200 درصد افزایش دهند. در لینک های DVB-RCS به منظور بهره گیری موثرتر از پهنای باند از مدولاسیون های چند سطحی استفاده می شود.
در لینک های DVB-RCS از TWTA به عنوان تقویت کننده توان بالا استفاده می شود. برای افزایش راندمان TWTA نقطه کار را در نزدیکی ناحیه اشباع قرار می دهند. در نزدیکی ناحیه اشباع مشخصه تقویت کننده غیرخطی است و باعث ایجاد اغتشاش در سیگنال عبوری می شود که این اغتشاش آشکارسازی سیگنال در گیرنده را دچار مشکل می نماید و در نتیجه منجر به افزایش BER می شود و همچنین اغتشاش، طیف سیگنال را گسترده می کند که باعث ایجاد تداخل در کانال های مجاور می گردد. در یک لینگ DVB-RCS یک تقویت کننده TWTA در سمت فرستنده و یک TWTA در ماهواره وجود دارد که هر دو این تقویت کننده ها به دلایلی که در بالا ذکر شد، در ناحیه اشباع خود کار می کنند.
در سال های اخیر به دلیل اهمیت توان مصرفی و پهنای باند در لینک های ماهواره ای برای برقراری ارتباط و ارائه سرویس، تحقیقات زیادی در زمینه خطی سازی به منظور افزایش راندمان کاری تقویت کننده های توان صورت گرفته است که نتایج تحقیقات در مقالات و تزهای دانشجویی ارائه گردیده است. از طرفی تغییر کاربری DVB-RCS از پخش تلویزیونی به ارائه سرویس های ارتباطی و تعاملی ماهواره ای صورت گرفته است و وجود دو تقویت کننده توان بالا TWTA در لینک های DVB-RCS که در نزدیکی ناحیه اشباع کار می کنند، لزوم بکارگیری خطی ساز در این لینک ها را مشخص می کند. عمل خطی سازی در ایستگاه زمینی فرستنده یا در ماهواره قابل انجام است. خطی سازی در ماهواره هزینه زیادی در بردارد ولی خطی سازی در سمت فرستنده، علاوه بر ارزان تر بودن قابلیت توسعه نیز داردو با استفاده از کانال برگشتی در لینک های DVB-RCS می توان عملکرد خطی ساز فرستنده را اصلاح نمود. بکارگیری خطی ساز به همراه مدولاسیون های سطوح بالا در لینک های DVB-RCS کار نوینی است و کار مشابهی تاکنون انجام نگرفته است. خطی ساز پیش اعوجاج به علت سادگی در پیاده سازی، عدم محدودیت در پهنای باند، تنظیمات راحت و قابلیت کار در نزدیکی ناحیه اشباع، بیشتر مورد توجه است. خطی سازی پیش اعوجاج PD یک مشخصه غیرخطی تولید می کند که تابع معکوس مشخصه انتقال دامنه و فاز تقویت کننده است و مشخصه کلی حاصل از به هم بسته شدن تقویت کننده و خطی ساز خطی است.
در پایدارسازی ویدئو هدف حذف لرزشها ی تصاویر ویدئو می باشد و برای انجام آن می بایستی سه مرحله اساسی زیر انجام شود كه بترتیب عبارتند از:
1- تخمین پارامترهای حركت دوربین 2- فیلترینگ حركت و جداسازی حركت های ناخواسته لرزش از حركت های خواسته عمدی 3- جبرانسازی حركت های تصاویر ویدئو.
مرحله تخمین پارامترهای حركت دوربین یكی از مراحل مهم پایدارسازی میباشد كه لازم است كاملا” بدون خطا انجام شود.
حركت های دوربین میتواند بر اساس میزان جابجای نقاط متناظر بین دو فریم متوالی با استفاده از یك مدل حركت بین فریمی تخمین زده
شود. برای تعیین پارامترهای حركت دوربین در هر فریم لازم است چندین نقطه متناطر بین دو فریم پیدا شود. تعداد نقاط متناظر مورد نیاز بستگی به نوع و تعداد مجهولات مدل حركت بین فریمی دارد كه در آن بطور معمول بین 2 تا 3 نقطه متناظر برای حل معادلات آن مورد نیاز می باشد.
با توجه به اینكه پیدا نمودن پیكسل های متناظر بین دو فریم متوالی در عمل غیر ممكن میباشد بنابراین مجبور هستیم از بلوك بجای پیكسل استفاده نمائیم ولی درانتخاب ابعاد بلوك می بایستی شرطی را رعایت نمائیم كه در آن ابعاد بلوك مجاز هستند تا اندازه ای بزرگ انتخاب شوند كه سرعت و جهت حركت تمام پیكسل های آن از یك فریم به فریم بعدی كاملا” یكسان باشند بنابراین با برقراری این شرط میتوان حركت بلوك را همانند حركت پیكسل مركز آن دانست.
در پایدارسازی ویدئو یكی از مسائل اساسی و مهم مشكل اختلاف عمق در تصاویر در زمان حركت دوربین می باشد كه در این حالت سرعت حركت قسمت های از تصویر كه عمق شان كمتر است بیشتر از قسمت های از تصویر می باشد كه عمق شان بیشتر است بنابراین در استفاده كردن از این نواحی بعنوان نقاط متناظر میتواند خطا زیادی را در تخمین پارامترهای حركت دوربین به دنبال داشته باشد.
برای تخمین حركت بلوك ها اگر بخواهیم از روش تطبیق بلوكی به همان صورتیكه در فشرده سازی بكاربرده میشود استفاده نمائیم ، خطای نسبتا” زیادی را خواهیم داشت زیرا اساس روش تطبیق بلوكی بر اساس محتویات تصویر بلوك ها می باشد كه نتایج جستجو آن میتواند شامل بلوك های مشابه هم باشد البته این موضوع در فشرده سازی اهمیت چندانی ندارد ولی در پایدارسازی ویدئو به دلیل اینكه هدف از تخمین بلوكها پیدا نمودن نقاط متناظر بین دو فریم متوالی میباشد بنابراین ما خطا ی خیلی زیادی را خواهیم داشت.
در این روش ارائه شده اولا” تعداد بلوك های كه در هر فریم حركت آنها تخمین زده می شوند چندین برابر تعداد مورد نیاز خواهند بود. ثانیا” با بكار بردن روشهای، میزان درصد خطا تخمین حركت بلوك ها به كمترین مقدار كاهش می یابد. ثالثا” با استفاده از معیارهای تشخیص خطا، در هر فریم بردارهای حركت تخمین زده شده صحیح از بردارها تخمین زده شده غلط تشخیص داده شده و از میان آنها به تعداد مورد نیاز صحیح ترین بردارها برای استفاده در مدل حركت بین فریمی انتخاب می شوند.
بنابراین در این روش اولا” بردارهای حركت تخمین زده شده كه قرار است در مدل حركت بین فریمی استفاده شوند كاملا” صحیح خواهند بود و ثانیا” این بردارها ی صحیح میتواند از قسمتهای از تصویر انتخاب شوند كه دارایی اختلاف عمق كمتری را نسبت به هم دارند بنابراین با استفاده از این روش در پایدارسازی ویدئو خطای مربوط به اختلاف عمق را هم نخواهیم داشت.