مشکل vanishing gradients در یادگیری عمیق - هفت خط کد انجمن پرسش و پاسخ برنامه نویسی

مشکل vanishing gradients در یادگیری عمیق

+1 امتیاز
برای جلوگیری از vanishing gradients در deep learning چه راه حل هایی وجود داره؟
سوال شده اردیبهشت 29, 1396  بوسیله ی مریم اکرمی (امتیاز 482)   25 55 66

2 پاسخ

+3 امتیاز
 
بهترین پاسخ

در برخی از موارد تو پروسه آموزش هر چقدر به سمت لایه های پایین می ریم گرادیان کوچک و کوچک تر میشه بطورئیکه وزن های در لایه های پایین عملاً بروز رسانی نمیشه این پدیده باعث میشه که شبکه نتونه همگرا بشه.

در واقع باید کاری که میزان واریانس در ورودی و خروجی لایه ها یکسان باشه جهت جلوگیری از پدیده vanishing gradientsاز مقادیر تصادفی با توزیع نرمال استفاده می کنیم

پاسخ داده شده آذر 27, 1396 بوسیله ی مصطفی ساتکی (امتیاز 21,998)   24 34 75
دوباره نشان داده شد مهر 19, 1401 بوسیله ی مصطفی ساتکی
0 امتیاز

از آنجایی که شبکه عصبی بازگشتی معمولی نیاز داره تا گرادیان پس انتشار را دریک توالی طولانی (با مقادیر کوچک در ضرب ماتریس) بدست بیاره، از همین رو مقدار گرادیان لایه به لایه کاهش پیدا می کنه و در نهایت پس از طی چند مرحله از بین میره. بنابراین، حالاتی که از مرحله زمانی فعلی فاصله دارند، به محاسبه پارامترهای گرادیان که همان پارامترهای یادگیری در شبکه عصبی بازگشتی هستند، هیچ کمکی نخواهند کرد. محو گرادیان منحصر به شبکه عصبی بازگشتی معمولی نیست. ،محو گرادیان در شبکه های پیشخور نیز اتفاق میافتند.  شبکه عصبی بازگشتی به دلیل اینکه عمق زیادی دارد این مشکلات در آن رایجتر میباشد. این دو مشکل در نهایت نشان میدهند که اگر گرادیان از بین برود، به این معنا خواهد بود که حالتهای پنهان قبلی هیچ تاثیر واقعی بر حالتهای پنهان بعدی ندارند. به عبارت دیگر، هیچ وابستگی طولانی مدتی آموخته نمیشود. خوشبختانه، چندین روش برای رفع مشکل محو گرادیان وجود دارد. مقداردهی اولیه مناسب ماتریسهای وزنی می تواند اثر شیب های محو شده را کاهش دهد. منظم سازی نیز میتواند کمک کننده باشد. روش  دیگری که از دو مورد قبل بیشتر ترجیح داده می شود، استفاده از تابع فعالسازی ReLUبه جای توابع فعالسازی تانژانت هذلولوی یا  سیگموئید میباشد. مشتق ReLUیک ثابت 0یا 1است، در نتیجه به احتمال زیاد مشکل محو گرادیان را ندارد. راه حل بهتر که امروزه بیشتر مورد استفاده میشود، استفاده از شبکه های حافظه طولانی کوتاه-مدت ( )LSTMیا واحد بازگشتی دروازه دار ( )GRUاست
 

پاسخ داده شده شهریور 26, 1401 بوسیله ی toopak (امتیاز 2,458)   16 47 66
...