آموزش یادگیری ماشین

قصد داریم در این پست مباحثی از هوش مصنوعی را مطرح کنیم که از جمله آنها یادگیری ماشین

(machine learning) و داده کاوی (data mining) می باشد که از جمله کاربرد این علوم در فیلید های

هوش مصنوعی ، پردازش تصویر ، پردازش اشیاء 3 بعدی ،پردازش صوت و داده کاوی در پایگاه داده و غیره می باشد.

در ابتدا مباحث تئوریک را مطرح می کنیم و سپس مثال های عملی را نیز بیان می کنیم.

Machine Learning چیست؟

دو تعریف برای یادگیری ماشین ارائه شده است. Arthur Samuel آن را بدین صورت توصیف میکند:

زمینهای از مطالعه که به کامپیوترها توانایی یاد گرفتن میدهد، بدون این که صریحا پروگرم شوند. این تعریفی قدیمی و غیر رسمی است.
Tom Mitchell یک تعریف مدرنتر ارائه میدهد: یک برنامه کامپیوتری از تجربه[1] E با توجه به دستههایی از وظایف[2] T و معیار عملکرد[3] P یاد میگیرد، اگر عملکرد آن که با P اندازه گرفته میشود، در وظایف موجود در T ، با تجربه Eبهبود یابد.

مثال: بازی کردن چکرز(جنگ نادر)

E : تجربهی بازی کردن چکرز به دفعات زیاد

T: عمل بازی کردن چکرز

P: احتمال این که پروگرم بازی بعدی را خواهد برد

یادگیری با نظارت (supervised learning):

در یادگیری با نظارت، ما یک مجموعه داده در اختیار داریم و با دانستن این مساله که رابطهای بین ورودی و خروجی وجود دارد، تقریبا میدانیم خروجی صحیح به چه شکل است.

مسائل یادگیری با نظارت به دو دسته تقسیم میشوند: رگرسیون[1] و دستهبندی[2]. در یک مساله رگرسیون، ما در تلاشیم نتایج را در یک خروجی پیوسته[3] پیشبینی کنیم؛ به این معنا که ما سعی میکنیم متغیرهای ورودی را به تابعی پیوسته نگاشت کنیم. در یک مساله دستهبندی، به جای این کار، در تلاشیم نتایج را در یک خروجی گسسته[4] پیشبینی کنیم. به عبارت دیگر، در تلاشیم متغیرهای ورودی را به دستههای گسسته نگاشت کنیم.

مثال: با در اختیار داشتن دادههایی درباره اندازه خانهها در تجارت معاملات زمین، تلاش میکنیم قیمت خانهها را پیشبینی کنیم. قیمت به عنوان تابعی از اندازه، یک خروجی پیوسته است. بنابراین این مساله، یک مساله رگرسیون است.

ما میتوانیم مساله مزبور را با تبدیل کردن خروجی به این که خانه به قیمتی بالاتر یا پایینتر از قیمت موردنظر فروخته میشود، به یک مساله دستهبندی تغییر دهیم. در مسالهی اخیر، خانهها بر مبنای قیمت به دو دستهی گسسته دستهبندی میشوند.

[1] regression

[2] classification

[3] continuous

[4] discrete

[1] experience

[2] tasks

[3] performance measure

سوال شده آذر 4, 1392 بوسیله ی مصطفی ساتکی (امتیاز 21,998)
دوباره تگ گذاری شد بهمن 22, 1392 بوسیله ی BlueBlade

7 پاسخ

بهترین پاسخ

یادگیری بدون نظارت (unsupervised learning):

یادگیری بدون نظارت، به ما اجازه میدهد با مسائلی برخورد کنیم که درباره شکل نتایج آنها اطلاعات کمی داریم یا کاملا بی اطلاع هستیم. به این ترتیب ما میتوانیم در جایی که لزوما اثر متغیرها را نمی دانیم، ساختاری از داده استنتاج کنیم.

ما میتوانیم این ساختار را با خوشهبندی[1] داده بر مبنای روابط میان متغیرها در داده استنتاج کنیم.

در یادگیری بدون نظارت، بازخوردی (فیدبکی) بر اساس نتایج پیشبینی وجود ندارد. یعنی معلمی برای تصحیح کردن شما وجود ندارد. این تنها درباره خوشهبندی نیست. برای مثال، حافظه انجمنی[2] نیز بر اساس یادگیری بدون نظارت است.

مثال: خوشهبندی: مجموعهای از 1000 مقاله از نشریه US Economy را در نظر بگیرید و روشی برای گروهبندی خودکار آنها پیدا کنید که آنها را به گروههایی متشکل از تعداد کمی مقاله تقسیم کند که با متغیرهای متفاوتی نظیر تکرار کلمات،طول جملات، شماره صفحه و ... نسبتا شبیهند یا به هم مربوطند.

انجمنی[3]: فرض کنید یک پزشک در طی سالها تجربه، در ذهنش ارتباطی بین ویژگیهای بیماران و بیماریای که بدان مبتلا هستند، شکل میدهد. اگر بیمار جدیدی مراجعه کند، بر اساس ویژگیهای این بیمار نظیر علائم،پیشینه پزشکی خانواده، مشخصههای فیزیکی، دورنمای روحی و غیره پزشک بیماری یا بیماری های ممکن را بر مبنای آنچه قبلا در بیماران مشابه دیده است، به نشانهها مربوط میسازد. این امر مشابه استدلال مبتنی بر قانون مانند سیستمهای خبره[4] نیست. در این مورد ما ترجیح میدهیم یک تابع نگاشت از ویژگیهای بیمار به بیماریها تخمین بزنیم.

[1] clustering

[2] associative memory

[3] associative

[4] expert systems

پاسخ داده شده آذر 4, 1392 بوسیله ی مصطفی ساتکی (امتیاز 21,998)
انتخاب شد دی 2, 1392 بوسیله ی BlueBlade

در این مورد برای شبکه عصبی بیشتر توضیح بدید یا اگه منبع فارسی یا انگلیسی هست معرفی کنید؟
اگه ممکن هست یک مثال عملی تر مثلا توی پیاده سازی شبکه عصبی بزنید البته ساده باشه.
ممنون

دارای دیدگاه دی 1, 1392 بوسیله ی pilapila (امتیاز 232)

رگرسیون خطی با یک متغیر

نمایش مدل:

به یاد بیاورید که در مسائل رگرسیون، ما متغیرهای ورودی را میگیریم و تلاش میکنیم خروجی را بر یک تابع نتیجه موردنظر پیوسته نگاشت کنیم. رگرسیون خطی با یک متغیر، هم چنین تحت عنوان رگرسیون خطی تک متغیری[1] شناخته میشود.

رگرسیون خطی تک متغیری زمانی استفاده میشود که میخواهید یک مقدار خروجی منفرد[2] را از یک مقدار ورودی منفرد[3] پیش بینی کنید. در چنین شرایطی، یادگیری با نظارت را انجام میدهیم؛ این بدین معناست که تقریبا از این که اثر و علت ورودی/ خروجی چه خواهد بود، ایده ای داریم.

تابع فرض (Hypothesis Function):

تابع فرض ما فرم کلی زیر را دارد:

برای به دست آوردن خروجیمان یعنی y، به h_θ مقادیری برای ₀θ و ₁θ میدهیم. به عبارت دیگر، ما در تلاشیم یک تابع به نام h_θ ایجاد کنیم که قادر است به گونهای قابل اعتماد داده ورودی ما (یعنی xها ) را به داده خروجی (yها) نگاشت کند.

مثال:

y(خروجی)	x(ورودی)
₄	₀
₇	₁
₇	₂
₈	₃

حال میتوانیم یک حدس تصادفی دربارهی تابع h_θ بزنیم: 2=₀θ و 2=₁θ. به این ترتیب تابع فرض به این صورت خواهد بود:

بنابراین برای ورودی 1 مطابق با فرض ما، y عدد 4 خواهد بود . که به اندازه 3 از هدف موردنظر دور است.

تابع هزینه (cost function):

میتوان دقت تابع فرض را با استفاده از یک تابع هزینه اندازهگیری کرد. این تابع میانگین(در واقع یک نوع خیالی از یک میانگین) همه نتایج فرض با ورودیهای x را در مقایسه با خروجیهای y حقیقی محاسبه میکند.

[1] univariate

[2] single output

[3] single input

پاسخ داده شده آذر 5, 1392 بوسیله ی مصطفی ساتکی (امتیاز 21,998)
ویرایش شده آذر 7, 1392 بوسیله ی مصطفی ساتکی

برای مجزا کردن، این فرمول در واقع که در آن میانگین مربعات یا اختلاف بین مقدار پیشبینیشده و مقدار حقیقی است. این تابع، تابع مربعات خطا یا خطای مربع میانگین [1] خوانده میشود.

حال ما قادریم به طور مطمئن دقت تابع پیشبینیکنندهمان را در برابر نتایج درستی که داریم، اندازه بگیریم. به این ترتیب میتوانیم نتایج جدیدی پیشبینی کنیم.

نزول گرادیان (Gradient Descent):

تا به اینجا، ما تابع فرضمان را داریم و روشی برای اندازه گرفتن این که این تابع چه قدر دقیق است. حال آنچه نیاز داریم روشی است تا تابع فرضمان را به طور خودکار بهبود ببخشیم. در این هنگام gradient descent به کار میرود.

تصور کنید که ما تابع فرضمان را بر مبنای زمینههایش یعنی ₀θ و ₁θ رسم میکنیم (در واقع ما داریم تابع هزینه را برای ترکیبات پارامترها رسم میکنیم). این امر ممکن است منجر به نوعی سردرگمی شود. ما داریم به یک سطح بالاتر از چکیدگی[2] حرکت میکنیم. ما خود x و y را رسم نمیکنیم بلکه حدسهای تابع فرضمان را رسم میکنیم.

ما ₀θ را روی محور x و ₁θ را روی محور z و تابع هزینه را روی محور عمودی y نمایش میدهیم. نقاط روی گراف، نتیجه تابع هزینه با استفاده از فرضمان با آن پارمترهای تتای خاص خواهد بود.

میدانیم زمانی موفق شدهایم که تابع هزینهمان در منتها الیه پایینی درههای گراف واقع بوده و نتیجه صفر (یا نزدیک به صفر) باشد.

روشی که با آن این کار را انجام میدهیم،مشتق گرفتن از تابع هزینه ( تانژانت خط مماس بر یک تابع) است. شیب تانژانت، مشتق در آن نقطه است و این شیب به ما جهتی میدهد که به سمت آن حرکت کنیم. ما آن مشتق را با یک مقدار ثابت که آلفا خوانده میشود، کند میکنیم[3].

معادلهی نزول گرادیان بدین صورت است:

تا زمان همگرایی تکرار میشود:

برای j=0 و j=1 .

به طور حسی معادله فوق را میتوان اینچنین نیز تصور کرد:

تا زمان همگرایی تکرار میشود:

[1] Mean squared error

[2] abstraction

[3] steps down

پاسخ داده شده آذر 5, 1392 بوسیله ی مصطفی ساتکی (امتیاز 21,998)
ویرایش شده آذر 7, 1392 بوسیله ی مصطفی ساتکی

گرادیان برای رگرسیون خطی:

وقتی به طور خاص نزول گرادیان برای مورد رگرسیون خطی به کار میرود، یک شکل جدید از معادلهی نزول گرادیان منتج میشود. ما میتوانیم تابع هزینه و تابع فرض حقیقیمان را جایگزین کنیم و معادله را به این شکل اصلاح کنیم:

تا زمان همگرایی تکرار شود:

که m اندازه مجموعهی آموزشی است، ₀θ یک ثابت است که با ₁θ در یک زمان تغییر خواهد کرد و x⁽ⁱ⁾ و y⁽ⁱ⁾ مقادیر مجموعه آموزشی داده شده (داده) میباشند.

توجه کنید که ما دو مورد را برای _jθ از هم جدا کردهایم و برای ₁θ به خاطر مشتق، x⁽ⁱ⁾ را در انتها ضرب میکنیم.

خلاصه این که اگر ما با حدسی برای تابع فرض شروع کنیم و سپس مکررا معادلات نزول گرادیان را به کار ببریم، فرضمان دقیق و دقیقتر خواهد شد.

در ادامه: به جای استفاده کردن از رگرسیون خطی روی فقط یک متغیر ورودی، ما مفاهیم ذکرشده را تعمیم و بسط خواهیم داد؛ آن چنان که بتوانیم دادهای با چندین متغیر ورودی را پیشبینی کنیم. همچنین مقادیر ₀θ و ₁θ را به طور دقیق، بدون نیاز به یک تابع تکرارشونده مانند نزول گرادیان به دست خواهیم آورد.

پاسخ داده شده آذر 7, 1392 بوسیله ی مصطفی ساتکی (امتیاز 21,998)

مروری بر جبر خطی

ماتریسها و بردارها:

ماتریسها آرایه های دو بعدی هستند:

ماتریس بالا چهار ردیف و سه ستون دارد؛ بنابراین یک ماتریس 4x3 است.

یک بردار یک ماتریس با یک ستون و تعدادی ردیف است:

بنابراین بردارها زیرمجموعه ای از ماتریس ها هستند. بردار بالا یک ماتریس 4x1 است.

نشانه گذاری و ضوابط:

Aijبه عنصر ردیف iام و ستون jام از ماتریس A اشاره میکند.
برداری با n ردیف، یک بردار n بعدی خوانده میشود.
Viبه عنصر ردیف iام بردار اشاره میکند.
ماتریسها معمولا با حروف بزرگ نمایش داده می شوند در حالی که بردارها را با حروف کوچک نشان می دهیم.
Scalar به متغیرهایی اطلاق می شود که برداری یا ماتریسی نیستند یا به عبارت دقیق تر تک مقداری هستند.
[]به مجموعه عددهای حقیقی اسکالر اشاره می کند.
n[] به مجموعه ای از بردارهای n بعدی از اعداد حقیقی اشاره می کند.

ضرب عددی و جمع:

جمع و تفریق مبتنی بر عنصر[1] هستند، بنابراین شما به سادگی عناصر مرتبط را اضافه و کم می کنید:

برای جمع کردن یا کم کردن دو ماتریس، ابعاد آنها باید یکسان باشد.

در ضرب عددی(اسکالر)، هر عنصر با مقدار اسکالر ضرب می شود:

[1] Element-wise

پاسخ داده شده آذر 9, 1392 بوسیله ی مصطفی ساتکی (امتیاز 21,998)
ویرایش شده آذر 9, 1392 بوسیله ی مصطفی ساتکی

ضرب ماتریس-بردار:

ستون بردار بر هر ردیف ماتریس نگاشت می شود؛ یعنی عناصر نظیر به نظیر ضرب شده و نتیجه این ضربها جمع می شود.

نتیجه یک بردار است. بردار باید دومین عامل ضرب باشد. تعداد ردیف های بردار باید با تعداد ستون های ماتریس مساوی باشد.

یک ماتریس m x n که ضرب می شود با یک بردار m x 1 منجر می شود به یک بردار n x 1.

ضرب ماتریس-ماتریس:

دو ماتریس را با شکستن ضرب به چندین ضرب برداری و متصل کردن نتیجه ضرب می کنیم:

یک ماتریس m x n که در یک ماتریس n x o ضرب می شود، یک ماتریس m x o را نتیجه می دهد. در مثال بالا، یک ماتریس 3 x 2 با یک ماتریس 2x2 ضرب شده است که به عنوان نتیجه یک ماتریس 3x2به دست می دهد.

برای ضرب کردن دو ماتریس، تعداد ستون های ماتریس اول باید برابر با تعداد ردیف های ماتریس دوم باشد.

ویژگی های ضرب ماتریسی:

جا به جایی پذیر نیست:

شرکت پذیر است:

وقتی ماتریس همانی[2] با ماتریسی دیگر با ابعاد یکسان ضرب می شود، نتیجه برابر ماتریس اولیه خواهد بود. این امر درست مانند ضرب کردن اعداد در یک است. درایه های قطری ماتریس همانی، یک و سایر درایه ها، صفر است.

وقتی ماتریس همانی بعد از یک ماتریس ضرب می شود، ابعاد ماتریس مربعی همانی، باید با ستون های ماتریس دیگر منطبق باشد. وقتی ماتریس همانی را قبل از ماتریس دیگری ضرب می کنیم، ابعاد ماتریس مربع همانی باید با ردیف های ماتریس دیگر مطابقت داشته باشد.

معکوس و ترانهاده:

معکوس ماتریس A با شان داده می شود. ضرب کردن یک ماتریس در معکوسش ماتریس همانی را به دست می دهد.

یک ماتریس غیر مربعی ماتریس معکوس ندارد. ما می توانیم معکوس ماتریس ها را در octave با تابع pinv(A) محاسبه کنیم.

ترانهاده یک ماتریس مانند یک بار چرخاندن ماتریس در جهت عقربه های ساعت و سپس پشت و رو کردن آن است:

[2] identity matrix

پاسخ داده شده آذر 9, 1392 بوسیله ی مصطفی ساتکی (امتیاز 21,998)
ویرایش شده آذر 9, 1392 بوسیله ی مصطفی ساتکی

به عبارت دیگر:

پاسخ داده شده آذر 9, 1392 بوسیله ی مصطفی ساتکی (امتیاز 21,998)
ویرایش شده آذر 9, 1392 بوسیله ی مصطفی ساتکی

وبـــلاگ هــفت خــط کــد

آموزش یادگیری ماشین

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

7 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

سوالات مرتبط

وبـــلاگ هــفت خــط کــد

آموزش یادگیری ماشین

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

7 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .