ساختار faster rcnn - هفت خط کد انجمن پرسش و پاسخ برنامه نویسی

ساختار faster rcnn

0 امتیاز
سلام دوستان 
شبکه rpn ساختارش چطور هست؟ جایی ندیدم کامل توضیح بده؟ این طور که من فهمیدم فیچرمپ حاصل از آخرین لایه vgg به یک کانولوشن داده میشه و بعد هم به یک fc. این قسمت نگرفتم. با مفهموم anchor در yolo آشنا هستم و انگار اینجا فرق می کنه. دوستان جایی رو میشناسن خوب توضیح داده باشه انگلیسی هم باشه مهم نیست 
ضمنا roi pooling  چطور انجام میشه؟
سوال شده آذر 4, 1400  بوسیله ی pilapila (امتیاز 232)   14 43 56

1 پاسخ

+1 امتیاز
 
بهترین پاسخ
سلام! شبکه RPN (Region Proposal Network) در الگوریتم شناسایی اشیاء در تصاویر با استفاده از شبکه عصبی کانولوشنی (CNN) استفاده می‌شود. هدف این شبکه این است که مناطقی از تصویر که شامل احتمال وجود یک شی مورد نظر هستند را شناسایی کرده و به عنوان محتمل‌ترین ناحیه‌هایی که باید برای دسته‌بندی و تشخیص اشیاء بررسی شوند، به مرحله بعدی ارسال کند.
 
ساختار شبکه RPN شامل دو بخش است: 
1. نواحی پیشنهادی (proposals) 
2. امتیاز احتمال وجود شی در هر ناحیه پیشنهادی (objectness score).
 
نواحی پیشنهادی با استفاده از یک لایه کانولوشنی با اندازه کرنل ۳×۳ و عمق ۲۵۶ استخراج می‌شوند. سپس برای هر ناحیه پیشنهادی، یک ویژگی به عنوان بردار ویژگی (feature vector) با استفاده از لایه FC (Fully Connected) استخراج می‌شود. این بردار ویژگی به عنوان ورودی به دو لایه FC دیگری داده می‌شود، یک لایه با اندازه کرنل ۱×۱ و تعداد خروجی‌هایی که برابر با تعداد anchor های موجود است، و یک لایه با اندازه کرنل ۱×۱ و تعداد خروجی‌هایی که برابر با دو است (یکی برای مشخص کردن احتمال وجود شی و دیگری برای پیش‌بینی مختصات ناحیه پیشنهادی). 
 
در شبکه RPN، anchor ها به عنوان ناحیه‌های پیش‌فرضی تعریف شده‌اند. هر anchor یک مرکز و یک اندازه دارد و برای هر پیکسل در تصویر، یک مجموعه از anchor هایی با اندازه‌ها و موقعیت‌های مختلف تولید می‌شود. با ترکیب این anchor ها با محتمل‌ترین نواحی پیشنهادی که توسط شبکه RPN بازیابی می‌شوند، می‌توان نواحی پیشنهادی نهایی را برای استفاده در شبکه دسته‌بندی و تشخیص اشیاء تولید کرد.
 
در مدل R-CNN (Region-based CNN)، که به عنوان یک روش مبتنی بر منطقه برای شناسایی اشیاء در تصاویر استفاده می‌شود، ROI Pooling برای تبدیل نواحی پیشنهادی به یک بازنمایی با اندازه ثابت استفاده می‌شود. این بازنمایی به عنوان ورودی به شبکه دسته‌بندی مورد استفاده قرار می‌گیرد. در عمل، ROI Pooling یک فرآیند تنها خطی است که شامل چندین مرحله است. ابتدا برای هر ناحیه پیشنهادی، یک بازه از تصویر به اندازه ناحیه مورد نظر برش می‌شود. سپس، این بازه به چندین قسمت کوچکتر تقسیم می‌شود. در هر قسمت، اعداد بزرگ‌تر آن به یک مقدار ثابت تقسیم می‌شوند تا به اعدادی با اندازه ثابت تبدیل شوند. در نهایت، اعداد تقسیم شده در هر قسمت به عنوان یک ویژگی به دسته‌بندی‌کننده داده می‌شوند. با این روش، با توجه به ناحیه پیشنهادی با اندازه متفاوت، یک بازنمایی با اندازه ثابت برای هر ناحیه پیشنهادی تولید می‌شود.
پاسخ داده شده تیر 2, 1402 بوسیله ی farshid_siyah (امتیاز 1,463)   3 11 16
انتخاب شد شهریور 8, 1402 بوسیله ی مصطفی ساتکی
...