ساختار faster rcnn

سلام! شبکه RPN (Region Proposal Network) در الگوریتم شناسایی اشیاء در تصاویر با استفاده از شبکه عصبی کانولوشنی (CNN) استفاده می‌شود. هدف این شبکه این است که مناطقی از تصویر که شامل احتمال وجود یک شی مورد نظر هستند را شناسایی کرده و به عنوان محتمل‌ترین ناحیه‌هایی که باید برای دسته‌بندی و تشخیص اشیاء بررسی شوند، به مرحله بعدی ارسال کند.

ساختار شبکه RPN شامل دو بخش است:

1. نواحی پیشنهادی (proposals)

2. امتیاز احتمال وجود شی در هر ناحیه پیشنهادی (objectness score).

نواحی پیشنهادی با استفاده از یک لایه کانولوشنی با اندازه کرنل ۳×۳ و عمق ۲۵۶ استخراج می‌شوند. سپس برای هر ناحیه پیشنهادی، یک ویژگی به عنوان بردار ویژگی (feature vector) با استفاده از لایه FC (Fully Connected) استخراج می‌شود. این بردار ویژگی به عنوان ورودی به دو لایه FC دیگری داده می‌شود، یک لایه با اندازه کرنل ۱×۱ و تعداد خروجی‌هایی که برابر با تعداد anchor های موجود است، و یک لایه با اندازه کرنل ۱×۱ و تعداد خروجی‌هایی که برابر با دو است (یکی برای مشخص کردن احتمال وجود شی و دیگری برای پیش‌بینی مختصات ناحیه پیشنهادی).

در شبکه RPN، anchor ها به عنوان ناحیه‌های پیش‌فرضی تعریف شده‌اند. هر anchor یک مرکز و یک اندازه دارد و برای هر پیکسل در تصویر، یک مجموعه از anchor هایی با اندازه‌ها و موقعیت‌های مختلف تولید می‌شود. با ترکیب این anchor ها با محتمل‌ترین نواحی پیشنهادی که توسط شبکه RPN بازیابی می‌شوند، می‌توان نواحی پیشنهادی نهایی را برای استفاده در شبکه دسته‌بندی و تشخیص اشیاء تولید کرد.

در مدل R-CNN (Region-based CNN)، که به عنوان یک روش مبتنی بر منطقه برای شناسایی اشیاء در تصاویر استفاده می‌شود، ROI Pooling برای تبدیل نواحی پیشنهادی به یک بازنمایی با اندازه ثابت استفاده می‌شود. این بازنمایی به عنوان ورودی به شبکه دسته‌بندی مورد استفاده قرار می‌گیرد. در عمل، ROI Pooling یک فرآیند تنها خطی است که شامل چندین مرحله است. ابتدا برای هر ناحیه پیشنهادی، یک بازه از تصویر به اندازه ناحیه مورد نظر برش می‌شود. سپس، این بازه به چندین قسمت کوچکتر تقسیم می‌شود. در هر قسمت، اعداد بزرگ‌تر آن به یک مقدار ثابت تقسیم می‌شوند تا به اعدادی با اندازه ثابت تبدیل شوند. در نهایت، اعداد تقسیم شده در هر قسمت به عنوان یک ویژگی به دسته‌بندی‌کننده داده می‌شوند. با این روش، با توجه به ناحیه پیشنهادی با اندازه متفاوت، یک بازنمایی با اندازه ثابت برای هر ناحیه پیشنهادی تولید می‌شود.

وبـــلاگ هــفت خــط کــد

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

1 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

سوالات مرتبط

وبـــلاگ هــفت خــط کــد

ساختار faster rcnn

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

1 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .