Instance segmentation الگوریتمی است که در آن یک ماسک به هر شیء در یک تصویر اختصاص داده میشود. این کار چالشبرانگیزتر از تشخیص شیء است، زیرا نیاز است مدل مرزهای هر شیء را شناسایی کند.
Mask R-CNN یک مدل محبوب برای Instance segmentation است که بر پایه مدل تشخیص شیء Faster R-CNN ساخته شده است. Mask R-CNN یک شاخه سوم را به مدل Faster R-CNN اضافه میکند که یک ماسک را برای هر پیشنهاد شیء پیشبینی میکند.
سر تشخیص ماسک در Mask R-CNN از لایههایtransposed convolution برای upsample نقشه ویژگی به یک تصویر سیاه و سفید استفاده میکند. سپس تصویر upsample شده برای مطابقت با سیلوئت شیء تشخیص داده شده آموزش داده میشود.
loss بخشبندی در Mask R-CNN یک loss ساده میزان اطمینان متقابل دودویی پیکسل به پیکسل است. این loss روی ماسک پیشبینی شده پس از تغییر مقیاس و upsample به همان مختصات ماسک حقیقی اعمال میشود.
Mask R-CNN برای بخشبندی Instance segmentation شناخته شده است. البته محدودیتهایی مانند رزولوشن پایین ماسکهای پیشبینی شده دارد.
یک راه برای رفع محدودیت رزولوشن پایین ماسکها استفاده از رویکردهای با رزولوشن بالا برای Instance segmentation است. رویکردهای با رزولوشن بالا از نقشه ویژگی بزرگتری استفاده میکنند که به مدل اجازه میدهد اطلاعات دقیقتری در مورد اشیاء در تصویر یاد بگیرد.
راه دیگر برای رفع محدودیت رزولوشن پایین ماسکها استفاده از رویکرد چندمرحلهای است. رویکرد چندمرحلهای از چندین مدل برای پیشبینی ماسکها استفاده میکند. مدل اول ماسکی تقریبی پیشبینی میکند و مدل دوم آن را بهبود میبخشد.
نشان داده شده است که رویکردهای با رزولوشن بالا و چندمرحلهای برای بخشبندی نمونه، در بهبود دقت پیشبینی ماسک موثر هستند.
مزایای Mask R-CNN:
-
مدل قدرتمندی است که میتواند برای بخشبندی نمونه مورد استفاده قرار گیرد.
-
نسبتاً آسان آموزش داده و استقرار مییابد.
-
در مجموعهدادههای متنوعی موثر بوده است.
معایب Mask R-CNN:
-
ماسکهای پیشبینی شده رزولوشن پایینی دارند.
-
آموزش و اجرای آن هزینه محاسباتی بالایی دارد.
در کل Mask R-CNN مدل قدرتمندی برای بخشبندی نمونه است. اما مهم است که از محدودیتهای آن آگاه باشیم.
معماری Mask R-CNN. مقدار N تعداد ROIهای پیشنهادی توسط RPN و K تعداد کلاسها است. "deconv" نشاندهنده یک لایه transposed convolutional است که نقشههای ویژگی را برای پیشبینی ماسک شیء upsample میکند.