Instance segmentation چیست؟

Instance segmentation الگوریتمی است که در آن یک ماسک به هر شیء در یک تصویر اختصاص داده می‌شود. این کار چالش‌برانگیزتر از تشخیص شیء است، زیرا نیاز است مدل مرزهای هر شیء را شناسایی کند.

Mask R-CNN یک مدل محبوب برای Instance segmentation است که بر پایه مدل تشخیص شیء Faster R-CNN ساخته شده است. Mask R-CNN یک شاخه سوم را به مدل Faster R-CNN اضافه می‌کند که یک ماسک را برای هر پیشنهاد شیء پیش‌بینی می‌کند.

سر تشخیص ماسک در Mask R-CNN از لایه‌هایtransposed convolution برای upsample نقشه ویژگی به یک تصویر سیاه و سفید استفاده می‌کند. سپس تصویر upsample شده برای مطابقت با سیلوئت شیء تشخیص داده شده آموزش داده می‌شود.

loss بخش‌بندی در Mask R-CNN یک loss ساده میزان اطمینان متقابل دودویی پیکسل به پیکسل است. این loss روی ماسک پیش‌بینی شده پس از تغییر مقیاس و upsample به همان مختصات ماسک حقیقی اعمال می‌شود.

Mask R-CNN برای بخش‌بندی Instance segmentation شناخته شده است. البته محدودیت‌هایی مانند رزولوشن پایین ماسک‌های پیش‌بینی شده دارد.

یک راه برای رفع محدودیت رزولوشن پایین ماسک‌ها استفاده از رویکردهای با رزولوشن بالا برای Instance segmentation است. رویکردهای با رزولوشن بالا از نقشه ویژگی بزرگ‌تری استفاده می‌کنند که به مدل اجازه می‌دهد اطلاعات دقیق‌تری در مورد اشیاء در تصویر یاد بگیرد.

راه دیگر برای رفع محدودیت رزولوشن پایین ماسک‌ها استفاده از رویکرد چندمرحله‌ای است. رویکرد چندمرحله‌ای از چندین مدل برای پیش‌بینی ماسک‌ها استفاده می‌کند. مدل اول ماسکی تقریبی پیش‌بینی می‌کند و مدل دوم آن را بهبود می‌بخشد.

نشان داده شده است که رویکردهای با رزولوشن بالا و چندمرحله‌ای برای بخش‌بندی نمونه، در بهبود دقت پیش‌بینی ماسک موثر هستند.

مزایای Mask R-CNN:

مدل قدرتمندی است که می‌تواند برای بخش‌بندی نمونه مورد استفاده قرار گیرد.
نسبتاً آسان آموزش داده و استقرار می‌یابد.
در مجموعه‌داده‌های متنوعی موثر بوده است.

معایب Mask R-CNN:

ماسک‌های پیش‌بینی شده رزولوشن پایینی دارند.
آموزش و اجرای آن هزینه محاسباتی بالایی دارد.

در کل Mask R-CNN مدل قدرتمندی برای بخش‌بندی نمونه است. اما مهم است که از محدودیت‌های آن آگاه باشیم.

معماری Mask R-CNN. مقدار N تعداد ROIهای پیشنهادی توسط RPN و K تعداد کلاس‌ها است. "deconv" نشان‌دهنده یک لایه transposed convolutional است که نقشه‌های ویژگی را برای پیش‌بینی ماسک شیء upsample می‌کند.

وبـــلاگ هــفت خــط کــد

Instance segmentation چیست؟

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

1 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

سوالات مرتبط

وبـــلاگ هــفت خــط کــد

Instance segmentation چیست؟

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

1 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .