قطعهبندی نمونهای (Instance Segmentation): نهایت دقت در بینایی ماشین
نویسنده: فاطمه جعفری نوبخت
در دنیای هوش مصنوعی، درک تصویر سطوح مختلفی دارد. گاهی فقط میخواهیم بدانیم “چه چیزی” در تصویر است (Classification)، گاهی میخواهیم بدانیم “کجاست” (Object Detection)، اما گاهی نیاز داریم دقیقاً تکتک پیکسلهای مربوط به هر شیء مجزا را شناسایی کنیم. اینجاست که Instance Segmentation وارد میدان میشود.
این تکنیک، ترکیبی قدرتمند از تشخیص شیء (Object Detection) و قطعهبندی معنایی (Semantic Segmentation) است.
۱. تفاوت مفاهیم: جایگاه Instance Segmentation کجاست؟
برای درک عمیق، باید تفاوت این چهار مفهوم اصلی را بدانیم:
- طبقهبندی (Classification): تصویر حاوی “بادکنک” است.
- تشخیص شیء (Object Detection): تصویر حاوی ۳ بادکنک است و دور هر کدام یک کادر (Bounding Box) میکشد.
- قطعهبندی معنایی (Semantic Segmentation): تمام پیکسلهای مربوط به بادکنکها را زرد میکند. (در اینجا ماشین نمیفهمد که اینها ۳ شیء جدا هستند، فقط میداند همگی بادکنکاند).
- قطعهبندی نمونهای (Instance Segmentation): بادکنک ۱ را آبی، بادکنک ۲ را قرمز و بادکنک ۳ را سبز میکند. هر شیء هویت مستقل دارد و مرز دقیق آن مشخص است.
۲. معماری و نحوه عملکرد
چگونه یک هوش مصنوعی میتواند اشیاء را اینقدر دقیق جدا کند؟ اکثر مدلهای مدرن (مانند Mask R-CNN) این کار را در دو مرحله موازی انجام میدهند:
مرحله اول: یافتن (Detection)
ابتدا مدل با استفاده از شبکههایی مثل CNN، ویژگیهای تصویر را استخراج میکند و “پیشنهادهایی” (Proposals) میدهد که احتمالاً در آن مناطق اشیاء وجود دارند. دور این مناطق یک کادر محاطی (Bounding Box) فرضی کشیده میشود.
مرحله دوم: تفکیک (Segmentation)
در داخل هر کادر شناسایی شده، مدل تصمیم میگیرد که کدام پیکسلها واقعاً متعلق به آن شیء هستند و کدام پیکسلها متعلق به پسزمینه هستند. این کار یک ماسک باینری (Binary Mask) تولید میکند.
۳. پادشاه این قلمرو: Mask R-CNN
مشهورترین و پرکاربردترین الگوریتم در این حوزه Mask R-CNN است (توسعه یافته توسط تیم AI فیسبوک). این مدل توسعهای بر روی مدل معروف Faster R-CNN است.
نوآوری کلیدی (RoIAlign):
در مدلهای قدیمیتر، وقتی میخواستند ویژگیها را از تصویر استخراج کنند، مقداری ناهماهنگی مکانی (Misalignment) رخ میداد که برای کشیدن کادر مهم نبود، اما برای ماسک کردن دقیق پیکسلها فاجعه بود. Mask R-CNN لایهای به نام RoIAlign معرفی کرد که پیکسلها را با دقت ریاضیاتی حفظ میکند و اجازه میدهد ماسکها دقیقاً روی شیء بنشینند.
این مدل سه خروجی همزمان میدهد:
- کلاس: این چیست؟ (مثلاً ماشین).
- کادر (Box): کجاست؟ (مختصات مستطیل).
- ماسک: شکل دقیق آن چیست؟ (پیکسلهای دقیق).

۴. سایر الگوریتمهای مهم
با اینکه Mask R-CNN دقیق است، اما نسبتاً کند است. برای کاربردهای بلادرنگ (Real-time) مدلهای دیگری ظهور کردهاند:
- YOLACT (You Only Look At CoefficienTs): این مدل روی سرعت تمرکز دارد و برای ویدیوهای زنده مناسب است، هرچند ممکن است کمی از دقت Mask R-CNN کمتر باشد.
- SOLO (Segmenting Objects by Locations): رویکردی جدید که نیازی به کادرهای محاطی (Bounding Boxes) ندارد و مستقیماً ماسک تولید میکند.
۵. معیارهای ارزیابی (Evaluation Metrics)
چگونه بفهمیم مدل ما خوب کار میکند؟ معیار اصلی در اینجا IoU (Intersection over Union) است.
فرمول ساده آن:
IoU = \frac{\text{مساحت اشتراک پیشبینی و واقعیت}}{\text{مساحت اجتماع پیشبینی و واقعیت}}
- اگر ماسک پیشبینی شده دقیقاً روی ماسک واقعی بیفتد، IoU برابر ۱ است.
- معمولاً میانگین دقت (mAP) بر اساس آستانههای مختلف IoU محاسبه میشود.
۶. کاربردها (با تمرکز بر علایق شما)
این تکنیک در صنایعی که نیاز به دقت میلیمتری دارند حیاتی است:
الف) در GIS و سنجش از دور (Urban Planning & GeoAI)
- تفکیک ساختمانها: در تصاویر ماهوارهای متراکم، Semantic Segmentation همه سقفها را به هم میچسباند. اما Instance Segmentation میتواند تکتک خانهها را جدا کند تا تعداد دقیق ساختمانها شمرده شود.
- کشاورزی دقیق: جداسازی درختان در یک باغ یا شمارش دقیق دامها در مراتع.
ب) پزشکی
- شمارش سلولها: تشخیص و شمارش گلبولهای خون یا سلولهای سرطانی که اغلب روی هم افتادهاند.
- تحلیل تومور: اندازهگیری دقیق حجم تومور برای پرتودرمانی.
ج) خودروهای خودران
- ماشین باید بداند که “عابر پیاده ۱” از “عابر پیاده ۲” جداست تا بتواند حرکت احتمالی هر کدام را جداگانه پیشبینی کند.
۷. چالشها و آینده: Panoptic Segmentation
یکی از چالشهای Instance Segmentation این است که فقط روی “اشیاء قابل شمارش” (Things) مثل ماشین و انسان تمرکز دارد و پسزمینه (Stuff) مثل آسمان و جاده را نادیده میگیرد.
آینده: تکنیک جدیدی به نام Panoptic Segmentation (قطعهبندی سراسرنما) ظهور کرده است که ترکیب نهایی است:
- اشیاء (Things) را جدا میکند (Instance Segmentation).
- پسزمینه (Stuff) را هم برچسب میزند (Semantic Segmentation).
این یعنی تمام پیکسلهای تصویر دارای هویت و معنا میشوند.
8. نتیجهگیری
Instance Segmentation اوج هنر بینایی ماشین در درک جزئیات است. اگرچه هزینه محاسباتی بالایی دارد و نیازمند دادههای آموزشی دقیق (که تهیه آنها سخت است) میباشد، اما ارزشی که در تفکیک دقیق اجزای محیط ایجاد میکند، آن را به ابزاری بیبدیل در هوش مصنوعی مدرن تبدیل کرده است.