قطعه‌بندی نمونه‌ای (Instance Segmentation)

همیشه یک چیز جدید برای یادگرفتن هست.

قطعه‌بندی نمونه‌ای (Instance Segmentation): نهایت دقت در بینایی ماشین

نویسنده: فاطمه جعفری نوبخت

در دنیای هوش مصنوعی، درک تصویر سطوح مختلفی دارد. گاهی فقط می‌خواهیم بدانیم “چه چیزی” در تصویر است (Classification)، گاهی می‌خواهیم بدانیم “کجاست” (Object Detection)، اما گاهی نیاز داریم دقیقاً تک‌تک پیکسل‌های مربوط به هر شیء مجزا را شناسایی کنیم. اینجاست که Instance Segmentation وارد میدان می‌شود.

این تکنیک، ترکیبی قدرتمند از تشخیص شیء (Object Detection) و قطعه‌بندی معنایی (Semantic Segmentation) است.

۱. تفاوت مفاهیم: جایگاه Instance Segmentation کجاست؟

برای درک عمیق، باید تفاوت این چهار مفهوم اصلی را بدانیم:

طبقه‌بندی (Classification): تصویر حاوی “بادکنک” است.
تشخیص شیء (Object Detection): تصویر حاوی ۳ بادکنک است و دور هر کدام یک کادر (Bounding Box) می‌کشد.
قطعه‌بندی معنایی (Semantic Segmentation): تمام پیکسل‌های مربوط به بادکنک‌ها را زرد می‌کند. (در اینجا ماشین نمی‌فهمد که این‌ها ۳ شیء جدا هستند، فقط می‌داند همگی بادکنک‌اند).
قطعه‌بندی نمونه‌ای (Instance Segmentation): بادکنک ۱ را آبی، بادکنک ۲ را قرمز و بادکنک ۳ را سبز می‌کند. هر شیء هویت مستقل دارد و مرز دقیق آن مشخص است.

۲. معماری و نحوه عملکرد

چگونه یک هوش مصنوعی می‌تواند اشیاء را این‌قدر دقیق جدا کند؟ اکثر مدل‌های مدرن (مانند Mask R-CNN) این کار را در دو مرحله موازی انجام می‌دهند:

مرحله اول: یافتن (Detection)

ابتدا مدل با استفاده از شبکه‌هایی مثل CNN، ویژگی‌های تصویر را استخراج می‌کند و “پیشنهادهایی” (Proposals) می‌دهد که احتمالاً در آن مناطق اشیاء وجود دارند. دور این مناطق یک کادر محاطی (Bounding Box) فرضی کشیده می‌شود.

مرحله دوم: تفکیک (Segmentation)

در داخل هر کادر شناسایی شده، مدل تصمیم می‌گیرد که کدام پیکسل‌ها واقعاً متعلق به آن شیء هستند و کدام پیکسل‌ها متعلق به پس‌زمینه هستند. این کار یک ماسک باینری (Binary Mask) تولید می‌کند.

۳. پادشاه این قلمرو: Mask R-CNN

مشهورترین و پرکاربردترین الگوریتم در این حوزه Mask R-CNN است (توسعه یافته توسط تیم AI فیس‌بوک). این مدل توسعه‌ای بر روی مدل معروف Faster R-CNN است.

نوآوری کلیدی (RoIAlign):

در مدل‌های قدیمی‌تر، وقتی می‌خواستند ویژگی‌ها را از تصویر استخراج کنند، مقداری ناهماهنگی مکانی (Misalignment) رخ می‌داد که برای کشیدن کادر مهم نبود، اما برای ماسک کردن دقیق پیکسل‌ها فاجعه بود. Mask R-CNN لایه‌ای به نام RoIAlign معرفی کرد که پیکسل‌ها را با دقت ریاضیاتی حفظ می‌کند و اجازه می‌دهد ماسک‌ها دقیقاً روی شیء بنشینند.

این مدل سه خروجی همزمان می‌دهد:

کلاس: این چیست؟ (مثلاً ماشین).
کادر (Box): کجاست؟ (مختصات مستطیل).
ماسک: شکل دقیق آن چیست؟ (پیکسل‌های دقیق).

قطعه‌بندی نمونه‌ای (Instance Segmentation)

۴. سایر الگوریتم‌های مهم

با اینکه Mask R-CNN دقیق است، اما نسبتاً کند است. برای کاربردهای بلادرنگ (Real-time) مدل‌های دیگری ظهور کرده‌اند:

YOLACT (You Only Look At CoefficienTs): این مدل روی سرعت تمرکز دارد و برای ویدیوهای زنده مناسب است، هرچند ممکن است کمی از دقت Mask R-CNN کمتر باشد.
SOLO (Segmenting Objects by Locations): رویکردی جدید که نیازی به کادرهای محاطی (Bounding Boxes) ندارد و مستقیماً ماسک تولید می‌کند.

۵. معیارهای ارزیابی (Evaluation Metrics)

چگونه بفهمیم مدل ما خوب کار می‌کند؟ معیار اصلی در اینجا IoU (Intersection over Union) است.

فرمول ساده آن:

IoU = \frac{\text{مساحت اشتراک پیش‌بینی و واقعیت}}{\text{مساحت اجتماع پیش‌بینی و واقعیت}}

اگر ماسک پیش‌بینی شده دقیقاً روی ماسک واقعی بیفتد، IoU برابر ۱ است.
معمولاً میانگین دقت (mAP) بر اساس آستانه‌های مختلف IoU محاسبه می‌شود.

۶. کاربردها (با تمرکز بر علایق شما)

این تکنیک در صنایعی که نیاز به دقت میلی‌متری دارند حیاتی است:

الف) در GIS و سنجش از دور (Urban Planning & GeoAI)

تفکیک ساختمان‌ها: در تصاویر ماهواره‌ای متراکم، Semantic Segmentation همه سقف‌ها را به هم می‌چسباند. اما Instance Segmentation می‌تواند تک‌تک خانه‌ها را جدا کند تا تعداد دقیق ساختمان‌ها شمرده شود.
کشاورزی دقیق: جداسازی درختان در یک باغ یا شمارش دقیق دام‌ها در مراتع.

ب) پزشکی

شمارش سلول‌ها: تشخیص و شمارش گلبول‌های خون یا سلول‌های سرطانی که اغلب روی هم افتاده‌اند.
تحلیل تومور: اندازه‌گیری دقیق حجم تومور برای پرتودرمانی.

ج) خودروهای خودران

ماشین باید بداند که “عابر پیاده ۱” از “عابر پیاده ۲” جداست تا بتواند حرکت احتمالی هر کدام را جداگانه پیش‌بینی کند.

۷. چالش‌ها و آینده: Panoptic Segmentation

یکی از چالش‌های Instance Segmentation این است که فقط روی “اشیاء قابل شمارش” (Things) مثل ماشین و انسان تمرکز دارد و پس‌زمینه (Stuff) مثل آسمان و جاده را نادیده می‌گیرد.

آینده: تکنیک جدیدی به نام Panoptic Segmentation (قطعه‌بندی سراسرنما) ظهور کرده است که ترکیب نهایی است:

اشیاء (Things) را جدا می‌کند (Instance Segmentation).
پس‌زمینه (Stuff) را هم برچسب می‌زند (Semantic Segmentation).

این یعنی تمام پیکسل‌های تصویر دارای هویت و معنا می‌شوند.

8. نتیجه‌گیری

Instance Segmentation اوج هنر بینایی ماشین در درک جزئیات است. اگرچه هزینه محاسباتی بالایی دارد و نیازمند داده‌های آموزشی دقیق (که تهیه آن‌ها سخت است) می‌باشد، اما ارزشی که در تفکیک دقیق اجزای محیط ایجاد می‌کند، آن را به ابزاری بی‌بدیل در هوش مصنوعی مدرن تبدیل کرده است.