طبقه‌بندی تصویر (Image Classification)

همیشه یک چیز جدید برای یادگرفتن هست.

طبقه‌بندی تصویر (Image Classification): الفبای بینایی ماشین

نویسنده: فاطمه جعفری نوبخت

اگر بینایی ماشین (Computer Vision) را یک ساختمان در نظر بگیریم، طبقه‌بندی تصویر خشت اول و پی‌ریزی آن است. قبل از اینکه کامپیوتر بتواند اشیاء را پیدا کند (Detection) یا مرز آن‌ها را بکشد (Segmentation)، ابتدا باید بتواند به این سوال ساده پاسخ دهد: “این تصویر چیست؟”

طبقه‌بندی تصویر فرآیندی است که در آن یک الگوریتم هوش مصنوعی، یک تصویر را به عنوان ورودی می‌گیرد و یک “برچسب” (Label) به آن اختصاص می‌دهد. مثلاً: “این تصویر یک گربه است” یا “این تصویر یک ماشین است”.

۱. ماشین چگونه می‌بیند؟

برای ما انسان‌ها، تشخیص یک گل رز در تصویر، یک فرآیند ناخودآگاه و آنی است. اما برای کامپیوتر، تصویر هیچ معنایی ندارد.

کامپیوتر تصویر را به صورت ماتریسی از اعداد می‌بیند.

یک تصویر سیاه‌وسفید، یک ماتریس دوبعدی است که هر خانه (پیکسل) عددی بین ۰ (سیاه) تا ۲۵۵ (سفید) دارد.
یک تصویر رنگی، یک ماتریس سه‌بعدی است (ارتفاع × عرض × ۳ کانال رنگی قرمز، سبز و آبی).

بنابراین، وظیفه طبقه‌بندی تصویر این است که الگوهای پنهان در این ماتریس‌های بزرگ اعداد را پیدا کند و آن‌ها را به یک نام (کلاس) ربط دهد.

۲. از روش‌های سنتی تا یادگیری عمیق

تاریخچه این علم به دو دوره تقسیم می‌شود:

دوران قبل از ۲۰۱۲ (روش‌های سنتی)

در این دوران، مهندسان باید به صورت دستی ویژگی‌ها را استخراج می‌کردند. آن‌ها الگوریتم‌هایی می‌نوشتند که مثلاً “لبه‌ها” یا “گوشه‌ها” را پیدا کند و سپس این ویژگی‌ها را به الگوریتم‌های یادگیری ماشین معمولی (مثل SVM) می‌دادند. این روش کند، سخت و کم‌دقت بود.

دوران بعد از ۲۰۱۲ (انقلاب یادگیری عمیق)

با معرفی شبکه‌های عصبی کانولوشنی (CNN)، همه چیز تغییر کرد. حالا دیگر نیازی نیست ما به کامپیوتر بگوییم دنبال چه بگردد؛ خود شبکه عصبی یاد می‌گیرد که کدام ویژگی‌ها (مثل بافت پوست گربه یا شکل گوش آن) برای تشخیص مهم هستند.

۳. آناتومی یک شبکه CNN (موتور طبقه‌بندی)

شبکه‌های عصبی کانولوشنی (Convolutional Neural Networks) استاندارد طلایی طبقه‌بندی تصویر هستند. این شبکه‌ها از عملکرد قشر بینایی مغز انسان الهام گرفته شده‌اند و سه بخش اصلی دارند:

لایه‌های کانولوشن (Convolutional Layers): این لایه‌ها مانند فیلتر عمل می‌کنند. لایه‌های اول خطوط و لبه‌های ساده را می‌بینند، لایه‌های میانی اشکال هندسی (دایره، مربع) را می‌سازند و لایه‌های آخر اجزای پیچیده (چشم، لاستیک ماشین) را تشخیص می‌دهند.
لایه‌های ادغام (Pooling Layers): این لایه‌ها تصویر را کوچک می‌کنند تا حجم محاسبات کم شود و فقط اطلاعات مهم باقی بماند.
لایه‌های تمام‌متصل (Fully Connected Layers): در پایان شبکه، این لایه تصمیم نهایی را می‌گیرد: “با توجه به اینکه گوش تیز، سبیل و دم دیدم، احتمال ۹۸٪ این تصویر یک گربه است.”

۴. معماری‌های مشهور

در دنیای طبقه‌بندی تصویر، برخی مدل‌ها به دلیل عملکرد شاهکارشان معروف شده‌اند. اکثر متخصصان امروزه به جای ساخت مدل از صفر، از این معماری‌ها استفاده می‌کنند:

ResNet (Residual Network): یکی از انقلابی‌ترین مدل‌ها که با استفاده از “اتصالات میانبر” توانست شبکه‌های بسیار عمیق (تا ۱۵۲ لایه و بیشتر) بسازد.
VGG-16: مدلی بسیار دقیق اما سنگین که ساختاری ساده و منظم دارد.
MobileNet: مدلی سبک و سریع که مخصوص گوشی‌های موبایل و دستگاه‌های با پردازش ضعیف (Edge Devices) طراحی شده است.
EfficientNet: خانواده‌ای از مدل‌ها که تعادل بی‌نظیری بین سرعت و دقت ایجاد کرده‌اند.
Vision Transformers (ViT): نسل جدیدی که به جای CNN از معماری ترنسفورمر (مشابه مدل‌های زبانی مثل GPT) برای تصاویر استفاده می‌کند و در حال تسخیر این حوزه است.

۵. یادگیری انتقالی (Transfer Learning): میانبر هوشمندانه

یکی از مهم‌ترین تکنیک‌ها در طبقه‌بندی تصویر، یادگیری انتقالی است.

تصور کنید می‌خواهید مدلی بسازید که انواع درختان جنگلی ایران را تشخیص دهد. به جای اینکه یک شبکه را از صفر آموزش دهید (که نیاز به میلیون‌ها عکس و هفته‌ها زمان دارد)، می‌توانید از مدلی مثل ResNet که قبلاً روی ۱۴ میلیون تصویر عمومی (ImageNet) آموزش دیده استفاده کنید.

این مدل قبلاً یاد گرفته “لبه”، “بافت” و “شکل” را ببیند. شما فقط لایه آخر آن را تغییر می‌دهید تا به جای تشخیص “سگ و گربه”، “بلوط و راش” را تشخیص دهد.

۶. کاربردها (با تمرکز بر علوم مکانی و محیط زیست)

با اینکه تشخیص چهره در موبایل‌ها معروف‌ترین کاربرد است، اما کاربردهای تخصصی آن بسیار وسیع‌تر است:

الف) سنجش از دور و GIS (LULC)

طبقه‌بندی پوشش اراضی (Land Use / Land Cover) اصلی‌ترین کاربرد است. ماهواره عکس می‌گیرد و مدل تشخیص می‌دهد:

این پیکسل “جنگل” است.
این پیکسل “منطقه شهری” است.
این پیکسل “آب” است.

ب) محیط زیست و حیات وحش

دوربین‌های تله‌ای: طبقه‌بندی خودکار تصاویر حیوانات عبوری (مثلاً تشخیص یوزپلنگ از پلنگ) برای سرشماری حیات وحش.
تشخیص بیماری گیاهان: پهپادها از مزارع عکس می‌گیرند و مدل تشخیص می‌دهد کدام گیاه سالم است و کدام آفت‌زده.

۷. چالش‌ها

کمبود داده: مدل‌های عمیق تشنه‌ی داده هستند. اگر عکس کافی از “خرس سیاه بلوچی” نداشته باشید، مدل یاد نمی‌گیرد.
عدم تعادل داده (Imbalance): اگر ۱۰۰۰ عکس از شهر و ۱۰ عکس از بیابان داشته باشید، مدل تمایل دارد همه چیز را شهر تشخیص دهد.
حملات خصمانه (Adversarial Attacks): تغییرات نامحسوس در پیکسل‌های تصویر (که چشم انسان نمی‌بیند) می‌تواند مدل را کاملاً گیج کند تا پاندا را به عنوان میمون تشخیص دهد!

8. نتیجه‌گیری

طبقه‌بندی تصویر دروازه ورود هوش مصنوعی به دنیای بصری ماست. این فناوری از مرحله تحقیقاتی عبور کرده و اکنون ابزاری کاربردی در دستان مهندسان، پزشکان و برنامه‌ریزان شهری است. با پیشرفت سخت‌افزارها و ظهور معماری‌های جدید مانند ترنسفورمرهای بینایی، دقت این سیستم‌ها روز به روز به بینایی انسان نزدیک‌تر می‌شود.