طبقهبندی تصویر (Image Classification): الفبای بینایی ماشین
نویسنده: فاطمه جعفری نوبخت
اگر بینایی ماشین (Computer Vision) را یک ساختمان در نظر بگیریم، طبقهبندی تصویر خشت اول و پیریزی آن است. قبل از اینکه کامپیوتر بتواند اشیاء را پیدا کند (Detection) یا مرز آنها را بکشد (Segmentation)، ابتدا باید بتواند به این سوال ساده پاسخ دهد: “این تصویر چیست؟”
طبقهبندی تصویر فرآیندی است که در آن یک الگوریتم هوش مصنوعی، یک تصویر را به عنوان ورودی میگیرد و یک “برچسب” (Label) به آن اختصاص میدهد. مثلاً: “این تصویر یک گربه است” یا “این تصویر یک ماشین است”.
۱. ماشین چگونه میبیند؟
برای ما انسانها، تشخیص یک گل رز در تصویر، یک فرآیند ناخودآگاه و آنی است. اما برای کامپیوتر، تصویر هیچ معنایی ندارد.
کامپیوتر تصویر را به صورت ماتریسی از اعداد میبیند.
- یک تصویر سیاهوسفید، یک ماتریس دوبعدی است که هر خانه (پیکسل) عددی بین ۰ (سیاه) تا ۲۵۵ (سفید) دارد.
- یک تصویر رنگی، یک ماتریس سهبعدی است (ارتفاع × عرض × ۳ کانال رنگی قرمز، سبز و آبی).
بنابراین، وظیفه طبقهبندی تصویر این است که الگوهای پنهان در این ماتریسهای بزرگ اعداد را پیدا کند و آنها را به یک نام (کلاس) ربط دهد.
۲. از روشهای سنتی تا یادگیری عمیق
تاریخچه این علم به دو دوره تقسیم میشود:
دوران قبل از ۲۰۱۲ (روشهای سنتی)
در این دوران، مهندسان باید به صورت دستی ویژگیها را استخراج میکردند. آنها الگوریتمهایی مینوشتند که مثلاً “لبهها” یا “گوشهها” را پیدا کند و سپس این ویژگیها را به الگوریتمهای یادگیری ماشین معمولی (مثل SVM) میدادند. این روش کند، سخت و کمدقت بود.
دوران بعد از ۲۰۱۲ (انقلاب یادگیری عمیق)
با معرفی شبکههای عصبی کانولوشنی (CNN)، همه چیز تغییر کرد. حالا دیگر نیازی نیست ما به کامپیوتر بگوییم دنبال چه بگردد؛ خود شبکه عصبی یاد میگیرد که کدام ویژگیها (مثل بافت پوست گربه یا شکل گوش آن) برای تشخیص مهم هستند.
۳. آناتومی یک شبکه CNN (موتور طبقهبندی)
شبکههای عصبی کانولوشنی (Convolutional Neural Networks) استاندارد طلایی طبقهبندی تصویر هستند. این شبکهها از عملکرد قشر بینایی مغز انسان الهام گرفته شدهاند و سه بخش اصلی دارند:
- لایههای کانولوشن (Convolutional Layers): این لایهها مانند فیلتر عمل میکنند. لایههای اول خطوط و لبههای ساده را میبینند، لایههای میانی اشکال هندسی (دایره، مربع) را میسازند و لایههای آخر اجزای پیچیده (چشم، لاستیک ماشین) را تشخیص میدهند.
- لایههای ادغام (Pooling Layers): این لایهها تصویر را کوچک میکنند تا حجم محاسبات کم شود و فقط اطلاعات مهم باقی بماند.
- لایههای تماممتصل (Fully Connected Layers): در پایان شبکه، این لایه تصمیم نهایی را میگیرد: “با توجه به اینکه گوش تیز، سبیل و دم دیدم، احتمال ۹۸٪ این تصویر یک گربه است.”

۴. معماریهای مشهور
در دنیای طبقهبندی تصویر، برخی مدلها به دلیل عملکرد شاهکارشان معروف شدهاند. اکثر متخصصان امروزه به جای ساخت مدل از صفر، از این معماریها استفاده میکنند:
- ResNet (Residual Network): یکی از انقلابیترین مدلها که با استفاده از “اتصالات میانبر” توانست شبکههای بسیار عمیق (تا ۱۵۲ لایه و بیشتر) بسازد.
- VGG-16: مدلی بسیار دقیق اما سنگین که ساختاری ساده و منظم دارد.
- MobileNet: مدلی سبک و سریع که مخصوص گوشیهای موبایل و دستگاههای با پردازش ضعیف (Edge Devices) طراحی شده است.
- EfficientNet: خانوادهای از مدلها که تعادل بینظیری بین سرعت و دقت ایجاد کردهاند.
- Vision Transformers (ViT): نسل جدیدی که به جای CNN از معماری ترنسفورمر (مشابه مدلهای زبانی مثل GPT) برای تصاویر استفاده میکند و در حال تسخیر این حوزه است.
۵. یادگیری انتقالی (Transfer Learning): میانبر هوشمندانه
یکی از مهمترین تکنیکها در طبقهبندی تصویر، یادگیری انتقالی است.
تصور کنید میخواهید مدلی بسازید که انواع درختان جنگلی ایران را تشخیص دهد. به جای اینکه یک شبکه را از صفر آموزش دهید (که نیاز به میلیونها عکس و هفتهها زمان دارد)، میتوانید از مدلی مثل ResNet که قبلاً روی ۱۴ میلیون تصویر عمومی (ImageNet) آموزش دیده استفاده کنید.
این مدل قبلاً یاد گرفته “لبه”، “بافت” و “شکل” را ببیند. شما فقط لایه آخر آن را تغییر میدهید تا به جای تشخیص “سگ و گربه”، “بلوط و راش” را تشخیص دهد.
۶. کاربردها (با تمرکز بر علوم مکانی و محیط زیست)
با اینکه تشخیص چهره در موبایلها معروفترین کاربرد است، اما کاربردهای تخصصی آن بسیار وسیعتر است:
الف) سنجش از دور و GIS (LULC)
طبقهبندی پوشش اراضی (Land Use / Land Cover) اصلیترین کاربرد است. ماهواره عکس میگیرد و مدل تشخیص میدهد:
- این پیکسل “جنگل” است.
- این پیکسل “منطقه شهری” است.
- این پیکسل “آب” است.
ب) محیط زیست و حیات وحش
- دوربینهای تلهای: طبقهبندی خودکار تصاویر حیوانات عبوری (مثلاً تشخیص یوزپلنگ از پلنگ) برای سرشماری حیات وحش.
- تشخیص بیماری گیاهان: پهپادها از مزارع عکس میگیرند و مدل تشخیص میدهد کدام گیاه سالم است و کدام آفتزده.
۷. چالشها
- کمبود داده: مدلهای عمیق تشنهی داده هستند. اگر عکس کافی از “خرس سیاه بلوچی” نداشته باشید، مدل یاد نمیگیرد.
- عدم تعادل داده (Imbalance): اگر ۱۰۰۰ عکس از شهر و ۱۰ عکس از بیابان داشته باشید، مدل تمایل دارد همه چیز را شهر تشخیص دهد.
- حملات خصمانه (Adversarial Attacks): تغییرات نامحسوس در پیکسلهای تصویر (که چشم انسان نمیبیند) میتواند مدل را کاملاً گیج کند تا پاندا را به عنوان میمون تشخیص دهد!
8. نتیجهگیری
طبقهبندی تصویر دروازه ورود هوش مصنوعی به دنیای بصری ماست. این فناوری از مرحله تحقیقاتی عبور کرده و اکنون ابزاری کاربردی در دستان مهندسان، پزشکان و برنامهریزان شهری است. با پیشرفت سختافزارها و ظهور معماریهای جدید مانند ترنسفورمرهای بینایی، دقت این سیستمها روز به روز به بینایی انسان نزدیکتر میشود.