برچسب‌گذاری داده (Data Annotation)

همیشه یک چیز جدید برای یادگرفتن هست.

برچسب‌گذاری داده (Data Annotation): آموزش الفبا به هوش مصنوعی

نویسنده: فاطمه جعفری نوبخت

1. مقدمه

تصور کنید می‌خواهید به یک کودک خردسال یاد بدهید که “سیب” چیست. شما یک سیب واقعی را نشان می‌دهید و می‌گویید: «این سیب است». سپس یک توپ قرمز را نشان می‌دهید و می‌گویید: «این سیب نیست».

هوش مصنوعی (به‌ویژه در یادگیری نظارت‌شده) دقیقاً مانند همان کودک است. او هیچ درکی از جهان ندارد مگر اینکه انسان‌ها تک‌تک اجزای داده‌ها را برایش نام‌گذاری و مشخص کنند.

برچسب‌گذاری (Labeling) یا حاشیه‌نویسی (Annotation) فرآیندی است که در آن یک انسان (یا یک ماشین کمکی) داده‌های خام (تصویر، متن، صدا) را بررسی کرده و به آن‌ها برچسب‌های معنادار اضافه می‌کند تا کامپیوتر بتواند الگوها را یاد بگیرد.

2. چرا برچسب‌گذاری قلب هوش مصنوعی است؟

در مقالات قبلی گفتیم که “داده سوخت است”. اما داده خام مثل “نفت خام” است که مستقیماً در باک ماشین ریخته نمی‌شود. داده‌های برچسب‌گذاری شده حکم “بنزین تصفیه شده” را دارند.

بدون برچسب‌گذاری دقیق، مفهوم حقیقت زمینی (Ground Truth) وجود نخواهد داشت. اگر شما دور یک “ماشین” کادر بکشید اما برچسب “کامیون” به آن بزنید، هوش مصنوعی شما برای همیشه گیج خواهد شد. کیفیت مدل شما مستقیماً تابع کیفیت برچسب‌گذاری شماست.

3. انواع روش‌های حاشیه‌نویسی (Annotation Types)

بسته به نوع داده و هدف پروژه، روش‌های مختلفی وجود دارد:

الف) در بینایی کامپیوتر (تصاویر و ویدئو)

این بخش برای متخصصین GIS و سنجش از دور بسیار آشناست:

کادربندی (Bounding Box):
- رایج‌ترین و ارزان‌ترین روش. یک مستطیل دور شیء کشیده می‌شود.
- کاربرد: تشخیص شیء (Object Detection) مثل پیدا کردن ماشین‌ها در خیابان.
چندضلعی (Polygon / Segmentation Mask):
- ترسیم دقیق محیط شیء نقطه به نقطه.
- کاربرد: بسیار حیاتی در خودروهای خودران و تصاویر ماهواره‌ای (جایی که شکل دقیق زمین کشاورزی مهم است، نه فقط کادر دور آن).
نقاط کلیدی (Keypoints):
- مشخص کردن نقاط خاص (مثل آرنج، زانو، چشم).
- کاربرد: تشخیص حالت بدن انسان (Pose Estimation) یا تشخیص اجزای چهره.
مکعب‌های سه‌بعدی (3D Cuboids):
- شبیه Bounding Box اما در فضای سه بعدی (حجم‌دار).
- کاربرد: در داده‌های لیدار (LiDAR) برای درک عمق و فاصله.

ب) در پردازش متن (NLP)

تشخیص موجودیت‌های نام‌دار (NER): هایلایت کردن کلمات خاص و برچسب زدن به آن‌ها (مثلاً: “تهران” -> [مکان]، “علی” -> [شخص]).
تحلیل احساسات (Sentiment): برچسب زدن کل جمله به عنوان “مثبت”، “منفی” یا “خنثی”.

4. چه کسی داده‌ها را برچسب می‌زند؟

این کار معمولاً خسته‌کننده و زمان‌بر است. سه استراتژی اصلی وجود دارد:

تیم داخلی (In-house): کارمندان خود شرکت این کار را انجام می‌دهند. (دقیق‌ترین اما گران‌ترین روش).
جمع‌سپاری (Crowdsourcing): استفاده از پلتفرم‌هایی مثل Amazon Mechanical Turk که هزاران فریلنسر از سراسر جهان روی داده‌ها کار می‌کنند. (ارزان و سریع، اما کنترل کیفیت دشوار است).
شرکت‌های تخصصی (Outsourcing): شرکت‌هایی که شغلشان فقط برچسب‌گذاری داده است (با تیم‌های آموزش دیده حرفه‌ای).

5. ابزارهای برچسب‌گذاری

برای انجام این کار به نرم‌افزارهای خاصی نیاز است که رابط کاربری راحتی داشته باشند. برخی از مشهورترین ابزارهای متن‌باز و تجاری عبارتند از:

CVAT (Computer Vision Annotation Tool): بسیار قدرتمند و محبوب برای تصاویر و ویدئو (متن‌باز).
LabelImg: ابزاری ساده و سبک برای کشیدن Bounding Box (مناسب پروژه‌های کوچک).
Labelbox & Supervisely: پلتفرم‌های تجاری پیشرفته با امکانات مدیریت تیم و کنترل کیفیت.

6. چالش بزرگ: ذهنیت و عدم توافق (Subjectivity)

سخت‌ترین بخش برچسب‌گذاری، خطای انسانی است.

مثال: در یک تصویر ماهواره‌ای، مرز بین “جنگل تنک” و “مرتع” دقیقاً کجاست؟

ممکن است کاربر A یک خط بکشد و کاربر B خطی دیگر.

راه حل: شاخصی به نام توافق بین برچسب‌گذاران (Inter-Annotator Agreement) وجود دارد. معمولاً یک داده را به ۳ نفر می‌دهند؛ اگر هر ۳ نفر یک نظر داشتند، آن داده تایید می‌شود.

7. کاربرد خاص در GIS و محیط زیست

در پروژه‌های مکانی، Annotation فراتر از کشیدن مربع است.

Land Cover Classification: کاربر باید روی تصویر ماهواره‌ای زوم کند و با دقتِ پیکسلی، سقف خانه‌ها را از آسفالت خیابان و چمن پارک جدا کند (Semantic Segmentation).
این نوع برچسب‌گذاری (Polygon) بسیار زمان‌بر است (گاهی ۲۰ دقیقه برای یک عکس)، اما برای آموزش مدل‌هایی که قرار است تغییرات اقلیمی یا گسترش شهرها را پایش کنند، ضروری است.

8. نتیجه‌گیری

برچسب‌گذاری داده‌ها، کارگریِ معدن در دنیای هوش مصنوعی است. اگرچه زرق‌وبراق مدل‌سازی و معماری شبکه را ندارد، اما بدون آن هیچ هوشی شکل نمی‌گیرد. امروزه ترند بازار به سمت “برچسب‌گذاری خودکار” (Auto-Labeling) است؛ جایی که یک هوش مصنوعیِ ضعیف‌تر، داده‌ها را اولیه برچسب می‌زند و انسان فقط آن‌ها را اصلاح می‌کند تا سرعت کار ۱۰ برابر شود.