دادههای اعتبارسنجی (Validation Data): قطبنمای آموزش مدل
نویسنده: فاطمه جعفری نوبخت
تصور کنید دانشآموزی هستید که برای کنکور آماده میشوید.
- کتاب درسی: منبعی است که مطالب را از روی آن میخوانید و یاد میگیرید (دادههای آموزش – Training Data).
- آزمونهای آزمایشی: هر جمعه امتحان میدهید تا ببینید کجای کار ایراد دارد و روش مطالعه خود را اصلاح کنید (دادههای اعتبارسنجی – Validation Data).
- کنکور اصلی: روز نهایی که فقط یک بار برگزار میشود و نتیجه واقعی شما را مشخص میکند (دادههای تست – Test Data).
اگر بدون آزمون آزمایشی (Validation) فقط کتاب بخوانید و یکراست سر جلسه کنکور بروید، احتمالاً شوکه خواهید شد. در یادگیری ماشین هم دقیقاً همینطور است. دادههای اعتبارسنجی نقشی حیاتی در تنظیم دقیق مدل و جلوگیری از حفظ کردن کورکورانه دارند.
۱. سه مدل داده داریم : Train & Validation & Test
بسیاری از مبتدیان تفاوت “دادههای اعتبارسنجی” و “دادههای تست” را نمیدانند. بیایید مرزها را مشخص کنیم:
- دادههای آموزش (Training Set):
- کاربرد: مدل مستقیماً این دادهها را میبیند و وزنها (Weights) و بایاسهای خود را بر اساس آنها تغییر میدهد.
- حجم: معمولاً ۶۰ تا ۸۰ درصد کل دادهها.
- دادههای اعتبارسنجی (Validation Set):
- کاربرد: مدل از روی این دادهها یاد نمیگیرد (وزنها را تغییر نمیدهد)، بلکه ما از این دادهها استفاده میکنیم تا بفهمیم مدل چقدر خوب عمل میکند تا بتوانیم فراپارامترها (Hyperparameters) را تنظیم کنیم.
- مثال: تغییر نرخ یادگیری، تغییر تعداد لایههای شبکه عصبی، یا تغییر عمق درخت تصمیم.
- حجم: معمولاً ۱۰ تا ۲۰ درصد کل دادهها.
- دادههای تست (Test Set):
- کاربرد: این دادهها تا لحظه آخر در گاوصندوق میمانند. مدل هرگز آنها را نمیبیند (نه برای آموزش و نه برای تنظیم). فقط در پایان پروژه یک بار استفاده میشوند تا عملکرد نهایی مدل در دنیای واقعی تخمین زده شود.
- حجم: معمولاً ۱۰ تا ۲۰ درصد کل دادهها.
۲. چرا به دادههای اعتبارسنجی نیاز داریم؟
چرا مستقیماً از دادههای تست برای تنظیم مدل استفاده نکنیم؟
اگر پارامترهای مدل را آنقدر تغییر دهید تا روی دادههای تست بهترین نتیجه را بدهد، شما در واقع دادههای تست را به مدل “لو” دادهاید (Data Leakage). مدل شما روی آن دادههای خاص عالی کار میکند، اما روی دادههای جدید در دنیای واقعی شکست میخورد.
دادههای اعتبارسنجی مانند یک “حائل” (Buffer) عمل میکنند تا دادههای تست، دستنخورده و بکر باقی بمانند.
کاربردهای اصلی Validation:
- جلوگیری از بیشبرازش (Overfitting): اگر خطای آموزش کم شود اما خطای اعتبارسنجی زیاد شود، یعنی مدل دارد دادهها را حفظ میکند.
- توقف زودهنگام (Early Stopping): ما به نمودار خطای اعتبارسنجی نگاه میکنیم؛ هر جا خطا شروع به بالا رفتن کرد، آموزش را قطع میکنیم.
- انتخاب مدل (Model Selection): مقایسه بین Random Forest و هر کدام روی دادههای اعتبارسنجی بهتر بود، انتخاب میشود.

۳. استراتژیهای تقسیم داده (Splitting Strategies)
چگونه دادهها را جدا کنیم؟ این موضوع به حجم دادههای شما بستگی دارد:
الف) روش Hold-out (سادهترین روش)
دادهها را به سادگی به سه بخش (مثلاً ۷۰-۱۵-۱۵) تقسیم میکنیم.
- مزیت: سریع و ساده.
- عیب: اگر دادههای شما کم باشد، ممکن است بخش “خوب” و “ساده” دادهها شانسی در قسمت آموزش بیفتد و بخش “سخت” در اعتبارسنجی. نتیجه قابل اعتماد نیست.
ب) اعتبارسنجی متقابل (K-Fold Cross-Validation)
این روش استاندارد طلایی برای دادههای متوسط و کم است.
- دادهها را به $K$ قسمت مساوی (مثلاً ۵ قسمت) تقسیم میکنیم.
- در مرحله اول، قسمت ۱ میشود اعتبارسنجی و بقیه آموزش.
- در مرحله دوم، قسمت ۲ میشود اعتبارسنجی و بقیه آموزش.
- این کار ۵ بار تکرار میشود و در نهایت میانگین نتایج گرفته میشود.
- مزیت: از تمام دادهها هم برای آموزش و هم برای اعتبارسنجی استفاده میشود. نتیجه بسیار دقیق است.
- عیب: زمانبر است (چون مدل باید ۵ بار آموزش ببیند).
۴. نکته حیاتی برای متخصصان GIS: اعتبارسنجی مکانی (Spatial Validation)
از آنجا که شما در حوزه GIS فعالیت دارید، این بخش مهمترین قسمت برای شماست.
در دادههای مکانی، قانون اول توبلر میگوید: “چیزهای نزدیک به هم، بیشتر شبیه هم هستند.”
اگر شما دادههای یک شهر را به صورت تصادفی (Random Split) جدا کنید:
- یک ساختمان در دادههای آموزش است.
- ساختمان کناری آن (که دقیقاً همان ویژگیها را دارد) در دادههای اعتبارسنجی میافتد.
این یعنی “تقلب”! مدل با دیدن ساختمان اول، دومی را به راحتی حدس میزند و شما فکر میکنید دقت مدلتان ۹۹٪ است، اما در واقعیت مدل چیزی یاد نگرفته است (فقط شباهت مکانی را دیده است).
راه حل: Spatial Cross-Validation
در GIS نباید دادهها را رندوم جدا کنید. باید دادهها را به صورت بلوکی (Block) جدا کنید. مثلاً شهر را به ۴ منطقه تقسیم کنید؛ مناطق ۱، ۲ و ۳ برای آموزش و منطقه ۴ برای اعتبارسنجی. این کار توانایی مدل را برای تعمیم به مناطق جدید میسنجد.
۵. دامهای خطرناک (Common Pitfalls)
- نشت اطلاعات (Data Leakage): انجام کارهایی مثل “نرمالسازی” یا “پر کردن دادههای گمشده” (Imputation) روی کل دادهها قبل از تقسیمبندی. شما باید میانگین و انحراف معیار را فقط از دادههای آموزش بگیرید و سپس روی دادههای اعتبارسنجی اعمال کنید.
- عدم توازن (Imbalance): اگر فقط ۱٪ دادههای شما مربوط به “آتشسوزی” است، ممکن است در تقسیم تصادفی، هیچ نمونه آتشسوزی در بخش اعتبارسنجی نیفتد. باید از روش Stratified Splitting استفاده کنید تا درصد کلاسها در تمام بخشها یکسان بماند.
6. نتیجهگیری
دادههای اعتبارسنجی، نگهبانان کیفیت مدل شما هستند. آنها به شما اجازه میدهند با اطمینان پارامترها را دستکاری کنید، بدون اینکه نگران آلوده شدنِ تست نهایی باشید. در پروژههای حساس (مثل پیشبینیهای محیط زیستی)، استفاده از تکنیکهایی مثل K-Fold و Spatial CV یک انتخاب نیست، بلکه یک ضرورت است.