تحلیل رگرسیون (Regression Analysis): قلب تپنده پیشبینی در آمار و یادگیری ماشین
نویسنده: فاطمه جعفری نوبخت
1- مقدمه
رگرسیون (Regression) یکی از قدرتمندترین و پرکاربردترین ابزارهای آماری است که امروزه در علوم داده، اقتصاد، پزشکی، مهندسی و علوم اجتماعی استفاده میشود. به زبان ساده، رگرسیون روشی است برای بررسی رابطه بین یک متغیر (که میخواهیم آن را پیشبینی کنیم) و یک یا چند متغیر دیگر (که از آنها برای پیشبینی استفاده میکنیم).
هدف اصلی تحلیل رگرسیون پاسخ به این سوال است: «تغییر در یک متغیر، چگونه بر متغیر دیگر اثر میگذارد؟»
2- مفاهیم کلیدی و اصطلاحات
برای درک رگرسیون، ابتدا باید با دو بازیگر اصلی آن آشنا شویم:
- متغیر وابسته (Dependent Variable): متغیری که هدف ما پیشبینی یا تشریح آن است. معمولاً با Y نمایش داده میشود (مثلاً: قیمت خانه).
- متغیر مستقل (Independent Variable): متغیری که تصور میکنیم روی متغیر وابسته اثر دارد. معمولاً با X نمایش داده میشود (مثلاً: متراژ خانه، تعداد اتاق).
3- انواع اصلی رگرسیون
اگرچه انواع بسیاری از رگرسیون وجود دارد، اما سه مورد زیر پرکاربردترین آنها هستند:
الف) رگرسیون خطی (Linear Regression)
این سادهترین و رایجترین نوع رگرسیون است. زمانی استفاده میشود که رابطه بین متغیرها به صورت یک خط مستقیم باشد.
- رگرسیون خطی ساده: تنها یک متغیر مستقل (X) برای پیشبینی Y وجود دارد.
- فرمول کلی:
Y = \beta_0 + \beta_1 X + \epsilon
- در اینجا \beta_0 عرض از مبدأ، \beta_1 شیب خط و \epsilon خطای مدل است.
- رگرسیون خطی چندگانه: از چندین متغیر مستقل (X_1, X_2, …) برای پیشبینی استفاده میشود.
- مثال: پیشبینی قیمت خانه بر اساس متراژ، سال ساخت و محله.
ب) رگرسیون لجستیک (Logistic Regression)
برخلاف نامش، این روش برای طبقهبندی (Classification) استفاده میشود، نه پیشبینی یک عدد پیوسته. زمانی از آن استفاده میکنیم که خروجی ما دو حالت دارد (مانند: بله/خیر، سالم/بیمار، ۰/۱).
- به جای یک خط صاف، از یک منحنی S شکل (تابع سیگموید) استفاده میکند تا احتمال وقوع یک رویداد را بین ۰ تا ۱ تخمین بزند.
ج) رگرسیون چندجملهای (Polynomial Regression)
زمانی که دادهها از یک خط صاف پیروی نمیکنند و الگویی منحنی یا پیچیدهتر دارند، رگرسیون خطی جواب نمیدهد. در این حالت از رگرسیون چندجملهای استفاده میشود تا منحنیای بر دادهها برازش شود که کمترین خطا را داشته باشد.
4- فرضیات مهم رگرسیون خطی
برای اینکه نتایج یک مدل رگرسیون قابل اعتماد باشد، دادههای ما باید ۴ شرط را داشته باشند:
- خطی بودن (Linearity): رابطه بین X و Y باید تقریباً خطی باشد.
- استقلال (Independence): مشاهدات نباید به هم وابسته باشند.
- همسانی واریانس (Homoscedasticity): پراکندگی دادهها در طول خط رگرسیون باید ثابت باشد.
- نرمال بودن (Normality): توزیع خطاها باید نرمال باشد.
5- چگونه عملکرد مدل را بسنجیم؟ (معیارهای ارزیابی)
پس از ساخت مدل، باید بدانیم چقدر دقیق است. معیارهای رایج عبارتند از:
- ضریب تعیین ($R^2$ یا R-Squared): عددی بین ۰ تا ۱ است که نشان میدهد متغیرهای مستقل چند درصد از تغییرات متغیر وابسته را توضیح میدهند. (هر چه به ۱ نزدیکتر، بهتر).
- میانگین مربعات خطا (MSE): میانگین اختلاف بین مقادیر واقعی و پیشبینی شده به توان ۲. (هر چه کمتر، بهتر).
- ریشه میانگین مربعات خطا (RMSE): جذر MSE است و چون واحد آن با واحد متغیر وابسته یکی است، تفسیرش راحتتر است.
6- کاربردهای دنیای واقعی
رگرسیون در همه جا حضور دارد:
- بازار مالی: پیشبینی قیمت سهام بر اساس روندهای گذشته و شاخصهای اقتصادی.
- پزشکی: پیشبینی احتمال ابتلا به بیماری قلبی بر اساس سن، وزن و فشار خون.
- بازاریابی: پیشبینی میزان فروش در ماه آینده بر اساس بودجه تبلیغات.
- محیط زیست: پیشبینی میزان آلودگی هوا بر اساس دما، سرعت باد و ترافیک.
7- نتیجهگیری
رگرسیون پلی است میان دادههای گذشته و تصمیمات آینده. چه بخواهیم فروش یک شرکت را تخمین بزنیم و چه بخواهیم رفتار یک ویروس را درک کنیم، رگرسیون ابزاری است که به ما اجازه میدهد الگوهای پنهان در هیاهوی دادهها را کشف کنیم و آنها را به فرمولهای ریاضی قابل فهم تبدیل کنیم.