تحلیل رگرسیون (Regression Analysis)

همیشه یک چیز جدید برای یادگرفتن هست.

تحلیل رگرسیون (Regression Analysis): قلب تپنده پیش‌بینی در آمار و یادگیری ماشین

نویسنده: فاطمه جعفری نوبخت

1- مقدمه

رگرسیون (Regression) یکی از قدرتمندترین و پرکاربردترین ابزارهای آماری است که امروزه در علوم داده، اقتصاد، پزشکی، مهندسی و علوم اجتماعی استفاده می‌شود. به زبان ساده، رگرسیون روشی است برای بررسی رابطه بین یک متغیر (که می‌خواهیم آن را پیش‌بینی کنیم) و یک یا چند متغیر دیگر (که از آن‌ها برای پیش‌بینی استفاده می‌کنیم).

هدف اصلی تحلیل رگرسیون پاسخ به این سوال است: «تغییر در یک متغیر، چگونه بر متغیر دیگر اثر می‌گذارد؟»

2- مفاهیم کلیدی و اصطلاحات

برای درک رگرسیون، ابتدا باید با دو بازیگر اصلی آن آشنا شویم:

متغیر وابسته (Dependent Variable): متغیری که هدف ما پیش‌بینی یا تشریح آن است. معمولاً با Y نمایش داده می‌شود (مثلاً: قیمت خانه).
متغیر مستقل (Independent Variable): متغیری که تصور می‌کنیم روی متغیر وابسته اثر دارد. معمولاً با X نمایش داده می‌شود (مثلاً: متراژ خانه، تعداد اتاق).

3- انواع اصلی رگرسیون

اگرچه انواع بسیاری از رگرسیون وجود دارد، اما سه مورد زیر پرکاربردترین آن‌ها هستند:

الف) رگرسیون خطی (Linear Regression)

این ساده‌ترین و رایج‌ترین نوع رگرسیون است. زمانی استفاده می‌شود که رابطه بین متغیرها به صورت یک خط مستقیم باشد.

رگرسیون خطی ساده: تنها یک متغیر مستقل (X) برای پیش‌بینی Y وجود دارد.
- فرمول کلی:

Y = \beta_0 + \beta_1 X + \epsilon

در اینجا \beta_0 عرض از مبدأ، \beta_1 شیب خط و \epsilon خطای مدل است.

رگرسیون خطی چندگانه: از چندین متغیر مستقل (X_1, X_2, …) برای پیش‌بینی استفاده می‌شود.
- مثال: پیش‌بینی قیمت خانه بر اساس متراژ، سال ساخت و محله.

ب) رگرسیون لجستیک (Logistic Regression)

برخلاف نامش، این روش برای طبقه‌بندی (Classification) استفاده می‌شود، نه پیش‌بینی یک عدد پیوسته. زمانی از آن استفاده می‌کنیم که خروجی ما دو حالت دارد (مانند: بله/خیر، سالم/بیمار، ۰/۱).

به جای یک خط صاف، از یک منحنی S شکل (تابع سیگموید) استفاده می‌کند تا احتمال وقوع یک رویداد را بین ۰ تا ۱ تخمین بزند.

ج) رگرسیون چندجمله‌ای (Polynomial Regression)

زمانی که داده‌ها از یک خط صاف پیروی نمی‌کنند و الگویی منحنی یا پیچیده‌تر دارند، رگرسیون خطی جواب نمی‌دهد. در این حالت از رگرسیون چندجمله‌ای استفاده می‌شود تا منحنی‌ای بر داده‌ها برازش شود که کمترین خطا را داشته باشد.

4- فرضیات مهم رگرسیون خطی

برای اینکه نتایج یک مدل رگرسیون قابل اعتماد باشد، داده‌های ما باید ۴ شرط را داشته باشند:

خطی بودن (Linearity): رابطه بین X و Y باید تقریباً خطی باشد.
استقلال (Independence): مشاهدات نباید به هم وابسته باشند.
همسانی واریانس (Homoscedasticity): پراکندگی داده‌ها در طول خط رگرسیون باید ثابت باشد.
نرمال بودن (Normality): توزیع خطاها باید نرمال باشد.

5- چگونه عملکرد مدل را بسنجیم؟ (معیارهای ارزیابی)

پس از ساخت مدل، باید بدانیم چقدر دقیق است. معیارهای رایج عبارتند از:

ضریب تعیین ($R^2$ یا R-Squared): عددی بین ۰ تا ۱ است که نشان می‌دهد متغیرهای مستقل چند درصد از تغییرات متغیر وابسته را توضیح می‌دهند. (هر چه به ۱ نزدیک‌تر، بهتر).
میانگین مربعات خطا (MSE): میانگین اختلاف بین مقادیر واقعی و پیش‌بینی شده به توان ۲. (هر چه کمتر، بهتر).
ریشه میانگین مربعات خطا (RMSE): جذر MSE است و چون واحد آن با واحد متغیر وابسته یکی است، تفسیرش راحت‌تر است.

6- کاربردهای دنیای واقعی

رگرسیون در همه جا حضور دارد:

بازار مالی: پیش‌بینی قیمت سهام بر اساس روندهای گذشته و شاخص‌های اقتصادی.
پزشکی: پیش‌بینی احتمال ابتلا به بیماری قلبی بر اساس سن، وزن و فشار خون.
بازاریابی: پیش‌بینی میزان فروش در ماه آینده بر اساس بودجه تبلیغات.
محیط زیست: پیش‌بینی میزان آلودگی هوا بر اساس دما، سرعت باد و ترافیک.

7- نتیجه‌گیری

رگرسیون پلی است میان داده‌های گذشته و تصمیمات آینده. چه بخواهیم فروش یک شرکت را تخمین بزنیم و چه بخواهیم رفتار یک ویروس را درک کنیم، رگرسیون ابزاری است که به ما اجازه می‌دهد الگوهای پنهان در هیاهوی داده‌ها را کشف کنیم و آن‌ها را به فرمول‌های ریاضی قابل فهم تبدیل کنیم.