معماری مدل (Model Architecture): نقشه راه مغز مصنوعی
نویسنده: فاطمه جعفری نوبخت
1- مقدمه
اگر دادهها را «سوخت» و توان محاسباتی را «موتور» هوش مصنوعی بدانیم، معماری مدل (Model Architecture) همان «طراحی مهندسی» موتور است. معماری مدل تعیین میکند که دادهها چگونه وارد سیستم میشوند، چه پردازشهایی روی آنها انجام میشود و چگونه به خروجی نهایی تبدیل میشوند.
در یادگیری عمیق (Deep Learning)، معماری مدل به چیدمان خاص لایهها، گرهها (Nodes) و توابع ریاضی اشاره دارد که شبکه عصبی را تشکیل میدهند. طراحی یک معماری مناسب، تفاوت بین یک مدل با دقت ۵۰٪ و یک مدل با دقت ۹۹٪ است.

2- اجزای سازنده یک معماری (آجرهای ساختمان)
قبل از بررسی معماریهای پیچیده، باید اجزای پایه را بشناسیم:
- لایهها (Layers): بلوکهای اصلی ساختمان.
- لایه ورودی (Input Layer): دریافت دادههای خام.
- لایههای پنهان (Hidden Layers): جایی که جادو اتفاق میافتد و ویژگیها استخراج میشوند.
- لایه خروجی (Output Layer): ارائه پیشبینی نهایی.
- نورونها (Neurons): واحدهای پردازشگر کوچک در هر لایه که اعداد را در وزنها ضرب کرده و با بایاس جمع میکنند.
- توابع فعالساز (Activation Functions): تصمیمگیرندگان شبکه. توابعی مانند ReLU یا Sigmoid که تعیین میکنند آیا یک نورون باید فعال شود یا خیر. بدون اینها، شبکه عصبی فقط یک رگرسیون خطی بزرگ خواهد بود.
3- خانوادههای اصلی معماری مدل
در طول سالها، معماریهای مختلفی برای حل مسائل متفاوت ابداع شدهاند. سه خانواده اصلی عبارتند از:
الف) شبکههای عصبی کانولوشنی (CNNs) – پادشاه بینایی
این معماریها با الهام از قشر بینایی مغز انسان طراحی شدهاند و برای پردازش دادههای شبکهای مانند تصاویر ایدهآل هستند.
- مکانیزم کلیدی: استفاده از فیلترها (Kernels) که روی تصویر حرکت میکنند تا ویژگیهایی مثل لبهها، بافتها و اشکال را شناسایی کنند.
- مدلهای مشهور: ResNet, VGG, Inception.
- کاربرد: تشخیص چهره، تحلیل تصاویر ماهوارهای (GIS)، خودروهای خودران.

ب) شبکههای عصبی بازگشتی (RNNs & LSTMs) – حافظه دارها
این معماریها برای دادههای ترتیبی که در آنها “زمان” یا “توالی” مهم است، طراحی شدهاند. برخلاف CNN، این شبکهها دارای حافظه هستند و خروجی قبلی را به عنوان ورودی بعدی استفاده میکنند.
- مشکل اصلی: فراموشی در توالیهای طولانی.
- راه حل: معماری LSTM (Long Short-Term Memory) که حافظه بلندمدت را مدیریت میکند.
- کاربرد: پیشبینی سریهای زمانی، تشخیص گفتار.
ج) ترانسفورمرها (Transformers) – انقلابیون جدید
این معماری جایگزین RNNها شد و دنیای پردازش متن (NLP) را دگرگون کرد.
- مکانیزم کلیدی: توجه (Attention Mechanism). این مدل میتواند همزمان به تمام کلمات یک جمله نگاه کند و بفهمد کدام کلمات به هم مرتبطترند (بدون نیاز به پردازش ترتیبی).
- مدلهای مشهور: BERT, GPT-4, Llama.
- کاربرد: چتباتها، ترجمه ماشینی، تحلیل ژنوم.

4- پارامترهای طراحی معماری
یک طراح مدل (Architect) باید تصمیمات استراتژیک مهمی بگیرد:
- عمق (Depth): چند لایه داشته باشیم؟ شبکههای عمیقتر میتوانند الگوهای پیچیدهتری را یاد بگیرند اما آموزش آنها سختتر است (مشکل محو شدن گرادیان).
- عرض (Width): هر لایه چند نورون داشته باشد؟
- اتصالات میانبر (Skip Connections): تکنیکی (معروف در ResNet) که اجازه میدهد دادهها برخی لایهها را دور بزنند تا جریان اطلاعات در شبکههای بسیار عمیق حفظ شود.
- تنگناها (Bottlenecks): باریک کردن عمدی لایهها برای مجبور کردن شبکه به فشردهسازی اطلاعات و یادگیری ویژگیهای مهمتر.
5- تکامل معماریها: از پرسپترون تا مدلهای زبانی بزرگ
- نسل اول: پرسپترونهای چندلایه (MLP) – ساده و ناکارآمد برای دادههای پیچیده.
- نسل دوم: CNN و RNN – تخصصی شدن برای تصویر و متن.
- نسل سوم: معماریهای مولد (GANs) – دو شبکه که با هم رقابت میکنند (یکی جعل میکند، دیگری تشخیص میدهد).
- نسل چهارم (اکنون): مدلهای پایه (Foundation Models) مبتنی بر ترانسفورمر – معماریهای عظیم و همهمنظوره.
6- نتیجهگیری
معماری مدل، اسکلتبندی هوش مصنوعی است. انتخاب معماری اشتباه مثل تلاش برای پرواز با زیردریایی است؛ هر چقدر هم سوخت (داده) داشته باشید، به هدف نمیرسید. امروزه روند طراحی به سمت استفاده از معماریهای از پیش طراحی شده و اثبات شده (مانند ResNet برای تصویر و Transformer برای متن) و تنظیم دقیق آنها برای مسائل خاص پیش میرود.