تصور کنید معماری ترنسفورمرها، که امروز جهان را تکان داده، در واقع چیزی جز مجموعهای از مدارهای ریاضی نباشد. اگر هنوز فکر میکنید مدلهای زبانی فقط با احتمالات پیشبینی میکنند، باید بدانید که لایههای پنهان آنها قادر به اجرای منطق سختافزاری هستند.
طبق اعلام لنا ارموت (Lena Ehrmuth)، پژوهشگر برجسته، در ۷ مه ۲۰۲۶، رمزگذارهای ترنسفورمر (Transformer) با استفاده از توجه سخت میانگین (Average Hard Attention) میتوانند مدارهای محاسباتی با عمق ثابت را بهطور کامل شبیهسازی کنند. به نقل از مقالهی منتشرشده در arxiv.org، این بدان معناست که مدل میتواند منطق یک مدار سختافزاری را دقیقاً درون مکانیسم توجه خود بازسازی کند.
جزئیات فنی این دستاورد عبارتند از:
- شبیهسازی خانوادههای مداری با عمق ثابت (Constant Depth).
- بهرهگیری از گیتهای ضرب باینری، جمع نامحدود و گیتهای علامت (Sign Gates).
- جایگزینی شبکههای پیشخور (Feed-forward Networks) استاندارد با مدارهای محاسباتی.
ارموت تأکید میکند که این نتایج محدود به یک نوع داده خاص نیست. این شبیهسازی برای ترنسفورمرهایی که روی اعداد حقیقی، گویا و هر حلقهی ریاضی (Ring) بین این دو عمل میکنند، صادق است. این موضوع نشان میدهد که ما با یک ویژگی ریاضی جهانی در مکانیسم توجه روبرو هستیم، نه یک اتفاق تصادفی در دقت محاسباتی.
در پوشش پیشین ما از بهینهسازی موتورهای استنتاج، دیدیم که چگونه پروژهی TRiP برای رسیدن به حداکثر سرعت، پایتون را رها کرد و به سراغ زبان C رفت. اما پژوهش ارموت سطح بحث را تغییر میدهد؛ در حالی که TRiP بر سرعت اجرای لایه تمرکز داشت، این تحقیق به سراغ خودِ منطقی میرود که آن لایه در حال اجرای آن است.
با حرکت به سمت سختافزارهای تخصصیتر برای هوش مصنوعی زاینده (Generative AI)، توانایی نگاشت مستقیم ترنسفورمرها به مدارهای محاسباتی میتواند بهرهوری سیلیکون را به سطحی بیسابقه برساند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- مطالعهی مقاله لنا ارموت در arxiv برای درک رابطهی بین جبر حلقهها و توجه سخت.
- بررسی معماریهای رمزگذار (Encoder) در مدلهای کوچک برای یافتن الگوهای مداری.
- دنبال کردن اخبار مربوط به تراشههای AI که از منطق مدارهای محاسباتی برای کاهش مصرف انرژی استفاده میکنند.




گفتگو