مدلی که هرگز کامپیوتر ندیده اما پایتون می‌نویسد

تصور کنید ماشینی را که هیچ ایده‌ای از وجود کامپیوتر ندارد، اما می‌تواند کدنویسی کند. این دیگر یک فرضیه نیست، بلکه واقعیت جدید دنیای مدل‌های زبانی است.

در ۲۷ آوریل ۲۰۲۶، مدل Talkie-1930-13b معرفی شد تا ثابت کند مقیاس معماری می‌تواند خلأ مطلق داده‌های تخصصی را پر کند. به نقل از وب‌سایت talkie-lm.com، این مدل زبانی بزرگ (Large Language Model) با ۱۳ میلیارد پارامتر، تنها روی ۲۶۰ میلیارد توکن از متون انگلیسی پیش از سال ۱۹۳۱ آموزش دیده است.

پژوهشگران با خلق یک مدل «وینتیج»، سیستمی ساختند که ذاتاً از آلودگی داده‌ها (Data Contamination) پاک است. هدف این بود تا بررسی کنند آیا یک مدل می‌تواند مفاهیمی را که در زمان آموزش وجود نداشتند، تعمیم دهد یا خیر.

یکی از تکان‌دهنده‌ترین یافته‌ها، توانایی این مدل در مواجهه با زبان پایتون (Python) است. بر اساس مستندات پروژه، وقتی چند مثال در قالب یادگیری در متن (In-context Learning) به مدل داده شد، Talkie توانست برنامه‌های ساده تک‌خطی بنویسد و حتی یک تابع رمزگشایی برای «سایفر چرخشی» پیاده کند.

تصویری از Talkie، مدل زبانی ۱۳B با طراحی دهه ۱۹۳۰

اگرچه عملکرد این مدل در مقایسه با مدل‌های آموزش‌دیده با داده‌های وب بسیار ضعیف‌تر است، اما با افزایش اندازه مدل، کیفیت خروجی‌ها به‌طور مستمر رشد می‌کند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) اشاره کردیم، حجم محاسبات اغلب می‌تواند کمبودهای کیفی داده را جبران کند.

این پروژه همچنین نقاط ضعف سیستم‌های OCR را آشکار کرد. تیم تحقیق دریافت کرد که آموزش روی متون استخراج‌شده با OCR تنها ۳۰٪ بهره‌وری نسخه‌های تایپ‌شده توسط انسان را دارد. همچنین پدیده «نشت زمانی» (Temporal Leakage) مشاهده شد؛ به این معنا که فیلترهای داده کامل نبودند و مدل اطلاعاتی درباره ریاست‌جمهوری فرانکلین روزولت داشت، در حالی که مرز داده‌ها سال ۱۹۳۰ بود.

برای تبدیل این مدل به یک دستیار گفتگو، تیم سازنده از روش‌های مدرن استفاده نکرد. در عوض، یک خط لوله پس‌آموزش (Post-training) سفارشی طراحی کردند که شامل موارد زیر است:

جفت‌های دستور-پاسخ استخراج‌شده از کتاب‌های آداب معاشرت و آشپزی قدیمی.
پرامپت‌های مصنوعی که توسط Claude Sonnet 4.6 برای بهبود پیروی از دستورات ارزیابی شده‌اند.
گفتگوهای چندمرحله‌ای که توسط Claude Opus 4.6 برای پالایش جریان مکالمه بازبینی شده‌اند.

تصویری از Talkie، مدل زبانی کلاسیک ۱۳B پارامتری سال ۱۹۳۰

این تحقیق فرض قدیمی را که توانمندی‌های AI گره خورده به ماهیت داده‌های وب است، به چالش می‌کشد. در مقایسه با یک «همزاد مدرن» که روی مجموعه داده FineWeb آموزش دیده، Talkie در درک زبان و محاسبات عددی عملکرد مشابهی داشت، هرچند در دانش جهانی فاصله زیادی با مدل‌های جدید دارد.

اما این تنها بخشی از معمای یادگیری است؛ تأثیر این رویکرد بر آینده‌ی مدل‌های تخصصی را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

بررسی مفهوم In-context Learning برای درک نحوه یادگیری مدل‌های کوچک بدون بازآموزی.
دنبال کردن اخبار مربوط به نسخه GPT-3 این پروژه که قرار است با یک تریلیون توکن منتشر شود.
مطالعه اثرات نویز OCR بر کیفیت استنتاج مدل‌های زبانی.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

تصویری از Talkie، مدل زبانی ۱۳B با طراحی دهه ۱۹۳۰

جفت‌های دستور-پاسخ استخراج‌شده از کتاب‌های آداب معاشرت و آشپزی قدیمی.
پرامپت‌های مصنوعی که توسط Claude Sonnet 4.6 برای بهبود پیروی از دستورات ارزیابی شده‌اند.
گفتگوهای چندمرحله‌ای که توسط Claude Opus 4.6 برای پالایش جریان مکالمه بازبینی شده‌اند.

تصویری از Talkie، مدل زبانی کلاسیک ۱۳B پارامتری سال ۱۹۳۰

گام بعدی شما

بررسی مفهوم In-context Learning برای درک نحوه یادگیری مدل‌های کوچک بدون بازآموزی.
دنبال کردن اخبار مربوط به نسخه GPT-3 این پروژه که قرار است با یک تریلیون توکن منتشر شود.
مطالعه اثرات نویز OCR بر کیفیت استنتاج مدل‌های زبانی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدلی که هرگز کامپیوتر ندیده اما پایتون می‌نویسد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدلی که هرگز کامپیوتر ندیده اما پایتون می‌نویسد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدلی که هرگز کامپیوتر ندیده اما پایتون می‌نویسد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدلی که هرگز کامپیوتر ندیده اما پایتون می‌نویسد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران