تصور کنید ماشینی را که هیچ ایدهای از وجود کامپیوتر ندارد، اما میتواند کدنویسی کند. این دیگر یک فرضیه نیست، بلکه واقعیت جدید دنیای مدلهای زبانی است.
در ۲۷ آوریل ۲۰۲۶، مدل Talkie-1930-13b معرفی شد تا ثابت کند مقیاس معماری میتواند خلأ مطلق دادههای تخصصی را پر کند. به نقل از وبسایت talkie-lm.com، این مدل زبانی بزرگ (Large Language Model) با ۱۳ میلیارد پارامتر، تنها روی ۲۶۰ میلیارد توکن از متون انگلیسی پیش از سال ۱۹۳۱ آموزش دیده است.
پژوهشگران با خلق یک مدل «وینتیج»، سیستمی ساختند که ذاتاً از آلودگی دادهها (Data Contamination) پاک است. هدف این بود تا بررسی کنند آیا یک مدل میتواند مفاهیمی را که در زمان آموزش وجود نداشتند، تعمیم دهد یا خیر.
یکی از تکاندهندهترین یافتهها، توانایی این مدل در مواجهه با زبان پایتون (Python) است. بر اساس مستندات پروژه، وقتی چند مثال در قالب یادگیری در متن (In-context Learning) به مدل داده شد، Talkie توانست برنامههای ساده تکخطی بنویسد و حتی یک تابع رمزگشایی برای «سایفر چرخشی» پیاده کند.

اگرچه عملکرد این مدل در مقایسه با مدلهای آموزشدیده با دادههای وب بسیار ضعیفتر است، اما با افزایش اندازه مدل، کیفیت خروجیها بهطور مستمر رشد میکند. همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، حجم محاسبات اغلب میتواند کمبودهای کیفی داده را جبران کند.
این پروژه همچنین نقاط ضعف سیستمهای OCR را آشکار کرد. تیم تحقیق دریافت کرد که آموزش روی متون استخراجشده با OCR تنها ۳۰٪ بهرهوری نسخههای تایپشده توسط انسان را دارد. همچنین پدیده «نشت زمانی» (Temporal Leakage) مشاهده شد؛ به این معنا که فیلترهای داده کامل نبودند و مدل اطلاعاتی درباره ریاستجمهوری فرانکلین روزولت داشت، در حالی که مرز دادهها سال ۱۹۳۰ بود.
برای تبدیل این مدل به یک دستیار گفتگو، تیم سازنده از روشهای مدرن استفاده نکرد. در عوض، یک خط لوله پسآموزش (Post-training) سفارشی طراحی کردند که شامل موارد زیر است:
- جفتهای دستور-پاسخ استخراجشده از کتابهای آداب معاشرت و آشپزی قدیمی.
- پرامپتهای مصنوعی که توسط Claude Sonnet 4.6 برای بهبود پیروی از دستورات ارزیابی شدهاند.
- گفتگوهای چندمرحلهای که توسط Claude Opus 4.6 برای پالایش جریان مکالمه بازبینی شدهاند.

این تحقیق فرض قدیمی را که توانمندیهای AI گره خورده به ماهیت دادههای وب است، به چالش میکشد. در مقایسه با یک «همزاد مدرن» که روی مجموعه داده FineWeb آموزش دیده، Talkie در درک زبان و محاسبات عددی عملکرد مشابهی داشت، هرچند در دانش جهانی فاصله زیادی با مدلهای جدید دارد.
اما این تنها بخشی از معمای یادگیری است؛ تأثیر این رویکرد بر آیندهی مدلهای تخصصی را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مفهوم In-context Learning برای درک نحوه یادگیری مدلهای کوچک بدون بازآموزی.
- دنبال کردن اخبار مربوط به نسخه GPT-3 این پروژه که قرار است با یک تریلیون توکن منتشر شود.
- مطالعه اثرات نویز OCR بر کیفیت استنتاج مدلهای زبانی.




گفتگو