ترنسفورمر تولیدگر از پیش آموزش‌دیده

ترنسفورمر تولیدگر از پیش آموزش‌دیده^[الف] (به انگلیسی: Generative pre-trained transformers) یا به اختصار جی‌پی‌تی (به انگلیسی: GPT) نوعی مدل زبانی بزرگ (LLM)^[۵]^[۶]^[۷] و یک چارچوب مشهور برای هوش مصنوعی تولیدگر است.^[۸]^[۹] اولین جی‌پی‌تی در سال ۲۰۱۸ توسط شرکت آمریکایی اوپن‌ای‌آی معرفی شد.^[۱۰]^[۱۱] مدل‌های جی‌پی‌تی شبکه‌های عصبی مصنوعی مبتنی بر معماری ترنسفورمرها هستند که از قبل، بر روی مجموعه ای از داده‌های حجیم از متون بدون برچسب، آموزش دیده‌اند و قادر به تولید محتوای جدید شبه انسانی هستند.^[۶]^[۷] از سال ۲۰۲۳، اکثر مدل‌های زبانی بزرگ این ویژگی‌ها را دارند^[۱۲] و گاهی به‌طور گسترده به عنوان جی‌پی‌تی شناخته می‌شوند.^[۱۳]^[۱۴]

اوپن‌ای‌آی مدل‌های تأثیرگذاری از خانواده جی‌پی‌تی منتشر کرده که به ترتیب شماره گذاری شده‌اند تا سری GPT-n خود را تشکیل دهند.^[۱۵] به دلیل افزایش اندازه (تعداد پارامترهای قابل آموزش) و تعلیم بیشتر، هر یک از مدل‌ها به‌طور قابل توجهی از قبلی توانایی بیشتری به دست آوردند. جدیدترین خانواده سری جی‌پی‌تی به نام جی‌پی‌تی-۴ در مارس ۲۰۲۳ منتشر شد. بات مکالمه چت‌جی‌پی‌تی نمونه ای از این مدل زبانی است که مورد توجه زیاد رسانه‌ها و جهان قرار گرفت.^[۱۶]^[۱۷]^[۱۸]

همچنین اصطلاح «جی‌پی‌تی» در نام‌ها و توضیحات چنین مدل‌هایی که توسط دیگران ساخته شده استفاده می‌شود.^[۱۹]^[۲۰] به‌طور مثال شرکت‌ها در صنایع مختلف جی‌پی‌تی‌های اختصاصی خود را توسعه داده‌اند مانند بلومبرگ‌جی‌پی‌تی برای سرمایه‌گذاری.^[۲۱]^[۲۲]

Remove ads

تاریخچه

خلاصه

دیدگاه

تولیدگر از پیش آموزش دیده (به انگلیسی: Generative pretraining) یک مفهوم قدیمی در زمینه علوم یادگیری ماشینی بود^[۲۳]^[۲۴] در سال ۲۰۱۷ معماری ترنسفورمرها توسط گوگل اختراع شد.^[۲۵] که منجر به ظهور مدل‌های زبان بزرگ مانند BERT در سال ۲۰۱۸^[۲۶] و XLNet در سال ۲۰۱۹ شد،^[۲۷] این مدل‌های زبانی فقط ترنسفورمرهای از پیش آموزش‌دیده (به انگلیسی: pretrained transformers) بودند که قابلیت زایش و تولید متن را نداشتند و صرفاً رمزگذار بودند.^[۲۸] در حوالی سال ۲۰۱۸، اوپن‌ای‌آی مقاله ای تحت عنوان «بهبود درک زبان توسط تولیدگر از پیش آموزش‌دیده» منتشر کرد که نخستین سیستم ترنسفورمر تولیدگر از پیش آموزش‌دیده (GPT) را معرفی کرد.^[۲۹]^[۳۰]

قبل از معماری‌های مبتنی بر ترنسفورمرها، مدل‌های NLP عصبی (پردازش زبان‌های طبیعی) وجود داشتند که از طریق مقادیر زیادی از داده‌های برچسب‌گذاری شده نظارت شده آموزش می‌دیدند. اتکا به یادگیری نظارت شده، استفاده از آن مدل‌ها را در مجموعه داده‌هایی که به خوبی حاشیه نویسی نشده بودند، محدود می‌کرد، همچنین آموزش مدل‌های زبانی بسیار بزرگ بسیار پرهزینه و وقت گیر می‌شد.^[۳۱]

رویکرد نظارت ضعیف اوپن‌ای‌آی برای ایجاد یک سیستم تولیدی در مقیاس بزرگ (که برای اولین بار با یک مدل ترنسفورمر انجام می‌شد) - شامل دو مرحله بود: یک مرحله «یادگیری خودران» بدون نظارت جهت تنظیم پارامترهای اولیه و یک مرحله نظارت شده «تنظیم دقیق» جهت تطبیق این پارامترها.^[۳۱]^[۳۲]

Remove ads

مدل‌های پایه

خلاصه

دیدگاه

مدل پایه مدل هوش مصنوعی مدلی است که بر روی داده‌های زیادی آموزش داده شده و می‌تواند با طیف گسترده‌ای از وظایف سازگار شود.^[۳۳] تاکنون، قابل توجه‌ترین مدل پایه جی‌پی‌تی از سری GPT-n شرکت اوپن‌ای‌آی بوده‌است. جدیدترین مورد از آن جی‌پی‌تی-۴ است که اوپن‌ای‌آی از انتشار اندازه یا جزئیات آموزشی آن خودداری کرد.^[۳۴]

اطلاعات بیشتر مدل, معماری ...

سری GPT-n شرکت اوپن‌ای‌آی
مدل	معماری	شمارش پارامتر	داده‌های آموزش یافته	تاریخ انتشار	هزینه
جی‌پی‌تی ۱	دیکودر ترنسفورمر ۱۲ سطحی، ۱۲ سر (بدون رمزگذار)	۱۱۷ میلیون	۴٫۵ گیگابایت متن، از ۷۰۰۰ کتاب منتشر نشده در ژانرهای مختلف.^[۳۵]	۰۲۰۱۸−۰۶−۱۱ ۱۱ ژوئن ۲۰۱۸^[۱۱]	۱ ماه بر روی ۸ پردازنده گرافیکی",^[۱۱] یا 1.7e19 فلاپ.^[۳۶]
جی‌پی‌تی ۲	جی‌پی‌تی-۱، اما با نرمال سازی اصلاح شده	۱٫۵ میلیارد	وب تکست: ۴۰ گیگابایت متن، ۸ میلیون سند، از ۴۵ میلیون صفحه وب که در ردیت رأی بالایی داشته‌اند.	۰۲۰۱۹−۰۲−۱۴ ۱۴ فوریه ۲۰۱۹ (نسخه اولیه/محدود) و ۰۲۰۱۹−۱۱−۰۵ ۵ نوامبر ۲۰۱۹ (نسخه کامل)^[۳۷]	"ده‌ها پتافلاپ در روز",^[۳۸] یا 1.5e21 فلاپ.^[۳۶]
جی‌پی‌تی ۳	جی‌پی‌تی-۲ اما با تغییراتی برای تبدیل شدن به مقیاس بزرگتر	۱۷۵ میلیارد	۴۹۹ میلیارد توکن (۵۷۰ گیگابایت)، وب تکست، ویکی‌پدیای انگلیسی و دو مجموعه کتاب	۰۲۰۲۰−۰۵−۲۸ ۲۸ مه ۲۰۲۰^[۳۸]	۳۶۳۰ پتافلاپ در ثانیه,^[۳۸] یا 3.1e23 فلاپ.^[۳۶]
جی‌پی‌تی ۳٫۵	عمومی نشده	۱۷۵ میلیارد	عمومی نشده	۱۵ مارس ۲۰۲۲	عمومی نشده
جی‌پی‌تی ۴	قابلیت پیش بینی کننده متن و تقویت یادگیری از بازخورد انسانی را شامل شده که هم متن و هم عکس را به عنوان ورودی می‌پذیرد. جزئیات بیشتر عمومی نشده.^[۳۴]	عمومی نشده	عمومی نشده	۰۲۰۲۳−۰۳−۱۴ ۱۴ مارس ۲۰۲۳	عمومی نشده ولی 2.1e25 فلاپ تخمین زده شده.^[۳۶]

مدل‌های دیگری از این دست عبارتند از مدل زبانی مسیرها شرکت گوگل ^[۳۹]^[۴۰] و هوش مصنوعی متا که دارای یک مدل زبان بزرگ پایه مبتنی بر ترنسفورمر مولد است که تحت عنوان LLaMA شناخته می‌شود.^[۴۱]^[۴۲]

همچنین برخی جی‌پی‌تی‌ها می‌توانند از روش‌هایی غیر از متن ورودی/خروجی استفاده کنند. جی‌پی‌تی-۴ قادر به پردازش متن و ورودی تصویر است (اگرچه خروجی آن محدود به متن است).^[۴۳]^[۴۴]

Remove ads

یادداشت

[الف]
در برخی منابع «ترنسفورمر از پیش آموزش‌دیده مولد»^[۱] یا «ترنسفورمر از پیش تعلیم‌یافته زایا»^[۲] یا «مولد ازپیش‌آموزش‌یافته ترنسفورمر»^[۳] یا «مبدل تولیدگر از پیش تعلیم‌دیده»^[۴] نیز ترجمه شده‌است.

منابع

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads