بالاترین سوالات
زمانبندی
چت
دیدگاه

ترنسفورمر تولیدگر از پیش آموزش‌دیده

نوعی مدل زبانی بزرگ از ویکی‌پدیا، دانشنامه آزاد

ترنسفورمر تولیدگر از پیش آموزش‌دیده
Remove ads

ترنسفورمر تولیدگر از پیش آموزش‌دیده[الف] (به انگلیسی: Generative pre-trained transformers) یا به اختصار جی‌پی‌تی (به انگلیسی: GPT) نوعی مدل زبانی بزرگ (LLM)[۵][۶][۷] و یک چارچوب مشهور برای هوش مصنوعی تولیدگر است.[۸][۹] اولین جی‌پی‌تی در سال ۲۰۱۸ توسط شرکت آمریکایی اوپن‌ای‌آی معرفی شد.[۱۰][۱۱] مدل‌های جی‌پی‌تی شبکه‌های عصبی مصنوعی مبتنی بر معماری ترنسفورمرها هستند که از قبل، بر روی مجموعه ای از داده‌های حجیم از متون بدون برچسب، آموزش دیده‌اند و قادر به تولید محتوای جدید شبه انسانی هستند.[۶][۷] از سال ۲۰۲۳، اکثر مدل‌های زبانی بزرگ این ویژگی‌ها را دارند[۱۲] و گاهی به‌طور گسترده به عنوان جی‌پی‌تی شناخته می‌شوند.[۱۳][۱۴]

Thumb
معماری مدل اصلی جی‌پی‌تی ۱

اوپن‌ای‌آی مدل‌های تأثیرگذاری از خانواده جی‌پی‌تی منتشر کرده که به ترتیب شماره گذاری شده‌اند تا سری GPT-n خود را تشکیل دهند.[۱۵] به دلیل افزایش اندازه (تعداد پارامترهای قابل آموزش) و تعلیم بیشتر، هر یک از مدل‌ها به‌طور قابل توجهی از قبلی توانایی بیشتری به دست آوردند. جدیدترین خانواده سری جی‌پی‌تی به نام جی‌پی‌تی-۴ در مارس ۲۰۲۳ منتشر شد. بات مکالمه چت‌جی‌پی‌تی نمونه ای از این مدل زبانی است که مورد توجه زیاد رسانه‌ها و جهان قرار گرفت.[۱۶][۱۷][۱۸]

همچنین اصطلاح «جی‌پی‌تی» در نام‌ها و توضیحات چنین مدل‌هایی که توسط دیگران ساخته شده استفاده می‌شود.[۱۹][۲۰] به‌طور مثال شرکت‌ها در صنایع مختلف جی‌پی‌تی‌های اختصاصی خود را توسعه داده‌اند مانند بلومبرگ‌جی‌پی‌تی برای سرمایه‌گذاری.[۲۱][۲۲]

Remove ads

تاریخچه

خلاصه
دیدگاه

تولیدگر از پیش آموزش دیده (به انگلیسی: Generative pretraining) یک مفهوم قدیمی در زمینه علوم یادگیری ماشینی بود[۲۳][۲۴] در سال ۲۰۱۷ معماری ترنسفورمرها توسط گوگل اختراع شد.[۲۵] که منجر به ظهور مدل‌های زبان بزرگ مانند BERT در سال ۲۰۱۸[۲۶] و XLNet در سال ۲۰۱۹ شد،[۲۷] این مدل‌های زبانی فقط ترنسفورمرهای از پیش آموزش‌دیده (به انگلیسی: pretrained transformers) بودند که قابلیت زایش و تولید متن را نداشتند و صرفاً رمزگذار بودند.[۲۸] در حوالی سال ۲۰۱۸، اوپن‌ای‌آی مقاله ای تحت عنوان «بهبود درک زبان توسط تولیدگر از پیش آموزش‌دیده» منتشر کرد که نخستین سیستم ترنسفورمر تولیدگر از پیش آموزش‌دیده (GPT) را معرفی کرد.[۲۹][۳۰]

قبل از معماری‌های مبتنی بر ترنسفورمرها، مدل‌های NLP عصبی (پردازش زبان‌های طبیعی) وجود داشتند که از طریق مقادیر زیادی از داده‌های برچسب‌گذاری شده نظارت شده آموزش می‌دیدند. اتکا به یادگیری نظارت شده، استفاده از آن مدل‌ها را در مجموعه داده‌هایی که به خوبی حاشیه نویسی نشده بودند، محدود می‌کرد، همچنین آموزش مدل‌های زبانی بسیار بزرگ بسیار پرهزینه و وقت گیر می‌شد.[۳۱]

رویکرد نظارت ضعیف اوپن‌ای‌آی برای ایجاد یک سیستم تولیدی در مقیاس بزرگ (که برای اولین بار با یک مدل ترنسفورمر انجام می‌شد) - شامل دو مرحله بود: یک مرحله «یادگیری خودران» بدون نظارت جهت تنظیم پارامترهای اولیه و یک مرحله نظارت شده «تنظیم دقیق» جهت تطبیق این پارامترها.[۳۱][۳۲]

Remove ads

مدل‌های پایه

خلاصه
دیدگاه

مدل پایه مدل هوش مصنوعی مدلی است که بر روی داده‌های زیادی آموزش داده شده و می‌تواند با طیف گسترده‌ای از وظایف سازگار شود.[۳۳] تاکنون، قابل توجه‌ترین مدل پایه جی‌پی‌تی از سری GPT-n شرکت اوپن‌ای‌آی بوده‌است. جدیدترین مورد از آن جی‌پی‌تی-۴ است که اوپن‌ای‌آی از انتشار اندازه یا جزئیات آموزشی آن خودداری کرد.[۳۴]

اطلاعات بیشتر مدل, معماری ...

مدل‌های دیگری از این دست عبارتند از مدل زبانی مسیرها شرکت گوگل [۳۹][۴۰] و هوش مصنوعی متا که دارای یک مدل زبان بزرگ پایه مبتنی بر ترنسفورمر مولد است که تحت عنوان LLaMA شناخته می‌شود.[۴۱][۴۲]

همچنین برخی جی‌پی‌تی‌ها می‌توانند از روش‌هایی غیر از متن ورودی/خروجی استفاده کنند. جی‌پی‌تی-۴ قادر به پردازش متن و ورودی تصویر است (اگرچه خروجی آن محدود به متن است).[۴۳][۴۴]

Remove ads

یادداشت

  1. در برخی منابع «ترنسفورمر از پیش آموزش‌دیده مولد»[۱] یا «ترنسفورمر از پیش تعلیم‌یافته زایا»[۲] یا «مولد ازپیش‌آموزش‌یافته ترنسفورمر»[۳] یا «مبدل تولیدگر از پیش تعلیم‌دیده»[۴] نیز ترجمه شده‌است.

منابع

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads