تعلم بالتعزيز

التعلم التعزيزي^[1] أو التعلم بالتعزيز (بالإنجليزية: reinforcement learning)‏ هو مجال من مجالات التعلم الآلة يختص بكيفية جعل الوكيل المُبرمَج يتخذ القرار (الاختيار) في بيئة من أجل تعظيم المكافأة الكلية. التعلم المُعزَّز هو أحد فروع التعلم الآلى الثلاثة بجانب التعلم المراقب وغير المراقب.

يختلف التعلم المُعزَّز عن التعلم المراقب بأنه لا يحتاج إلى أي أزواج من المدخلات والمخرجات، ولا يحتاج إلى تصحيح القرارات (الاختيارات) غير المثالية بشكل مباشر. عوضًا عن ذلك، يتم التركيز على الأداء المباشر، الذي ينطوي على إيجاد توازن بين الاستكشاف (للفضاء غير المجهول) و الاستغلال (للمعرفة الحالية).

في مجال تعلم الآلة، عادة ما تصاغ البيئة كـعملية ماركوف لاتخاذ القرار (MDP) ، كما أن العديد من خوارزميات التعلم المُعزَّز في هذا السياق تستخدم تقنيات البرمجة الديناميكية. الفرق الرئيسي بين الأساليب التقليدية للبرمجة الديناميكية وخوارزميات التعلم المُعزَّز في هو أن الأخير لا يفترض الكثير من المعلومات عن الMDP، كما أنه يستطيع استهداف الMDP الكبيرة جدًا التي يصعب بها تطبيق الأساليب الدقيقة exact methods.

[1]