Top Qs
Timeline
Obrolan
Perspektif

Pemelajaran pengukuhan

Dari Wikipedia, ensiklopedia bebas

Remove ads

Pemelajaran pengukuhan (PP), pemelajaran penguatan atau Reinforcement learning (RL) adalah suatu bidang antar disiplin ilmu dalam pemelajaran mesin dan kendali optimal yang berkaitan dengan bagaimana suatu agen cerdas dapat mengambil tindakan di lingkungan yang dinamis dalam rangka untuk memaksimalkan imbalan bertumpuk-tumpuk. Pemelajaran pengukuhan adalah satu dari tiga paradigma utama dalam pemelajaran mesin, di samping pemelajaran terawasi dan pemelajaran tak terawasi.

Informasi lebih lanjut Pemelajaran mesin dan Penggalian Data ...

Pemelajaran pengukuhan berbeda dengan pemelajaran terawasi dari dua sisi, yaitu tak membutuhkan penyajian pasangan masukan-keluaran yang telah dilabeli dan tidak memerlukan pembetulan secara terang-terangan untuk tindakan yang kurang optimal. Fokus RL adalah untuk menemukan keseimbangan antara penjelajahan (wilayah yang belum dipetakan) dan pemanfaatan (pengetahuan saat ini).[1]

Lingkungan PP biasanya dinyatakan dalam bentuk proses keputusan Markov (PKM) karena banyaknya algoritma PP yang dalam hal ini menggunakan teknik pemrograman dinamis.[2] Namun, terdapat perbedaan utama antara PP dengan pemrograman dinamis, yaitu PP tak membutuhkan pengetahuan pasti model matematis dari PKM, melainkan PP ini menujukan PKM yang besar dan rumit yang untuk mendapatkan model yang pasti menjadi sulit atau tidak mungkin dilakukan.[3]

Remove ads

Referensi

Sumber

Bacaan lanjutan

Pranala luar

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads