On Policy dan Off Policy Learning #RL1

Sudah lewat setahun saya selesai tesis, tapi belum bisa sharing artikel di sini karena bingung mulai dari mana. Kebetulan momennya sekarang sedang revisi paper, jadinya saya harus belajar lagi. Dan tiap belajar pasti banyak sekali catatan yang saya buat, baik yang tuntas maupun yang mandeg. Maka dari itu, muncul ide tab Notes ini. Berisi catatan belajar yang belum layak jadi artikel, tapi sayang kalau dibuang. Ini adalah konten Notes yang pertama, dengan topik Reinforcement Learning.

Anyway, di tesis saya, saya menggunakan algoritma Q-Learning. Q-Learning di buku Reinforcement Learning: An Introduction (Sutton dan Barto) termasuk dalam Off Policy Temporal Different Learning.

Q-Learning

Rumus Q-value nya adalah seperti gambar di bawah (GeeksforGeeks), ini sesuai yang saya pakai di tesis.

Saat menentukan action dari next state St+1, bisa dilihat di dalam kurung pada notasi yang memuat max. Nah mengambil nilai max ini disebut dengan greedy. Dan greedy ini termasuk jenis policy. Jadi untuk next state, policy yang dipakai adalah greedy.

Sedangkan menentukan action di current state St, policy yang dipakai adalah epsilon greedy. Epsilon greedy, maksudnya kita punya parameter nilai epsilon. Nilai epsilon berubah di tiap episode, ini yang menentukan kita mau pakai policy mana. Ada dua pilihan mau memilih nilai max (greedy) atau memilih random.

Jadi di Q-Learning ini sekali proses ada dua jenis policy yang dipakai. Di awal pakai epsilon greedy, di akhir ditentukan pakainya mesti greedy, sekali lagi ini kasus di tesis saya. Nah disebut Off Policy, karena policy yang dipakai di awal current state, dimatikan, dan diganti policy yang lain untuk next statenya.

SARSA

Ini merupakan jenis algoritme RL, yang saya taunya dari paper rujukan reviewer buat revisi jurnal saya (Zhang, 2009). Ternyata, SARSA mirip sekali dengan Q-Learning karena merupakan modifikasinya. Bedanya, SARSA berjenis On-Policy.

Rumus Q-value nya:

Sesuai yang sudah dijelaskan di bagian Q-Learning, kalau Off Policy memakai dua jenis policy berbeda. Maka kalau On Policy, policy yang digunakan sama. Jadi semisal di awal current state pakai epsilon greedy, maka untuk next state juga pakai epsilon greedy. Maka dari itu di rumus di atas, perolehan Q-value untuk next state notasinya sama dengan Q-value untuk current state.

About the author

Rochana Prih Hastuti

View all posts

Leave a Reply