מה אני DRL

לחץ כאן לכל השאלות

policy iteration: state True/false 1. Policy evaluation uses the Q-value of the different actions in order to update the current value estimation

1
by
מיין לפי
by Rahaf Sbeh
Rahaf Sbeh 0 נקודות · לפני 3 שעות
מוניטין: 1
each state to improve V by current policy
by

* השאלה נוספה בתאריך: 26-02-2025