מה אני DRL

לחץ כאן לכל השאלות

b) Contextual bandits assume that the reward function is known and fixed for all actions and states.

1
by
מיין לפי

* השאלה נוספה בתאריך: 28-02-2025