Громадянам України

Що таке стратегія жадібного бандита Epsilon?

Епсилон-жадібна стратегія: Найкращий важіль вибирається для частки випробувань, а важіль вибирається випадковим чином (з рівномірною ймовірністю) для частки . Типовим значенням параметра може бути. , але це може значно відрізнятися залежно від обставин і уподобань.

Жадібний алгоритм epsilon обирає між розвідкою та експлуатацією, оцінюючи найвищі винагороди. Він визначає оптимальну дію. Він використовує попередні знання для вибору експлуатації, шукає нові варіанти та вибирає дослідження.

Алгоритм епсилон рекомендується як найкращий універсальний метод прискорення для повільно збіжних послідовностей. Він використовує чисельну точність даних для екстраполяції послідовності до її межі. Ми пояснюємо його зв’язок із наближенням Паде та неперервними дробами, які лежать в основі його теоретичної бази.

Епсилон-жадібний – це майже занадто просто. Граючи на машинах, ви відстежуєте середню виплату кожної машини. Потім ви вибираєте машину з найбільшою поточною середньою виплатою ймовірність = (1 – епсилон) + (епсилон / k) де епсилон – це невелике значення, наприклад 0,10.

the Epsilon Decay Strategy) Епсилон-жадібна стратегія покладається на фіксоване значення епсилон для визначення компромісу між розвідкою та розробкою. Хоча цей підхід забезпечує простий механізм збалансування цих аспектів, він може бути не оптимальним протягом усього процесу навчання.

UCB часто вважають кращим за epsilon-greedy, тому що він використовує більш складну стратегію дослідження.