RAY — библиотека RLLIB — оценивает модель DQN, используя автономные пакетные данные. Модель не учится. Episode_len_mean: .nan Для примера CartPole, а также набора данных для личного домена.
Библиотека Ubuntu Ray — автономная среда RLIB DQN: — пробовала с Cartpole-v0, а также с примером пользовательской среды.
Episode_len_mean: .nan Episode_reward_max: .nan Episode_reward_mean: .nan Episode_reward_min: .nan Episodes_this_iter: 0 Episodes_total: 0
Генерация данных с помощью PG
rllib train --run=PG --env=CartPole-v0 --config='{"output": "/tmp/cartpole-out", "output_max_file_size": 5000000}' --stop='{"timesteps_total": 100000}'
Обучить модель на автономных данных
rllib train --run=DQN --env=CartPole-v0 --config='{"input": "/tmp/cartpole-out","input_evaluation": ["is", "wis"],"soft_q": true, "softmax_temp": 1.0}'
Ожидаемый :- Episode_len_mean: числовые значения Episode_reward_max: числовые значения Episode_reward_mean: числовые значения Episode_reward_min: числовые значения
Фактические результаты (в тензорной доске улучшений также не наблюдается):
nan
. Имеет ли что-либо длину 0? Например, есть ли некоторые развертывания, которые немедленно завершаются? - person Robert Nishihara   schedule 16.04.2019