Я хочу внедрить Q-Learning для игры про динозавров Chrome (в которую можно играть, когда вы не в сети).
Я определил свое состояние как: расстояние до следующего препятствия, скорость и размер следующего препятствия.
В качестве награды я хотел использовать количество успешно пройденных препятствий, но могло случиться так, что одно и то же состояние имело разные немедленные награды. Препятствие того же типа может снова появиться позже в игре, но награда за его прохождение будет выше, потому что уже пройдено больше препятствий.
Теперь мой вопрос: это проблема или Q-Learning все еще будет работать? Если нет, есть ли лучший способ?