泽宇
Followers: 0 Following: 0
Statistik
2 Fragen
0 Antworten
RANG
234.494
of 292.815
REPUTATION
0
BEITRÄGE
2 Fragen
0 Antworten
ANTWORTZUSTIMMUNG
0.0%
ERHALTENE STIMMEN
0
RANG
of 19.942
REPUTATION
N/A
DURCHSCHNITTLICHE BEWERTUNG
0.00
BEITRÄGE
0 Dateien
DOWNLOADS
0
ALL TIME DOWNLOADS
0
RANG
of 148.001
BEITRÄGE
0 Probleme
0 Lösungen
PUNKTESTAND
0
ANZAHL DER ABZEICHEN
0
BEITRÄGE
0 Beiträge
BEITRÄGE
0 Öffentlich Kanäle
DURCHSCHNITTLICHE BEWERTUNG
BEITRÄGE
0 Highlights
DURCHSCHNITTLICHE ANZAHL DER LIKES
Feeds
Frage
When using the reinforcement learning toolbox, when training the agent, there will be a problem that action is the boundary.
我在用深matlab强化学习工具箱进行自定义环境智能体训练,在第一次训练时(未得到奖励时),智能体给出的action是action约束范围内的值,然而在第二次训练时(得到第一次训练的奖励后),智能体给出的action是action却是约束范围的边界值?并且...
3 Monate vor | 1 Antwort | 0
1
AntwortFrage
TD3算法训练时动作总是输出边界值
我在使用TD3算法训练完成后,无论训练过程中奖励曲线是否收敛,动作总是输出边界值或者输出完全不正确。我的state的值在0-20000,动作边界在0-15000.是哪里出了问题,是自定义环境创建的不正确还是哪里?需要对输入输出进行归一化吗
5 Monate vor | 1 Antwort | 0