从你的图,折现奖励值是非常大的。试着重新调节到一定值(-10,10)环境中。例如,r (t) = 10 *微型智能电网"运营成本(t) / MaxCost MaxCost在哪里每个时间步的最大可能的成本。
另一个点是您可以使用另一个代理。
我希望这些建议能解决你的问题。