API 参考¶
- torchrl.collectors 软件包
- torchrl.data 软件包
- torchrl.envs 软件包
- 环境基地
- GymLikeEnv 环境
- EnvMetaData
- 矢量化环境
- 自定义原生 TorchRL 环境
- 多代理环境
- 自动重置 Envs
- 动态规格
- 变换
- 具有掩码操作的环境
- 录像机
- 助手
- 特定于域
- 库
- BraxEnv (英语)
- Brax包装器
- DMControlEnv
- DMControlWrapper
- 体操环境
- 健身房包装器
- 栖息地环境
- 艾萨克健身房环境
- 艾萨克健身房包装器
- 勇敢者游戏环境
- 勇敢者游戏包装器
- MeltingpotEnv (熔炉环境)
- MeltingpotWrapper 包装器
- MOGymEnv
- MOGym包装器
- MultiThreadedEnv(多线程环境)
- MultiThreadedEnvWrapper (多线程环境包装器)
- OpenMLEnv
- PettingZooEnv
- PettingZooWrapper 包装器
- RoboHiveEnv
- SMACv2Env
- SMACv2 包装器
- VmasEnv
- Vmas包装器
- gym_backend
- set_gym_backend
- torchrl.modules 软件包
- torchrl.objectives 软件包
- torch.vmap 和随机性
- 训练值函数
- DQN
- DDPG 系列
- 囊
- 红
- 交叉Q
- IQL
- CQL
- DT 系列
- TD3
- TD3+BC
- PPO (PPO)
- A2C 抗体
- 加强
- 空想家
- 多代理体目标
- 返回
- ValueEstimatorBase
- TD0估算器
- TD1估算器
- TDLambdaEstimator
- GAE
- td0_return_estimate
- td0_advantage_estimate
- td1_return_estimate
- vec_td1_return_estimate
- td1_advantage_estimate
- vec_td1_advantage_estimate
- td_lambda_return_estimate
- vec_td_lambda_return_estimate
- td_lambda_advantage_estimate
- vec_td_lambda_advantage_estimate
- generalized_advantage_estimate
- vec_generalized_advantage_estimate
- Reward2Go 奖赏
- 实用程序
- torchrl.trainers 软件包
- torchrl._utils 套餐