# RL **Repository Path**: yangshengqi/rl ## Basic Information - **Project Name**: RL - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-06-06 - **Last Updated**: 2025-08-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 强化学习算法实现 ## 项目简介 本项目实现了多种强化学习算法,包括DDPG、DQN、PPO(连续和离散)和TD3。这些算法可以应用于各种强化学习环境,如Ant、BipedalWalker、HalfCheetah等。 ## 主要特性 - 支持多种强化学习算法:DDPG、DQN、PPO(连续和离散)、TD3 - 包含不同类型的网络结构:Critic、Actor、DuelQNet等 - 提供了多种经验回放缓冲区:普通回放缓冲区、优先级回放缓冲区、OnPolicy回放缓冲区 - 包含训练器和评估工具,方便训练和评估模型 ## 目录结构 - `agents/`:包含各种强化学习算法的实现 - `network/`:包含不同算法所需的网络结构 - `results/`:包含训练结果和模型文件 - `run/`:包含启动不同算法的主程序 - `utilities/`:包含训练、评估、缓冲区和归一化工具 ## 安装 1. 克隆仓库: ```bash git clone https://gitee.com/yangshengqi/rl cd rl ``` 2. 安装依赖: ```bash pip install -r requirements.txt ``` ## 使用方法 ### 训练模型 根据需要训练的算法,运行对应的主程序: ```bash # 训练DDPG模型 python run/ddpg_main.py # 训练DQN模型 python run/dqn_main.py # 训练PPO连续动作模型 python run/ppo_continuous_main.py # 训练PPO离散动作模型 python run/ppo_discrete_main.py # 训练TD3模型 python run/td3_main.py ``` ### 评估模型 使用`utilities/test.py`文件评估训练好的模型: ```bash python utilities/test.py --env_name=Ant-v5 --agent_name=PPOContinuous --model=results/model/Ant-v5_PPOContinuous.pth ``` ## 结果 训练结果和模型保存在`results/`目录下,包含不同环境和算法的训练结果和模型文件。 ## 贡献 欢迎提交PR或Issue来改进本项目。请确保代码风格与现有代码一致,并添加适当的文档说明。 ## 许可证 本项目采用MIT License,请查看LICENSE文件获取详细信息。