# RL

**Repository Path**: yangshengqi/rl

## Basic Information

- **Project Name**: RL
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-06-06
- **Last Updated**: 2025-08-12

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 强化学习算法实现

## 项目简介
本项目实现了多种强化学习算法，包括DDPG、DQN、PPO（连续和离散）和TD3。这些算法可以应用于各种强化学习环境，如Ant、BipedalWalker、HalfCheetah等。

## 主要特性
- 支持多种强化学习算法：DDPG、DQN、PPO（连续和离散）、TD3
- 包含不同类型的网络结构：Critic、Actor、DuelQNet等
- 提供了多种经验回放缓冲区：普通回放缓冲区、优先级回放缓冲区、OnPolicy回放缓冲区
- 包含训练器和评估工具，方便训练和评估模型

## 目录结构
- `agents/`：包含各种强化学习算法的实现
- `network/`：包含不同算法所需的网络结构
- `results/`：包含训练结果和模型文件
- `run/`：包含启动不同算法的主程序
- `utilities/`：包含训练、评估、缓冲区和归一化工具

## 安装
1. 克隆仓库：
   ```bash
   git clone https://gitee.com/yangshengqi/rl
   cd rl
   ```

2. 安装依赖：
   ```bash
   pip install -r requirements.txt
   ```

## 使用方法
### 训练模型
根据需要训练的算法，运行对应的主程序：
```bash
# 训练DDPG模型
python run/ddpg_main.py

# 训练DQN模型
python run/dqn_main.py

# 训练PPO连续动作模型
python run/ppo_continuous_main.py

# 训练PPO离散动作模型
python run/ppo_discrete_main.py

# 训练TD3模型
python run/td3_main.py
```

### 评估模型
使用`utilities/test.py`文件评估训练好的模型：
```bash
python utilities/test.py --env_name=Ant-v5 --agent_name=PPOContinuous --model=results/model/Ant-v5_PPOContinuous.pth
```

## 结果
训练结果和模型保存在`results/`目录下，包含不同环境和算法的训练结果和模型文件。

## 贡献
欢迎提交PR或Issue来改进本项目。请确保代码风格与现有代码一致，并添加适当的文档说明。

## 许可证
本项目采用MIT License，请查看LICENSE文件获取详细信息。