# wechat_article_spider
**Repository Path**: AeneasHe/wechat_article_spider
## Basic Information
- **Project Name**: wechat_article_spider
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-04-08
- **Last Updated**: 2025-04-08
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 微信公众号文章爬虫
一个用于获取微信公众号文章信息的爬虫工具。可以搜索公众号、获取文章列表并导出为 CSV 文件,方便后续数据分析和管理。
## 功能特点
- 登录微信公众平台(使用扫码登录)
- 搜索并筛选公众号
- 获取公众号文章列表
- 支持分页加载更多文章
- 导出文章信息到 CSV 文件
## 文件结构
```
wechat_spider/
├── wechat_spider.py # 主程序
├── login.py # 登录模块
└── agent.py # User-Agent 管理模块
```
## 使用方法
1. 安装依赖:
```bash
pip install -r requirements.txt
```
2. 运行程序:
```bash
python wechat_spider.py
```
3. 操作流程:
- 首次运行需要扫码登录微信公众平台
- 输入要搜索的公众号名称
- 从搜索结果中选择目标公众号
- 查看文章列表,可以:
- 加载更多文章
- 导出文章信息到 CSV 文件
## CSV 导出字段说明
导出的 CSV 文件包含以下字段:
- 标题:文章标题
- 作者:文章作者
- 摘要:文章摘要内容
- 链接:文章访问链接
- 发布时间:文章发布的具体时间
- 封面图:文章封面图片链接
## 注意事项
1. 登录相关:
- 首次使用需要扫码登录
- 登录信息会保存在 `gzhcookies.cookie` 文件中
- 如果登录失效需要重新扫码
2. 数据导出:
- CSV 文件默认保存在 `exports` 目录下
- 文件名格式:`公众号名称_时间戳.csv`
- 使用 UTF-8 编码,支持中文内容
3. 使用限制:
- 需要遵守微信公众平台的使用规范
- 建议合理控制爬取频率
- 仅用于学习研究,请勿用于商业用途
## 环境要求
- Python 3.6+
- 依赖库:
- requests
- pillow (用于显示登录二维码)
- urllib3
## License
MIT License
有想学习 AI公众号文章 写作的朋友可以加入小报童
