# wechat_article_spider **Repository Path**: AeneasHe/wechat_article_spider ## Basic Information - **Project Name**: wechat_article_spider - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-04-08 - **Last Updated**: 2025-04-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 微信公众号文章爬虫 截屏2024-12-21 14 45 49 一个用于获取微信公众号文章信息的爬虫工具。可以搜索公众号、获取文章列表并导出为 CSV 文件,方便后续数据分析和管理。 ## 功能特点 - 登录微信公众平台(使用扫码登录) - 搜索并筛选公众号 - 获取公众号文章列表 - 支持分页加载更多文章 - 导出文章信息到 CSV 文件 ## 文件结构 ``` wechat_spider/ ├── wechat_spider.py # 主程序 ├── login.py # 登录模块 └── agent.py # User-Agent 管理模块 ``` ## 使用方法 1. 安装依赖: ```bash pip install -r requirements.txt ``` 2. 运行程序: ```bash python wechat_spider.py ``` 3. 操作流程: - 首次运行需要扫码登录微信公众平台 - 输入要搜索的公众号名称 - 从搜索结果中选择目标公众号 - 查看文章列表,可以: - 加载更多文章 - 导出文章信息到 CSV 文件 ## CSV 导出字段说明 导出的 CSV 文件包含以下字段: - 标题:文章标题 - 作者:文章作者 - 摘要:文章摘要内容 - 链接:文章访问链接 - 发布时间:文章发布的具体时间 - 封面图:文章封面图片链接 ## 注意事项 1. 登录相关: - 首次使用需要扫码登录 - 登录信息会保存在 `gzhcookies.cookie` 文件中 - 如果登录失效需要重新扫码 2. 数据导出: - CSV 文件默认保存在 `exports` 目录下 - 文件名格式:`公众号名称_时间戳.csv` - 使用 UTF-8 编码,支持中文内容 3. 使用限制: - 需要遵守微信公众平台的使用规范 - 建议合理控制爬取频率 - 仅用于学习研究,请勿用于商业用途 ## 环境要求 - Python 3.6+ - 依赖库: - requests - pillow (用于显示登录二维码) - urllib3 ## License MIT License 有想学习 AI公众号文章 写作的朋友可以加入小报童 小报童