# ai核实标讯 **Repository Path**: linnjabin/ai-bid-analysis-code ## Basic Information - **Project Name**: ai核实标讯 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-06-11 - **Last Updated**: 2026-06-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 政企业务准入审查 Agent 输入项目资料文件夹 → 一条命令自动生成风险评估报告。 **浏览器直采政府/企业数据 + DeepSeek + 豆包 三方联网搜索验证,交叉验证裁决,程序护栏检查。** --- ## 快速开始 ```bash # 一次性安装 pip install -r requirements.txt "D:/Tzzz/Python/python.exe" -m playwright install chromium run setup_api # (可选)启动代理池防封 IP cd ..\..\fir-proxy\"fir-proxy - 1.2" "D:/Tzzz/Python/python.exe" main.py # → 点击"获取代理" → 验证完成后点击"启动服务" → 保持窗口打开 # 每次使用:一条命令出报告 run auto "解压后的项目文件夹路径" ``` 报告生成在 `workspace/<项目名>/<项目名>.风险评估报告.md`。 --- ## 项目结构 ``` ai-bid-analysis-code/ ├── README.md ├── USER_GUIDE.md 使用指南 ├── SKILL.md Agent 工作流 ├── run_pipeline.py 一键编排(prep / auto / verify) ├── run.bat Windows 启动脚本 ├── requirements.txt │ ├── scripts/ │ ├── extract_project.py 取数:项目文件夹 → 结构化文本+表格 │ ├── scan_risk_keywords.py 风险判词撒网(4 类 60+ 词) │ ├── build_ai_prompt.py 生成 AI 核查任务书(含文档原文+精确搜索词) │ ├── gov_crawler.py ★ 政府/企业数据爬虫(隐身浏览器百度搜索直采) │ ├── ai_verify.py 调用三 AI API 联网核查 + 合成报告 │ ├── check_report.py 四重护栏(完整性/梯度/覆盖/交叉校验) │ ├── build_excel.py MD → Excel │ ├── check_env.py 环境自检 │ └── setup_api.py API Key 配置向导 │ ├── data/ │ └── risk_keywords.json 风险判词库 │ ├── references/ │ ├── risk_dimensions.md 8 个审查维度详解 │ ├── verification_sources.md 12 个外部核验平台 │ └── report_template.md 报告格式模板 │ ├── config/ │ ├── api_keys.example.json Key 模板(可提交 git) │ └── api_keys.local.json Key 实际文件(gitignore) │ ├── prompts/ │ └── comparison.md AI 结果比对指令 │ └── workspace/ 运行时产物 └── 项目名/ ├── 项目名.风险评估报告.md ← 最终报告 └── _data/ ← 中间文件(自动清理) ``` --- ## 工作流 ``` ① prep ② 爬虫直采 ③ 联网核查 ④ 合成报告 (Python) (Scrapling浏览器) (DeepSeek+智谱AI+豆包) (Python) │ │ │ │ 解压→提取→扫描 百度搜索企业信息 各自搜索→分析 交叉验证→合成 →提取政府URL →交叉验证 →四重护栏→Excel →验证URL可访问性 ``` **数据优先级(从高到低):** 1. **A 级:浏览器直采数据** — 隐身浏览器从百度搜索结果直接提取,经准确性校验,优先采信 2. **文档原文** — 项目文件(合同、招标文件、报备表)中提取的数字和条款 3. **AI 联网搜索** — 需有真实 URL + 交叉验证裁决,无 URL 的数据不采用 --- ## 数据来源 | 来源 | 方式 | 可靠性 | |------|------|:--:| | 百度搜索 → 企业工商信息 | 隐身浏览器自动搜索提取 | A | | 百度搜索 → 政府公告 URL | 隐身浏览器搜索 + 逐条验证可访问 | A | | 项目文档(合同/招标文件/报备表) | Python 直接提取 | A | | DeepSeek/Doubao 联网搜索 | AI 联网核查 + 交叉验证裁决 | B | --- ## 客观局限 | 局限 | 原因 | 处理方式 | |------|------|---------| | 爱企查/企查查 | 需验证码/登录 | 通过百度搜索摘要获取关键字段(注册资本、实缴资本) | | 国家企业信用信息公示系统 | 需验证码 | 仅提供直达链接,标 `[需人工核实]` | | 中国裁判文书网 | 需登录 | 通过执行信息公开网 + 第三方平台替代 | | 大企业搜索噪声 | 百度搜索结果杂(新闻、招聘) | 小型企业数据准确率高,大型央企交给 AI 联网补充 | | 项目垫资实际情况 | 需求明确"网上查不到" | 以事业部预算表为准 |