# RAG CC Platform **Repository Path**: to-doing/rag-cc-platform ## Basic Information - **Project Name**: RAG CC Platform - **Description**: 来自Claude Code 和LLM claude-4.5-sonnet配合完成的作品 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: develop - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2026-04-09 - **Last Updated**: 2026-05-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # RAG 知识库平台 一个完整的、生产级的 RAG(Retrieval-Augmented Generation)知识库管理平台,支持文档上传、智能检索和多种 LLM 提供商的问答功能。 ## 功能特性 ### 核心功能 - **知识库管理**: 创建、查询、更新、删除知识库 - **文档处理**: 多格式文档上传(PDF, DOCX, TXT, MD, HTML)、解析、分块、向量化 - **RAG检索系统**: - 向量相似度检索 - Top-K文档检索 - 引用来源追踪 - **混合检索**: 结合向量检索与关键词检索的混合搜索模式 - **智能缓存**: 提升重复查询性能的缓存机制 - **上下文构建优化**: 改进的文档内容提取与注入机制 - **LLM集成**: 支持多提供商(OpenAI, Anthropic, Azure, Baidu, Tencent, Alibaba, Custom) - **对话管理**: 会话创建、多轮对话、历史持久化、标题生成 - **用户认证与权限**: JWT认证、角色系统、知识库所有权、访客模式 ### 前端功能 - **知识库管理**: 列表展示(我的/共享分段)、文档上传 - **对话界面**: 实时流式对话、Markdown渲染、对话历史查看 - **用户界面**: 登录/注册、用户菜单、响应式设计 - **权限控制**: UI根据权限动态显示 - **混合检索**: 前端UI中添加混合检索模式切换控件 - **优化的用户体验**: 更直观的界面和交互反馈 ## 快速开始 ### 环境要求 - Python 3.11+ - Node.js 18+ - ChromaDB 服务器 ### 后端设置 ```bash cd backend pip install -r requirements.txt cp .env.example .env # 填入必要的配置 uvicorn app.main:app --reload ``` ### 前端设置 ```bash cd frontend npm install npm run dev ``` ### API文档 启动后端服务后,访问 http://localhost:8000/docs 查看API文档。 ## 技术栈 ### 后端 - FastAPI 0.109.0 - SQLAlchemy 2.0.25 - ChromaDB 1.5.5 - sentence-transformers 5.3.0 - Pydantic 2.5.3 ### 前端 - Vue 3.4.21 - Vite 5.1.5 - Vue Router 4.3.0 - TailwindCSS 3.4.1 - Axios 1.6.7 ## 项目结构 ``` RagCC/ ├── backend/ │ ├── app/ │ │ ├── api/v1/ # API 路由(auth, knowledge_bases, documents, chat, conversations) │ │ ├── models/ # 数据模型 │ │ ├── schemas/ # Pydantic 验证 │ │ ├── services/ # 业务逻辑 │ │ ├── utils/ # 工具函数 │ │ ├── config.py │ │ ├── database.py │ │ └── main.py │ ├── alembic/ # 数据库迁移 │ └── requirements.txt ├── frontend/ │ ├── src/ │ │ ├── api/ # Axios 客户端 + 认证拦截器 │ │ ├── assets/ │ │ ├── composables/ # useAuth, useChatStream │ │ ├── router/ # 路由 + 守卫 │ │ └── views/ # Login, Register, Home, KnowledgeBase, Chat, Conversations │ └── package.json ├── docs/ # 项目文档 ├── plans/ # 开发计划文档 ├── CLAUDE.md # AI助手开发规范 ├── CONTRIBUTING.md # 贡献指南 ├── CHANGELOG.md # 变更日志 └── README.md ``` ## 开发与贡献 我们欢迎社区贡献! - **贡献指南**: 请参考 [CONTRIBUTING.md](./CONTRIBUTING.md) 了解如何为项目做出贡献 - **开发规范**: 请遵循 [CLAUDE.md](./CLAUDE.md) 中的规范(专为AI助手设计) - **开发计划**: 请查看 `plans/` 目录中的按版本组织的开发迭代文档 - **系统架构**: 请参考 `docs/architecture/SYSTEM_ARCHITECTURE.md` 了解详细架构 ## 核心特性 1. **完整的RAG流程**: 文档上传 → 文本提取 → 分块 → 向量化 → 检索 → 生成回答 2. **多LLM提供商**: 支持OpenAI、Anthropic、Azure、Baidu、Tencent、Alibaba、Custom 3. **流式响应**: SSE流式输出,实时显示 4. **引用追踪**: 答案可溯源到原文档 5. **用户认证与权限**: JWT认证、角色权限控制、访客访问 6. **混合检索模式**: 结合向量检索与关键词检索的智能检索策略 7. **性能优化**: 智能缓存机制与并行处理 8. **前端优化**: 混合检索开关与用户体验增强 ## RAG 数据流 1. 用户提问 2. 从 ChromaDB 检索相关文本块(向量相似度) 3. 构建 prompt(检索结果 + 对话历史) 4. 调用 LLM 流式返回答案(SSE) 5. 附带来源引用返回前端 ## 部署 生产环境部署请参考 `docs/operations/PRODUCTION_DEPLOYMENT.md`。 ## 许可证 MIT License - 详见 [LICENSE](./LICENSE) 文件。 ## 功能发展路线图 ### 已完成版本 #### v1.0-v1.7: 基础功能建设 - **v1.0**: RAG核心流程(文档上传、向量化、检索、问答) - **v1.1**: 多LLM提供商集成 - **v1.2**: S3存储支持 - **v1.3**: 混合检索功能 - **v1.4**: RAG流程修复和优化 - **v1.5-v1.7**: 用户权限、日志系统、性能优化 #### v1.8-v1.9: 功能补齐与企业基础 - **v1.8**: 文档格式扩展、BM25全文检索、性能监控 - **v1.9**: 结果重排序、API限流、审计日志、对话导出、知识库克隆 #### v1.10: 智能检索深化(上) - Query重写、HyDE、多轮检索、自查询、Parent Doc、RRF融合、MMR多样性、嵌入模型热切换 ### 规划中版本 #### v1.11: 智能检索深化(下)+ 多模态 - **多模态检索**: CLIP视觉嵌入、以图搜图、图文互搜 - **知识图谱**: GraphRAG、实体关系抽取、图结构查询 - **评估框架**: MRR/NDCG指标、检索质量量化 - **异步任务**: 音视频处理、索引重建 - **上下文压缩**: 检索结果优化、LLM上下文精简 - **存储扩展**: Azure Blob/GCS支持 - **健康检查**: 知识库诊断修复 #### v2.0: Agent编排引擎 - **可视化编排**: 拖拽式工作流设计 - **Agent节点**: Search/Analyze/Report/Decision等8种节点 - **MCP协议**: 工具集成与暴露 - **Agent记忆**: 短期/长期记忆系统 - **定时工作流**: Cron自动执行 - **导入导出**: JSON格式迁移 - **人机协作**: 审批节点、暂停等待 - **循环节点**: 批量迭代处理 #### v2.1: 企业化平台 - **细粒度权限**: RBAC、4角色体系、资源级权限 - **团队组织**: Org→Team→User层级结构 - **SSO集成**: OAuth/SAML、企业微信、Azure AD - **API开放**: API Key管理、用量追踪 - **合规审计**: 导出留存、合规报告 - **通知系统**: 站内信/邮件/Webhook #### v2.2: 生态与行业化 - **插件系统**: 自定义节点、插件市场 - **行业模板**: 金融/法律/医疗专业模板 - **开放SDK**: Python/JS SDK、API文档门户 - **计费系统**: 用量计费、订阅管理 - **版本管理**: 工作流版本、回滚对比 - **分析仪表盘**: 使用分析、趋势报告 - **Webhook**: 事件推送、系统集成 ### 未来展望 - **v2.3+**: 微服务架构、联邦部署、国际化