# ai_comic_drama **Repository Path**: open_source_base/ai_comic_drama ## Basic Information - **Project Name**: ai_comic_drama - **Description**: ai 漫剧 制作demo - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-28 - **Last Updated**: 2026-03-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # ai 漫剧 https://gitee.com/open_source_base/ai_comic_drama.git windows: .venv wsl: .venv_wsl 不同的环境的python 请查阅 venv.md windows :.venv\Scripts\activate wsl: source .venv_wsl/bin/activate # 开发工具 PyCharm 2025.1.3.1 # 技术框架 ## 主要技术框架1: - Python 3.11.9 - 图片生成的技术 flux/turbo/gptimage 手搓工作流?开发难度大!需要各种试错(最主要是codex cli 自己不知道怎么实现) ## 技术框架2: 只保留文本内容。其他技术有戏ai/tapnow 来 实现 主要特点是算力是平台哪里买的只需要一次性付费就能使用多个模型。买的实际是中转算力。 问题点:完全是网页端操作,价格也不便宜,流程也复杂。 ### TapNow.ai(https://www.tapnow.ai/zh)模型库 `TapNow 创作流程 │ ├── 1) 灵感生成 / 项目启动 │ ├── 1.1 输入创意说明(文字 Prompt) │ ├── 1.2 初稿剧本/故事梗概生成 —> LLM 语言模型 │ │ └── 可能调度:GPT 系列 / 其它大语言模型(LLM) │ └── 1.3 一键拉片(AI 反向分析参考片) │ └── LLM + 视觉理解模型执行分镜提取 │ ├── 2) 脚本 → 分镜制作 │ ├── 2.1 自动分镜结构解析 │ │ └── LLM + 分镜语言解析模块 │ ├── 2.2 人物/场景构图节点 │ │ └── 文生图模型 │ └── 2.3 拖拽节点构建故事流程 │ └── Tapflow 可视化节点界面 │ ├── 3) 图像生成模块 │ ├── 3.1 角色设计 / 概念图 │ │ ├── Midjourney(风格化静态图) │ │ ├── Imagen / Flux 等图像模型 │ │ └── 可能还有内部优化图像模型 │ │ │ └── 3.2 多角度 / 多视图设计 │ └── 图像延展+控制生成模型 │ ├── 4) 视频生成模块 │ ├── 4.1 文本转视频(Text-to-Video) │ │ ├── Veo 系列模型(如 Veo 3.x) │ │ ├── Sora2 / Sora2-Pro(高级逻辑 & 连贯性) │ │ ├── 可灵 / Kling(国产稳定视频生成) │ │ └── 即梦 / Jimeng(快速视频生成) │ │ │ ├── 4.2 图像转视频 / 图生视频 │ │ └── 同上 Veo | 可灵 | 即梦 类模型 │ └── 4.3 长镜视频 & 镜头控制 │ └── 高级模型组合(可优先调度 Veo/Sora2) │ ├── 5) 音频 & 配音模块 │ ├── 5.1 自动配乐生成 │ │ └── 音乐生成模型 / 语义到音乐映射 │ └── 5.2 文字转语音(TTS) │ └── 语音合成 + 风格模型 │ ├── 6) 后期调整 & 整合 │ ├── 6.1 镜头运动 / 细节编辑 │ │ └── AI + 参数控制工具 │ ├── 6.2 风格一致性调优(如面部一致性) │ │ └── 品牌级一致性模型(例如 Banana 类型模型) │ └── 6.3 导出成片 │ └── 输出视频 / JSON / 社区发布 │ └── 7) 分享 / 社区学习 ├── 7.1 发布到 TapTV 社区 │ └── 社区模板可一键克隆 └── 7.2 导出 & 再创作 ` `视频生成(Video Generation) │ ├── 一、通用高质量视频模型(主力生成) │ │ │ ├── Sora 2 / Sora 2 Pro │ │ ├─ 长视频能力强 │ │ ├─ 逻辑连贯性强 │ │ ├─ 电影感叙事 │ │ └─ 生成时间长(30-60 min) │ │ │ ├── VEO3 / VEO3.1 │ │ ├─ 4K 支持 │ │ ├─ 真实感强 │ │ ├─ 镜头语言稳定 │ │ └─ Fast 版本偏速度 │ │ │ └── Seedance 2.0 │ ├─ 偏创意表达 │ └─ 时间略长(5-10 min) │ │ ├── 二、效率型快速模型(短视频/测试) │ │ │ ├── 即梦 1.5 / Pro / Lite │ │ ├─ 快速生成 │ │ ├─ 短视频友好 │ │ └─ 成本较低 │ │ │ ├── Wan 2.2 / 2.5 / 2.6 │ │ ├─ 稳定出片 │ │ ├─ 性价比高 │ │ └─ Flash 为极速版本 │ │ │ ├── VEO3-Fast │ └── Hailuo-2.3 Fast │ │ ├── 三、动作控制 / 参考视频驱动模型 │ │ │ ├── Kling O1 │ │ ├─ 视频参考 │ │ ├─ 主体锁定 │ │ └─ 视频编辑支持 │ │ │ ├── Kling 2.6 动作迁移 │ │ ├─ 动作驱动 │ │ ├─ 姿态映射 │ │ └─ 角色一致性 │ │ │ └── OmniHuman 1.5 │ ├─ 人物驱动 │ └─ 类数字人能力 │ │ ├── 四、风格化 / 二次元 / 动画向 │ │ │ ├── PixVerse 5.0 / 5.5 │ ├── MJ Video │ └── Vidu Q2 / Q2 Pro / Q2 Turbo / Q3 │ │ └── 五、历史版本 / 稳定版本 │ ├── Kling 2.1 / 2.5 / 2.6 ├── Wan 2.2 / 2.5 └── Hailuo-02 ` ## 技术框架3: Toonflow https://github.com/HBAI-Ltd/Toonflow-app 1. TapNow:上手快、成品能力强,但公开信息更偏 SaaS/画布产品。 推断:公开文档里我没看到明确的开放 API/SDK 或自托管说明,更适合“外挂式使用”。 2. Toonflow:开源、可本地/云端部署、可二开,技术上更容易嵌入你们现有流程。 但要注意 AGPL-3.0 许可证约束;若你们是闭源商用,需评估合规或走其商业授权。 3. 成本上: TapNow 是订阅+点数(Tapies)成本; Toonflow 是研发维护成本+模型调用成本(同样会花钱,但可控性更高)。 教程: https://help.apiyi.com/toonflow-ai-short-drama-comic-tool-api-guide.html codex cli + Toonflow 的工作模式。从而实现Agent 式工作流 生成ai 漫剧 如果Toonflow 的接口无法满足需求 可以自行对接起模型的api 例如 [视频生成接口.md](md/%E6%A8%A1%E5%9E%8B%E6%8E%A5%E5%8F%A3/toonflow/%E8%A7%86%E9%A2%91%E7%94%9F%E6%88%90%E6%8E%A5%E5%8F%A3.md) ## 聚合平台 https://api.qingyuntop.top/kling/ 可以实现一次充值使用多个厂商的模型api ## 库管理文件: requirements.txt # 项目结构 # 大概流程 写好剧本 人物形象图片(前后左右),场景图片,生成分镜图片 把分镜合成一个视频,补充分镜之间的内容