# VideoAgent
**Repository Path**: zx4321/VideoAgent
## Basic Information
- **Project Name**: VideoAgent
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-12-09
- **Last Updated**: 2025-12-09
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README

```mermaid
graph TB
A[🎬 VideoAgent Framework] --> B[🧠 Video Understanding & Summarization]
A --> C[✂️ Video Editing]
A --> D[🎨 VIdeo Remaking]
B --> B1[Video Q&A]
B --> B2[Video Summarization]
C --> C1[Movie Edits]
C --> C2[Commentary Video]
C --> C3[Video Overview]
D --> D1[Meme Videos]
D --> D2[Music Videos]
D --> D3[Cross-Cultural Comedy]
```
---
## 🔧 评估
我们在多个维度进行了广泛的实验,以验证 VideoAgent 在解决关键挑战方面的有效性。
### 通过工作流构建实现无限创造力
为了评估 VideoAgent 通过自动工作流构建实现的**无限创造力**,我们在三个骨干模型上比较了五个广泛适用的智能体。我们的研究结果表明,VideoAgent 在音频和视频数据集上显著优于其他基线模型,展示了其通过图结构引导和专用自我评估反馈驱动的自我反思实现的**创意工作流生成能力**。此外,我们观察到 VideoAgent 在 Claude 3.7 骨干模型下表现出优越且更稳定的**创意性能**,相较于 GPT-4o 和 Deepseek-v3,而其他基线方法在不同骨干模型间表现出波动。这突出了 VideoAgent 通过自动构建多样化且有效的工作流来**释放无限创造力**的能力,这些工作流能够适应各种用户需求,更强大的 LLM 能够实现更深层的理解并为复杂的图任务提供更稳健的创意解决方案。
| Feature Type |
Video Demo |
Required Models |
| Cross Talk |
English Stand-up Comedy to Chinese Crosstalk |
CosyVoice, Whisper, ImageBind |
| Talk Show |
Chinese Crosstalk to English Stand-up Comedy |
CosyVoice, Whisper, ImageBind |
| MAD TTS |
Xiao-Ming-Jian-Mo(小明剑魔) Meme |
fish-speech |
| MAD SVC |
AI Music Videos |
DiffSinger, seed-vc, Whisper, ImageBind |
| Rhythm |
Spider-Man: Across the Spider-Verse |
Whisper, ImageBind |
| Comm |
Commentary Video |
CosyVoice, Whisper, ImageBind |
| News |
Tech News: OpenAI's GPT-4o Image Generation Release |
CosyVoice, Whisper, ImageBind |
| Video QA/Summarization |
Dune 2 Movie Cast Update Podcast |
Whisper |
### 🤖 **LLM 配置**
```bash
# VideoAgent\environment\config\config.yml
llm:
# Video Remixing/TTS/SVC/Stand-up/CrossTalk
deepseek_api_key: ""
deepseek_base_url: ""
# Agentic Graph Router/TTS/SVC/Stand-up/CrossTalk
claude_api_key: ""
claude_base_url: ""
# Video Editing/Overview/Summarization/QA/Commentary Video
gpt_api_key: ""
gpt_base_url: ""
# MLLM for caption and fine-grained video understanding
gemini_api_key: ""
gemini_base_url: ""
```
### 🎯 **使用方法**
```bash
# 完成配置后,运行以下指令:
python main.py
# 控制台将输出:
User Requirement: ...
# 示例需求:
# 1. 我需要创建一个现有视频的改写版本,其中语音内容被修改,但保持原说话者的语音。视频应与原视频视觉相同,但根据我的具体要求更新对话。
# 2. 我有一段脱口秀脚本,想将其制作成专业外观的视频。我需要脚本以良好的喜剧节奏和观众反应进行表演,然后与相关视频片段匹配,制作一个完整的脱口秀特别节目。我已经有一个参考脚本和一些想使用的视频片段。
```
---
## 🔮 示例