# vide_speak

**Repository Path**: gongdnq/vide_speak

## Basic Information

- **Project Name**: vide_speak
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-02-02
- **Last Updated**: 2026-02-03

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# VideoSpeak - 口播带货视频生成系统

基于开源技术的零成本口播视频生成解决方案。

## 功能特性

- 🎤 **文本转语音**: 使用Edge-TTS，支持40+语言、300+音色
- 🎭 **口型同步**: 集成MuseTalk，实现精准口型匹配
- 🎬 **视频合成**: FFmpeg驱动，支持产品叠加、字幕烧录
- 🤖 **自动化流程**: 一键从文案生成完整带货视频

## 系统要求

### 硬件要求
- **GPU**: NVIDIA显卡，最低4GB VRAM (推荐8GB+)
- **内存**: 16GB+ RAM
- **存储**: 20GB+ 可用空间

### 软件要求
- Python 3.10+
- CUDA 11.8+
- FFmpeg

## 快速开始

### 1. 安装依赖

```bash
pip install -r requirements.txt
```

### 2. 配置环境

```bash
# 复制配置文件模板
cp config.example.yaml config.yaml

# 编辑配置文件
```

### 3. 生成视频

```bash
python main.py generate \
    --text "您的口播文案" \
    --avatar "人物图片.jpg" \
    --product "产品图片.jpg" \
    --output "输出视频.mp4"
```

## 项目结构

```
vide_speak/
├── main.py              # 主入口
├── config.yaml          # 配置文件
├── requirements.txt     # Python依赖
├── src/
│   ├── __init__.py
│   ├── tts/             # 语音合成模块
│   │   ├── __init__.py
│   │   └── edge_tts_engine.py
│   ├── lipsync/         # 口型同步模块
│   │   ├── __init__.py
│   │   └── musetalk_wrapper.py
│   ├── video/           # 视频合成模块
│   │   ├── __init__.py
│   │   └── compositor.py
│   └── pipeline/        # 工作流管道
│       ├── __init__.py
│       └── video_pipeline.py
├── assets/              # 素材文件
│   ├── avatars/         # 人物形象
│   └── products/        # 产品图片
├── output/              # 输出目录
└── docs/                # 文档
```

## 许可证

MIT License