HappyHorse 1.0 开源指南:如何安装、运行和微调第一名AI视频模型
HappyHorse 1.0 是第一个排名第一的AI视频模型,完全开源且具有商业使用权。本指南将带您了解安装、配置、品牌微调和部署 — 无论是自托管、云端还是托管平台。
目录
开源发行版中包含的内容
获得HappyHorse 1.0开源版本时,您将获得一个生产就绪的AI视频生成系统,包含构建商业视频应用所需的所有组件。
基础模型权重(150亿参数)
具有150亿参数的完整模型。在200万+视频文本对上训练的核心AI。
蒸馏模型(8步)
优化速度,推理步骤从50步减少到8步。速度提升10倍,质量略有降低。
超分辨率模块
将生成的视频从256p升级到4K。对专业输出至关重要。
推理代码
优化的PyTorch代码用于生成,支持批处理和内存优化。
Python SDK
用于文本到视频、图像到视频和批处理工作流的简单API。
REST API服务器
FastAPI服务器用于将HappyHorse作为服务运行。在本地或云端部署。
商业许可证
所有生成视频的完整商业使用权。不需要标注。
技术文档
详细的安装、微调、部署和故障排除指南。
硬件要求
最低配置
- •NVIDIA A100 (40GB) 或 H100 (40GB最低)
- •256GB系统RAM
- •500GB SSD用于存储模型
- •CUDA 12.1+, cuDNN 9.0+
- •1080p输出:每个视频约38秒
推荐配置
- •NVIDIA H100 (80GB) 或 2x A100 (80GB总计)
- •512GB系统RAM
- •1TB NVMe SSD
- •CUDA 12.1+, cuDNN 9.0+
- •1080p输出:每个视频约15秒
- •FP8量化支持
FP8量化提示
使用FP8量化(torch.float8_e4m3fn)可将内存减少50%,质量损失极小。这允许在A100 40GB上运行而不需要H100 80GB。
逐步安装指南
先决条件
- ✓NVIDIA GPU最少40GB VRAM(A100、H100或RTX 6000 Ada)
- ✓已安装CUDA 12.1+和cuDNN 9.0+
- ✓Python 3.10或3.11
- ✓git和pip包管理器
- ✓至少500GB可用磁盘空间
1. 克隆仓库
从GitHub获取官方HappyHorse代码。
git clone https://github.com/happyhorse-ai/happyhorse-1.0.git && cd happyhorse-1.02. 创建虚拟环境
在Python虚拟环境中隔离依赖项。
python3.10 -m venv venv && source venv/bin/activate3. 安装带CUDA支持的PyTorch
安装为您的CUDA版本构建的PyTorch。
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu1214. 安装HappyHorse依赖项
安装所需的库和HappyHorse包。
pip install -r requirements.txt && pip install -e .5. 下载模型权重
从Hugging Face下载15B基础模型和蒸馏模型。
python -m happyhorse.download_models --model-size all- →基础模型:约30GB(150亿参数)
- →蒸馏模型:约15GB(8步推理)
- →超分辨率模块:约2GB
- →模型缓存在~/.cache/huggingface/hub
6. 验证安装
使用简单推理测试一切是否正常。
python -c "from happyhorse import HappyHorseModel; print('安装成功!')"基本用法:Python示例
import torch
from happyhorse import HappyHorseModel
# Load the model
model = HappyHorseModel.from_pretrained(
"happy-horse/happyhorse-1.0",
device="cuda",
dtype=torch.float8_e4m3fn # For FP8 quantization
)
# Generate video from text
prompt = "A woman in a blue dress holding our skincare product, smiling at the camera"
video, audio = model.generate(
prompt=prompt,
duration_seconds=5,
fps=24,
aspect_ratio="16:9",
height=1080
)
# Save output
video.save("output.mp4")
audio.save("output.wav")
# Generate video with image conditioning
from PIL import Image
image = Image.open("product_image.jpg")
video_from_image, audio = model.generate(
image=image,
prompt="Show the product features, zoom in on the packaging",
duration_seconds=8,
fps=24
)
# Batch generation for multiple scripts
scripts = [
"Woman in gym holding protein powder",
"Man at home desk with laptop",
"Group of friends laughing with phone"
]
for script in scripts:
video, audio = model.generate(prompt=script, duration_seconds=5)
video.save(f"video_{scripts.index(script)}.mp4")主要功能深入了解
文本到视频生成
直接从文本提示生成视频。非常适合快速迭代和A/B测试。
- →提示长度:10-500个字符
- →持续时间:2-30秒
- →帧率:12-60(默认24)
- →分辨率:256p到4K(使用超分辨率)
- →纵横比:9:16、16:9、1:1、4:5支持
图像到视频生成
基于产品图像或参考照片进行条件化生成。从静态图像创建动态视频。
- →输入:PNG/JPG图像(任何分辨率)
- →输出:5-30秒视频
- →保持构图同时添加动作
- →非常适合产品展示和开箱内容
音频-视频同步
自动生成或与现有音频同步。使用语音检测自动进行唇形同步。
- →自动唇形同步支持175+种语言
- →支持上传的音频文件或文本转语音
- →检测语音并同步嘴部动作
- →无需手动调整
批处理
在单个调用中高效生成多个视频。非常适合扩展活动。
- →并行处理50+个视频
- →自动队列管理
- →GPU内存优化
- →进度跟踪和可恢复批次
LoRA微调
使用LoRA定制模型以匹配您的品牌风格,无需完整重新训练。
- →LoRA等级:8-128(推荐64)
- →训练时间:在H100上2-8小时
- →内存高效:仅需40GB GPU
- →保留基础模型质量
微调指南:品牌定制
虽然HappyHorse开箱即用效果非常好,但微调允许您将其专门化为您的品牌特定风格、产品和视觉语言。这需要2-8小时的GPU时间,并可显著提高输出一致性。
何时微调您的模型
- •您有独特的品牌风格(调色板、光线、构图)
- •您需要一致的产品演示或开箱视频
- •您每月为同一品牌生成50+个视频
- •您想匹配特定的发言人美感或品牌大使
- •您需要以品牌视觉风格提供多语言内容
LoRA微调代码示例
from happyhorse import LoRATrainer
# Prepare training data
train_dataset = {
"images": ["brand_img_1.jpg", "brand_img_2.jpg"],
"captions": [
"Woman holding blue cosmetic bottle in bright lighting",
"Product closeup showcasing glass packaging"
]
}
# Initialize LoRA trainer
trainer = LoRATrainer(
model="happy-horse/happyhorse-1.0",
lora_rank=64,
learning_rate=1e-4,
num_epochs=10,
batch_size=4
)
# Train with your brand data
trainer.train(
images=train_dataset["images"],
captions=train_dataset["captions"],
output_dir="./lora_checkpoints"
)
# Use fine-tuned model
model.load_lora("./lora_checkpoints/final")
video, audio = model.generate(
prompt="Woman in office with our branded product",
duration_seconds=5
)
video.save("branded_output.mp4")训练数据要求
- 最低数据:10-20张高质量图像,配有详细标题
- 推荐数据:50-100张图像,覆盖不同的产品角度、光线、环境
- 图像格式:PNG或JPG,任何分辨率(自动调整到768x768)
- 标题:详细的20-50字描述每个图像(您看到的、动作、风格)
微调的计算要求
LoRA微调需要A100 40GB或H100,并有10GB可用内存。在100张图像上训练在H100上需要4-6小时,或在A100 40GB上需要8-10小时。通过将批量大小从4减少到1来使用更便宜的GPU(增加2-3小时)。
部署选项
本地部署
在您自己的GPU机器上运行。最适合开发和测试。
AWS部署
在带g4dn或p3实例的EC2上启动。使用ECS进行容器化。
Google Cloud (GCP)
在Compute Engine上部署或使用Vertex AI。A100 GPU按需提供。
Microsoft Azure
使用带H100或A100的N系列VM。与Azure ML集成以进行扩展。
Paperspace / Lambda Labs
针对ML优化的GPU云平台。简单设置,按小时付费。
Docker容器化
# Dockerfile
FROM nvidia/cuda:12.1-runtime-ubuntu22.04
RUN apt-get update && apt-get install -y \
python3.10 python3-pip git \
&& rm -rf /var/lib/apt/lists/*
WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . .
EXPOSE 8000
CMD ["python3", "-m", "happyhorse.server", "--host", "0.0.0.0", "--port", "8000"]
# requirements.txt
torch==2.1.0
torchvision==0.16.0
happyhorse==1.0.0
fastapi==0.104.1
uvicorn==0.24.0
python-multipart==0.0.6
pillow==10.1.0对比:自托管vs API vs UGCFast
| 方面 | 自托管 | HappyHorse API | UGCFast平台 |
|---|---|---|---|
| 设置复杂性 | 高(GPU、CUDA、依赖项) | 低(仅需API密钥) | 无(网络界面) |
| GPU成本 | $3,000-8,000前期投入 | $0前期投入 | 包含在订阅中 |
| 每个视频的成本 | $0.50-2.00(仅电费) | 每个视频$1-5 | $0.30-1.50(按量计费) |
| 每月100个视频 | $50-200(电费) | $100-500 | $30-150 |
| 延迟 | 2-40秒 | 5-60秒 | 即时(队列中) |
| 批处理 | 无限制 | 受速率限制限制 | 内置,300+并发 |
| 微调 | 完全支持 | 有限或不可用 | 托管微调 |
| 维护 | 您处理更新、备份 | 供应商处理 | 完全托管 |
| 最适合 | 高量生产、自定义工作流 | 低量、无基础设施 | 成长中的品牌、托管简洁 |