Blog/设置指南

HappyHorse 1.0 开源指南:如何安装、运行和微调第一名AI视频模型

HappyHorse 1.0 是第一个排名第一的AI视频模型,完全开源且具有商业使用权。本指南将带您了解安装、配置、品牌微调和部署 — 无论是自托管、云端还是托管平台。

2026年4月13日·15分钟阅读
HappyHorse 1.0 open-source model — these results are achievable with the freely available weights

开源发行版中包含的内容

获得HappyHorse 1.0开源版本时,您将获得一个生产就绪的AI视频生成系统,包含构建商业视频应用所需的所有组件。

基础模型权重(150亿参数)

具有150亿参数的完整模型。在200万+视频文本对上训练的核心AI。

蒸馏模型(8步)

优化速度,推理步骤从50步减少到8步。速度提升10倍,质量略有降低。

超分辨率模块

将生成的视频从256p升级到4K。对专业输出至关重要。

推理代码

优化的PyTorch代码用于生成,支持批处理和内存优化。

Python SDK

用于文本到视频、图像到视频和批处理工作流的简单API。

REST API服务器

FastAPI服务器用于将HappyHorse作为服务运行。在本地或云端部署。

商业许可证

所有生成视频的完整商业使用权。不需要标注。

技术文档

详细的安装、微调、部署和故障排除指南。

硬件要求

最低配置

  • NVIDIA A100 (40GB) 或 H100 (40GB最低)
  • 256GB系统RAM
  • 500GB SSD用于存储模型
  • CUDA 12.1+, cuDNN 9.0+
  • 1080p输出:每个视频约38秒
推荐

推荐配置

  • NVIDIA H100 (80GB) 或 2x A100 (80GB总计)
  • 512GB系统RAM
  • 1TB NVMe SSD
  • CUDA 12.1+, cuDNN 9.0+
  • 1080p输出:每个视频约15秒
  • FP8量化支持

FP8量化提示

使用FP8量化(torch.float8_e4m3fn)可将内存减少50%,质量损失极小。这允许在A100 40GB上运行而不需要H100 80GB。

逐步安装指南

先决条件

  • NVIDIA GPU最少40GB VRAM(A100、H100或RTX 6000 Ada)
  • 已安装CUDA 12.1+和cuDNN 9.0+
  • Python 3.10或3.11
  • git和pip包管理器
  • 至少500GB可用磁盘空间

1. 克隆仓库

从GitHub获取官方HappyHorse代码。

git clone https://github.com/happyhorse-ai/happyhorse-1.0.git && cd happyhorse-1.0

2. 创建虚拟环境

在Python虚拟环境中隔离依赖项。

python3.10 -m venv venv && source venv/bin/activate

3. 安装带CUDA支持的PyTorch

安装为您的CUDA版本构建的PyTorch。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

4. 安装HappyHorse依赖项

安装所需的库和HappyHorse包。

pip install -r requirements.txt && pip install -e .

5. 下载模型权重

从Hugging Face下载15B基础模型和蒸馏模型。

python -m happyhorse.download_models --model-size all
  • 基础模型:约30GB(150亿参数)
  • 蒸馏模型:约15GB(8步推理)
  • 超分辨率模块:约2GB
  • 模型缓存在~/.cache/huggingface/hub

6. 验证安装

使用简单推理测试一切是否正常。

python -c "from happyhorse import HappyHorseModel; print('安装成功!')"

基本用法:Python示例

import torch
from happyhorse import HappyHorseModel

# Load the model
model = HappyHorseModel.from_pretrained(
    "happy-horse/happyhorse-1.0",
    device="cuda",
    dtype=torch.float8_e4m3fn  # For FP8 quantization
)

# Generate video from text
prompt = "A woman in a blue dress holding our skincare product, smiling at the camera"
video, audio = model.generate(
    prompt=prompt,
    duration_seconds=5,
    fps=24,
    aspect_ratio="16:9",
    height=1080
)

# Save output
video.save("output.mp4")
audio.save("output.wav")

# Generate video with image conditioning
from PIL import Image
image = Image.open("product_image.jpg")
video_from_image, audio = model.generate(
    image=image,
    prompt="Show the product features, zoom in on the packaging",
    duration_seconds=8,
    fps=24
)

# Batch generation for multiple scripts
scripts = [
    "Woman in gym holding protein powder",
    "Man at home desk with laptop",
    "Group of friends laughing with phone"
]

for script in scripts:
    video, audio = model.generate(prompt=script, duration_seconds=5)
    video.save(f"video_{scripts.index(script)}.mp4")

主要功能深入了解

Nature macro detail — fine-grained visual quality
Cinematic scene — self-hosted generation output

文本到视频生成

直接从文本提示生成视频。非常适合快速迭代和A/B测试。

  • 提示长度:10-500个字符
  • 持续时间:2-30秒
  • 帧率:12-60(默认24)
  • 分辨率:256p到4K(使用超分辨率)
  • 纵横比:9:16、16:9、1:1、4:5支持

图像到视频生成

基于产品图像或参考照片进行条件化生成。从静态图像创建动态视频。

  • 输入:PNG/JPG图像(任何分辨率)
  • 输出:5-30秒视频
  • 保持构图同时添加动作
  • 非常适合产品展示和开箱内容

音频-视频同步

自动生成或与现有音频同步。使用语音检测自动进行唇形同步。

  • 自动唇形同步支持175+种语言
  • 支持上传的音频文件或文本转语音
  • 检测语音并同步嘴部动作
  • 无需手动调整

批处理

在单个调用中高效生成多个视频。非常适合扩展活动。

  • 并行处理50+个视频
  • 自动队列管理
  • GPU内存优化
  • 进度跟踪和可恢复批次

LoRA微调

使用LoRA定制模型以匹配您的品牌风格,无需完整重新训练。

  • LoRA等级:8-128(推荐64)
  • 训练时间:在H100上2-8小时
  • 内存高效:仅需40GB GPU
  • 保留基础模型质量

微调指南:品牌定制

虽然HappyHorse开箱即用效果非常好,但微调允许您将其专门化为您的品牌特定风格、产品和视觉语言。这需要2-8小时的GPU时间,并可显著提高输出一致性。

何时微调您的模型

  • 您有独特的品牌风格(调色板、光线、构图)
  • 您需要一致的产品演示或开箱视频
  • 您每月为同一品牌生成50+个视频
  • 您想匹配特定的发言人美感或品牌大使
  • 您需要以品牌视觉风格提供多语言内容

LoRA微调代码示例

from happyhorse import LoRATrainer

# Prepare training data
train_dataset = {
    "images": ["brand_img_1.jpg", "brand_img_2.jpg"],
    "captions": [
        "Woman holding blue cosmetic bottle in bright lighting",
        "Product closeup showcasing glass packaging"
    ]
}

# Initialize LoRA trainer
trainer = LoRATrainer(
    model="happy-horse/happyhorse-1.0",
    lora_rank=64,
    learning_rate=1e-4,
    num_epochs=10,
    batch_size=4
)

# Train with your brand data
trainer.train(
    images=train_dataset["images"],
    captions=train_dataset["captions"],
    output_dir="./lora_checkpoints"
)

# Use fine-tuned model
model.load_lora("./lora_checkpoints/final")
video, audio = model.generate(
    prompt="Woman in office with our branded product",
    duration_seconds=5
)
video.save("branded_output.mp4")

训练数据要求

  • 最低数据:10-20张高质量图像,配有详细标题
  • 推荐数据:50-100张图像,覆盖不同的产品角度、光线、环境
  • 图像格式:PNG或JPG,任何分辨率(自动调整到768x768)
  • 标题:详细的20-50字描述每个图像(您看到的、动作、风格)

微调的计算要求

LoRA微调需要A100 40GB或H100,并有10GB可用内存。在100张图像上训练在H100上需要4-6小时,或在A100 40GB上需要8-10小时。通过将批量大小从4减少到1来使用更便宜的GPU(增加2-3小时)。

部署选项

本地部署

在您自己的GPU机器上运行。最适合开发和测试。

AWS部署

在带g4dn或p3实例的EC2上启动。使用ECS进行容器化。

Google Cloud (GCP)

在Compute Engine上部署或使用Vertex AI。A100 GPU按需提供。

Microsoft Azure

使用带H100或A100的N系列VM。与Azure ML集成以进行扩展。

Paperspace / Lambda Labs

针对ML优化的GPU云平台。简单设置,按小时付费。

Reference-driven generation — achievable with self-hosted deployment

Docker容器化

# Dockerfile
FROM nvidia/cuda:12.1-runtime-ubuntu22.04

RUN apt-get update && apt-get install -y \
    python3.10 python3-pip git \
    && rm -rf /var/lib/apt/lists/*

WORKDIR /app

COPY requirements.txt .
RUN pip install -r requirements.txt

COPY . .

EXPOSE 8000

CMD ["python3", "-m", "happyhorse.server", "--host", "0.0.0.0", "--port", "8000"]

# requirements.txt
torch==2.1.0
torchvision==0.16.0
happyhorse==1.0.0
fastapi==0.104.1
uvicorn==0.24.0
python-multipart==0.0.6
pillow==10.1.0
docker build -t happyhorse:latest .
docker run --gpus all -p 8000:8000 -v ~/.cache/huggingface:/root/.cache/huggingface happyhorse:latest
在http://localhost:8000访问API

对比:自托管vs API vs UGCFast

方面自托管HappyHorse APIUGCFast平台
设置复杂性高(GPU、CUDA、依赖项)低(仅需API密钥)无(网络界面)
GPU成本$3,000-8,000前期投入$0前期投入包含在订阅中
每个视频的成本$0.50-2.00(仅电费)每个视频$1-5$0.30-1.50(按量计费)
每月100个视频$50-200(电费)$100-500$30-150
延迟2-40秒5-60秒即时(队列中)
批处理无限制受速率限制限制内置,300+并发
微调完全支持有限或不可用托管微调
维护您处理更新、备份供应商处理完全托管
最适合高量生产、自定义工作流低量、无基础设施成长中的品牌、托管简洁

自托管

前期成本
$5,000-10,000
每个视频的成本
$0.50
每月(100个视频)
$50-100
理想用于
代理商、高量工作室

HappyHorse API

前期成本
$0
每个视频的成本
$2-4
每月(100个视频)
$200-400
理想用于
低量项目、测试
对SMB最平衡

UGCFast

前期成本
$0
每个视频的成本
$0.30-1.00
每月(100个视频)
$30-100
理想用于
品牌、小工作室、托管平台

关于AI UGC视频生成的常见问题

准备好生成AI视频吗?

无论您选择自托管HappyHorse还是倾向于托管平台,立即开始创建专业视频内容。

免费开始

无需承诺,随时取消。试用后起价$29/月。