Blog/セットアップガイド

HappyHorse 1.0 オープンソースガイド:第1位のAIビデオモデルのインストール、実行、ファインチューン方法

HappyHorse 1.0は、完全にオープンソース化され、商用利用権を持つ最初の第1位のAIビデオモデルです。このガイドは、インストール、構成、ブランドのファインチューニング、デプロイメント(自己ホスト、クラウドベース、管理プラットフォーム経由)を通じて説明します。

2026年4月13日·15分の読み取り
HappyHorse 1.0 open-source model — these results are achievable with the freely available weights

オープンソースリリースに含まれるもの

HappyHorse 1.0のオープンソース版を入手すると、商用ビデオアプリケーション構築に必要なすべてのコンポーネントを備えた、本番環境対応のAIビデオ生成システムが得られます。

ベースモデル重み(150億パラメータ)

150億パラメータを持つ完全なモデル。200万以上のビデオテキストペアでトレーニングされたコアAI。

蒸留モデル(8ステップ)

50ステップの代わりに8ステップの推論で速度最適化。10倍高速ですが品質はやや低下。

超解像度モジュール

生成されたビデオを256pから4Kにアップスケール。プロフェッショナル出力に不可欠。

推論コード

バッチ処理とメモリ最適化を備えた生成用の最適化PyTorchコード。

Python SDK

テキストからビデオ、画像からビデオ、バッチ生成ワークフロー用のシンプルなAPI。

REST APIサーバー

HappyHorseをサービスとして実行するためのFastAPIサーバー。ローカルまたはクラウドにデプロイ。

商用ライセンス

すべての生成ビデオの完全な商用利用権。帰属表示は不要。

技術ドキュメント

インストール、ファインチューニング、デプロイメント、トラブルシューティングの詳細ガイド。

ハードウェア要件

最小構成

  • NVIDIA A100(40GB)またはH100(40GB以上)
  • システムRAM 256GB
  • モデル用SSD 500GB
  • CUDA 12.1+、cuDNN 9.0+
  • 1080p出力:ビデオあたり約38秒
推奨

推奨構成

  • NVIDIA H100(80GB)または2x A100(合計80GB)
  • 512GBシステムRAM
  • 1TB NVMe SSD
  • CUDA 12.1+、cuDNN 9.0+
  • 1080p出力:ビデオあたり約15秒
  • FP8量子化サポート

FP8量子化のヒント

FP8量子化(torch.float8_e4m3fn)を使用して、メモリを50%削減し、品質低下を最小化します。これにより、H100 80GBを必要とせずにA100 40GBで実行できます。

ステップバイステップのインストールガイド

前提条件

  • 最小40GB VRAM搭載のNVIDIA GPU(A100、H100、またはRTX 6000 Ada)
  • CUDA 12.1+およびcuDNN 9.0+がインストールされている
  • Python 3.10または3.11
  • gitおよびpipパッケージマネージャー
  • 少なくとも500GBの空きディスク容量

1. リポジトリをクローン

GitHubから公式HappyHorseコードを取得します。

git clone https://github.com/happyhorse-ai/happyhorse-1.0.git && cd happyhorse-1.0

2. 仮想環境を作成

Pythonの仮想環境で依存関係を分離します。

python3.10 -m venv venv && source venv/bin/activate

3. CUDAサポート付きPyTorchをインストール

CUDA バージョンに対応したPyTorchをインストールします。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

4. HappyHorse依存関係をインストール

必要なライブラリとHappyHorseパッケージをインストールします。

pip install -r requirements.txt && pip install -e .

5. モデルの重みをダウンロード

HuggingFaceから15Bベースモデルと蒸留モデルをダウンロードします。

python -m happyhorse.download_models --model-size all
  • ベースモデル:約30GB(150億パラメータ)
  • 蒸留モデル:約15GB(8ステップ推論)
  • 超解像度モジュール:約2GB
  • モデルは~/.cache/huggingface/hubにキャッシュされます

6. インストールを確認

シンプルな推論ですべてが機能することをテストします。

python -c "from happyhorse import HappyHorseModel; print('インストール成功!')"

基本的な使用法:Pythonの例

import torch
from happyhorse import HappyHorseModel

# Load the model
model = HappyHorseModel.from_pretrained(
    "happy-horse/happyhorse-1.0",
    device="cuda",
    dtype=torch.float8_e4m3fn  # For FP8 quantization
)

# Generate video from text
prompt = "A woman in a blue dress holding our skincare product, smiling at the camera"
video, audio = model.generate(
    prompt=prompt,
    duration_seconds=5,
    fps=24,
    aspect_ratio="16:9",
    height=1080
)

# Save output
video.save("output.mp4")
audio.save("output.wav")

# Generate video with image conditioning
from PIL import Image
image = Image.open("product_image.jpg")
video_from_image, audio = model.generate(
    image=image,
    prompt="Show the product features, zoom in on the packaging",
    duration_seconds=8,
    fps=24
)

# Batch generation for multiple scripts
scripts = [
    "Woman in gym holding protein powder",
    "Man at home desk with laptop",
    "Group of friends laughing with phone"
]

for script in scripts:
    video, audio = model.generate(prompt=script, duration_seconds=5)
    video.save(f"video_{scripts.index(script)}.mp4")

主要機能の詳細説明

Nature macro detail — fine-grained visual quality
Cinematic scene — self-hosted generation output

テキストからビデオへの生成

テキストプロンプトから直接ビデオを生成します。迅速な反復とA/Bテストに最適です。

  • プロンプト長:10-500文字
  • 期間:2-30秒
  • FPS:12-60(デフォルト24)
  • 解像度:256pから4K(超解像度使用時)
  • アスペクト比:9:16、16:9、1:1、4:5をサポート

画像からビデオへの生成

製品画像または参照写真に基づいて生成をカスタマイズします。静止画から動的ビデオを作成します。

  • 入力:PNG/JPG画像(任意の解像度)
  • 出力:5-30秒のビデオ
  • モーションを追加しながら構成を維持
  • 製品ショーケースと開封コンテンツに最適

オーディオ-ビデオ同期

自動生成または既存オーディオとの同期。音声検出で自動的にリップシンク。

  • 175以上の言語での自動リップシンク
  • アップロードされたオーディオファイルまたはテキスト音声合成をサポート
  • 音声を検出し、口の動きを同期
  • 手動調整は不要

バッチ処理

単一の呼び出しで複数のビデオを効率的に生成します。キャンペーンをスケーリングするのに最適です。

  • 50以上のビデオを並列処理
  • 自動キュー管理
  • GPU メモリ最適化
  • 進捗追跡と再開可能なバッチ

LoRAによるファインチューニング

完全な再トレーニングなしでブランドスタイルでモデルをカスタマイズします。

  • LoRAランク:8-128(推奨64)
  • トレーニング時間:H100で2-8時間
  • メモリ効率:40GB GPUのみ
  • ベースモデルの品質を保持

ファインチューニングガイド:ブランドカスタマイズ

HappyHorseは既製で優れていますが、ファインチューニングにより、ブランドの特定のスタイル、製品、視覚言語に特化させることができます。GPU時間2-8時間を費やし、出力一貫性を大幅に改善します。

モデルをファインチューニングするタイミング

  • 独特なブランドスタイル(カラーパレット、ライティング、構図)がある
  • 一貫した製品デモンストレーションまたは開封ビデオが必要
  • 毎月同じブランドの50以上のビデオを生成している
  • 特定のスポークスパーソンの美学またはブランドアンバサダーに合わせたい
  • ブランドの視覚スタイルで多言語コンテンツが必要

LoRA ファインチューニング コード例

from happyhorse import LoRATrainer

# Prepare training data
train_dataset = {
    "images": ["brand_img_1.jpg", "brand_img_2.jpg"],
    "captions": [
        "Woman holding blue cosmetic bottle in bright lighting",
        "Product closeup showcasing glass packaging"
    ]
}

# Initialize LoRA trainer
trainer = LoRATrainer(
    model="happy-horse/happyhorse-1.0",
    lora_rank=64,
    learning_rate=1e-4,
    num_epochs=10,
    batch_size=4
)

# Train with your brand data
trainer.train(
    images=train_dataset["images"],
    captions=train_dataset["captions"],
    output_dir="./lora_checkpoints"
)

# Use fine-tuned model
model.load_lora("./lora_checkpoints/final")
video, audio = model.generate(
    prompt="Woman in office with our branded product",
    duration_seconds=5
)
video.save("branded_output.mp4")

トレーニングデータ要件

  • 最小データ:詳細なキャプション付きの10-20個の高品質画像
  • 推奨データ:さまざまな製品角度、ライティング、コンテキストをカバーする50-100画像
  • 画像形式:PNG またはJPG、任意の解像度(768x768に自動リサイズ)
  • キャプション:各画像の詳細な20-50語の説明(見ているもの、アクション、スタイル)

ファインチューニングのコンピュート要件

LoRA ファインチューニングには、10GB の使用可能メモリを備えた A100 40GB または H100 が必要です。100 枚の画像でのトレーニングは、H100 で 4 ~ 6 時間、A100 40GB で 8 ~ 10 時間かかります。バッチ サイズを 4 から 1 に減らすことで、より安い GPU を使用できます(2 ~ 3 時間追加)。

デプロイメントオプション

ローカルデプロイメント

独自のGPUマシンで実行します。開発とテストに最適です。

AWS デプロイメント

g4dn または p3 インスタンスを使用して EC2 で起動します。コンテナ化には ECS を使用します。

Google Cloud (GCP)

Compute Engine にデプロイするか、Vertex AI を使用します。A100 GPU はオンデマンドで利用可能です。

Microsoft Azure

H100 または A100 を搭載した N シリーズ VM を使用します。スケーリング用に Azure ML と統合されています。

Paperspace / Lambda Labs

ML 用に事前最適化されたGPUクラウドプラットフォーム。シンプルなセットアップ、時間単位の支払い。

Reference-driven generation — achievable with self-hosted deployment

Docker コンテナ化

# Dockerfile
FROM nvidia/cuda:12.1-runtime-ubuntu22.04

RUN apt-get update && apt-get install -y \
    python3.10 python3-pip git \
    && rm -rf /var/lib/apt/lists/*

WORKDIR /app

COPY requirements.txt .
RUN pip install -r requirements.txt

COPY . .

EXPOSE 8000

CMD ["python3", "-m", "happyhorse.server", "--host", "0.0.0.0", "--port", "8000"]

# requirements.txt
torch==2.1.0
torchvision==0.16.0
happyhorse==1.0.0
fastapi==0.104.1
uvicorn==0.24.0
python-multipart==0.0.6
pillow==10.1.0
docker build -t happyhorse:latest .
docker run --gpus all -p 8000:8000 -v ~/.cache/huggingface:/root/.cache/huggingface happyhorse:latest
http://localhost:8000 で API にアクセス

比較:自己ホスト vs API vs UGCFast

側面自己ホストHappyHorse APIUGCFast プラットフォーム
セットアップの複雑さ高(GPU、CUDA、依存関係)低(APIキーのみ)なし(Webインターフェース)
GPU コスト前払い $3,000-8,000前払い $0サブスクリプションに含まれる
1 ビデオあたりのコスト$0.50-2.00(電気のみ)ビデオあたり $1-5$0.30-1.50(ボリュームに依存)
100 ビデオあたりの月額$50-200(電気)$100-500$30-150
レイテンシ2-40 秒5-60 秒即座(キューイング中)
バッチ処理無制限レート制限に制限される内蔵、300+ 同時実行
ファインチューニング完全にサポート限定的または利用不可管理されたファインチューニング
メンテナンスアップデート、バックアップを処理ベンダーが処理完全に管理
最適用途大量生産、カスタムワークフロー低ボリューム、インフラなし成長中のブランド、管理されたシンプルさ

自己ホスト

初期コスト
$5,000-10,000
1ビデオあたりのコスト
$0.50
月額(100ビデオ)
$50-100
理想的な用途
エージェンシー、大量スタジオ

HappyHorse API

初期コスト
$0
1ビデオあたりのコスト
$2-4
月額(100ビデオ)
$200-400
理想的な用途
低ボリュームプロジェクト、テスト
中小企業に最適バランス

UGCFast

初期コスト
$0
1ビデオあたりのコスト
$0.30-1.00
月額(100ビデオ)
$30-100
理想的な用途
ブランド、小規模スタジオ、管理プラットフォーム

Frequently Asked Questions About AI UGC Video Generation

AI ビデオを生成する準備はできていますか?

自己ホスト HappyHorse を選択するか、管理プラットフォームを選択するかに関わらず、今すぐプロフェッショナルなビデオコンテンツの作成を開始します。

無料で開始

No commitment. Cancel anytime. Starting at $29/month after trial.