html-video：用 HTML、CSS 和 Coding Agent 在本地生成真实 MP4

html-video 主视觉

一句话定位

html-video 是一套面向 Coding Agent 的本地视频生成工具：给它一句描述、文章链接或 GitHub 仓库，它会生成多帧动画 HTML，并渲染成真实 MP4。

基础信息卡片

项目	信息
项目名	html-video
GitHub	https://github.com/nexu-io/html-video
官网	https://open-design.ai/html-video
作者/团队	Open Design / nexu-io
协议	Apache-2.0
主要技术	HTML、CSS、TypeScript、Headless Chromium、ffmpeg
默认渲染引擎	Hyperframes
模板数量	21 个内置模板
支持 Agent	Open Design、Claude Code、Cursor、Codex、Gemini、Qwen、OpenCode、Copilot、Aider、Hermes 等
定位	Agent 驱动的 HTML-to-Video 本地生成工作流

解决什么问题

程序化视频并不是新概念。Remotion、Motion Canvas、Manim 这类工具都能把代码变成视频，但它们通常都有各自的创作模型：有的偏 React，有的偏 Canvas，有的偏数学动画。

这会带来一个现实门槛：你不是只在“做视频”，还要先选择框架、学习语法、理解渲染方式，然后再把内容拆成镜头。

html-video 的目标是把这层复杂度往后藏起来。你面对的是本地 Studio 或 CLI，真正负责拆解内容、选择模板、生成画面的，是接入的 Coding Agent。

  flowchart LR
    A[一句描述 / 文章链接 / GitHub 仓库] --> B[抓取并整理素材]
    B --> C[Coding Agent 生成故事板]
    C --> D[每一帧生成动画 HTML]
    D --> E[Headless Chromium 录制]
    E --> F[ffmpeg 编码与合成]
    F --> G[输出 MP4]

这套流程最关键的地方在于：内容理解和画面渲染被拆开了。Agent 负责“讲什么、怎么分镜”，渲染引擎负责“怎么把画面变成视频”。

核心功能

1. 从链接或仓库生成视频

html-video 不只支持一句 Prompt。你也可以粘贴网页文章、微信公众号文章，或者 GitHub 仓库地址。Studio 会先把来源内容抓取并整理成 Markdown，再交给 Agent 生成视频内容。

这对技术内容尤其有用：比如给它一个开源项目仓库，它可以读取项目简介、README 和顶层结构，然后生成一段项目介绍视频。

2. 多帧故事板

项目内部使用 content-graph 来组织多场景视频。可以理解为：Agent 先把内容拆成多个节点，每个节点对应一个画面；节点之间的顺序、对比、依赖关系，决定视频的节奏。

单帧视频可以直接走快速路径；多场景视频则会逐帧生成 HTML，再统一合成为 MP4。

3. HTML/CSS 表达画面

相比直接写视频框架，HTML/CSS 的门槛更低，也更容易被 Coding Agent 生成和修改。标题、卡片、图表、渐变、动效、布局，都可以用 Web 技术来表达。

当前默认引擎是 Hyperframes：它会用无头 Chromium 加载这些动画 HTML，逐帧录制，再交给 ffmpeg 编码。

4. 内置模板库

html-video 自带 21 个模板，覆盖数据可视化、产品宣传、标题卡、片尾、动感排版、决策树、电影感画面等常见场景。

模板示例：数据图表

上面这种数据图表模板，适合把“一个指标如何变化”讲成短视频里的关键画面。Agent 不需要从零设计每一帧，而是基于模板填入标题、数据、标注和来源。

模板示例：故障风标题

这类标题模板则更适合片头、主题揭示，或者技术类视频里常见的“系统上线”“趋势变化”一类表达。

5. 支持本地 Agent 工作流

项目支持多种 Coding Agent，包括 Open Design、Trae CLI、Claude Code、Cursor Agent、Codex CLI、Gemini CLI、Grok、Qwen Code、OpenCode、Copilot CLI、Aider、Hermes，以及 Anthropic API。

这意味着它不是绑定某一家模型或平台，而是更像一个本地视频生成工作台：你可以根据自己已经安装和使用的 Agent 来驱动视频生成。

6. 可选配乐和旁白

如果配置 MiniMax API Key，还可以生成背景音乐和 TTS 旁白。导出时，音频会通过 ffmpeg 混入最终 MP4。没有音频配置时，视频生成流程本身也可以正常使用。

适合谁

html-video 比较适合这几类人：

想把技术文章、开源项目、产品说明做成短视频的开发者；
想用 Agent 批量生成项目介绍视频的内容团队；
想做“Video as Code”工作流的工程师；
不想依赖云端渲染、不想按次付费的视频自动化用户；
已经在使用 Claude Code、Codex、Cursor、Hermes 等 Coding Agent 的用户。

它尤其适合“内容结构明确，但需要更快转成视频表达”的场景。例如开源项目介绍、产品更新、数据变化解读、技术教程片头、社媒短视频素材等。

快速上手

项目使用 pnpm 管理 monorepo，官方给出的启动方式是：

pnpm install
pnpm -r build
node packages/cli/dist/bin.js studio

启动后打开本地 Studio：

http://127.0.0.1:3071

常用 CLI：

node packages/cli/dist/bin.js doctor
node packages/cli/dist/bin.js search-templates --intent "github stars race" --top 3

doctor 用来检测本地可用的 Agent 和渲染引擎；search-templates 可以根据视频意图搜索合适模板。

结论

html-video 的价值不在于“HTML 截图转视频”这么简单，而在于它把内容输入、Agent 理解、故事板生成、HTML 动画、MP4 渲染串成了一条完整链路。

对开发者来说，它降低了程序化视频的上手成本：不用先押注某个视频框架，也不用从空白画布开始设计。你可以先用文章、仓库或 Prompt 提供内容，再让 Agent 基于模板生成视频。

目前真正可运行的核心是 Hyperframes 引擎，其他引擎还在规划中。但如果你关注 AI Agent、内容自动化、技术视频生成，html-video 是一个值得跟进的开源项目。