2024 年初,要说在众多 AI 赛道之中,哪个赛道在资本、创业者、公众几个层面都获得了极大的关注,那一定有 AI 视频生成。而放眼海内外,我们会有一个明显的感受,在视频生成这股风潮中,华人的参与度尤其高。
仅在 2024 年 3 月一个月,就有三个华人创立的 AI 视频生成创企获得了融资,而且融资额都过了千万美金。
1、3 月 7 日,总部位于英国伦敦的Haiper宣布产品上线,并已经完成 1380 万美金融资。Haiper 由两位曾供职于 Google 旗下 DeepMind 团队的华人工程师建立,提供免费的视频生成功能,最长可以生成 2 秒的高清视频,和最长 4 秒的标清视频。
2、3 月 13 日,由前字节跳动视觉技术负责人创立的爱诗科技,完成一亿元人民币(约合 1380 万美金)左右的 A1 轮融资,而其视频生成产品 Pixverse 已在海外上线,生成视频的时长为 4 秒,2 月份的网站流量已经达到 120 万。
3、3 月 24 日,据 The Information 报道,去年下半年,凭借让霉霉说中文视频火起来的 AI 数字人产品 HeyGen 正在进行一轮 6000 万美元的融资,由曾经投资过 Uber 和 Snap 的知名 VC Benchmark 领投,完成此次融资后,HeyGen 的总估值将达到 4.4 亿美元。
再加上之前估值已达 2-3 亿美金的 Pika Labs。由华人建立的创企们纷纷入局 AI 视频赛道。
而其实,“AI 视频融资热潮里华人密度尤其大”这个命题可以拆开去看,一个是 AI 视频的融资热,另一个是创业者里面的华人密度。
不赚钱、还烧钱,AI 视频为什么还会融资热,又为什么是 3 月份?
AI 这一波的创业潮,给已经有点冷清的市场注入了活力。但一圈看下来,除了大模型驱动的 Chatbot,基本上就没有新的产品形态了,AI 只是在“赋能”各个领域,文字、图片、视频。
而在上述几个领域中,AI 视频生成产品的用户接受度最低。在 a16z 刚刚发布的 2023 下半年 Top50 AI 产品榜单中,上榜的 5 款 AI 视频产品中,只有 runway 一款是以视频生成为核心功能的,其他都是刚需属性更强的视频编辑产品。
而就算 runway 也在 2023 年 12 月网站流量达到峰值后,出现了明显下滑。
这说明 AI 生成视频没市场吗,显然不是。按照赋能逻辑,AI 在某个领域落地,其潜在机会和规模,应该参考其服务的赛道。
显然,视频的市场规模不小,简单粗暴点,就互联网头部的产品来看,视频产品,也比图片和文字产品“值钱”。而当前这种流量的下滑,是因为产品确实拉胯。
根据 a16z 的统计,绝大多数产品都只能生成5秒钟以内的视频,而像 Kaiber 和 Deforum 虽然可以生成十几秒的视频,但只限于动画风格。
而虽然,像 Runway、Pika,和后续切入市场的 Pixverse 生成的视频看上去很真实,也很酷炫。但是短短几秒钟时间+简单的镜头移动,对于绝大多数用户来说,除了体验一下之外,很难有使用场景。即便和一些创作者交流下来,他们也很难把这些 AI 产品融入工作流里面。在新鲜感过去后,访问量下滑也属合理。
就网上的信息和与 AI 视频产品创始人的对话内容来看,大家普遍认为,目前的 AI 视频生成大概在 GPT-2 时代,也就是说,有一定技术突破,但是视频生成的时长和质量,还没有到能够落地应用和商业化的程度。
市面上几款常见模型的推理运算量估算,注:横坐标是输出内容的量,纵坐标是所需运算量,采用对数形式作图 | 图片来源:知乎
没落地,更别提商业化了,但硬币的另一面,“烧钱”却是实打实的。
从成本来看,Sora 的算力需求就比 GPT-4 高出了好几个数量级。有网友根据 Sora 的公开数据做出了保守估算,训练 Sora 需要 1.4 万张 NVIDIA H100 GPU 运行一个月,光这些芯片的价值就高达 4.4 亿美金......
其他产品虽然可能不像 Sora 一样走“大力出奇迹”的路径,但是算力成本远超其他类别 AI 模型是肯定的。
即便如此,赚不了钱、又烧钱的AI视频赛道仍受到了资本们的特别关注,2024 年仅过了 3 个多月就有多达 7 款产品获得融资,总融资额达到 2.18 亿美金。
背后的原因,也刚好如上所述。有市场、但供给都不太行,有心气的 VC 们还是愿意搏一把的,而 3 月份资本的密集出手,还多亏于 Sora 这样头部产品带来的“清晰信号”。
具体来看的话,有市场,不只是上面说的 AI 落地到的视频赛道规模更大,还有 AI 视频模型更接近于 AGI 的一层逻辑。
而很多从业者认为,AGI 如果真正实现,则很多细分领域的应用层机会就消失了,也就是谁先做出来,可能会形成比较强的流量聚集效应,从风险投资的角度,资本肯定愿意搏一下,也就出现了 AI 视频融资热。
视频生成任务流程示意图,注:AI 在生成视频的过程中,一是要生成视频画面,这涉及 AI 视觉领域;二是需要理解并遵守 Prompt,这涉及自然语言处理;三是要保持视频的一致性、连贯性、合理性,这要求 AI 理解视频中的元素如何随时间变化及现实世界的物理规律,这考验 AI 综合学习及理解能力。此外,目前 Pika、Sora 等产品已经可以加入了声音生成的功能,AI 还需要保证画面、音频和文本描述的协调性。|图片由 ChatGPT 生成
而这个热潮出现在 3 月份,则是因为技术路径相较于之前清晰了不少。
技术路径收敛,AI 视频生成已走过了从 0 到 1 的探索阶段
AI 这一波的融资,其实集中出现在 3 月前后,这与 Sora 这样通过摸索技术路径、实现了远高于之前同类产品的惊艳效果强关联。
根据对前谷歌 VideoPoet 项目负责人蒋路的一篇采访,AI 视频生成有两个主要的技术路径 Diffusion 和 Transformer,前者是 AI 生图的主要技术路径,而后者则是 GPT 等大语言模型(LLM)的主要技术路径。
在 Sora 出现前,在视频生成赛道中,两者被认为是泾渭分明的两条路径。90% 的研究者都在进行 Diffusion 路径的研究,但也有少量的研究者在做 Transformer 路径的研究,但基本上逃不出这两个方向。
而 Sora 的出现则让技术路线基本确定。Sora 是 Diffusion-Transformer 模型,等于把上述两种技术路径整合起来了。其中 Diffusion 的作用是细化和完善视频画面,而 Transformer 则用来处理和解析复杂的文本输入,并控制视频的逻辑连贯性。通过这种技术架构,Sora 可以按图像帧的时间序列来处理视频画面,就像 ChatGPT 按文字逻辑顺序处理文本一样。
有创业者说,看过 Sora 的论文后发现,原来泾渭分明的两种路线完成了交汇。而 Pixverse 的创始人王长虎则说:“Sora 让我们坚定了前进的方向。”
由于 AI 视频赛道目前的技术路径已经日趋清晰,免去了选错技术路径带来满盘皆输的风险。VC 虽然考虑收益,但更关注风险。
又为什么是华人?
看几位创始人的履历,在创业之前就专注于 AI 或视觉相关技术,都有海外名校学习或国际化大厂供职的经验,拥有开阔的国际视野。
除了这两项“基础素质”,作为华人的他们对视频赛道,也有着自己的理解。
在上一波互联网创业大潮中,视频,尤其是短视频赛道,是中国互联网企业优势所在,TikTok 已经成长为全球主流媒体之一,引得 Google、Meta 等社交巨头们竞相模仿。
随着短视频占据了人们越来越多的注意力,互联网变现的 2 个印钞机也随之转动,广告和电商。根据 2023 年的数据,字节的广告收入折合 553 亿美元,排在国内主要互联网企业的第一位,总营收 1200 亿美元,排名第三。
而在电商方面,2023 年抖音电商的 GMV 在 2.3 万亿人民币左右(折合 3220 亿美元),在国内大概排在第四,海外的 TikTok Shop 有 200 亿美元。
作为华人,对于此要更敏感一些。纵观几款三月份获得融资的几款华人 AI 视频产品,虽然发展阶段不太相同,但是都针对短视频相关的广告营销和电商生态进行了探索。
Haiper 的产品于 3 月 7 日上线,而在产品还未正式上线时,Haiper 就开始了应用场景的探索。首先,在 1 月 24 日,Haiper 宣布与伦敦艺术大学时装学院展开合作,用 AI 的能力将时装草图转化为动态视频,在成衣制成之前预览上身效果。而在 2 月 9 日 Haiper 宣布和京东展开合作,探索电商方向的应用场景。作为一款新生产品,Haiper 已经在为技术找应用场景了。
而对视频、尤其是短视频商业化路径更清晰的认知,让 AI 视频赛道华人创业者们的发展路径看起来更接地气。
以其中融资金额最高的 HeyGen 为例。
HeyGen 在众多“形而上学”的视频模型创业公司里面,商业化能力是非常强的。收入数据来看,从 2022 年 7 月底上线算起,ARR 从 0 到 100 万美金,仅用时 178 天,而最近一次融资放出的消息,HeyGen 2024 年 2 月的预期 ARR 已经达到 2000 万美元了。
回头去看,HeyGen 除了迭代技术之外,在场景上的探索也非常积极和接地气。
HeyGen 的主要功能是 AI 数字人生成和视频翻译,服务的是 AI 演讲视频场景。
在上线之前,HeyGen 首先在线上协作平台 Fiverr 上提供演讲者视频制作服务来验证市场需求,在这个平台上,HeyGen 提供的数字人演讲服务比真人服务价格降低了 90%,交付时间从 1 天缩短为了 10 分钟。通过这样的方式,HeyGen 找到了为服务买单的群体,电商卖家和内容创作者那样的小 B 用户。
而后,HeyGen 应该是想进一步去探索场景,锚定在企业宣传、内部管理和培训等能够用到 AI 视频的地方,来获取大客户。在 2022 年底,HeyGen 开始建立大客户团队,根据官网显示,Salesforce、amazon、NVIDIA 现都与 HeyGen 达成了合作。
在验证需求并有小范围内传播后,而后才有我们看到的 HeyGen 在社媒上曝光(“让霉霉说中文”),进一步再引发媒体曝光,打响知名度。
在发展的过程中,HeyGen 将各项技术(Avatar、声音、视频翻译)设计成一个个模块,然后组合应用到不同场景里,而场景的探索也偏多样化,例如一些个性化的外联视频、教育类会用到比较多的相关视频、商品展示和宣传视频等等。
但从第一开始的市场验证到后期的场景探索,电商和推广也都被作为重点探索领域。例如,HeyGen 在 4 月 17 日推出了基于商品页面生成商品介绍视频的功能。用户只需上传一个商品或 App 的网站链接,HeyGen 就可以基于页面上的文字和图片,自行生成幻灯片和对应的视频脚本,在用户确认后,生成产品介绍视频,进一步简化工作流程。
参考文献:
1、a16z 干货:Sora 统治之下,AI 生成视频还有哪些机会?
2、采访 VideoPoet 作者:视频模型技术会收敛,LLM 将取代 diffusion 带来真正的视觉智能
3、GenAI 这一波,华人创业者能出一些厉害的人物
4、深入剖析 Sora 原理:细节解读与技术洞见
5、AI生成视频比 ChatGPT 难在哪
6、为什么说 Sora 是世界的模拟器?
7、Sora 很强大,但也不必过度神话
8、用 AI 文生视频,到底有多难?
9、AI 到底如何生成视频?Sora 究竟为何能引爆科技圈?
10、OpenAI Sora:“原始版”世界模拟器,我们离黑客帝国还有多远?
11、Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024
12、The Top100 GenAI Consumer App
13、Sora 究竟有多烧钱?Sora 的推理与训练的计算成本被扒出来了
14、创业没被朱啸虎劝退,前字节 AI 老将王长虎“闯关”中国视频大模型
15、TikTok 电商大盘三位数增长,为什么赚钱的不是我?
16、7 个月 ARR 从 0 到 100 万刀,HeyGen 是怎么火起来的?