2025 年夏,AI 赛道的火药味愈发浓烈。继 OpenAI 以 64 亿美元收购苹果前首席设计师乔尼・艾维的 AI 设备公司后,Meta 突然抛出重磅炸弹 —— 宣布以 148 亿美元收购数据标注巨头 Scale AI 49% 的股份。这笔交易不仅创下 Meta 史上最大外部投资纪录,更将 “数据标注” 这一曾被视为 AI 产业链底层的环节推至聚光灯下。在硅谷舆论看来,扎克伯格此举更像是一场孤注一掷的豪赌:当 Llama 4 模型遭遇口碑滑铁卢、中国开源模型凶猛崛起时,Meta 正试图用资本买下一条通往 AGI 的 “数据高速公路”,但这条路或许早已暗藏技术变革的暗礁。

一、Llama 4 折戟背后:Meta 开源战略的致命短板
这场天价收购的导火索,要追溯到 Meta 今年 4 月推出的旗舰模型 Llama 4。这款号称 “2 万亿参数、性能超越 GPT-4” 的大模型,在第三方基准测试中却沦为 “吊车尾”—— 代码生成漏洞百出、长文本理解逻辑混乱,甚至被业内调侃为 “王婆卖瓜的典型”。Llama 4 的翻车并非偶然,而是 Meta 独特 AI 路线图的隐忧集中爆发:与 OpenAI 等公司押注闭源商业模型不同,Meta 长期依赖开源策略,试图通过学界影响力渗透开发者生态。此前 Llama 系列确实凭借开源属性成为业界 “救命稻草”,但当中国团队推出 DeepSeek、Qwen 等开源模型后,Meta 的技术唯一性被彻底打破。
更深层的危机在于数据护城河的崩塌。作为坐拥 Facebook、Instagram 等社交帝国的科技巨头,Meta 看似手握海量用户数据,却陷入 “数据荒” 的悖论:社交平台产生的文本、图片多为低质量内容,充斥着段子、灌水和错误信息。谷歌 AI 搜索曾因采信 Reddit 搞笑帖输出 “胶水粘披萨” 的荒诞回答,正是低质量数据反噬的典型案例。对 Meta 而言,将数十亿条社交数据转化为 AI 可用的训练素材,离不开精细的数据标注,但这恰恰是其短板所在。
二、Scale AI:被称作 “赛博富士康” 的数据流水线
在 AI 产业链中,数据标注向来被视为 “体力活”。这项工作要求标注员对着电脑屏幕,按规则为图片中的物体、文本情感、语音语义打上标签,本质上与流水线工人无异。Scale AI 的核心竞争力,正是在肯尼亚、菲律宾等地建立的 24 万标注员团队 —— 这些时薪仅数美元的劳动力,构成了 AI 时代的 “数据血汗工厂”。也正因如此,业界戏称 Scale AI 与 AI 的关系仅存于公司名称,其商业模式更接近劳动密集型的外包企业。
对 Meta 而言,收购 Scale AI 实属无奈之举。据《华尔街日报》披露,Meta 员工 2023 年薪资中位数达 29.6 万美元,时薪约 144 美元 —— 若用自家高薪工程师从事标注工作,成本将暴增数十倍。而 Scale AI 的 “人力池” 不仅能以极低成本处理海量社交数据,其积累的医疗、自动驾驶等专业领域标注经验,也能弥补 Meta 在垂直场景的数据短板。扎克伯格在内部会议中直言,这笔投资是为了 “将 Meta 的海量数据转化为 AI 燃料”,试图通过数据规模重新夺回开源赛道的主动权。
三、技术革命阴影下的豪赌:DeepSeek 正在瓦解数据标注的价值?
然而,Meta 的这笔天价投资正面临技术路线变革的致命挑战。今年初爆红的 DeepSeek-R1 模型,首次证明无需监督式微调、仅靠强化学习(RL)即可实现卓越推理能力。这一突破直接动摇了数据标注的根基 —— 传统 AI 训练中,监督式微调依赖大量标注数据 “喂” 模型,而 DeepSeek 的无监督路线则大幅降低了对人工标注的依赖。Scale AI 创始人 Alexandr Wang 曾对此歇斯底里地抨击,只因该公司赖以生存的商业模式正在被技术颠覆。
业界当前的共识更让 Meta 的收购显得微妙:尽管完全抛弃监督式微调尚不现实,但主流趋势已转向 “RL 为主、微调为辅”,并追求博士级专家标注的高质量数据。这意味着 Scale AI 的 “人海战术” 标注模式可能面临淘汰 —— 当 DeepSeek 等模型用更少标注数据实现更强性能时,扎克伯格买下的或许是一个 “落日产业”。有 AI 创业者直言:”如果 DeepSeek 的路线被验证可行,Scale AI 的 24 万标注员将变成昂贵的累赘。”
四、Meta 的 AI 生死局:148 亿能否买到下一个 Instagram 式的逆袭?
回溯历史,Meta 曾以 10 亿美元收购 Instagram,被视为互联网时代最成功的投资之一。但如今押注 Scale AI,却难掩 “病急乱投医” 的焦虑。一方面,中国开源模型的崛起速度远超硅谷预期,DeepSeek、Qwen 等模型在代码生成、多模态理解等领域已实现反超,Meta 的开源护城河持续缩水;另一方面,AGI 竞赛已进入 “数据 + 算法” 双轮驱动时代,缺少高质量标注数据的 Llama 系列,在与 GPT-5、Gemini 等模型的对抗中已显力不从心。
扎克伯格将新组建的 “超级智能组” 视为破局关键,试图通过收购 Scale AI 补足数据短板,再结合开源策略重振 Llama 生态。但这场豪赌的风险显而易见:若 DeepSeek 的无监督路线成为主流,Scale AI 的估值将大幅缩水;若数据标注仍无法挽救 Llama 模型的性能缺陷,148 亿美元可能沦为 “打水漂” 的投资。对于手握 720 亿美元现金的 Meta 而言,这笔交易或许 “输得起”,但在 AI 赛道分秒必争的当下,扎克伯格能否用资本买到时间,仍是未知数。
当 AI 行业从 “模型军备竞赛” 转向 “数据与算法融合竞争”,Meta 的这步棋既是对自身数据短板的紧急补课,也是对开源战略的一次豪赌。在 DeepSeek 等中国团队掀起的技术变革浪潮中,这场 “赛博富士康” 收购案的最终成败,或许将成为衡量 AI 产业下一个十年竞争逻辑的风向标。