但真正能系统性落地的,仍然需要时间和实践的检验。
深入拆解技术可行性,AlphaZero的确为“AI 无人类数据”提供了有力证据。在状态空间有限、奖励函数清晰的环境中,系统从随机起始通过海量自对弈优化策略,完全不依赖外部数据就实现了突破。这证明纯强化学习在特定封闭领域能实现高效自学。Silver团队在DeepMind时期的多次验证,也展示了这一路径在多个棋类间的有限泛化能力。
一句话来看,2026年AI创业中真正值钱的,可能不是海量数据本身,而是让AI通过自身交互发现知识的能力。这一转变并非对LLM路径的彻底否定,而是对主流范式的补充或挑战。值得持续跟踪的是,如果Ineffable的技术验证周期过长或效果不及预期,市场是否会迅速回归LLM与强化学习人类反馈的混合路线。
大语言模型的优势在于其对海量人类数据的快速吸收和泛化能力。在文本生成、代码辅助、常识推理等多任务场景中,模型能迅速展现出实用价值,已形成成熟的生态链和商业落地模式。企业可以直接调用API提升生产效率,开发者也能快速构建应用原型。然而,这种“站在人类肩膀上模仿”的本质也暴露了明显局限。数据质量正逐步见顶,高品质训练样本越来越稀缺,导致模型频繁出现幻觉现象。更深层的问题在于,LLM难以真正超越人类已有的知识边界。
表面上看,这是资本对新范式的热情押注。但深层逻辑在于人才网络的延续与转化。Silver作为强化学习团队前负责人,其招募多名前DeepMind staffers加入执行团队,并非简单挖角,而是试图构建能延续并超越过去专长的闭环。DeepMind早期正是依靠紧密的人才网络效应才在该领域形成领先优势,如今这一模式正以创业形式重现,反映行业从scaling laws主导的大模型路径,向探索数据独立新范式的转型。
David Silver在公开表态中将人类数据比作化石燃料——它提供了一次性捷径,却存在清晰的上限。LLM再强大,本质上仍是复用存量知识,难以生成真正原创的突破性洞见。
AlphaZero在围棋、国际象棋等环境中展现了“AI 无人类数据”学习的强大可行性:系统从随机初始策略出发,通过海量自对弈生成经验,不断优化策略网络与价值评估,最终超越人类顶尖水平与传统算法。这套机制的核心在于清晰的奖励信号和有限状态空间,证明纯强化学习能在封闭系统中高效自学。Silver团队在DeepMind时期的多次验证,进一步强化了这一路径在特定领域的可靠性。
许多观察者将焦点放在名人背书和天价估值上。David Silver凭借领导AlphaGo、AlphaZero等里程碑式项目的经历,成为天然的信任背书。Ineffable宣称要打造一种“superlearner”,通过强化学习让AI从自身经验中自主发现知识,而非依赖海量人类生成的数据。投资者显然看到了超越当前大语言模型(LLM)路径的潜力,Sequoia和Nvidia的参与尤其引人注目。
如果Ineffable能有效结合世界模型,在模拟环境中高效预演试错,其突破潜力不容低估。这或许能大幅提升样本效率,避免真实世界中的危险探索循环。但短期来看,纯RL路线难以全面超越LLM,后者通过海量数据快速掌握语言与常识模式,而RL起步阶段仍需天文数字级的交互。目前算力虽持续提升,瓶颈依然存在,核心在于如何避免智能体陷入无效循环。
强化学习则代表了另一种从第一性原理出发的路径。它不依赖外部人类数据,而是通过与环境交互、奖励反馈和自我对弈来迭代。AlphaZero的经典案例最具说服力:在完全零人类棋谱输入的情况下,仅给定游戏规则,它就通过无数次自我对弈达到了超人类水平,并在围棋、国际象棋等复杂博弈中展现出人类难以企及的策略深度。
AlphaZero的案例为“AI 无人类数据”提供了有力实证。在状态空间有限、奖励信号清晰的封闭系统中,系统从随机初始策略开始,通过海量自对弈生成经验,不断优化策略网络与价值评估,最终超越人类和传统算法。这证明纯强化学习的试错机制在特定领域能够高效自学,Silver团队在DeepMind时期已多次验证其跨棋类泛化能力。但当扩展到通用智能时,现实世界的奖励稀疏性与探索空间爆炸式增长成为核心瓶颈。
多家企业案例表明,规模化仍面临瓶颈。