当前最稳妥的做法,仍是加强内容质量,同时保持对算法信号的敏感度。
当然,强化学习目前仍面临现实挑战。样本效率相对较低,在开放的现实世界中精确定义奖励函数难度极大,早期的训练过程往往成本高昂且不稳定。将复杂任务转化为可优化的信号,需要大量工程投入,训练波动也比LLM的“拿来主义”更剧烈。这些短板让RL在短期应用落地中显得不够务实,最适合的场景仍是那些需要真正创新突破的领域,比如科学发现、复杂系统决策或长期自主智能代理。在这些场景下,单纯模仿人类知识已显不足,必须探索全新策略和原理。
多数媒体和行业讨论把焦点放在DeepMind人才流失和大额融资上。报道反复强调这是欧洲最大种子轮之一,网友则多惊叹于融资规模或感慨“大牛下场创业”。Nvidia等机构的参与也被解读为对未来计算需求的提前押注。资本热情可见一斑,却很少有人深挖Silver为何在AlphaGo系列成功后,仍对依赖海量人类数据的LLM路径保持警惕。
这一点目前行业内仍有不同声音。数据支持强化学习在特定领域展现出独特优势,但现实世界的复杂性远超棋盘游戏,样本效率和奖励设计等问题仍需时间验证。值得持续跟踪的是,Ineffable Intelligence的具体技术路径尚未完全公开,其进展可能需要数年才能清晰显现。但从AlphaZero的过往成果和Silver的毕生追求看,这条经验驱动的路径,或许正预示着AI从“人类数据时代”向“经验时代”的潜在转向。
DeepMind强化学习领域的标志性人物David Silver创办Ineffable Intelligence仅几个月,就完成1.1B美元种子轮融资,投后估值达51亿美元。这一轮由Sequoia和Lightspeed共同领投,Nvidia、Alphabet等机构跟投,资金规模在欧洲AI初创中创下纪录。Silver的目标直指打造一个“超级学习者”,通过强化学习从自身经验中自我发现知识与技能,而非依赖海量人类生成数据。
深入拆解技术可行性,AlphaZero的确为“AI 无人类数据”提供了有力证据。在状态空间有限、奖励函数清晰的环境中,系统从随机起始通过海量自对弈优化策略,完全不依赖外部数据就实现了突破。这证明纯强化学习在特定封闭领域能实现高效自学。Silver团队在DeepMind时期的多次验证,也展示了这一路径在多个棋类间的有限泛化能力。
一句话总结,2026年AI创业中真正值钱的,可能不是海量人类数据本身,而是让AI通过持续交互自主发现知识的能力。这一转变并非彻底否定LLM路径,而是对其形成必要补充或挑战。数据支持这个方向,但样本量仍有限,值得持续跟踪,现在下结论为时尚早。
一句话总结,2026年AI创业中真正值钱的,可能不是海量数据本身,而是让AI通过自身交互发现知识的能力。这一转变的方向目前行业内仍有不同声音,数据支持其潜力,但样本量和验证周期仍有限,值得持续跟踪,现在下结论或许为时尚早。
公司明确目标是打造“superlearner”——一种完全通过纯强化学习从零自发现知识的系统,而非依赖海量人类生成数据。这件事远不止于又一例大牛创业拿大钱,它直接触及当前AI主流路径的根本假设。
当然,经验时代的落地仍面临现实约束。计算资源若无法匹配经验生成的规模,对齐机制若无法确保超级学习者的行为可控,整个范式切换的速度就会放缓。数据支持这个方向,但样本量和实际部署案例仍有限,行业内对此仍有不同声音。值得持续跟踪的是,Ineffable的进展能否真正验证:当AI不再主要模仿人类,而是从自身经验中自学时,智能边界会如何扩展。
David Silver创办Ineffable Intelligence仅数月,便以51亿美元估值完成11亿美元种子轮融资,由Sequoia和Lightspeed领投,Nvidia、Google及英国政府等机构跟进。这笔欧洲史上最大种子轮的背后,并非单纯资本追逐明星创始人,而是他对AI发展路径的一次方向性押注:从依赖海量人类数据的“数据时代”,转向通过强化学习自主生成经验的“经验时代”。
“微信1元1分红中麻将群”_微信1元1分红中麻将群凯迪社区的讨论,让人看到行业成熟度的差距。