新闻资讯

ayx全站:Meta万引强化学习大佬跑路！用小扎原话作为离别寄语扎心了

来源：ayx全站发布时间：2025-09-24 01:43:51 查看次数：1566次

ayx.cn:

决议不参加新的超级智能试验室并不是特别简略，究竟那里人才辈出、算力爆棚。但在Google Brain、DeepMind和Meta度过了7年半之后，我更想冒险去测验一条彻底不同的路。

Meta组成超级智能团队的主意十分有目共睹，但我终究挑选遵从扎克伯格的主张：“在这个瞬息万变的国际里，最大的危险便是不去冒险。”

尽管表面上看起来两边是“平和分手”，但网友们仍是从中嗅出了一丝不同寻常的滋味：

不过猜想也好，吐槽也罢。关于Rishabh Agarwal的离任，谷歌、Meta的搭档们都清一色地送上了祝愿，并且还顺带回忆了他在作业期间作出的奉献。

据了解，他参加了谷歌Gemini 1.5、Gemma 2以及Meta推理模型后练习方面的重要作业，2021年还以一篇RL算法点评论文拿下了NeurIPS出色论文奖。

所以，Rishabh Agarwals是谁？他的离任又为安在这个节骨眼掀起波涛？

Rishabh Agarwals，一直以来从事强化学习和推理研讨，谷歌学术论文被上万次引证，h-index也有34。

本科结业于印度理工学院孟买分校计算机科学与工程专业，成果归于系前几名那种。

颇具戏剧性的是，Hinton还曾主张他“不要做强化学习（RL）”，不过话锋一转，老爷子也留有余地——应该做自己以为最好的作业（究竟他自己当年做的事也不被所有人看好）。

所以，Rishabh Agarwals义无反顾地投身强化学习，并决议持续攻读博士学位。

第二年，他就前往蒙特利尔的Mila研讨所请求PhD，因为和面试官之一Aaron Courville（和Bengio等人合著了《深度学习》这本经典教材）在强化学习范畴的研讨方向“彻底相同”，当场就被约请并参加其团队。

接下来的四年时刻，他在Aaron Courvilleh和Marc Bellemare两位顶尖导师的指导下持续深耕强化学习，一起还保留着在Google Brain的全职作业。

直到2023年，Marc Bellemare发了一条提早庆祝他经过博士结业辩论的推文，连谷歌首席科学家Jeff Dean这样的大佬也赶来恭喜。

在这之后，他水到渠成地参加蒙特利尔谷歌DeepMind团队，担任研讨科学家，一起在麦吉尔大学做兼职教授。

而在谷歌作业期间，他参加了Gemini 1.5（其时声称最强多模态、上下文打破100万）、Gemma 2（新一代轻量级开源模型）、Gemma 3等重要模型的发布作业。

简略来说，这篇论文剖析了深度强化学习中的计算不稳定性问题，指出在有限试验下点评算法可能会发生误导性成果。因为系统性提醒了RL中的方差问题与过拟合危险，被以为是点评RL算法的里程碑作业。

后来他才从谷歌跑去了Meta，并着手推动Meta推理模型的后练习作业，详细包含：

现在跟着Rishabh Agarwals的脱离，网友们也纷繁替Meta怅惘又丢失了一员大将。

现在Rishabh Agarwals的下一站并未清晰，不过依照他“想要测验彻底不同的一条路”的说法，人们估测大概率会是创业。

其实不止Rishabh Agarwals，简直同一时刻，一位在Meta作业了12年的老职工也宣告离任了。

并且下一站仍是Anthropic的推理团队（归于直接拥抱从前的竞争对手了）。

此前就有音讯称，Meta新老职工之间因薪酬待遇悬殊而发生冲突，其间一些研讨人员乃至威胁要辞去职务。

合理估测，招聘热潮带来的内部矛盾，可能是导致这些资深职工挑选脱离的重要原因之一。

特别声明：本文为网易自媒体渠道“网易号”作者上传并发布，仅代表该作者观念。网易仅供给信息发布渠道。

Transformer作者：DeepSeek才有搞头，OpenAI盼望不上了

27亿美元天价回归！谷歌最贵「叛徒」、Transformer作者揭秘AGI下一步

霸占AI推理难题！清华团队提出「一致LLM强化学习新范式」ReST-RL

国产王炸！上海AI Lab开源Lumina-DiMOO，创始多模态了解与生成新范式

Sakana AI推出M2N2算法，无需昂宝贵练习即可构建强壮AI模型