新闻资讯
新闻资讯

ayx全站:Meta万引强化学习大佬跑路!用小扎原话作为离别寄语扎心了

来源:ayx全站   发布时间:2025-09-24 01:43:51  查看次数:1566次

     ayx.cn:

  决议不参加新的超级智能试验室并不是特别简略,究竟那里人才辈出、算力爆棚。但在Google Brain、DeepMind和Meta度过了7年半之后,我更想冒险去测验一条彻底不同的路。

  Meta组成超级智能团队的主意十分有目共睹,但我终究挑选遵从扎克伯格的主张:“在这个瞬息万变的国际里,最大的危险便是不去冒险。”

  尽管表面上看起来两边是“平和分手”,但网友们仍是从中嗅出了一丝不同寻常的滋味:

  不过猜想也好,吐槽也罢。关于Rishabh Agarwal的离任,谷歌、Meta的搭档们都清一色地送上了祝愿,并且还顺带回忆了他在作业期间作出的奉献。

  据了解,他参加了谷歌Gemini 1.5、Gemma 2以及Meta推理模型后练习方面的重要作业,2021年还以一篇RL算法点评论文拿下了NeurIPS出色论文奖。

  所以,Rishabh Agarwals是谁?他的离任又为安在这个节骨眼掀起波涛?

  Rishabh Agarwals,一直以来从事强化学习和推理研讨,谷歌学术论文被上万次引证,h-index也有34。

  本科结业于印度理工学院孟买分校计算机科学与工程专业,成果归于系前几名那种。

  颇具戏剧性的是,Hinton还曾主张他“不要做强化学习(RL)”,不过话锋一转,老爷子也留有余地——应该做自己以为最好的作业(究竟他自己当年做的事也不被所有人看好)。

  所以,Rishabh Agarwals义无反顾地投身强化学习,并决议持续攻读博士学位。

  第二年,他就前往蒙特利尔的Mila研讨所请求PhD,因为和面试官之一Aaron Courville(和Bengio等人合著了《深度学习》这本经典教材)在强化学习范畴的研讨方向“彻底相同”,当场就被约请并参加其团队。

  接下来的四年时刻,他在Aaron Courvilleh和Marc Bellemare两位顶尖导师的指导下持续深耕强化学习,一起还保留着在Google Brain的全职作业。

  直到2023年,Marc Bellemare发了一条提早庆祝他经过博士结业辩论的推文,连谷歌首席科学家Jeff Dean这样的大佬也赶来恭喜。

  在这之后,他水到渠成地参加蒙特利尔谷歌DeepMind团队,担任研讨科学家,一起在麦吉尔大学做兼职教授。

  而在谷歌作业期间,他参加了Gemini 1.5(其时声称最强多模态、上下文打破100万)、Gemma 2(新一代轻量级开源模型)、Gemma 3等重要模型的发布作业。

  简略来说,这篇论文剖析了深度强化学习中的计算不稳定性问题,指出在有限试验下点评算法可能会发生误导性成果。因为系统性提醒了RL中的方差问题与过拟合危险,被以为是点评RL算法的里程碑作业。

  后来他才从谷歌跑去了Meta,并着手推动Meta推理模型的后练习作业,详细包含:

  现在跟着Rishabh Agarwals的脱离,网友们也纷繁替Meta怅惘又丢失了一员大将。

  现在Rishabh Agarwals的下一站并未清晰,不过依照他“想要测验彻底不同的一条路”的说法,人们估测大概率会是创业。

  其实不止Rishabh Agarwals,简直同一时刻,一位在Meta作业了12年的老职工也宣告离任了。

  并且下一站仍是Anthropic的推理团队(归于直接拥抱从前的竞争对手了)。

  此前就有音讯称,Meta新老职工之间因薪酬待遇悬殊而发生冲突,其间一些研讨人员乃至威胁要辞去职务。

  合理估测,招聘热潮带来的内部矛盾,可能是导致这些资深职工挑选脱离的重要原因之一。

  特别声明:本文为网易自媒体渠道“网易号”作者上传并发布,仅代表该作者观念。网易仅供给信息发布渠道。

  Transformer作者:DeepSeek才有搞头,OpenAI盼望不上了

  27亿美元天价回归!谷歌最贵「叛徒」、Transformer作者揭秘AGI下一步

  霸占AI推理难题!清华团队提出「一致LLM强化学习新范式」ReST-RL

  国产王炸!上海AI Lab开源Lumina-DiMOO,创始多模态了解与生成新范式

  Sakana AI推出M2N2算法,无需昂宝贵练习即可构建强壮AI模型

上一篇:2024-2029年全球及中國電子产品涂料行業研讨及十四五規劃剖析報告

下一篇:♥5号房韩宝物仙女屋