下一段旅程

凌晨了,我靠在新家的窗边,灯火通明的三番城渐渐暗了下来,这座永不停息的科技之城似乎短暂地睡着了。再过几个钟头,周一的清晨又会把它唤醒。

5月18号,我从亚马逊和Annapurna Labs离职了。

仍记得20年10月一个周五晚上,快毕业的我收到Victor的cold email,一个从没听说过的叫Neuron的小团队,做着AI+芯片+编译器。那时候的我对AI和芯片一无所知,只觉得听上去很酷。21年2月8号正值疫情,在匹兹堡远程入职,和我同期上船的Yunxuan和Serina如今都成长为了能独当一面、最可靠的伙伴。那时候我们做的芯片还是第一代的Inferentia,或许已经被历史遗忘了吧。谁曾想到chatgpt出世,AI起飞,AWS和Anthropic签约,我们被卷入了时代的洪流,Trainium从无人问津走上了历史的舞台,对Claude的进化起到了关键作用,如今成为了世界级的ai芯片。从Inferentia到Trainium4,五代芯片,一晃就是五年了。在这里,我结识了默默把整个组织的重担扛在肩上的男人,年过70干得比小伙子还起劲的老爷子,总是关心帮助他人的惊才绝艳的女生,还有喜欢讲冷笑话实则爱项目如子的每天10个PR的大哥。也记得那些死磕性能的不眠的深夜,发现新方法时欣喜若狂的清晨,和大家坐在一起喝奶茶惬意的3pm。

谢谢你,Annapurna,谢谢你们这五年来给了我这一个家。Yes, CUDA moat is breaking, it’s real. 在不远的将来,就跟电力一样,我相信世界一定能用上便宜节能的ai芯片!

5月19号,我正式加入了Anthropic。坐在507 express的窗边,有种第一次坐着 hogwarts express 前往未知的魔法学院的紧张与期待。这还是来湾区后第一次坐Caltrain。

为啥要加入Ant呢,大概是因为希望未来的世界比现在的世界更美好,而不是更糟吧。Ant创立的初心便是为了AI safety,让AI帮助人类治愈疾病,减少饥饿和贫穷,在长远的未来能带给人们自由和快乐;更重要的是,避免AI成为反人类的智能体,被人用于战争和毁灭,加大贫富差距,或者引向一个《一九八四》的世界。为此,若有一天AI行将失控而我们没有足够的反制措施,Ant希望做吹哨人,用一切能收集到的证据向世界鸣响警钟。

我在Ant做visiting engineer的这半年多,亲眼所见,以上不是在喊口号,而是真的在乎。在Ant的好朋友时不时给我转发AI safety的文章,食堂里每天听到的忧国忧民的讨论,还有坚持拒绝全自主武器和大规模监控的立场,为了网络安全而将Mythos模型的发布延期… 我很感谢世界上有Ant这样一家公司,勇敢的坚持原则。

Ant也是一个充满人情味的地方,是一个有爱的,不以自我为中心的,透明的团队。在这,走到任何同事的办公桌前,无论ta多忙都会停下手头的工作认真地和你讨论。也是在这,我感觉大家的思考,观点,和感受都有被看到。我相信,一家公司若要对世人好,首先要对自己的员工好。最让我惊讶的是,Ant将仰望星空的理想主义和脚踏实地的实干这两个看似矛盾的特质结合在了一起。比如只有实干的做好当下的模型和产品,才能在牌桌上引导AI安全的发展。

我在Ant的工作将会是优化Claude在各个芯片上的性能。这里有太多各领域顶尖的同事,有太多值得学习的。或许是命运的小玩笑吧,在入职培训上我看到了一张似曾相识的面孔-我的偶像Andrej,竟然同一天入职,是同期新生!鼓着勇气上前跟偶像搭讪,Andrej认真的问了几个技术问题,然后坏笑着问:So, why are you still needed? 紧张的我有些语无伦次。是啊,Claude越来越聪明,我的价值是什么呢?

这周我冥思苦想,从一个软件工程师的角度,我觉得有两项能力是当下的大模型还不如人类的。

第一项能力是 “taste”。我对 engineering taste 的定义是在复杂的解空间里找到高置信度信号的能力 (the ability to find signal in a complex solution space with high confidence)。复杂,是因为解空间很大,有噪音,信息不完整,或者很难验证。比如设计一块AI芯片时,在有限大小的裸晶上面摆布元件就和往新家里摆布家具一样,有无限多的可选方案。要判断出性能和性价比最优的方案,就需要去预测和赌几年后的AI模型长啥样,且一个小细节的失误便可能意味着一整代芯片的”失败”。我见过的几个最顶尖的人,能在复杂的空间中找出一条明路并带着团队进行高置信度下注 (strongly convicted bets)。有些赌注,几年后回看仍让人拍案叫绝,比如当年Ant决定下注Trainium。这几位顶尖的人思路极其清晰,输入的信息经过了ta的思考框架和taste,输出的是高密度的signal(信号),让我听完总有种拨云见日,思路突然缕清了的感觉。

为什么ta们能有这种当下模型不具备的化繁为简,近乎直觉的判断力呢?我的猜想是,人类有极强的类比(analogy)和举一反三(generalize)的能力,能从很少的例子中悟出很深刻很通用的准则和道理。而世界的真相可能就是趋于简单而不是复杂的。

想到我一位好友说的,接收处理信息并整理输出信息的能力,或许是一项未来非常核心的能力,她曾坐在一位顶尖的人身边目睹他工作,那位先生以让她眼花缭乱的速度在不同团队频道中切换,并在每一个频道中都能给出高信号的指导意见。30年前的互联网和10年前的社交媒体造成了第一次信息泛滥,如今AI带来了第二次信息泛滥。越是信息泛滥,判断力和独立思考能力就越重要。首先要严格把控自己的信息输入渠道,毕竟每天精力有限,而现在网络上99%的信息都是杂音;输入的是slop输出的自然也是slop (关于AI,我最推荐的是Andrej Karpathy的推特以及Dwarkesh的播客)。而光是被动输入信息,看一堆文章和视频也不够。人的价值在于把其中精华融入自己的知识框架,类比、索引并内化,再精炼输出/应用到具体场景中。

第二项能力是 “dream”。大脑在做梦的时候会归纳和整理白天的经历和记忆,所以人有很强的情境切换的能力,能自如的从过去经历中拼凑context来完成当下的任务,完成后也能立刻精炼或丢弃没用的context。而模型现在最怕的就是上下文污染,所以现在软件工程师的一个残存作用便是给模型提供最完整最相关的context。

由此想到,人生就是一个积累context和经历的过程。这也是为什么听别人说的道理和别人的故事远远没有自己经历过的刻骨铭心一样。因为自己经历的才是最完整的,每一个小节点的不确定性和情绪,暴走10小时后看到山顶冰川的感动,都是无法言说的。正是这些经历塑造了我们独特的棱角,是AI取代不了的,我们每个人独一无二的宝藏。

“dream” 的另外一个神奇功效是在归纳整理之余,偶尔会产生一些“分布外”的,出人意料的点子。比如人类那些开山立派的壮举:无论是物理学几大定律和相对论的提出,大刘写三体时那种超越时代的想象力,还是scaling law的发现和豪赌。现在的AI模型还缺乏足够惊艳的,让世人都能感同身受的旗舰性的开创。Alphago的move 37和Alphafold都是语言模型爆发以前的事了。

反过来看,我认为现在被AI取缔的能力更多是”术“而不是”道“。比如以往学编程需要花很多时间学每种编程语言的语法细节,现在仍然需要懂,但需要懂的不是语法,而是每个语言设计的原理,优劣,底层的运行逻辑,和适用场景。比如市面上流通着很多怎么用好AI模型的”独家秘笈”,可是这些“秘笈”绝大多数在几个月后,随着模型和harness的发展,都会自动化,不再需要人类操心。

这几个月,越来越多的听到担忧或者反对AI的声音:无论是如何甄别视频/图片的真假,AI生成的低质量的slop,AI造成的裁员失业和贫富失衡,还是AI让人失去锻炼的机会和进步的动力。这些担忧既真实又有道理,而这些还只是身边触手可及的问题,那些失控,战争,或者让人们失去自由的结局,才是让我深深忧虑的。而现在的社会和政府似乎还远远没有准备好迎接全方位超越人类的智能体的到来。奇异博士如果能看到一千多万种结局,或许很多都是悲观的吧。也时常感到推背感,每天日新月异的变化让人应接不暇。可我选择乐观。或许我们没法阻止AI的到来,但就像一位位先贤的意志让人类一步步走到了今天,我们这一代人的使命就是将AI的发展引导向一个好的未来。每个人都有自己的出场机会。

几千年来,我们的祖先仰望星空,人类一直在探索着宇宙的真相。我希望AI会是人类的好伙伴,帮助我们更接近宇宙的真相。就像杨过练剑,一层一层地撕下宇宙的面纱。Keep thinking.

今天是嘟嘟的五岁生日,久违地带上了生日帽,吃上了一年一度的鱼片。我和嘟嘟也离开了住了五年的南湾,搬到了城里。

其实世界的幸福哪有那么复杂。我们想要的,不过是一个大家都能吃饱饭,孩子们能健康安全快乐的成长,逢年过节能和亲近的人一起吃火锅看烟花的世界呀。我们要竭尽所能守护好这个世界。大家儿童节快乐 🙂

26.06.01
San Francisco

Leave a comment