Meta今天发布了Llama3,基本锚定了世界最强性能的开源模型。Meta CEO扎克伯格显然很兴奋,第一时间接受了DWARKESH PATEL播客的采访。过去几年,Meta的业务可以说一直不顺利,一个是改名Meta进军元宇宙没有取得应有的效果,即使是Apple Vision Pro也没能把产业势头拉起来。第二是和Tiktok较量遇阻,不能说完全败下阵来,但也只能说勉强跟得上。但是ChatGPT-3.5之后,杨立昆等主导的Llama模型,成了开源大模型领域的“安卓”,一下子挽回了公司的声势。
在采访中,我最感兴趣的一段内容是,主持人问扎克伯格,“搞大模型最重要的是有足够量的GPU,Meta在股价最惨的时候,疯狂买了一大批GPU,当时投资人不理解,你是怎么克服压力做出这个决策的”。
结果扎克伯格说,当时搞GPU不是因为大模型,而是因为干不过TikTok抖音。当时,TikTok基于内容兴趣的推荐模式,完全秒杀了Meta的基于Follow的推荐模式(很容易制造爆款,也很容易留住用户)。Meta当时要和TikTok竞争,所以也要改为这种推荐模式。结果发现新算法需要大量的GPU。扎克伯格也是狠人,一咬牙说,干脆翻个倍,把基础设施翻新一下。没想到的是,虽然在社交这个正面战场依然没打过TikTok,但是这些囤积的H100,在大模型训练的时候全用上了。
最后的结论是,之所以有现在的领先(H100算力和开源模型),是因为当时的落后(落后于TikTok的推荐系统)。看完了这个视频让人感想颇多,其实很多时候,企业做决策很难完全看清路线,就像扎克伯格当时只看到了TikTok的推荐系统更强,要想和它竞争必须升级算法,升级算法就需要GPU,没有大模型的事儿。
但是扎克伯格比较牛的地方在于,落后的时候,他敢于All In。而且认定了靠谱的基础设施,才是一切数字业务的根本。启发是,落后的时候找不到路不要紧,只要在能看清楚的地方100%,200%,甚至1000%的投入,向前走总好过停滞不前。播客还有很多有价值的内容,有兴趣可以看全文(地址:dwarkeshpatel.com/p/mark-zuckerberg)