('不知不觉,又过去了两年时间。
对于孟繁岐个人来说,这段时间他的进展并不顺利。
AI技术速度放缓的原因是多方面的。
首先,孟繁岐必须承认,在将前世的技术优势全部消耗殆尽之后,他已经再也无法继续维持持续了近十年的,那独一档的技术视野。
“虽然早就做好了心理准备,却还是感觉有些失落和无奈啊...”深夜里,孟繁岐在办公室的躺椅上揉着自己紧锁的眉头。
自重生以来,孟繁岐一直克制着自己,在诸多学者身边维持谦逊好学的姿态,万不敢忘自己短处所在。
不过在GPT系列推动至极限之后,所面对的就不仅仅是算法和技术的问题了。
“要说起来,老黄对公司的限制,比我水平下降对公司的限制还大!”孟繁岐为此感到焦躁。
他虽然无法像此前一样做到步步不错,直指要害,却毕竟也与世界上最顶尖的群体常年接触学习。
此外,还手握最为庞大的资金与计算设备资源。
在此情况之下,想要做不出成绩,其实也是非常困难的。
因为普通人要运行一年的实验,你使用千倍的算力,也就是半天的时间就可以计算完成了。
早上吃着早饭实验跑起来,中午午休回来便已经可以看到结果。
在这样的效率加持之下,即便孟繁岐如今判断错误的次数变多,也并不是什么要紧事。
无非就是多做些实验,多消耗几倍的算力罢了。
折算成金额,一年十来亿顶了天。
对于早已财富自由的孟繁岐来说,只要钱能解决的事情都不是事。
可问题就在于,老黄的计算设备研发,终究还是要时间的。
不像孟繁岐,可以提前三五年往外发新的算法技术,黄仁勋的硬件技术那是真的催不来,只能一点点缓步推进。
这番发展速度上的错位,导致孟繁岐如今有力无处施展。
“如果能有后来的H100集群,我所需要的显卡数量可以减少至少8到10倍。”孟繁岐如今受到的一大限制,就是继续拓展算法边界所需要的显卡数量实在太多了。
卡一多,它就容易出问题,和人一样。
假设说一张卡训练三个月,百分之99.99的概率都是正常的。
当这个数字来到2000,乃至10000的时候,这个概率则会惊人地降低为82%和百分之37%。
也就是说,当你使用万卡集群的时候,想让每一张卡都能顺顺利利地把工作给完成了,这个可能性只有可怜的三分之一。
而只要一张卡出现了问题,就势必会对整个集群产生影响,中止训练。
为了避免这种一卡罢工,万卡围观的情况发生,孟繁岐投入了大量的资源和时间。
可GPT4o,以及具有推理功能的o1之上,使用旧有办法继续提升性能的空间并不太大了。
孟繁岐这边收效甚微,便给了追赶者们极大的机会。