由于我们的架构比较优秀,所以,我们实现了处理每万亿个Token,也就是AI能够处理的最小数据单元,只需要18万个小时的GPU运算时间。

        我们现在有2048块GPU同时运算,所以,处理这些数据,只需要3.7天。而我们整个预训练阶段需要处理的数据,预计需要花费266.4万小时。

        加上,上下文长度扩展的19万小时,以及后训练的5千小时,我们550B完整训练,只需要花费278.8万GPU小时,也就是两个月左右。

        因此,现在每块英伟达H800GPU的租赁价格大概是每小时2美元,这代表着,我们550B的总训练成本,只需要557.6万美元。

        不过这个成本仅包括我们的官方训练时的成本。不包括与架构、算法或数据的先前研究和消融实验相关的成本。

        而作为对比,和我们同水平的ChatGPT-4的训练成本,需要超过1亿美元,因此,如果仅仅是算这个,他们的成本,是我们的十八倍。”

        该说不说,即便是高文已经尽量通俗了,可听讲的人当中,有9成还是没怎么听懂。

        不过没听懂没关系,作为领导,最大的能力就是抓住核心。

        而高文刚刚的核心其实就四个:更低的算力(阉割版的芯片)、更好的架构、更低的价格、同等的水平。

        当这四个关键组合起来,老先生的眼睛直接亮了。

        内容未完,下一页继续阅读