
▲Greg Brockman(右)与主持人(左)
如何构建一个AI基础设施,使其既能高效处理大量预填充任务、大量解码任务以及介于两者之间的工作负载,同时又能满足那些需要低延迟、高性能的多模态视觉和语音AI的需求?这些AI就像你的R2-D2(星球大战中的机器人),或你的随时可用的伴侣。
这两类工作负载截然不同:一种超级计算密集,可能运行很长时间;另一种要求低延迟。未来理想的AI基础设施是什么样的呢?
Greg Brockman:当然,这需要大量的GPU。如果我要总结的话,老黄希望我告诉他应该建造什么样的硬件。
有两类需求:一类是长期、大规模计算需求,另一类是实时、即时计算需求。这确实很难,因为这是一个复杂的协同设计问题。
我是做软件出身的,我们最初以为只是在开发AGI(通用人工智能)软件,但很快就意识到,要实现这些目标,就必须建设大规模的基础设施。
如果我们想打造真正改变世界的系统,可能需要建造人类历史上最大的计算机,这在某种程度上是合理的。
一种简单的做法是,确实需要两类加速器:一种追求计算性能最大化,另一种追求极低延迟。在一类上堆叠大量高带宽存储器(HBM),另一类上堆叠大量计算单元,这样就基本解决问题。真正难的是预测两类需求的比例。如果平衡失误,部分机群可能会变得无用,这听起来很可怕。
不过,由于这个领域没有固定规则和约束,主要是优化问题,如果工程师资源配置出现偏差,我们通常也能找到办法利用这些资源,尽管可能付出较大代价。
例如,整个行业都在转向混合专家模型(Mixture-of-Experts)。某种程度上,这是因为部分DRAM被闲置了,我们就利用这些闲置资源增加模型参数,从而提高机器学习计算效率,而不会增加额外计算成本。所以,即使资源平衡出错,也不至于造成灾难。
加速器的同质化是一个良好的起点,但我认为,最终为特定用途定制加速器也是合理的。随着基础设施资本支出达到惊人的规模,对工作负载进行高度优化也变得合理。
但业界还没有定论,因为研究发展速度非常快,而这又在很大程度上主导了整个方向。
问:我本来没有打算问这个问题,但你提到了研究。你能对GPT-6扩展过程中面临的瓶颈进行排名吗?计算、数据、算法、电力、资金。哪几个是第一和第二?OpenAI最受限于哪一个?
Greg Brockman:我认为,我们现在正处于一个基础研究回归的时代,这令人非常兴奋。曾经有一段时间,人们的关注点是:我们有了Transformer,那就不断扩展它。
在这些明确的问题中,主要任务只是提高指标,这固然有趣,但在某种程度上也令人感到在智力上不够具有挑战性,不让人满足。生活中不应只有“Attention is All You Need”原始论文的思路。

