
单芯片混合精度浮点算力达896TFLOPS,性能是上一代刹那芯片的3倍;8-bit推理算力可达1792TOPS,适配海量token高并发推理场景;
单卡搭载的显存及芯片内部互联速率均有大幅提升,支持超长上下文,降低多轮对话的数据反复搬运开销;
单芯片额定功耗600W,相较于算力性能持平的传统算力芯片,功耗降低50%,天然适配绿色低碳智算中心建设;
依托多维张量计算单元与数据复用优化设计,须臾有效缓解深度学习领域经典存储墙难题,执行同等AI任务时,综合计算效能可达传统GPU架构数倍,在大模型计算、批量token生成场景优势尤为突出。




