点击这里阅读原文

点击蓝字，关注我们

视频正在成为数字世界的主要信息载体。从短视频推荐到AIGC视频生成，从智慧城市安防到自动驾驶感知，视频智能场景对算力的需求正以指数级增长。然而，传统芯片架构在面对这些场景时，正遭遇越来越明显的瓶颈。

视频智能场景需要什么样的算力？

我们先看视频生成和视频理解这两类核心场景的算力特征：

● 视频生成（如扩散模型、视频大模型）的核心运算是大规模张量计算，涉及海量参数的神经网络层，对计算密度和内存带宽要求极高。

● 视频理解（如行为识别、目标追踪、多模态分析）则涉及时序建模、特征融合和复杂的数据预处理流水线，既需要高吞吐的并行计算，又需要灵活的数据流控制。

两类场景共同指向几个关键需求：高并行度、低数据搬运开销、灵活的流水线编排能力。而恰恰在这些维度上，传统架构正触及天花板。

传统架构的三座大山

CPU和GPU均遵循冯·诺依曼架构的核心逻辑——由程序计数器驱动的指令流执行。这种设计带来三个难以逾越的瓶颈：

● 存储墙：计算单元与内存分离，数据需在缓存层次间反复搬运。视频处理中频繁的中间特征图（Feature Map）访问，导致超过60%的能耗和延迟消耗在数据搬运而非实际计算上。

● 同步开销墙：多核并行时，全局barrier同步机制强制所有线程等待最慢者。视频流水线各阶段处理速度不均，粗粒度同步造成大量算力闲置。

● 指令控制开销：乱序执行、分支预测、寄存器重命名等控制逻辑消耗大量芯片面积和功耗，却对视频类规整数据流计算的贡献有限。

数据流架构处理器彻底颠覆了上述范式——它没有程序计数器，没有固定指令序列，执行完全由数据可用性驱动：当计算节点的所有输入数据就绪时，该节点自动触发执行。

这种设计与视频智能的需求天然契合：

● 视频处理流水线本质就是数据流图：解码、缩放、色彩转换、推理、后处理等阶段构成有向无环图（DAG），每个阶段依赖前级输出。数据流架构让数据在计算单元间直接流动，无需频繁回写内存，大幅降低访存开销。

● 细粒度并行动态调度：图中所有输入就绪的节点可同时并行执行，无需等待全局同步。视频场景中不同帧、不同区域的并行处理被充分挖掘，硬件利用率显著提升。

● 分布式存储替代全局缓存：数据流芯片采用计算与存储深度融合的设计，中间结果在处理节点间直接传递，避免了数据在多层次缓存间反复搬移。对于视频帧这种大规模流式数据，优势尤为明显。

相比传统控制流架构，数据流在四个维度有本质提升：

● 并行性：程序被展开为完整数据流图，操作数到齐即可发射，无指令窗口限制，可充分挖掘全局指令级并行。

● 同步开销：依赖关系实现细粒度同步，无需全局barrier，多核间无需维护缓存一致性，同步代价极低。

● 访存开销：计算与存储绑定，中间结果在操作数存储间流动，不反复存取低层级内存，大幅减少片外带宽占用。

● 片上逻辑：省去复杂乱序执行、分支预测、寄存器重命名等逻辑，面积和功耗更集中于计算单元，能效比显著提升。

如果说数据流架构解决了如何高效计算的问题，那么RISC-V解决的是如何让这种高效计算被大规模使用的问题。

数据流芯片此前面临的最大困境是生态碎片化——缺乏统一的指令集标准和工具链支持，软件适配成本较高。

RISC-V的开放性和模块化特性恰好提供了破局路径：

● 统一的向量扩展标准（V扩展）让视频智能中大量的向量运算获得跨平台兼容性；

● 可定制指令扩展允许将视频编解码、矩阵乘加等高频算子固化为专用指令，兼顾灵活性与极致能效；

● 成熟的LLVM/GCC工具链生态使C/C++/Python代码能够高效编译到数据流架构，大幅降低编程门槛；

● 全球RISC-V社区的快速成长意味着越来越多的算法库和AI框架将原生支持这一组合。

数据流架构提供计算效率的上限，RISC-V提供生态普及的下限。两者的结合，使视频智能的算力方案第一次同时拥有了极致性能和开放生态的双重保障。

当前，业界对数据流架构的探索已从学术走向工程，从专用走向通用。结合RISC-V的开放指令集，这一范式有望在视频生成、视频理解、智能编码、实时分析等场景中释放出远超传统架构的能效潜力。

视频智能的时代浪潮已经到来，而算力范式的革新，正是支撑这一切的基石。无论是云端大规模训练，还是边缘端低功耗推理，“数据流架构+RISC-V”都展现出成为主流技术路线的巨大潜力。未来已来，值得期待。

END

往期推荐