把大模型“刻进”芯片，AI芯片推理速度17000 tokens/秒

电子发烧友网综合报道，近期，加拿大多伦多初创公司Taalas正式发布首款AI推理芯片HC1，将大模型权重直接蚀刻到芯片的金属互连层中，实现推理速度达17000 tokens/秒。

Taalas 于 2023 年成立，由 Tenstorrent 前联合创始人、前 AMD 和英伟达架构师柳比薩・巴伊奇（Ljubisa Bajic）携手工程师 Drago Ignjatovic、Lejla Bajic 共同创立。目前，Taalas 已通过三轮融资筹集超 2 亿美元。

巴伊奇曾主导 Tenstorrent 可扩展 AI 加速器研发，2023 年 3 月离开后创立 Taalas，其核心使命是“将人工智能商品化”。他表示：“人工智能像电力，是不可或缺的必需品，必须向所有人提供。而实现这一目标需要对计算能力和效率进行 1000 倍提升，靠当前渐进式手段无法达成。”

这种“非渐进式”思路，使 Taalas 一开始就走上与英伟达对立的道路。2023 年 8 月至 2024 年 3 月，Taalas 完成两轮融资，首轮 5000 万美元由皮埃爾・拉蒙德和 Quiet Capital 牵头，后续融资让公司总估值达 2.19 亿美元。投资人皮埃尔・拉蒙德评价团队经验业内顶级，认为其方向能实现 1000 倍成本改善，推动 AI 成为基础设施级能力。

Taalas宣称的1000倍效率提升，并非故弄玄虚，而是源于对传统AI芯片架构的彻底革新。不同于通用GPU“内存加载模型、软件调度运行”的模式，Taalas采用“Model Based”架构，将特定大模型的训练结果直接固化在晶体管层面，构建出物理意义上的“硬核模型”。

其HC1芯片运用台积电6nm工艺与Mask ROM技术，把Llama 3.1 8B模型的权重硬编码在硅片上，从物理层面消除计算与存储间的数据搬运。据Taalas公布的数据，HC1的token处理速度约为英伟达B200的48倍，硬件成本仅为传统GPU方案的1/20，功耗降至1/10，且无需液冷和HBM显存，仅靠空气冷却就能运行。

不过，极致性能的代价是通用性的完全丧失。HC1只能运行特定的Llama 3.1 8B模型，模型更新芯片就需重新流片。Taalas虽宣称能将新模型转化为定制芯片的周期压缩至两个月，但在AI模型快速迭代的当下，这仍是该方案面临的核心挑战。“一模型一芯片”模式要求客户对特定模型长期承诺，一旦行业转向全新架构，现有专用硬件将迅速贬值。Taalas的应对之策是押注Llama等开源架构的长期主导地位，同时借助LoRA微调技术优化芯片固化模型的适应性。

生态系统短板也是Taalas的一大难题。英伟达的优势在于CUDA软件生态和开发者的深度依赖，而Taalas的专用芯片缺乏配套开发工具链，开发者需重新适配，这提高了客户的迁移成本。如何快速构建自身生态，成为Taalas能否规模化落地的关键。

实际测试中，HC1虽能“2000字回复秒出”，但回复质量存在明显缺陷，简单运算出错，复杂问题“胡编乱造”。根源在于初代产品采用的定点数格式无法满足复杂推理的精度需求。为应对此问题，Taalas已规划第二代产品HC2，将改用标准4 - bit浮点格式改善精度，同时将模型支持规模提升至200亿参数，计划2026年底前覆盖GPT - 5级别系统。

中国科学院计算技术研究所副研究员赵永威高度评价这一技术路线，认为虽目前Taalas尚无应用价值，但会成为有历史意义的芯片，这种硬连线模式是未来芯片发展趋势，Taalas扛起质疑，将让后来者推广相关概念更轻松。

随着AI发展重心从训练转向推理，定制化AI芯片正"脱颖而出"。在AI推理芯片赛道上，Taalas并非唯一的探索者。Etched将Transformer架构固化为ASIC电路，Groq以纯SRAM架构打造LPU，Cerebras则将整块晶圆作为单颗芯片，各家都在通过放弃某一传统设计要素，换取推理环节的性能突破。

把大模型“刻进”芯片，AI芯片推理速度17000 tokens/秒图2