电子发烧友网综合报道,近期,加拿大多伦多初创公司Taalas正式发布首款AI推理芯片HC1,将大模型权重直接蚀刻到芯片的金属互连层中,实现推理速度达17000 tokens/秒。 Taalas 于 2023 年成立,由 Tenstorrent 前联合创始人、前 AMD 和英伟达架构师柳比薩・巴伊奇(Ljubisa Bajic)携手工程师 Drago Ignjatovic、Lejla Bajic 共同创立。目前,Taalas 已通过三轮融资筹集超 2 亿美元。 巴伊奇曾主导 Tenstorrent 可扩展 AI 加速器研发,2023 年 3 月离开后创立 Taalas,其核心使命是“将人工智能商品化”。他表示:“人工智能像电力,是不可或缺的必需品,必须向所有人提供。而实现这一目标需要对计算能力和效率进行 1000 倍提升,靠当前渐进式手段无法达成。” 这种“非渐进式”思路,使 Taalas 一开始就走上与英伟达对立的道路。2023 年 8 月至 2024 年 3 月,Taalas 完成两轮融资,首轮 5000 万美元由皮埃爾・拉蒙德和 Quiet Capital 牵头,后续融资让公司总估值达 2.19 亿美元。投资人皮埃尔・拉蒙德评价团队经验业内顶级,认为其方向能实现 1000 倍成本改善,推动 AI 成为基础设施级能力。 Taalas宣称的1000倍效率提升,并非故弄玄虚,而是源于对传统AI芯片架构的彻底革新。不同于通用GPU“内存加载模型、软件调度运行”的模式,Taalas采用“Model Based”架构,将特定大模型的训练结果直接固化在晶体管层面,构建出物理意义上的“硬核模型”。 其HC1芯片运用台积电6nm工艺与Mask ROM技术,把Llama 3.1 8B模型的权重硬编码在硅片上,从物理层面消除计算与存储间的数据搬运。据Taalas公布的数据,HC1的token处理速度约为英伟达B200的48倍,硬件成本仅为传统GPU方案的1/20,功耗降至1/10,且无需液冷和HBM显存,仅靠空气冷却就能运行。 不过,极致性能的代价是通用性的完全丧失。HC1只能运行特定的Llama 3.1 8B模型,模型更新芯片就需重新流片。Taalas虽宣称能将新模型转化为定制芯片的周期压缩至两个月,但在AI模型快速迭代的当下,这仍是该方案面临的核心挑战。“一模型一芯片”模式要求客户对特定模型长期承诺,一旦行业转向全新架构,现有专用硬件将迅速贬值。Taalas的应对之策是押注Llama等开源架构的长期主导地位,同时借助LoRA微调技术优化芯片固化模型的适应性。 生态系统短板也是Taalas的一大难题。英伟达的优势在于CUDA软件生态和开发者的深度依赖,而Taalas的专用芯片缺乏配套开发工具链,开发者需重新适配,这提高了客户的迁移成本。如何快速构建自身生态,成为Taalas能否规模化落地的关键。 实际测试中,HC1虽能“2000字回复秒出”,但回复质量存在明显缺陷,简单运算出错,复杂问题“胡编乱造”。根源在于初代产品采用的定点数格式无法满足复杂推理的精度需求。为应对此问题,Taalas已规划第二代产品HC2,将改用标准4 - bit浮点格式改善精度,同时将模型支持规模提升至200亿参数,计划2026年底前覆盖GPT - 5级别系统。 中国科学院计算技术研究所副研究员赵永威高度评价这一技术路线,认为虽目前Taalas尚无应用价值,但会成为有历史意义的芯片,这种硬连线模式是未来芯片发展趋势,Taalas扛起质疑,将让后来者推广相关概念更轻松。 随着AI发展重心从训练转向推理,定制化AI芯片正"脱颖而出"。在AI推理芯片赛道上,Taalas并非唯一的探索者。Etched将Transformer架构固化为ASIC电路,Groq以纯SRAM架构打造LPU,Cerebras则将整块晶圆作为单颗芯片,各家都在通过放弃某一传统设计要素,换取推理环节的性能突破。