记者|董温淑
编辑|高宇雷
6月17日,专注3D架构AI云端大算力芯片研发设计的算苗科技宣布,旗下3D TokenPU芯片A4E已于6月15日正式流片。
A4E 面向大模型推理需求,基于自研RISC-V架构、自研IP、自研软件体系打造,并采用成熟国产工艺,有望为国内大模型产业提供自主可控、高性能、高性价比的专用算力支撑。
据官方信息,作为大模型时代原生的算力芯片企业,算苗科技首创3D TokenPU架构,跳出通用GPU的设计思路,专攻推理场景极致性能。第一代产品A4E将8层存储晶圆垂直堆叠在计算逻辑晶圆上,通过硅通孔(TSV)与凸点(bump)技术实现微米级互联,将传统芯片间的“毫米级”传输距离压缩两个数量级,带来16TB/s的超大访存带宽,有效缓解数据饥饿问题。
在架构设计方面,算苗科技引入Tile-Native软硬件协同理念,将Tile作为数据搬运、存储和计算的基本单元,实现“一次搬运、多次复用”的高效模式。硬件原生支持Tile级数据调度与多精度动态切换,软件端则构建适配LLVM、Triton等开源生态的编译工具栈,兼顾开发者友好性与算子优化效率。这种“硬件架构-软件工具-算法特性”的闭环优化,为大模型推理提供了更高性能和更低TCO(总拥有成本)。
“我们不是在别人的赛道上追赶,而是在开辟新的方向。”算苗科技创始人兼CEO、中科院声学所国家重点实验室博士汪福全表示,“3D TokenPU专为大模型Token处理而生,不必单纯依赖制程缩小,就能实现算力密度、能效比的跨越式提升。”
在工程化量产层面,算苗团队核心成员已在高通量存算一体芯片项目中,完成两代产品、万片级3D混合堆叠晶圆的量产。
算苗科技采用Walter(晶圆)to Walter3D堆叠芯片技术路线,而良率控制是该路线面临的核心问题之一。
汪福全告诉「电厂」,得益于此前两代产品、万片级晶圆量产所累积的knowhow,算苗团队对于良率控制可以做到“心中有数”。