
“AI 推理将从云端下沉到我们身边,无处不在。”
这是2月27日在一场Arm面向边缘AI的新品发布会上,Arm物联网事业部业务拓展副总裁马健向外界抛出的一个明确信号。
支撑这一判断的,是其发布的全新Armv9边缘AI计算平台,该平台以超高能效的Cortex-A320 CPU与对 Transformer网络有原生支持的Ethos-U85 NPU为核心,可运行超10亿参数的端侧 AI 模型。这是Arm首次专为物联网领域设计的 Armv9 架构处理器,也是其边缘计算布局的一次关键落子。
此次全新发布的基于Armv9架构的Cortex-A320 CPU,其能效比较Cortex-A520(Arm 的高效 Armv9.2 CPU)提升了50%,ML性能较前代产品Cortex-A35暴涨10倍;Ethos-U85以4 TOPS算力原生支持Transformer网络,与上一代产品相比,该 NPU 的性能提升了四倍,能效提高了 20%。在Cortex-A320 和Ethos-U85的组合加持下,全新Armv9边缘AI计算平台比去年的基于 Cortex-M85 搭配 Ethos-U85 的平台提升了八倍的 ML 计算性能,带来了显著的 AI 计算能力突破。 而随Armv9引入的Secure EL2、指针验证和分支目标识别(PACBTI)以及内存标记扩展(MTE)特性则构建起从硬件到数据的立体安全防线。
在马健看来,这不仅是性能的迭代,更是边缘计算范式的革新。
这革新的背后是大模型竞赛终将回归商业本质,而边缘侧的海量长尾场景,才是AI价值爆发的真正沃土。
从农业自动化中的智能灌溉系统,到工厂里远程升级的预测性维护算法,再到解放双手的智能眼镜交互——Arm正在用一场“毛细血管级”的技术创新,为万物智能时代铺设通路。
一、由Armv9边缘AI计算平台引领的技术跃迁
在AI计算加速从云端向边缘侧转移的时代,当全球科技巨头仍在云端大模型的参数竞赛中厮杀时,Arm选择了补齐贴近“地面”的路径——为行业首次引入专为物联网应用优化的 Armv9 CPU。
作为Arm边缘AI计算平台的核心之一,Cortex-A320的革新性体现在三个维度:
能效革新:相比前代Cortex-A35,其标量计算性能提升30%,ML性能暴涨10倍;相较Cortex-A520,其能效比提升50%。这意味着一颗纽扣电池驱动的传感器,未来都可能承载起实时视频分析任务;
安全跃升:针对边缘设备愈发严峻的黑客攻击,Cortex-A320引入Secure EL2技术,增强了TrustZone内部的隔离性,支持更安全地运行软件容器;指针验证/分支目标识别(PACBTI)可有效缓解跳转和返回编程中的指针安全隐患;内存标记扩展(MTE)通过内存标记机制,使黑客更难利用内存漏洞进行攻击,提高整体系统安全性。
灵活扩展:支持四核共享集群与多层次内存管理,可灵活适配从低功耗传感器(支持RTOS)到复杂智能终端(支持Linux)的全场景需求。
值得关注的是,Cortex-A320首次在物联网领域引入BFloat16这样的新数据类型与可伸缩向量扩展(SVE2)——前者将AI计算精度与能效推向新高度,后者则可提供更高效的ML计算能力。
如果说Cortex-A320是边缘计算的“心脏”,那么Ethos-U85 NPU则是让这颗心脏跳动的“肾上腺素”。
作为Ethos-U 系列的第三代AI加速器,Ethos-U85的使命明确:让Transformer网络在边缘侧“轻装上阵”。
首先,Ethos-U85原生支持全新的Transformer网络,在1GHz情况下可以支持到4个TOPS,4个TOPS对大多数嵌入式设备甚至对智能眼镜、智能手表等已可满足要求。
此外,通过此次发布的Armv9边缘AI计算平台,Cortex-A320可以直接驱动Ethos-U85,两者相得益彰,还能够提供更高的内存容量与带宽,让大模型在Ethos-U85上的执行如虎添翼。与此同时,任何开发者们不希望在Ethos-U85上运行的AI操作,可以回退到Cortex-A320,利用其Neon/SVE2引擎更灵活有效地在CPU上执行。这使智能物联网与消费类电子生态系统能够在正确的时间,并在合适的地方运行最适合的工作负载。在Arm看来,这一创新将推动边缘AI领域在未来多年内的持续发展。
二、Arm如何定义边缘AI的未来?
边缘AI的应用场景纷繁复杂,同时蕴藏着无限的潜能,Arm正在用生态的毛细血管,滋养边缘计算的每一寸土壤。
事实上,AI发展到今天,整个边缘AI的核心市场逻辑,已经不再是单一芯片的性能参数,而是从芯片到云端、从标准到场景的全栈掌控力。
硬件层面,Arm Cortex系列从超高能效的Cortex-A320到超高性能的Cortex-X925,覆盖了从智能门锁的毫瓦级需求到工业机器人的百瓦级算力;
软件层面,此次扩展到物联网的KleidiAI软件库已经集成到多个主流AI框架,包括Llama.cpp、ExecuTorch和LiteRT(通过 XNNPACK),可以加速Meta Llama 3和Phi-3等主流AI大模型,进一步释放AI计算性能;
认证层面,PSA Certified已成为全球市场的“硬通货”。截至目前,全球已有101家企业成功取得PSA Certified认证,其中累计获得认证数量已达241项。
更关键的是,获得PSA Certified认证后,产品通过欧美市场的电子产品认证流程将更为顺畅,为中国芯片和电子产品出海提供了一条便捷的通道。许多中国的合作伙伴也通过了PSA Certified认证,包括瑞芯微的RK3588/RK356X系列芯片、涂鸦智能的TS24-U模组等。
这种全栈掌控力,让Arm的合作伙伴无需在性能、成本、合规性之间做单选题。
但与此同时,Arm也面临来自多模态AI浪潮所带来的变量。现在大模型、小模型参数量是在日益变化的,而且很多厂商都在进行10亿到100亿参数规模的芯片规划,Arm将如何应对?
对于这个问题,马健认为,模型的大小有时候并不是和AI加速器的TOPS相关的,因为TOPS是关乎多快可以给出结果。其实,大模型的大小和内存带宽以及内存是相关的。
Arm提供全方位的Armv9 Cortex处理器系列,这一系列处理器可以有不同的内存配置,而不同的内存配置可以适配不同大小的参数规模。特别是在AI时代,更加贴近市场和应用是非常关键的,需要从整体来思考产业发展的趋势和需求。从提供极致性能的Cortex-X925,到适用于大规模低成本、低功耗智能部署的全新Cortex-A320,无论物联网设备的应用需求如何,都能找到最合适的Armv9处理器解决方案。
这种对市场需求的极致理解,恰恰是Arm应对算力内卷的差异化武器:当行业还在痴迷于参数时,Arm已经在打磨场景的颗粒度。
显然,在这场边缘AI的创新浪潮中,Arm的目标从未掩饰:“AI的未来在边缘,而边缘AI的未来属于Arm。”