本文介绍了我们在使用 Arm I8MM 指令集优化 Llama.cpp 中 Q6_K 和 Q4_K 量化模型推理的实践。具体来说,主要采用的是带有累加功能的有符号 8 位整数矩阵乘法指令 —— smmla。
在 GCC 15 版本中,Arm、GCC 社区以及我们的合作伙伴持续在基于 Arm 平台的代码生成方面进行创新和优化。GCC 15 延续了对控制流矢量化的支持趋势,能够混合使用 SVE(可扩展矢量扩展)和高级 SIMD 指令,并在寻址模式、常量生成等基础功能方面也进行了全面改进。
机器人早已不再局限于工厂车间或科幻电影,它们已经融入人们的日常生活,或许是客厅里默默工作的扫地机器人,又或是在超市里引导顾客完成购物的自助收银机,这些早已不是新奇事物,而是广泛技术变革的缩影。
本文介绍 Adaptive-k 检索技术,这是一种通过相似性分布分析动态确定最优上下文规模的即插即用方法,该技术在显著降低 token 消耗的同时实现了检索增强生成系统的性能提升。
我们很高兴地宣布推出 Arm 性能库 25.04 和面向 Linux 的 Arm 工具链 20.1。在本博客中,我们将介绍如何获取这些版本、产品的新功能以及它们在性能方面的一些亮点。
最近,我与 W4 Games 的同事 Darío 一起,专注于提升 Godot 引擎在移动设备上使用 Vulkan 后端时的性能。在这次探索开始之前,Darío 和我都没有太多针对移动设备渲染器优化的经验,因此这也是一次宝贵的学习机会。幸运的是,Arm Performance Studio 的文档非常详实,同时 Arm 团队也给予了我们极大的支持。
下一代汽车将以当今的软件定义汽车 (SDV) 为基础,由 AI 定义,全面将 AI 技术融入汽车功能、智能特性和用户交互的方方面面。这为全新的 AI 应用开发带来了机遇,有望彻底革新车载体验。
生成式人工智能具备强大的能力和广泛的适用性。基于人工智能的产品正日益深入嵌入各类经济活动,成为企业成功的重要组成部分。鉴于该技术的广度、规模与影响力,其部署过程必须经过深思熟虑,以最大程度实现收益,同时避免潜在风险的扩大。
随着移动游戏在视觉表现上愈发追求高质量,玩家也越来越期望自己喜爱的游戏作品能够接近主机级的体验。这不仅意味着更出色的光影效果和更丰富的环境细节,也包括角色在视觉层面上的高度真实还原。然而,在移动端难以实现的一项关键细节是服装模拟——不仅仅是材质纹理或外观效果,更包括衣物在运动中的动态表现:如何自然...
人工智能 (AI) 正以前所未有的速度重塑科技,成为人们日常生活中不可或缺的一部分。Arm 计算平台正处于这场变革的核心。基于 Arm 架构的芯片出货量迄今已累计超过 3,100 亿颗,广泛应用于消费电子设备、AI 汽车以及 AI 优先的数据中心。
今年以来,#DeepSeek、Qwen3 等明星大模型不断涌现并迅速普及,AI 已成为众多企业发掘业务增量的关键考量。近期Arm《人工智能就绪指数报告》分享了一组数据:逾 8 成受访企业表示正积极采用 AI 技术,但仅有 29%的企业能够自动扩展计算资源,近半数的企业领导者担心因模型提取而造成的数据隐私泄露。显然,AI 技术的真正...
去年夏天,Arm 推出了 Arm 精锐超级分辨率技术 (Arm Accuracy Super Resolution, Arm ASR) 的早期采用计划,这是一项从 AMD 超级分辨率锐画技术 2 v2.2.2 衍生而来的移动端优化时域类分辨率提升技术。Arm ASR 在此基础上进行了多项针对性优化,能够更好地适应资源受限的手游环境。
GitHub 与 Arm 之间的紧密合作一直致力于改善在 Arm 上进行开发的开发人员的体验,并通过增强的工作流将原生 Arm 运行程序、带有基本工具和库的图像以及 GitHub Copilot Extensions 结合在一起,利用人工智能辅助加速开发。上个月,我们很高兴地看到 GitHub 发布了 Windows Runners for GitHub Actions 公开预览版。结合...
近日,此芯科技联合瑞莎计算机宣布星睿 O6 AI PC 开发套件成功通过了 Arm SystemReady™ 认证,基于满足 UEFI 和 ACPI 标准规范的统一固件,实现多桌面操作系统开箱即用的用户体验,能够大大加快客户的产品上市时间,这也为 Arm PC 的标准化打下了坚实的基础。
SoC 芯片(System on a Chip,片上系统)是一种将多个电子系统功能集成到单一芯片上的集成电路。它通常包含中央处理器(CPU)、图形处理器(GPU)、内存控制器、通信模块(如 5G/Wi-Fi/蓝牙)、电源管理单元等,甚至可能集成人工智能(AI)加速器或专用传感器。
在 2025 年世界移动通信大会(MWC)上,我们迎来了一个激动人心的里程碑--智能手机上的实时人工智能音频。这一突破得益于 Stability.AI 和 Arm 之间富有成效的合作,并由 KleidiAI 技术提供支持。我们共同展示了一个现场演示,利用 Stable Audio Open Small,仅用 7 秒钟就生成了 10 秒钟的音频。
在向新一代复杂的软件定义汽车 (SDV) 转变的过程中,汽车行业正在经历深刻的变革,促使大量的车载电子组件整合至更少数量的高性能计算元件。与此同时,汽车技术的快速演进也带来了一个愈发棘手的难题:_如何以一种节省资源且更具成本效益的方式提供所需的算力?_
Arm 如何帮助 AuthZed 构建和运营授权基础架构,从提高日常工作效率到经济高效的高性能云计算。
2024年AMD发布了变化巨大的一代微架构Zen5,并宣称Zen5微架构是未来几代微架构的基石。相比较Zen4,Zen5的IPC增加了16%,这个增长非常可观,同时还能实现高达5.7GHz的频率,支持AVX512变体以及FP-512,Dispatch宽度为8,6 ALU,取指和解码(Fetch/Decode)均采用双流水线,本代预计采用TSMC 4/3nm工艺,每个核具有2个线...
Linaro 是面向开发人员的领先工程组织,致力于推动 Arm 生态系统的创新。通过将行业参与者和开源社区聚集在一起开展合作,Linaro 推动了建立强大、可持续的 Arm 开源软件生态系统所需的战略对话和工程投入。