WWW.KEGFUUK.CN
标签聚合 GPU

/tag/GPU

www.ithome.com · 2026-05-06 14:09:57+08:00 · tech

IT之家 5 月 6 日消息,在 2026 年第 1 财季(2025 年 12 月 28 日 ~2026 年 3 月 28 日)财报电话会议上, 苏姿丰表示 AMD 已开始向核心客户送样 Instinct MI450 GPU 加速卡,并计划下半年逐步提高出货 Helios AI 机架。 AMD 首席执行官苏姿丰表示,客户需求已超过公司对 2027 年的内部预期,其中核心客户预测量超出初始计划,而新增客户也在洽谈大规模部署。 OpenAI 已签署多吉瓦级部署协议 , Anthropic 也被报道将采用 MI400 系列构建 AI 算力基础设施 。 IT之家援引博文介绍,苏姿丰强调 AMD 将携手这些客户, 推进“深度协同工程”,共同优化大规模部署方案。 苏姿丰强调,智能体 AI 时代带来的 CPU 需求增长,并不会替代现有的加速器市场需求,两者是叠加互补关系。 MI450 系列基于 CDNA 5 架构,FP4 算力达 40 PFLOP,FP8 算力达 20 PFLOP,较 MI350 系列翻倍。内存方面,从 288GB HBM3e 升级至 432GB HBM4,带宽达 19.6 TB/s,较前代翻倍以上。 AMD Instinct MI450 系列规格:40 PF FP8 算力、432 GB HBM4 内存、3.6 TB/s 纵向扩展带宽、300 GB/s 横向扩展带宽。 每 GPU 横向扩展带宽 300 GB/s,支持大规模集群互联。产品线分两款:MI455X 面向 AI 训练与推理,MI430X 面向 HPC 与主权 AI,后者支持硬件级 FP64 计算。 AMD 将 MI450 系列定位对标 NVIDIA Vera Rubin 平台。对比显示,MI450 在内存容量和横向扩展带宽上达到竞品 1.5 倍,FP4/FP8 算力、内存带宽、纵向扩展带宽持平。下一代 MI500 系列已获客户关注,AMD 将在 7 月 Advancing AI 活动公布更多细节。

www.ithome.com · 2026-05-06 12:19:41+08:00 · tech

IT之家 5 月 6 日消息,在 2026 财年第 1 财季(2025 年 12 月 28 日 ~2026 年 3 月 28 日)财报电话会议上,AMD 首席执行官苏姿丰表示, 智能体 AI(Agentic AI)正在重塑服务器 CPU 市场格局。 苏姿丰表示 AI 成为本季度增长的核心驱动力,所有主要云服务商都在扩展部署霄龙(EPYC)处理器,广泛覆盖通用计算、数据处理和新兴智能体应用等场景。 苏姿丰解释称智能体 AI 工作负载需要额外的 CPU 算力进行编排、数据移动和并行执行,同时还要作为 GPU 和加速器的核心节点,因此 AMD 的服务器 CPU 需求更加强劲。 瑞银在 2025 年 11 月曾预估,到 2030 年服务器 CPU 总可寻址市场(TAM)将增长 5 倍,从 2025 年的 300 亿美元增至 1700 亿美元(IT之家注:现汇率约合 1.16 万亿元人民币),未来 4~5 年的复合增长率为 18%。 而在本次财报会议上,苏姿丰预估在智能体 AI 推动下,该数值可能达到 35%。 针对 CPU 需求是否会蚕食 GPU 市场的疑问,苏姿丰给出否定答案。她强调,加速器运行基础模型需要 CPU 配合,智能体也会“衍生”出大量 CPU 任务, 因此 CPU 需求“很大程度上是对 GPU 市场的补充”。 更关键的变化在于 CPU 与 GPU 的配比演进。苏姿丰透露,传统数据中心中 CPU 与 GPU 的比例多为 1:4 或 1:8,主要作为主机节点存在。但随着智能体 AI 普及,这一比例正在向 1:1 靠拢,甚至在智能体密集部署的场景下,CPU 数量可能超过 GPU。

www.ithome.com · 2026-05-03 21:30:07+08:00 · tech

IT之家 5 月 3 日消息,据《The Information》今日报道,马斯克旗下人工智能公司 xAI—— 也就是 Grok 大模型的幕后团队,目前手头上约有 55 万块英伟达 GPU(包括 H100 与 H200),但实际利用率仅有 11%。 据介绍,这些硬件目前主要部署在孟菲斯的 Colossus 超算集群中,采用液冷配置。尽管与 Blackwell 最新一代产品相比稍显老旧,但这样的体量在全球范围内依然位居前列。 然而,如此海量的硬件并未转化为有效的计算产出。该集群的实际利用率仅有 11%。当然,这并非意味着其余 89% 的 GPU 处于完全闲置状态,而是指模型的实际浮点运算利用率远远低于理论峰值。 业内人士解释称,衡量 AI 算力效率的关键指标叫做 MFU(Model FLOPs Utilization),即模型浮点运算利用率。11% 的 MFU 意味着,理论上能产生 100 份训练吞吐量的硬件,实际只产出了 11 份,大量的电力和硬件时间都消耗在了数据等待、通信开销和重新计算等环节,而没有转化为有效的训练吞吐。 面对这一数字,xAI 总裁 Michael Nicolls 在一份内部备忘录中承认其“低得尴尬”,并为团队设定了在未来几个月内将利用率拉升至 50% 的目标。 xAI 并非个例,算力利用率偏低是整个 AI 基础设施领域的行业性难题。报道指出,在超大规模集群下,软件优化跟不上硬件部署速度是普遍现象。作为对比,Meta 和谷歌在软件堆栈上投入了大量精力,因此其 GPU 利用率相对较高,但也只有约 43% 和约 46%。 IT之家此前曾报道,Colossus 集群的建设速度令人瞠目,从启动到首阶段投用仅用了 19 天,英伟达 CEO 黄仁勋更指出“这通常需要四年的时间”。这种飞速扩张虽然让 xAI 在硬件储备上占据了先机,但目前似乎也暴露出了软件配套与分布式训练能力的滞后。 此外,业界分析指出,AI 训练具有间歇性特征,硬件在模型推理时满负荷运转,但在数据分析阶段则会陷入闲置,这是导致利用率较低的重要因素。 除了 AI 训练本身的间歇性,业内人士指出,GPU 供应短缺带来的行为扭曲也加剧了算力浪费。由于高端 GPU 产能紧张且获取周期长,许多企业担心被回收资源而倾向于囤积硬件,实际负载却无法消化,从而造成了庞大的闲置资源与高昂的闲置成本并存的现象。 为了改变现状,xAI 计划从基础设施和软件堆栈优化入手。同时,有消息指出,xAI 未来可能会推出针对其庞大 GPU 集群的租赁服务,将闲置算力转化为收入。 此外,马斯克也在大力投入 TeraFab 项目,旨在为 xAI、SpaceX 等企业设计自研 AI 芯片,并基于 Intel 14A 工艺打造下一代先进计算方案。

www.ithome.com · 2026-05-02 14:53:35+08:00 · tech

IT之家 5 月 2 日消息,QNAP(威联通)4 月 29 日宣布推出 GPU-Ready 架构边缘 AI 存储服务器 QAI-h1290FX。这一产品基于 AMD EPYC(霄龙)7302P,该处理器基于 "Zen 2" 微架构,拥有 16 核心 32 线程。 QAI-h1290FX 具备 8 条 DDR4 RDIMM 内存插槽,预装 128GB 内存;集成 8GB 闪存;提供 4 条 PCIe Gen4 插槽 (IT之家注:3 个为 ×16、1 个为 ×8) , 具备 12 个 2.5" U.2 / SATA SSD 盘位 ,提供 2 个 25GbE SFP28、2 个 2.5GbE RJ45 网口。 这款服务器 可安装 NVIDIA(英伟达)RTX PRO 6000 Blackwell Max-Q 工作站版显卡 ,具备专属 AI 应用专区。此外其具备 750W 电源,包括 3 个 USB 5Gbps 接口。 威联通产品经理林子轩表示: QAI-h1290FX 是我们响应企业与开发者对“本地 AI 计算”真实需求的具体成果。 你不需要自己组一台 GPU 主机、安装操作系统跟不同工具、进行各种复杂设定,甚至最后要连到云端。我们希望带给用户的是开箱就能运行 AI 模型的体验,同时确保所有档案数据均在自己掌控之中。

www.ithome.com · 2026-05-01 08:33:20+08:00 · tech

IT之家 5 月 1 日消息,华硕 (ASUS) 官方人士 @普普通通Tony大叔 昨日宣布,其“5 月的抽奖福利”一等奖是“ROG 新 NUC 一台”,并在配图中 展示了一款外观不同于 ROG NUC (2025) 的电竞迷你主机 : 通过与 2025 款 ROG NUC(下图左侧)的对比可以发现,此次展示的 新品并未对模具外观进行重大调整 ,仅是改动了外部装饰和底座结构。 从硬件配置上来看,如果华硕想要推出新款 ROG NUC, 很有可能会对 CPU 和 GPU 进行升级 ,提供 Intel(英特尔)酷睿 Ultra 200HX Plus 处理器以及 NVIDIA(英伟达)GeForce RTX 5070 笔记本电脑 GPU 12GB GDDR7 版本的选择。 此外,基于 AMD 锐龙处理器的姊妹机型 ROG 魔霸 Mini 也可能得到更新,新增 RTX 5070 12GB 配置。 而从时间角度,华硕有可能会在 5 月 15 日的 ROG DAY 2026 广州站 上发布电竞迷你主机新品。

www.ithome.com · 2026-04-29 11:43:42+08:00 · tech

IT之家 4 月 29 日消息,科技媒体 ximitime 昨日(4 月 28 日)发布博文,通过挖掘 Mi Code 数据库,揭示了小米下一代自研芯片“玄戒 O3”(XRING O3)的相关信息。 该芯片代号为“lhasa”,预估首发搭载于小米 MIX Fold 5 折叠屏手机(内部代号 Q18),目前锁定为中国市场独占。 架构方面,相比小米 15S Pro 手机中使用的玄戒 O1 芯片,玄戒 O3 采用激进的架构重构方案,取消传统大核集群,转而采用“超大核(Prime Core)+ 钛核(Titanium Core)+ 小核(Little Core)”的 3 集群设计。 IT之家注:玄戒 O1 采用 10 核 4 集群设计,包含 2 颗最高主频达 3.89 GHz 的 Cortex-X925 超大核(Prime)、4 颗 2.4GHz A725 性能大核(Titanium)、2 颗 1.9GHz 低频 A725 能效大核(Big)以及 2 颗 1.79GHz A520 超级能效核(Little)。 而基于最新消息,玄戒 O3 取消了传统的“Big”集群,从上代 4 集群简化为 3 集群架构: 超大核(Prime Core):时钟频率突破 4GHz 大关,达到 4.05GHz。 性能大核(Titanium Core):时钟频率为 3.42GHz,取消 Big 集群 超级能效核(Little):时钟频率为 3.02 GHz,作为对比 O1 为 1.79GHz,频率高出约 68% GPU:时钟频率逼近 1.5GHz,作为对比 O1 为 1.2GHz,增幅达到 25% 内存:两代产品的内存频率均锁定在 9600 MT/s,在不改变功耗的情况下保持了顶级内存带宽。 实际应用中,超高频率的小核将大幅提升后台任务管理与多任务处理能力,完美契合折叠屏的大屏生产力场景。若按高端折叠屏定价策略,该机售价预计在 1500 美元左右。 在集群方案上,该媒体推测小米玄戒 O3 可能会采用 1+3+4 或 1+2+5 组合,不过鉴于小米将能效核提高到 3GHz 以上,不排除小米尝试非传统集群方案的可能。 相关阅读: 《 消息称 vivo XFold6 折叠屏手机配 2 亿像素主摄,小米 Mix Fold 5 迭代自研芯片有望为“玄戒 O3” 》 《 小米神秘折叠屏新机现身代码库:搭“玄戒 O3”芯片,有望为 MIX Fold 5 》

www.ithome.com · 2026-04-29 11:43:17+08:00 · tech

IT之家 4 月 29 日消息,国家超级计算深圳中心国产算力应用对接会暨全球样板点发布会 4 月 24 日在深圳举行,宣布国产 E 级超级计算机系统“灵晟”全面点亮并完成全机测试,目前已正式开放应用测试申请渠道。 该系统由中山大学计算机学院教授、国家超级计算深圳中心主任卢宇彤担任总设计师,软硬件全栈自主可控,完全体持续双精度浮点(FP64)运算性能超过 2EFlops(每秒 200 亿亿次)。 若这一性能指标完全兑现,将超越目前全球公开超算榜首 —— 美国劳伦斯利弗莫尔国家实验室的 El Capitan(1.809EFlops),在理论上达到世界第一水平(但理论上来说美国也不可能停止发展)。 据官方介绍,“灵晟”不曾使用任何 GPU 加速卡,完全依托国产通用 CPU 堆叠算力,软硬件全栈自主可控。 深圳市科技创新局党组成员、副局长李肖力在致辞中表示,“灵晟”国产 E 级超算系统全面点亮并完成全机测试,是我国高端计算领域全栈自主可控的标志性成果。 总设计师卢宇彤介绍称,“灵晟”是世界首台持续性能超 2 Exaflops 的超级计算机,依托国产高性能 CPU、片上高带宽内存、高速互连网络、高吞吐存储、三维浮动正交架构及全液冷散热等核心创新,实现架构、性能、能耗、编程、扩展性和可靠性六大技术突破,软硬件全栈自主可控。 该系统采用分阶段建设模式,整个系统将容纳 92 个计算机柜、36 个网络机柜,支持 E 级算力、E 级存储、P 级通信,采用全球最大规模集中式液冷技术,能效国际领先。系统总存储容量达 650PB,集成 SMT 加速器,支持 FP64、FP32、FP16、INT8 等多种混合精度计算,可满足从科学计算到 AI 模型训练的多样化需求。 “灵晟”采用自研片上多精度混合计算加速框架和面向领域的超智融合软件平台,可统一支撑科学计算、工程计算、智能计算“三算合一”,在分子动力学、流体仿真、生命科学、AI 大模型训推等大规模领域应用中均实现国际领先性能。 在成果展示环节,深圳超算联合多家科研机构及企业,公布了在遥感、材料、生物信息、气象、药物、石油勘探、人工智能、生命科学及电磁仿真九大领域的重要应用成果。 在遥感领域,团队依托“灵晟”开展大规模遥感模型训练,实现全球 8 年时序遥感影像的高倍压缩与高效重建,提升了降水预报与灾害预警精度。 材料领域,深圳超算团队研发的 XLSDFT 软件实现了 1 亿原子规模的第一性原理计算,并行扩展性达 81%,可为新能源、半导体材料研发提供跨尺度仿真能力。 在生物信息与药物研发方面,中山大学和中国药科大学团队基于“灵晟”完成十万亿级化合物虚拟筛选,结合 AI 与强化学习效率提升千倍,单日筛选量突破十万亿,支撑了个性化肿瘤疫苗及创新药的研发。 在气象领域,清华大学团队研发的地球系统模式 AP3ESMv2 在“灵晟”上实现了全球 1 公里分辨率模拟,计算成本降低 62%,并首次实现 2 小时内完成 30 天全球公里尺度预报。 在石油勘探领域,中国石油东方地球物理公司的 GeoEast 物探软件完成全栈适配优化,其核心偏移成像模块性能达到主流 GPU 方案 A100 的 1.88 倍。 在 AI 领域,清程极智针对纯 CPU 架构完成了算子开发、计算图调度等全栈优化,降低了访存开销。 在生命科学领域,北京航空航天大学团队优化了 AlphaFold2 推理流程,大幅提升蛋白质结构预测效率。 在电磁仿真领域,西安电子科技大学的 LASPCEM 软件在“灵晟”上实现了千万核级大规模并行,为高端装备研制提供了自主可控的仿真支撑。 本次大会同期发布了国家超级计算深圳中心全球样板点,该样板点集技术展示、成果转化与生态赋能于一体,采用全球最大规模集中式液冷技术,能效国际领先。

www.ithome.com · 2026-04-29 10:57:54+08:00 · tech

IT之家 4 月 29 日消息,科技媒体 Wccftech 昨日(4 月 28 日)发布博文,报道称在 Tensor G6 芯片(有望今年 8 月随 Pixel 11 系列手机登场)上, 谷歌将沿用 2021 年发布的 PowerVR CXT-48-1536 GPU。 IT之家援引博文介绍,PowerVR CXT-48-1536 GPU 可追溯到 2021 年,意味着谷歌 2026 年的旗舰芯片将使用“古董级”图形技术。 图源:Mystic_Leaks 在 CPU 架构方面,消息称 Tensor G6 将放弃前代产品的 8 核架构,转而采用 1+4+2 的 7 核架构, 其中大核将升级为最新的 ARM C1 Ultra 或 C1 Pro 核心,主频高达 4.11GHz。 消息源认为谷歌为了弥补 GPU 方面的弱势,通过增强 NPU 来弥补不足,优化 AI 工作负载。该媒体认为虽然这种“重 NPU、轻 GPU”的策略有助于控制成本,但对于追求极致游戏体验的用户而言,这可能成为明显的短板。 在安全性方面,Tensor G6 将集成全新的 Titan M3 安全协处理器。作为谷歌 Titan 系列的最新产品,该芯片将在硬件层面为用户提供更高级别的数据保护,涵盖加密密钥与生物识别信息的安全存储。 相关阅读: 《 谷歌 Pixel 11 Pro XL 手机渲染图曝光:Tensor G6 芯片、5500mAh 电池 》 《 谷歌 Pixel 11 Pro 手机被曝砍掉温度传感器,网友反馈太鸡肋 》 《 谷歌 Pixel 11 Pro 手机渲染图曝光:Tensor G6 芯片、联发科 M90 调制解调器 》 《 谷歌 Pixel 11 手机渲染图曝光:设计微调,搭载 Tensor G6 芯片 》

www.ithome.com · 2026-04-29 10:06:07+08:00 · tech

IT之家 4 月 29 日消息,科技媒体 NotebookCheck 今天(4 月 29 日)发布博文,报道称安全工程师 Andy Nguyen 发布 PS5-Linux 工具,扩展索尼 PlayStation 5 的应用边界, 将这款游戏主机转化为功能完备的 Linux 游戏 PC。 根据 GitHub 项目文档,PS5-Linux 利用虚拟机管理程序漏洞(已修复),来解锁主机硬件限制。用户在 PS5 上安装该工具后,可以将游戏主机转换为一台桌面 PC, 拥有 8 核 16 线程、主频 3.5 GHz 的 CPU,以及运行在 2.23 GHz 的 GPU。 该工具目前仅支持 PS5 “Phat”机型,且固件版本需介于 3.xx 至 4.xx 之间。其中 3.xx 部分版本不支持 M.2 存储,而 4.xx 版本则具备该支持。未来可能会适配 5.xx 固件,但因虚拟环境限制,硬件访问权限将受限。 用户需准备至少 64GB 空间的 USB 驱动器,推荐使用外置 SSD 以获得更佳性能。操作需搭配 USB 键盘鼠标与网络适配器,若想使用 DualSense 手柄,还需单独配置蓝牙接收器。 目前该方案仍存在局限。它并非双系统,无法在 PS5 系统与 Linux 间直接切换,每次进入 Linux 都需运行漏洞利用程序。此外,待机模式不可用,部分用户可能遇到 HDMI 输出问题。 IT之家附上参考地址 ps5-linux-loader

www.ithome.com · 2026-04-29 09:17:47+08:00 · tech

IT之家 4 月 29 日消息,NVIDIA(英伟达)北京时间昨晚推出了 GeForce RTX 5070 笔记本电脑 GPU 12GB 版本,模块化硬件制造商 Framework 也在官网上线了基于该新版本的显卡模块,预售价 1199 美元(IT之家注:现汇率约合 8209 元人民币)。 IT之家注意到,Framework 同时也提供原版的 RTX 5070 笔记本电脑 GPU 显卡模块,现价 699 美元(现汇率约合 4786 元人民币)。这意味着 新版的价格相较原版上涨了 71.53% 。 不过,GeForce RTX 5070 笔记本电脑 GPU 升级至 12GB 显存在中国大陆市场并不会带来显著的价格变化 ,像机械革命苍龙 18 Pro 就是两个版本当前定价一致。

www.ithome.com · 2026-04-28 21:52:52+08:00 · tech

IT之家 4 月 28 日消息,NVIDIA(英伟达)北京时间今晚正式发布了 GeForce RTX 5070 笔记本电脑 GPU 的 12GB 显存版本, 该版本将与现有的 8GB 显存版本同步销售 。 英伟达表示 GeForce RTX 显卡的市场需求持续旺盛,显存供应整体紧张,采用 24Gb (3GB) GDDR7 显存的新版本 旨在“最大限度缓解显存供应压力” 。 目前多数 GeForce RTX 50 显卡标配 16Gb (2GB) GDDR7 显存,GeForce RTX 5070 笔记本电脑 GPU 12GB 版本的加入 可为合作厂商提供额外的显存资源 ,支持设备制造商为消费者推出品类更丰富的 RTX 5070 笔记本。

www.ithome.com · 2026-04-28 17:58:21+08:00 · tech

IT之家 4 月 28 日消息,谷歌云服务部门 Google Cloud 在上周的 Google Cloud Next 大会上宣布推出由 NVIDIA(英伟达)Vera Rubin 机架级系统驱动的 A5X 裸金属实例。 IT之家注: 裸金属可理解为云上的物理服务器,资源独立,不存在虚拟化开销和性能损失。 A5X 将采用英伟达的 ConnectX-9 SuperNIC 以及谷歌最新的 Virgo Network 超大规模扩展型 AI 数据中心架构,单站点集群中可扩展至多达 8 万个 Rubin GPU,而 多站点集群中则可支持多达 96 万个 GPU ,助力客户运行超大规模的 AI 工作负载。 Google Cloud AI 和计算基础设施副总裁兼总经理 Mark Lohmeyer 表示: 在 Google Cloud,我们相信未来十年的 AI 将取决于客户在真正集成、AI 优化的基础设施堆栈上运行其要求高度严苛的工作负载能力。 通过将 Google Cloud 可扩展的基础设施和托管 AI 服务与 NVIDIA 先进的平台、系统和软件相结合,我们为客户提供了极大的灵活性,使其能够训练、调优和部署从前沿模型、开放模型到智能体和物理 AI 工作负载在内的各种场景,同时优化性能、成本和可持续性。

www.ithome.com · 2026-04-28 08:38:51+08:00 · tech

IT之家 4 月 28 日消息,中国移动自主研发的九天 35B 通用大模型将在第九届数字中国建设峰会上正式发布。摩尔线程官方昨晚宣布,其基于旗舰级 AI 训推一体全功能 GPU MTT S5000,依托成熟的 MUSA 软件栈与高性能算子优化, 已率先完成九天 35B 模型的全流程适配与推理验证 。 据介绍,本次适配中,摩尔线程基于自研 MUSA 软件栈与 SGLang-MUSA 高性能推理引擎,深度打通九天 35B 模型推理全链路。 MTT S5000 基于第四代 MUSA“平湖”架构打造, 单卡 AI 稠密算力可达 1000 TFLOPS ,支持从 FP8 到 FP64 全精度计算,匹配九天 35B 大模型在长文本处理与高并发响应方面的核心需求。 摩尔线程通过 MUSA C 开发框架、muDNN 计算库与 MATE 开源算子库的全栈优化,针对九天 35B 模型特有的注意力机制与长序列推理进行深度适配,确保模型在 MTT S5000 上高效执行。 在标准推理场景下,MTT S5000 可稳定支撑九天 35B 模型的高并发请求 。 IT之家注:MTT S5000 是专为大模型训练、推理及高性能计算而设计的全功能 GPU 智算卡,基于第四代 MUSA 架构“平湖”打造。其单卡 AI 算力最高可达 1000 TFLOPS,配备 80GB 显存,显存带宽达到 1.6TB/s,卡间互联带宽为 784GB/s,完整支持从 FP8 到 FP64 的全精度计算。

www.ithome.com · 2026-04-25 19:47:07+08:00 · tech

IT之家 4 月 25 日消息,在当今全球算力竞争白热化、AI 模型参数量不断膨胀并走向物理世界之际,传统 GPU 架构在超低延迟与高能效比上的局限性正日益凸显。 据《科创板日报》,上海中紫星技术有限公司研发了一款名为 NEU(IT之家注:Neural Execution Unit,神经执行单元)的智能原生芯片,并将于今年四季度正式流片。 据中紫星方面披露的实测数据,NEU 芯片在同等 AI 推理任务下,速度达到传统顶级 GPU 方案的近 100 倍,而能耗仅为其十分之一。 中紫星并未选择跟随英伟达的“类 GPU”生态芯片设计路径,而是另辟蹊径。NEU 以存储为中心设计,数据无需在存储与计算单元之间频繁搬运,从根本上消除了传统冯 · 诺依曼架构的数据搬运能耗与带宽瓶颈。与此同时,NEU 在硬件拓扑结构上通过芯片内部的连接方式直接表达神经元风格的连接,原生支持当下主流神经网络架构,并面向未来的细粒度非结构化稀疏模型和不规则神经元拓扑进行了效率优化,从而实现了与生物智能的结构性同构。 中紫星创始人翟四通曾主导建立了海思的整个 EDA(电子设计自动化)软件框架。在接受东方网等媒体采访时,翟四通表示,其核心团队具备深厚的技术积淀与工程实力。在创业之后,他将多年来在实验室的研究成果与工业级大规模集成的经验进行了深度融合。 翟四通表示,要实现真正的智能飞跃,必须从底层工具链到芯片架构进行彻底的重构。目前,中紫星汇聚了来自英特尔、英伟达、海思等工业界领军企业以及加拿大顶级 AI 实验室的跨学科人才,实现了从架构设计、编译器优化到物理模型训练的全体系自研。

www.ithome.com · 2026-04-24 17:24:48+08:00 · tech

IT之家 4 月 24 日消息,摩尔线程今天携手智源 FlagOS, 为旗舰级 AI 训推一体全功能 GPU MTT S5000 完成 DeepSeek-V4-Flash 模型 Day-0 适配 。 据介绍,DeepSeek-V4-Flash 模型采用混合专家(MoE)架构,总参数量达 284B,激活参数 13B,支持百万 token(词元)上下文长度。预训练数据超 32Ttoken, 在最大推理力度模式(Flash-Max)下推理能力逼近 Pro 版本 。 值得注意的是,DeepSeek-V4 模型首次采用了“FP4+FP8”混合精度策略,而国内当前主流 AI 芯片仍普遍以 BF16 为主。摩尔线程凭借原生 FP8 支持能力,可更高效承载 DeepSeek-V4 的前沿精度设计。 同时,MTT S5000 GPU 内置硬件级 FP8 Tensor Core 加速单元,相比传统 BF16/FP16 能将数据位宽直接减半,显存带宽压力降低 50%, 理论计算吞吐量实现翻倍 。 为充分发挥 MTT S5000 的 FP8 优势,FlagOS 团队为 DeepSeek-V4 模型进行 FP8 量化。通过系统级分析,双方技术团队将本次适配的攻坚重点锁定在 FP8 算子与 Sparse Attention 算子, 在“编译优化”与“自动调优”两大方向取得重大突破 。 综合IT之家此前报道,摩尔线程已多次 Day-0 即时适配国产大模型,涵盖 MiniMax M2.7 、 智谱 GLM-5 等

www.ithome.com · 2026-04-24 14:27:29+08:00 · tech

IT之家 4 月 24 日消息,集邦咨询 Trendforce 今天(4 月 24 日)发布博文,报道称在 2026 年第 1 季度财报电话会议上,英特尔首席执行官陈立武表示,伴随着 AI 工作负载重心从训练转向推理, 推动 CPU 和 GPU 之间的比例关系平衡,从 1:8 向 1:1 转变,带动 CPU 需求激增。 IT之家注:AI 推理指人工智能模型在训练完成后,利用训练好的模型处理新数据并输出结果的过程。与侧重于构建模型的“训练”阶段不同,推理阶段更强调低延迟、高效率的实时计算。在推理场景中,CPU 在任务编排、数据管理和控制调度方面相比 GPU 具有独特优势,正成为算力架构中的关键一环。 陈立武指出随着 AI 工作负载从训练转向推理,CPU 的重要性显著提升, CPU 与 GPU 的配比已从过去的 1:8 收紧至约 1:4,未来有望趋向 1:1 的平衡,甚至可能进一步向 CPU 倾斜。 英特尔首席财务官大卫 · 辛斯纳(David Zinsner)补充道,训练负载通常需要 7 至 8 个 GPU 配合 1 个 CPU,而推理负载则收紧至 3 至 4 个 GPU 配合 1 个 CPU。 行业数据显示,AI 智能体时代每吉瓦所需的 CPU 核心数可能从 3000 万激增至 1.2 亿,增长 4 倍。受此趋势推动,英特尔第一季度数据中心与 AI 部门营收同比增长 22%,达到 51 亿美元。 图源:@EconomyApp 代工业务方面,英特尔仍在努力实现盈利。第一季度公司每股亏损 73 美分,主要受超过 40 亿美元的重组费用拖累。经调整后,每股盈利 29 美分,远超预期。 代工业务营收同比增长 16%,达 54 亿美元,运营亏损为 24 亿美元,但较上季度收窄 7200 万美元。辛斯纳表示,马来西亚槟城的产能扩张将支持已承诺的需求,预计从 2027 年开始转化为营收。

www.ithome.com · 2026-04-23 16:32:50+08:00 · tech

IT之家 4 月 23 日消息,GPU 市场新参与者 Bolt Graphics 美国加州当地时间 22 日宣布成功以台积电 12FFC 制程工艺对其 Zeus GPU 测试芯片进行了流片(IT之家注:该架构还可扩展至 5nm),目标 2027Q4 量产。 Bolt Graphics 称其 Zeus 计算平台专注于系统层面的成本效益,实现了计算经济性的质变飞跃,从数据角度其在 HPC、渲染、计算密集型应用上 可将成本降低至现有解决方案的 1/17 。 可以看到 ZEUS GPU 内嵌高性能 CPU 核心,采用 LPDDR5X + DDR5 两级可扩展片外缓存架构,配备双 PCIe Gen5 ×16、HDMI、DisplayPort、400GbE QSFP-DD 等一系列 I/O 端口。 相关阅读: 《 初创公司 Bolt Graphics 入局 GPU:采用 RISC-V 与自研架构,宣称其路径追踪性能 2.5 倍于英伟达 RTX 5090 》

www.ithome.com · 2026-04-23 15:17:14+08:00 · tech

IT之家 4 月 23 日消息,路透社 4 月 23 日(今天)下午爆料称,SpaceX 可能正准备啃下芯片产业里最难的一块骨头之一: 自己制造支撑 AI 运算的核心芯片 ——GPU 。 随着估值 1.75 万亿美元(IT之家注:现汇率约合 11.97 万亿元人民币)的 IPO 逐渐推进,SpaceX 已经提前向潜在投资者打了招呼,说明 SpaceX 接下来 会在 AI 和其他技术上投入巨额资金 。 路透社查阅到的 S-1 注册文件摘录显示,SpaceX 已经把“ 自研并制造 GPU ”列入重大资本开支项目。企业在上市前,通常都会向美国证券交易委员会提交这份文件,披露自身面临的风险和财务情况。 SpaceX、旗下 xAI 以及特斯拉,眼下正在联合推进一个名为 Terafab 的先进 AI 芯片制造园区,地点就设在得克萨斯州奥斯汀,这也是马斯克亲自推动的项目。 马斯克此前提到,Terafab 将瞄准 汽车、人形机器人和太空数据中心所需芯片 ,但很多关键信息至今仍不明朗,比如这座园区究竟会生产哪些 AI 芯片,GPU 是否就是其中之一。 马斯克已经告诉特斯拉分析师,等 Terafab 真正进入大规模扩产阶段时,英特尔下一代 14A 制造工艺“很可能已经相当成熟,或者已经具备大规模应用条件”,而且“看起来是正确的选择”。 报道特别指出,SpaceX 在文件里提到 GPU 时, 到底是特指图形处理器,还是把这个词当成 AI 处理器的统称,目前也难以定夺 。 SpaceX 在 S-1 注册文件中写道,公司并未和大量直接芯片供应商签下长期合同。“我们预计,未来仍会从第三方供应商采购相当一部分计算硬件。同时,我们无法保证自己一定能在预期时间内实现 TERAFAB 相关目标,甚至无法保证这些目标最终一定能够实现。”

www.ithome.com · 2026-04-23 09:55:44+08:00 · tech

IT之家 4 月 23 日消息,4 月 20 日,象帝先计算技术(重庆)有限公司(以下简称“象帝先”)宣布与 中信建投证券股份有限公司 (以下简称“中信建投证券”)正式签署财务顾问协议,全面启动上市前各项准备工作。 IT之家从官方介绍获悉,双方将围绕公司治理优化、财务规范、内部控制、信息披露等维度展开系统化梳理与建设,助推象帝先完成后续 IPO 申报。此外,2022 年 9 月象帝先 B 轮融资中, 中信建投证券作为投资机构完成入股 。这为双方建立互信、加深合作,有助于更好完成上市辅导工作。 象帝先自 2020 年成立以来,始终将研发出通用、好用的高性能国产 GPU 视为使命,致力于推动中国在 GPU / IP 领域从“被动跟随”转向“主动定义”,深度参与我国全产业链和信息安全的关键战役。目前,象帝先已完成天钧一号(Pangu)、二号(Pangu)、三号(Fuxi) 三款 GPU 芯片的研发量产 ,打造出覆盖服务器、工作站、PC、嵌入式等各类应用场景的显卡产品,并且具备完全自主知识产权。“天钧系列”三代产品均已实现批量交付,硬件性能、可靠性以及软件生态的兼容性通过大量客户的场景验证。 在高端产品布局方面, 基于新一代“伏羲”架构的 GPU 芯片已完成量产 。其中伏羲 A0 专注填补国产高端渲染产品的空白,完整支持 OpenGL 4.6、OpenGL ES 3.2、Vulkan 1.3 等最新图形 API,综合性能表现达到国际主流、国内领先的水平。伏羲 B0 则是一款专为边缘计算设计的高性能、低功耗 GPU,定位于为自主机器人和边缘计算设备提供人工智能解决方案,应用于机器人、AIPC、工业检测、智能监控等领域。在满足图形渲染场景要求的同时,提供强大的端侧推理能力。

www.ithome.com · 2026-04-22 09:27:35+08:00 · tech

IT之家 4 月 22 日消息,Framework 在 2023 年发布了可通过扩展托架外壳 (Expansion Bay Shell) 加装独立显卡、双 M.2 盘位适配器的 Framework Laptop 16 笔记本电脑,而这些功能的背后是该机型在顶部提供的 PCIe Gen4 ×8 DGFF 接口。 而在北京时间今日,该企业宣布为 Framework Laptop 16 提供第一方 OCuLink 开发套件, 可将 PCIe Gen4 ×8 DGFF 转换为标准的 OCuLink 8i 接口 ,外接高速 PCIe 外设(如外置显卡)时无需承担借助雷电等协议产生的性能损失。Framework Laptop 16 也因此成为首款可提供 OCuLink 8i 的笔记本电脑。 这款开发套件包括 OCuLink 适配器板、图形模块 OCuLink 底座、PCIe OCuLink 扩展坞,方便用户加装各种扩展卡、复用现有 Framework 独立显卡模块。 Framework 此次还为 Laptop 16 推出了多款升级模块,包括单片式触觉触控板、美式英文版单片式键盘;并提供新的半透明烟灰色边框和 AMD 锐龙 5 340 处理器选项。