推理 - WWW.KEGFUUK.CN - WWW.KEGFUUK.CN

www.ithome.com · 2026-05-04 19:40:42+08:00 · tech

IT之家 5 月 4 日消息，据外媒 The Information 报道， Anthropic 看上了英国芯片初创企业 Fractile 的推理芯片，有意将其作为 NVIDIA（英伟达）GPU、Amazon（亚马逊）Trainium、Google（谷歌）TPU 外的第四类 AI 算力资源，目标 2027 年实现部署。相关谈判仍处于早期阶段。 IT之家了解到， Fractile 的芯片采用了不同于现有主流 AI XPU 的“模拟内存计算”架构，宣称运行头部模型时可实现 25 倍的速度、1/10 的成本。该企业此前得到了前 Intel（英特尔）首席执行官 Pat Gelsinger（帕特 · 基辛格）的投资。

苹果发布 AI 框架 LaDiR：突破单一思维，并行探索多条推理路径

www.ithome.com · 2026-04-30 07:41:02+08:00 · tech

IT之家 4 月 30 日消息，苹果公司携手加州大学圣迭戈分校团队，在新版论文《LaDiR：潜在扩散增强 LLM 文本推理》中提出新框架，让大语言模型（LLM）在回答前并行探索多条推理路径，再用自回归方式输出提高结果质量。 IT之家援引博文介绍，该框架并非新模型，而是叠加在现有模型之上的通用框架，重点改变模型思考问题的方式。LaDiR 结合扩散（Diffusion）和自回归（Autoregression）两种主流生成范式，在推理阶段采用扩散模型，在最终输出阶段使用自回归模型。这种混合架构有效提升了模型处理复杂问题的能力，既保留了扩散模型并行处理的优势，又延续了自回归模型生成的连贯性。 LaDiR 的独特之处在于其并行推理机制。系统在推理时会同时启动多条独立的推理路径，每条路径从随机噪声开始，通过扩散过程逐步优化成连贯的推理步骤。为防止所有路径过早收敛于同一结论，框架引入了特殊的多样性鼓励机制，确保每条路径能探索不同的解题思路，从而生成多样化的候选答案池。研究团队在 Meta 的 LLaMA 3.1 8B 和 Qwen3-8B-Base 上部署测试。在数学基准测试中，LaDiR 取得了比现有方法更高的准确率，在面对更困难的分布外任务时表现尤为突出。在代码生成测试 HumanEval 中，该框架生成的代码更加可靠，在难题上的表现明显优于标准微调方法。在谜题规划任务中，LaDiR 能探索更广泛的解空间，找到正确解的概率高于所有通用基准模型。不过，在单次尝试准确率上，它仍略逊于专门针对特定任务优化的专用模型。这表明通用框架在追求广泛适用性的同时，在极致专精领域仍有提升空间。 IT之家附上参考地址 LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

2025 年我国用于人工智能训练和推理的数据总量达 199.48EB，同比增长 42.86%

www.ithome.com · 2026-04-29 13:02:24+08:00 · tech

IT之家 4 月 29 日消息，国家数据局数据显示，2025 年，我国用于人工智能训练和推理的数据总量为 199.48EB（Exabyte，艾字节 | 1EB=1024PB=1,048,576TB），同比增长 42.86%，推理数据量首超训练数据量，达 101.34EB。另外， 2025 年我国系统软件、人工智能产生的数据量达 26.92ZB （ZettaByte，泽字节 | 1ZB=1024EB），首次超过传统占主体地位的物联感知数据量。经测算，未来推理算力需求与训练算力需求之比或将达到 3:1，甚至更高水平。下一步国家数据局将针对低时延、高可靠、高安全的城市算力需求场景，合理布局城市算力。据IT之家今日早些时候报道，数据显示，2025 年，全国日均词元调用量从年初的超万亿增长到年末的 100 万亿，呈现指数级增长；全年词元累计调用量达到约 21100 万亿。

英特尔“库存”CPU 因 AI 推理需求意外售罄，带动股价创历史新高

www.ithome.com · 2026-04-25 10:42:24+08:00 · tech

IT之家 4 月 25 日消息，据路透社 4 月 24 日报道，今年第一季度，AI 服务企业对英特尔 CPU 的需求异常强劲，甚至连英特尔把原本已经减记的芯片也卖掉了。这一反转相当罕见，也直接推高了英特尔周五的股价。英特尔早盘一度大涨超过 24% ，股价升至 83 美元（IT之家注：现汇率约合 568.3 元人民币），不仅突破 2000 年互联网泡沫时期高点，也把市值推高到 4160 亿美元（现汇率约合 2.85 万亿元人民币）以上。市场情绪也带动了 AMD 和 Arm，两家公司上涨均超过 11%。投资者越来越相信，AI 推理可能会让 CPU 重新站回产业中心。过去几年，AI 训练所需的图形芯片一直是市场主角，CPU 的光芒相对较弱。长期主导 AI 热潮的图形芯片巨头英伟达也已经感受到风向变化，并开始为更激烈的竞争做准备。英伟达上月罕见发布了一款新的 CPU ，进入了一个长期由竞争对手占据的市场。英特尔第一季度业绩好于预期，销售展望也超过市场预估后，至少 23 家券商上调了目标价。汇丰特别提到，用于 AI 数据中心的英特尔 Xeon（至强）服务器 CPU 需求正在升温。目前，英特尔股票目标价中值为 75 美元，一个月前只有 46.50 美元。英特尔首席财务官戴维 · 辛斯纳称，这次展望上调部分来自涨价，同时第一季度供应紧张，英特尔只得动用成品库存，把一些原本没指望卖出去的芯片重新卖给客户。“ 要么是降规格产品，要么是我们已经搁置的旧产品，后来我们又和客户一起想办法。我不确定第二季度还能不能继续享受到这个好处。” 算上周五涨幅，英特尔今年以来股价已上涨超过 120% 。在此之前，英特尔去年已经上涨约 84%。经历多年失误后，英特尔在 CEO 陈立武领导下，转型势头正在增强。英特尔目前估值约为未来 12 个月预期利润的 90 倍，创下有记录以来最高水平，也明显高于 AMD 的 37 倍和英伟达的 22 倍。本周早些时候，英特尔的代工业务也迎来象征性进展。特斯拉已成为英特尔下一代 14A 制程客户，这一合作与埃隆 · 马斯克计划中的 Terafab AI 芯片综合体有关。 TECHnalysis Research 总裁兼首席分析师鲍勃 · 奥唐奈尔说：“如果代工业务能像预期那样在 2027 年开始真正作出贡献，那就足以说明英特尔已经完成转型。” 相关阅读：《陈立武：AI 推理趋势利好英特尔，CPU 与 GPU 配比从 1:8 迈向 1:1 》

阶跃星辰发布 StepAudio 2.5 ASR 自动语音识别模型：推理速度提升 400%，定价骤减 90%

www.ithome.com · 2026-04-24 21:19:21+08:00 · tech

IT之家 4 月 24 日消息，阶跃星辰今日宣布推出新一代自动语音识别模型 StepAudio 2.5 ASR。该模型的核心突破在于率先将大语言模型的推理加速技术引入语音识别领域，在推理速度与转写精度两个维度均有显著提升，主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。传统语音识别模型受限于自回归生成机制，需要逐个 Token 依次输出，效率较低。StepAudio 2.5 ASR 采用 ASR+MTP-5 深度融合架构，将此前应用在 Step 3.5 Flash 大模型上的 MTP（IT之家注：多 Token 预测）技术移植至语音识别领域。该技术使模型能够一次预测多个候选 Token，并通过并行验证机制快速确认结果，打破了传统自回归机制逐个输出的效率瓶颈。实测数据显示，模型推理速度提升 400%、时延降低 60%，推理峰值达 500 tokens/s，推理成本直降 80%。以 5 分钟左右的音视频为例，几乎可以实现即时转写。在转写精度方面，StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上，综合转写精度达到业内 SOTA 水准。在 LibriSpeech 等中英文 10 个权威开源测试集上的综合错误率均低于竞品。针对长音频处理这一语音识别领域的长期痛点，行业内通常依赖“切片-转写-拼接”方案，即把音频切成若干小段分别识别再合并，但这种方式容易造成上下文信息割裂 —— 模型在转写后半段内容时，可能已经“忘记”了开头信息。StepAudio 2.5 ASR 复用了大语言模型原生的 32K 上下文窗口能力，支持端到端一次性读入最长 30 分钟的连续音频，无需分段切割。在 30 分钟满载输入测试中，模型没有出现随时间推移精度衰减的情况。定价方面，StepAudio 2.5 ASR 仅为 0.15 元 / 小时，约为此前 Step ASR 2 的十分之一。目前，该模型已全量上线阶跃星辰开放平台和 Step Plan，开发者可通过官网体验使用。相关阅读：《人人都能是配音导演，阶跃星辰发布语音生成模型 StepAudio 2.5 TTS 》参考资料：阶跃星辰开放平台： https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr Step Plan： https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api 体验中心： https://www.stepfun.com/studio/audio ?tab=speech-recognition Demo Page： https://stepaudiollm.github.io/step-audio-2.5-asr/ Model Card： https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/

蚂蚁百灵万亿旗舰模型 Ling-2.6-1T 发布：主打“快思考”，对标 GPT-5.4 非推理版

www.ithome.com · 2026-04-24 21:11:46+08:00 · tech

IT之家 4 月 24 日消息，蚂蚁集团旗下百灵大模型团队正式发布面向即时任务执行的万亿级综合旗舰模型 ——Ling-2.6-1T。 Ling-2.6-1T 采用了 MLA（Multi-head Latent Attention）与 LinearAttention 的混合架构设计，核心思路是摒弃行业内普遍追求的“慢思考”多步推理模式，转而以“快思考”机制实现高效推断，仅凭极低的 Token 开销直达结果，从而显著压缩输出成本和推理延迟。这一技术路线在万亿参数量级的大模型中较为罕见，也标志着蚂蚁百灵在模型效率与智能能力之间寻求了一种新的平衡。据官方介绍，此前的旗舰模型 Ling-1T 便已在受限输出 Token 条件下于多项复杂推理榜单上达到 SOTA 水平，而 Ling-2.6-1T 则在此基础上进一步强化了效率维度的突破。在性能表现方面，Ling-2.6-1T 的能力提升相比早期旗舰 Ling-1T 实现了全方位的跃迁。根据 Artificial Analysis 的评测数据，其综合智能水平已与 GPT-5.4（非推理模式）处于同一档次。在具体基准测试中，该模型在高难度推理任务 AIME2026 上显著领先于其他非思考型模型，展现出强劲的瞬时复杂问题求解能力。在 Agent 执行能力方面，Ling-2.6-1T 在 SWE‑bench Verified、TAU2‑Bench、BFCL‑V4 等多个主流榜单中位居前列，无论是从代码生成到缺陷修复的完整工程流，还是复杂 API 协同调用，均能稳定胜任。此外，该模型支持 256K 超长上下文，并在指令遵循测试 IFBench 中表现优异，可确保在多重约束条件下的执行准确率与逻辑一致性。 Ling-2.6-1T 目前已在上线之初同步提供 API 服务，开发者可通过官方平台或 OpenRouter 直接调用，Ling-2.6-1T 与当前主流 Agent 框架保持高度兼容，适用于需要稳定执行的复杂场景。 IT之家注：百灵团队还透露该模型将于近期正式开源，届时开发者可进一步基于其进行本地部署与二次开发。随着 Ling-2.6-1T 的发布，蚂蚁百灵的模型产品矩阵进一步清晰。除该款万亿级非推理旗舰模型外，其 Ling 系列还包含 Ling‑Lite、Ling‑Plus 等不同规模版本，并与 Ring 系列长思考模型、Ming 系列多模态模型协同布局，覆盖从轻量部署到综合旗舰的多层次需求。蚂蚁集团宣布，为方便开发者快速体验，现已在 OpenRouter 与官方平台同步提供一周免费 API 调用。相关阅读：《蚂蚁集团百灵大模型 Ling-2.6-flash 发布，匿名上线一周日均 tokens 调用达 100B 级》

陈立武：AI 推理趋势利好英特尔，CPU 与 GPU 配比从 1:8 迈向 1:1

www.ithome.com · 2026-04-24 14:27:29+08:00 · tech

IT之家 4 月 24 日消息，集邦咨询 Trendforce 今天（4 月 24 日）发布博文，报道称在 2026 年第 1 季度财报电话会议上，英特尔首席执行官陈立武表示，伴随着 AI 工作负载重心从训练转向推理，推动 CPU 和 GPU 之间的比例关系平衡，从 1:8 向 1:1 转变，带动 CPU 需求激增。 IT之家注：AI 推理指人工智能模型在训练完成后，利用训练好的模型处理新数据并输出结果的过程。与侧重于构建模型的“训练”阶段不同，推理阶段更强调低延迟、高效率的实时计算。在推理场景中，CPU 在任务编排、数据管理和控制调度方面相比 GPU 具有独特优势，正成为算力架构中的关键一环。陈立武指出随着 AI 工作负载从训练转向推理，CPU 的重要性显著提升， CPU 与 GPU 的配比已从过去的 1:8 收紧至约 1:4，未来有望趋向 1:1 的平衡，甚至可能进一步向 CPU 倾斜。英特尔首席财务官大卫 · 辛斯纳（David Zinsner）补充道，训练负载通常需要 7 至 8 个 GPU 配合 1 个 CPU，而推理负载则收紧至 3 至 4 个 GPU 配合 1 个 CPU。行业数据显示，AI 智能体时代每吉瓦所需的 CPU 核心数可能从 3000 万激增至 1.2 亿，增长 4 倍。受此趋势推动，英特尔第一季度数据中心与 AI 部门营收同比增长 22%，达到 51 亿美元。图源：@EconomyApp 代工业务方面，英特尔仍在努力实现盈利。第一季度公司每股亏损 73 美分，主要受超过 40 亿美元的重组费用拖累。经调整后，每股盈利 29 美分，远超预期。代工业务营收同比增长 16%，达 54 亿美元，运营亏损为 24 亿美元，但较上季度收窄 7200 万美元。辛斯纳表示，马来西亚槟城的产能扩张将支持已承诺的需求，预计从 2027 年开始转化为营收。

谷歌推出 TPU 8t / 8i，两款 AI 芯片分别面向训练和智能体推理

www.ithome.com · 2026-04-22 21:26:56+08:00 · tech

IT之家 4 月 22 日消息，谷歌在当地时间今日举行的 Google Cloud Next 大会上宣布推出两款定制 AI ASIC 芯片，分别是为推理优化的 TPU 8t 和面向智能体推理工作负载的 TPU 8i ，两款芯片也有承担对方优势任务的能力。 TPU 8t 在处理大规模、计算密集型的训练工作负载时表现出色，其设计具备更高的计算吞吐量和更强的纵向扩展带宽。TPU 8i 则配备了更高的内存带宽，专为处理对延迟最为敏感的推理工作负载而设计。 TPU 8t 的 Pod 规模从此前的 9216 颗进一步增加至 9600 颗，但总 FP4 算力规模提升则接近 2 倍。其单芯片横向扩展 (Scale-out) 带宽从 100Gbps 显著增长至 400Gbps，这化解了大规模互联中的瓶颈。 TPU 8i 则拥有 CAE 片上加速引擎，配备 384MB 片上 SRAM 和 288GB 片外 HBM，运行时的数据无需存取。其 Pod 规模从上代的 256 颗显著提升至 1152 颗，每 Pod 的 FP8 算力和 HBM 内存容量分别提升 8.67 倍和 5.74 倍。谷歌表示， TPU 8t 和 TPU 8i 的能效是上一代 TPU Ironwood 的两倍。

消息称谷歌本周发布 TPUv8 系列 AI 芯片：博通版专注高性能训练、联发科版主打高性价比推理

www.ithome.com · 2026-04-21 08:59:49+08:00 · tech

IT之家 4 月 21 日消息，科技媒体 Wccftech 昨日（4 月 20 日）发布博文，报道称在 TPUv8 战略上，谷歌针对不同 AI 场景，推行“双芯片”策略：其中 TPUv8t 由博通设计，专注高性能训练；TPUv8i 由联发科设计，主打高性价比推理。谷歌即将在 Cloud Next 活动上发布 TPUv8 系列 AI 芯片，该系列包含两款独立产品，分别针对 AI 计算的不同环节进行优化。消息称 TPUv8t 代号“Sunfish”，定位高性能训练加速器，由博通负责设计；TPUv8i 代号“Zebrafish”，定位高性价比推理加速器，由联发科操刀。 TPUv8 系列将紧密集成谷歌基于 Neoverse N3 架构的 Axion Arm CPU，进一步优化数据中心内部的数据流转效率。新芯片将全面取代 2025 年推出的 TPUv7“Ironwood”系列。IT之家援引博文介绍，此前传闻参与合作的 Marvell 并未出现在此次设计名单中，这可能意味着谷歌调整了合作伙伴策略，或为后续“后 TPUv8”产品预留了技术路线。

消息称国产推理 GPU 企业曦望完成超 10 亿元融资，估值超百亿成独角兽

www.ithome.com · 2026-04-20 17:16:49+08:00 · tech

IT之家 4 月 20 日消息，据界面新闻今天报道，国产全栈自研 AI 推理 GPU 企业曦望（Sunrise）完成新一轮超 10 亿元融资。据报道，本轮融资由多家产业方战投、地方国资及头部财务机构共同参与。这是 2026 年 AI 推理落地潮以来，国内 GPU 赛道最大单笔融资之一。本轮融资资金将主要用于新一代 S3 推理 GPU 的规模化量产交付、全栈软件生态建设，以及 S4/S5 后续芯片的研发迭代。同时，曦望分拆独立一年多以来融资七轮、总额约 40 亿元，估值超百亿，为首家纯推理 GPU 独角兽（指成立时间在 10 年以内、估值超过 10 亿美元，且尚未在股票市场公开上市的初创科技公司）。 IT之家注：曦望是国产全栈自研人工智能算力芯片企业，前身是商汤大芯片部门，2024 年底分拆独立运营，专注于高性能 GPU 及多模态场景推理芯片的研发与商业化。

英特尔被曝将推出工作站版 "Crescent Island" AI 推理优化 GPU

www.ithome.com · 2026-04-16 09:23:33+08:00 · tech

IT之家 4 月 16 日消息，消息人士 @jaykihn0 昨日爆料称，英特尔将为其 AI 推理优化 GPU "Crescent Island" 推出工作站版本。英特尔在 2025 年 10 月宣布将推出面向数据中心的 "Crescent Island" AI 加速器。其采用 Xe3P 微架构，支持广泛数据类型，配套 160GB LPDDR5X 内存（显存），针对能效优化，面向 Token aaS 应用场景。英特尔如果要在原版 "Crescent Island" 的基础上推出面向工作站平台的变体，可能会调整板卡外形规格、降低功耗、削减内存容量、“阉割”核心规模。此外 @jaykihn0 表示，其尚未得到有关 Xe3P 独立游戏显卡的消息。

英伟达推出Nemotron 3 Nano Omni模型

36kr.com · None · tech

当地时间4月28日，英伟达在公司博客宣布，推出名为Nemotron 3 Nano Omni的开源全模态推理模型，旨在为企业级AI Agent提供一体化基础模型底座。英伟达介绍，这款模型融合了视觉、音频与语言能力，将帮助AI智能体实现高达9倍的效率提升。（界面）

“曦望”完成新一轮超10亿元人民币融资

36kr.com · None · tech

36氪获悉，国内全栈自研AI推理GPU企业“曦望（Sunrise）”宣布完成新一轮超10亿元人民币融资。至此，分拆独立仅一年多的曦望已累计完成七轮融资，总融资额约40亿元，成为国内首家估值超百亿的纯推理GPU独角兽。本轮融资资金将主要用于新一代S3推理GPU的规模化量产交付、全栈软件生态建设，以及S4/S5后续芯片的研发迭代。

中信建投：关注推理算力和商业航天发展机遇

36kr.com · None · tech

36氪获悉，中信建投证券研报称，AI算力与商业航天迎来产业加速期。算力端，应用演进深刻重构基础设施：Agent推动计算负载从GPU密集到CPU密集，数据中心CPU与GPU配比有望大幅提升；AI算力需求爆发叠加内存涨价以及产能紧张等因素，共同推动今年以来的服务器CPU缺货及涨价；大模型推理降本诉求则驱动巨头加速布局ASIC，行业走向GPU+ASIC的异构协同。航天端，以2026航天日为契机，随着多型可重复使用火箭迎来密集验证，运力供给的提升将全面加速卫星互联网组网，推动商业航天迈入高质量发展阶段。

中信建投：关注推理算力和商业航天发展机遇

36kr.com · None · tech

36氪获悉，中信建投研报指出，AI算力与商业航天迎来产业加速期。算力端，应用演进深刻重构基础设施：Agent推动计算负载从GPU密集到CPU密集，数据中心CPU与GPU配比有望大幅提升；AI算力需求爆发叠加内存涨价以及产能紧张等因素，共同推动今年以来的服务器CPU缺货及涨价；大模型推理降本诉求则驱动巨头加速布局ASIC，行业走向GPU+ASIC的异构协同。航天端，以2026航天日为契机，随着多型可重复使用火箭迎来密集验证，运力供给的提升将全面加速卫星互联网组网，推动商业航天迈入高质量发展阶段。

36氪首发 | “华为天才少年”创业连融超4亿元，做新一代推理芯片重构显存成本

36kr.com · None · tech

作者 | 乔钰杰编辑 | 袁斯来硬氪获悉，国内全自研GPGPU创新企业「北京行云集成电路有限公司」（以下简称“行云”）宣布连续完成Pre-A及Pre-A+多轮融资，融资金额超4亿元人民币。五源资本、赛富投资基金、春华资本联合领投，以及北京、江苏等地方国资、佰维存储（688525）、金沙江联合带动知名GPU企业创始人家办、创维资本等产业资本跟投。云岫资本连续多轮服务并担任下一轮独家融资财务顾问。北京行云集成电路有限公司成立于2023年8月，专注针对大模型的新一代推理芯片，致力于使用非3D DRAM架构打造超大显存规格、CUDA兼容的全自研GPGPU产品，推动AI大模型推理的普惠化。行云创始人季宇博士，清华大学计算机系博士，“华为天才少年”计划的一员，曾在华为海思深度参与昇腾AI芯片的编译器与架构研发。CTO余洪敏博士，中科院半导体所博士，曾主导百度昆仑芯、海思昇腾等多款芯片的研发与量产，拥有十余款芯片成功流片经验。当前，在大模型架构持续演进的背景下，算力系统的瓶颈正在发生结构性变化。季宇在接受硬氪采访时表示，当前算法侧的演进正在重塑硬件设计逻辑。以MoE（Mixture of Experts）为代表的稀疏模型，在计算效率上更具优势，但需要预先加载更多专家参数，使得整体对内存容量的需求显著高于传统Transformer稠密模型。大模型（千亿/万亿参数）的显存需求已从GB级跃升至TB级，这一过程中，系统成本结构也随之重构——按GB计价的显存成本，正逐步超过算力芯片本身，成为主导项。因此，“降本的关键已经不在算力，而在显存”季宇称。基于这一判断，行云选择了一条与主流路径不同的技术路线：放弃成本高昂的HBM（高带宽内存），转而采用LPDDR乃至NAND（SSD颗粒）等更低成本的存储介质作为显存介质。通过介质替换，使显存成本降低1到2个数量级。但低成本介质也意味着单颗粒带宽较低。为弥补这一短板，行云在架构上采用多颗粒、多通道并行的设计，通过规模化堆叠将整体带宽提升至TB级别，以满足大模型推理对数据吞吐的需求。季宇表示，随着稀疏化和MoE架构的发展，模型对带宽的绝对需求正在下降，系统设计不再需要一味追求极致带宽，而是可以通过软硬件协同，实现成本与效率之间的平衡。这种思路也体现在行云的整体技术策略中。季宇强调，公司真正的稀缺性并不在单一芯片指标，而在于系统级的设计能力。通过诸如Prefill/Decode分离（PD分离）、KV Cache稀疏化等工程手段，行云能够更灵活地适配AI应用形态的快速变化，从早期的Chatbot到当前逐步兴起的Agent场景，降低因芯片研发周期较长所带来的技术滞后风险。产品验证层面，行云此前推出的“褐蚁一体机”，已尝试用CPU与通用内存构建低成本推理方案，验证稀疏模型在非高端硬件上的可行性。目前，该方案已在DeepSeek的本地化部署场景中落地。（图源/企业）接下来，公司将把重心转向自研芯片的推进。季宇表示，公司今年的核心目标是完成芯片流片，并尽快推向市场，以芯片产品作为商业化的主要抓手。当下，Open Claw的现象级传播也揭示了市场对消费级硬件承载高质量AI的巨大需求。季宇表示，行云希望通过其芯片产品，将低成本、高质量的万亿级模型算力真正落地到如龙虾机等端侧设备，突破当前端侧仅能运行100B小模型的局限，为消费电子市场打开新的想象空间。 CTO余洪敏表示，行云的设计优先级已从追求单芯片极致性能，转变为从板级系统角度追求可扩展性与供应链稳定性。通过分布式设计和采用成熟工艺与低成本存储，在系统层面实现成本最优与性能体验一致，这是公司实现算力普惠的重要基础。投资方观点峰瑞资本副总裁李罡表示：作为天使轮投资人，行云团队从23年创业开始，对AI芯片（特别是大模型环境下的AI芯片）有着极为前瞻的视角和思路。在近三年的模型和应用的快速变化中，我们看到行云针对下一代通用大模型的芯片方案和前瞻的设计思想，不断得到验证，始终领先时代半步。五源资本表示：行云是AI芯片领域少有的‘第一性原理’思考者，季宇博士24年就前瞻性地洞察到MoE稀疏架构下硬件瓶颈从算力向显存迁移的结构性转变——放弃HBM、以LPDDR乃至NAND重构显存成本，不是渐进优化，而是通过系统级的软硬件协同设计能力推动行业范式创新。2026年以来随着AI模型coding和agent能力持续增强，AI推理需求爆发，OpenClaw等Agent的现象级破圈，正在将推理算力需求从云端拉向多端，从程序员推向大众，高效低成本的推理能力成为行业刚需。伴随未来推理需求的指数级增长，行云的技术路径将成为推动算力普惠的重要基础设施。赛富投资基金负责科技赛道的管理合伙人蒋驰华表示：在AI大模型向万亿参数演进的过程中，降本的关键已经不在算力，而在显存和系统的架构，特别是在国产算力受限的前提下。季宇和行云团队展现出了罕见的系统级工程视野，他们跳出了盲目堆砌HBM的行业定式，通过LPDDR/NAND等介质替换与并行架构设计，将显存和系统成本打下来一到两个数量级，进而实现单Token成本极值，符合行业演进的方向。我们始终聚焦AI与具身智能领域的底层颠覆者。行云兼具前瞻的架构创新与扎实的落地能力，赛富很荣幸能在这一轮重仓支持。我们期待行云的新一代推理芯片彻底重构算力成本模型，真正实现大模型推理在云端与端侧的全面普惠。春华资本表示：在国产算力生态加速构建的大背景下。行云敏锐地将设计重心锚定在显存成本重构上，以LPDDR与NAND替代HBM、通过多通道并行架构弥补单颗粒带宽不足，本质上是在重新定义推理芯片的成本架构。季宇博士对AI芯片架构的演进方向有着超越行业惯性的深度思考，他对‘降本关键在显存而非算力’的判断，始终领先行业共识半步，且每一步都在被市场持续验证；余洪敏博士作为从海思昇腾到百度昆仑芯一路走来的芯片老兵，对芯片从设计到量产的每一个环节都有实战积累。这种‘敢想’与‘能做’的结合，让行云具备了从架构创新到产品交付的完整闭环能力。我们期待行云的首颗自研芯片顺利流片，开启AI推理算力的新一轮成本革命。佰维存储科技股份有限公司副总经理王灿：在大模型从通用AI向Agent形态演进的发展阶段，季宇博士展现了极具前瞻性的系统级洞察。他精准地识别出：大模型推理的结构性瓶颈已不再仅仅是算力本身，而是制约规模化落地的更低成本的存储。行云的核心逻辑非常清晰——通过介质替换与架构创新，以低成本的LPDDR乃至NAND介质挑战昂贵的HBM霸权，这不仅是物理介质的更迭，更是对大模型推理成本结构的底层重构。围绕这一核心路径，行云构建了极致的软硬件协同设计，通过PD分离、分布式扩展等手段，在系统层面实现了性能与成本的平衡。芯片行业，工程经验决定了从‘实验室架构’到‘商业化量产’的跨度。行云团队在昇腾、昆仑芯等顶尖项目上积淀的深厚流片与量产经验，是其确定性的来源。在AI Agent爆发的当下，我坚信行云能够真正击穿算力成本，让高质量的万亿级模型实现真正的算力普惠。

/tag/推理