WWW.KEGFUUK.CN
标签聚合 周鑫雨

/tag/周鑫雨

36kr.com · None · tech

文|周鑫雨 编辑|杨轩 规模化落地,今年的具身公司都在谈这个。 数字竞速,不约而同出现在具身公司的产线、招股书、出货量上——2026年4月以来,智元机器人宣布第1万台机器人量产下线,5000到10000,只用了三个多月;宇树科技的IPO招股书也摊开了激进商业化的一角:2025年营收17.07亿元,出货量超过5500台。 激进的数字背后,是“低价、高性能”的中国机器人在全球的扩张。宇树科技创始人王兴兴曾在2025年世界机器人大会上提到,过去几年,宇树的海外营收一直占总营收的50%以上。 在这些具身玩家中,魔法原子MagicLab近期提出了一个相当激进的营收目标: 2036年,要实现140亿美元的营收规模。 在全球范围内打响品牌,也让这家公司,将发布会开进了硅谷。美西时间2026年4月28日,在云集Adobe、TikTok、IBM等公司的圣何塞,魔法原子发起了全球具身智能创新大会(GEIS)。 魔法原子机器人MagicBot Z1现场给张艺兴表演。作者拍摄 在会上,魔法原子发布了从底层模型本体的一系列新产品: 世界模型Magic-Mix :魔法原子自研的“自主进化模型”。Magix-Mix由两个引擎构成:让机器人学会理解真实世界的Magic-WAM,以及可以离线生成大批量许年数据的Magic-Creator——这意味着,Mix可以在“数据生成-模型训练-真实世界反馈-数据在生成”的闭环中持续自主迭代。 Magic-Mix架构。图源:魔法原子 灵巧手MagicHand H01 :搭载了20 DOF(自由度,人手约24-27 DOF)和44个高分辨率三维触觉传感器,主打工业制造、服务护理等场景的精细操作。 MagicHand H01。图源:魔法原子 人形机器人MagicBot X1 :一款身高180cm、体重70kg、全身搭载31个主动DOF、极限关节扭矩达450N·m的机器人。基于无限续航双电系统,X1可以7*24连续作业。产品分为标准版和科研版,前者商业部署效率高、开箱即用,后者则面向高校、实验室、开发者和产业伙伴,支持底层二次开发和外形定制。 MagicBot X1。图源:魔法原子 在会上,Openmind、PrismaX、Chestnut Roborics等来自硅谷的具身大脑和本体公司,也出现在现场。有关大脑、本体、数据的解决方案,这些公司给出了不同的解决思路。 以下是《智能涌现》关于现场讨论的整理: 用机器合成数据训练,效果会比真实世界数据更好吗? 高质量数据的稀缺,一直是掣肘具身模型训练的瓶颈。当前真机数据采集一直存在成本高、周期长、场景覆盖等问题。 机器合成数据,就是解决方案之一。然而,合成数据的局限性在于真实信息的缺失,比如摩擦系数、延迟、触觉反馈等。这也造成业界对“sim-to-real-gap”的担忧。 混合数据训练,是当下中美具身智能企业提出的主流解决方案。比如,魔法原子总裁顾诗韬介绍,魔法原子日均采集约16000条数据,再通过数据合成实现1万倍的体量扩展。她提到,由于产品迭代快、60%-70%的工序依赖人工, 新能源汽车制造业,是数据采集的富矿 。 判断使用真实数据,还是机器合成数据,行业的共识是:基于具体训练目的和应用场景。 亚马逊前沿AI与机器人研究院科学家Haozhi Qi提到,合成数据适用于让机器学习单一的反应基本技能,但 难以让机器获得类似于做早餐之类的长程技能 。此时,引入真实数据训练是有必要的,因为构建一个足够丰富的模拟环境,成本很高。 英伟达GEAR Lab高级研究科学家Zhengyi Luo则透露,团队目前采用50%的模拟数据,用于基础训练;15%的动捕数据、25%的互联网视频数据,用于理解人类的动作;同时,训练还会添加10%的高质量真实世界数据。他还提到,有些公司甚至会使用社交媒体上的数据,来指导机器人的本体设计。 VLA(视觉-语言-行动)是具身“大脑”最好的解决方案吗? 由于强大的任务泛化能力,当下VLA已经成为具身模型最主流的架构范式。 但事实上,当人类用手指旋转一个篮球时,只用依靠触觉和本体感知,并不需要视觉——这意味着,VLA在这两个感知系统上,存在短板。 在GEIS大会上,亚马逊前沿AI与机器人研究院科学家Haozhi Qi认为, VLA的流行,与硬件传感器的发展程度有关 :当下,视觉传感器趋于成熟,但触觉传感器还在初级开发阶段。 因此,在他看来,具身系统需要通过其他感觉的输入,来补足不太成熟的传感系统,从而维持本体的操作。因此, 通过视觉和语言补足触觉缺陷的VLA,成了当下最好的解决方案之一 。不过,未来随着传感器和硬件层面的发展,算法也会随之迭代。 灵巧手的三大路线之争:连杆、腱绳与直驱 当下,有关灵巧手设计的核心迷思是:要不要像人手?围绕这一命题,诞生了连杆、腱绳、直驱三种设计方案。 其中,“连杆”最不像人手,但胜在成本低、易于控制;“腱绳”最像人手,可以做精细化操作,但成本高、控制难。“直驱”则是一种折中方案,将驱动单元直接集成在每个关节上,但成本不低,同时力传导效率和热管理上仍然面临工程层面的挑战。 混合架构路线,则是近期兴起的灵巧手技术解决方案。 Chestnut Robotics创始人、前Tesla Optimus灵巧手核心成员Evan Tao介绍,当下团队已经选择了混合架构路线,以可以完成精细化操作的腱绳结构为主,辅以AI控制和自主学习系统。未来的方案,“都会在灵活度和工程可靠性之间寻求平衡。”他提到。 机器人如何真正规模化落地? 在数据层,引入真实世界数据,依然被认为是让机器人真正理解应用场景、学习复杂任务操作的关键。 比如,XGSynBot CEO Zizheng Li提到,他们采取的混合数据策略,依然引入了少量高质真实世界数据,控制成本的同时,也能提升模型能力和泛化水平。 在系统层,XGSynBot CEO Zizheng Li认为,机器人需要从“单一功能设备”向“多任务通用平台”演进,比如XGSynBot的机械臂,带有6个Quick-chage的模块化系统,这样做的好处是,一台机器人可以在不同工序间灵活切换,提高落地场景的广泛性。 最后,OpenMind创始人、斯坦福大学生物工程副教授Jan Liphardt总结: 机器人进入真实世界,越早越好 。 他发现,实验室环境无法模拟所有复杂的现实场景,比如过亮的光线、泥泞潮湿的地面、生锈的门铰链、多个系统同时运行的负载——这些复杂的真实场景,往往导致机器人在离开实验室后,出现系统故障。 因此,机器人落地前,不应该仅仅待在实验室中。Jan Liphardt建议,尽早让机器人在家庭、学校、机场、幼儿园和其他公共场景的实际部署中,收集交互数据,持续迭代。

36kr.com · None · tech

文|周鑫雨 王毓婵 编辑|杨轩 解读DeepSeek V4的技术报告,是这几天AI行业最狂热的集体活动。 V4很强吗?在工程优化的维度中,答案是毋庸置疑的。过去,大家信奉“Scaling Law的暴力美学”——也就是靠堆更多优质算力、更大参数规模来提升模型性能。而V4走的是一条完全不同的路,它定义了一种“模型训练的克制美学”: 它不靠疯狂堆算力和参数,而是通过一系列组合优化和重构: 注意力机制 (让模型学会“抓重点”,像人读长文章时会自动关注关键句子一样) MoE架构(混合专家模型,可以理解为“让不同的专家负责不同类型的问题,每次只激活少数专家,省时又省力”) 后训练 (模型初步练成后再针对性地补课强化) 推理系统工程 (优化实际运行时各个环节的效率) 这样做的成果是把V4-Pro在处理百万Token(大约几十万字)长上下文时需要的算力,压低到了上一代V3.2的27%,同时用来临时存储对话上下文的 KV缓存 (可以理解为模型在跟你聊天时“记笔记”的草稿纸)被压缩到了原来的10%。 不过,工程只是工程,榜单只是榜单。 评价一个模型,我们不希望只停留在纸面参数上,而是放到部署、开发、投资的真实场景中去讨论V4的价值。为此,我们邀请了近10名开发者、应用创业者和投资人,进行了三天左右的体验和测试。 先说一个反直觉的结论:DeepSeek对应用层带来的影响,或许比模型层更大。 在惊叹极致的工程优化之余,正如DeepSeek自己在V4技术报告中坦言的那样:发展轨迹大约滞后前沿闭源模型3至6个月——V4如今的成果,就好比 与魔鬼做交易: 拉长了推理和Agent(智能体)能力的长板,代价是牺牲了部分准确性。 闭源模型厂商们,暂时可以松一口气。对于注重稳定、精确的商业世界而言,V4显然不是一款能够直接落地的模型。 Pine AI首席科学家李博杰,以及某头部Coding Agent创业者Chillin都对我们直言,工具调用稳定性+幻觉率,这两点必须在harness(给智能体套上的“缰绳”和“安全带”,用来规范它的行为、降低出错风险)层面补足,V4落地离不开“脚手架”。 但智力大脑的迭代方向,往往牵动着下游应用的生态。AI应用创业,将会面对技术和资本更严厉的双重考验。 “基模的性能还在快速迭代”——这句业内的共识,也意味着应用随时可能成为被模型颠覆的沙砾。一名双币基金的投资人举了不少“昨日黄花”的案例:“Workflow、Coding……” AI应用公司“涌跃智能”创始人兼CEO陈炜鹏总结:未来,AI应用的壁垒,是把模型、Agent、产品场景和数据反馈组织成一个可靠、低成本、可规模化的生产系统。 亮点:不只有长文本和编程能力,而是高能力还成本低 写在前面:核心优势——代码与智能体能力 在几个关键的代码和软件工程评测中,V4-Pro展现出了当前开源模型的最高水平,与顶尖闭源模型几乎不相上下。我们把核心数据整理如下: AI制图 🧑‍🏫PingCAP联合创始人兼CTO 黄东旭 我正在把自己的Hermes工作流迁移到DeepSeek V4上。原来我用得比较浪费,是用Claude Opus和GPT5.4来做Agent,但后来我发现,大多数日常工作其实并不需要特别高的coding能力。 日常办公任务,主要包括:(a)日常邮件整理;(b)文章撰写;(c)日历管理;(d)内容总结;(e)网络浏览。 现在我已经完全切换到DeepSeek V4了。它的效果比我想象中要好,可能是针对中文做了一些优化,整体语言能力比Opus和GPT更符合中文母语者的使用习惯。 所以我第一个结论是:如果你现在正在用一些更贵的模型来作为日常工作助理的Agent,其实可以比较放心地切换到DeepSeek V4 Pro上。 它的能力大概在Claude Sonnet 4.5到4.6的水平,但价格只有头部模型的四分之一还不到。现在我基本上已经不用再关注Agent的成本开销了。 DeepSeek V4的论文里一直在强调1M的上下文,但这点我其实感觉不是太强,因为现在主流的SOTA模型基本上至少也都是1M的上下文了,这只是追赶上了。 它真正的点在于: 1.成本真的非常低; 2.它是一个开放开源的模型。 我不用太担心Anthropic或者OpenAI如果断供,我之前的一些工作流就不能用了,这种事情之前其实发生过。在这一点上,切到DeepSeek V4,安全感是更高的。 其次,看编程能力。因为测试时间还比较短,我还没有用它来开发非常复杂的大型系统应用。 但在大概几千行代码的规模,或者做一些小型应用,以及处理充满各种外部第三方系统调用的场景(比如去Supabase或者TiDB Cloud上,通过阅读文档去接入一个它不太熟悉的工具),目前我的体感是基本上没有出现太大的问题。 在几千到一万行的规模里,V4 one-shot(一次性给足例子和指令,不额外调试)的成功率还是比较高的。 所以如果你只是做一些简单的小网站或者小型应用,我觉得DeepSeek的编程能力肯定比前一代要强非常多。 因为现在我的Harness框架其实并没有太复杂的人为编排,更多是依靠模型自身的协同能力(使用Slock.ai)。 简单来说,有以下两点: 1.它能够跟使用其他模型的Agent进行协同; 2.它完成一些简单的/具体的任务。 所以,如果前面有一些比较强的模型(例如像GPT5.5这种级别的)去给DeepSeek V4 Pro指方向,然后让它负责执行,这种模式我觉得能让整个Harness Engineering的成本大幅下降。 🧑‍🏫零一万物技术与产品中心副总裁 赵斌强 DeepSeek V4不是“最全能的”,但它是“最值得信赖的”——坚定的开源承诺、完整的技术报告、极低的推理成本、全技术栈国产化,让它成为ToB(面向企业)场景下性价比最优的基础模型选择。 DeepSeek V4最让我惊艳的是两件事。 第一,模型架构的底层创新。在100万Token上下文窗口下依然保持高质量推理能力,背后是 混合注意力机制 的底层创新。这种机制可以通俗地理解成:“粗读”着眼大局整体含义,“精读”精确理解细节。 尤其是在Context压缩方面的探索非常先进,而且DeepSeek在技术报告中毫无保留地公开了细节。这种坦诚和开源精神,在竞争激烈的大模型行业中极为宝贵。 第二,国产算力全栈适配。DeepSeek完成了华为昇腾910B/950的适配,在量化、稀疏化机制、领域expert优化等方面的工作做得非常细致。 这意味着从芯片到底层软件到模型训练、推理,国产全栈解决方案已在正确的方向上迈出了实质性一步。虽不能说完全摆脱对英伟达生态的依赖,但已经找到了正确的发展方向。这件事的难度和意义,怎么强调都不为过。 🧑‍🏫 Pine AI首席科学家 李博杰 最惊艳的是DeepSeek把MoE、CSA+HCA混合注意力、mHC、Muon、FP4QAT这一长串架构创新真正在1.6T(1.6万亿参数)这个目前最大开源规模上跑通了。 这就像把一堆理论上很先进、但在小规模实验里经常失效的技术,成功组合到一台巨型引擎上并稳定运转起来。我们自己试过20多种架构创新,结论几乎都是“在70亿参数规模上可行,一上规模就掉链子甚至反作用”。 其他家的模型架构创新大多也卡在这一步。能在最大规模上让多项创新协同工作,说明DeepSeek底层训练的技术积累极深,仅其中一项“mHC”技术,就把原来在27B实验里近3000倍的信号放大,压到了约1.6倍,让训练变得稳定可控。 🧑‍🏫联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨 DeepSeek证明了“AI性价比”可以成为一种主动设计出的结构性优势。 27%、显存占用仅10%。同时,其1.6T总参数量大,但每次仅激活49B参数,效率极高。 这种结构性降本,再加上V4-Flash版本API 1元/百万Token的低价策略,使得“平民化超长上下文”成为了AI应用的新基准。 🧑‍🏫 涌跃智能创始人兼CEO 陈炜鹏 DeepSeek V4最让我振奋的,不只是某个单点能力的提升,而是它说明国内大模型已经从“追赶基座能力”,进入到“参与Agent时代系统竞争”的阶段。 过去大家更关心模型会不会回答、推理、写代码;但到了今天,真正重要的是模型能不能在复杂任务中稳定完成目标,能不能以足够低的成本、足够高的效率接入真实产品系统。 遗憾:真正落地,V4还缺一些“脚手架” 写在前面:相对劣势——事实性知识与极端复杂推理 DeepSeek官方和各评估平台指出了V4-Pro的几个明显弱点。为了更直观,我们将关键弱项数据整理成下表: AI制图。 🧑‍🏫Pine AI首席科学家 李博杰 我主要使用的是代码类和Agentic任务。这一类工作里: V4-Pro的工具调用能力和通用世界知识,基本追平了前沿模型的次一档版本(大致相当于Claude 4.6 Sonnet水平); 但工具调用稳定性+幻觉率仍然是硬伤——这两点必须在Agent Harness层面补足(比如加强校验、失败后自动重试、用外部知识库让模型“接地气”、把工具使用规范定得严格清晰),否则在长链条任务里,任务链路一拉长,错误就会被不断放大; 一旦Harness层补好了这两个缺陷,整体推理成本能比前沿模型低好几倍。这才是真正的杠杆。 另一条线是:V4-Flash作为垂直微调的“甜点”是非常好的。什么叫垂直微调?就是在通用模型基础上,用特定领域的专业数据再“补课”,让它成为某个行业的专家。 1.6万亿参数的超大模型做后训练(SFT/RL)成本太高,一般公司根本负担不起,而2000亿到3000亿参数的模型才是市场做后训练的主力尺寸。我们之前在千问235B(2350亿参数)上做后训练,效果明显弱于同尺寸的V4-Flash。 Flash的性能已经追上前一代万亿级开源模型,超过600B多的DeepSeek V3.2和老版Kimi。Flash会成为做业务微调的首选基座。 🧑‍🏫Coding Agent创业者 Chillin 我们内部测评后得出的结论是:在Coding Agent场景下,DeepSeek V4是Claude一年多前的水平。 问题可能出现在两方面,一是参数规模,二是数据。DeepSeek和Anthropic还有比较显著的差距。 如果要真正落地,DeepSeek V4还需要一些特殊的脚手架,比如SWE-Agent(软件工程智能体)、OpenHands(一个开源Coding智能体)、Claude Code、OpenClaw。这都需要开发者额外配置。 🧑‍🏫涌跃智能创始人兼CEO 陈炜鹏 以Loopit(涌跃智能旗下的AI互动内容产品)的实际使用(主要是Coding场景)来看,要客观看到,DeepSeek V4在执行复杂长程任务的稳定性和任务完成率上,距离海外最强闭源模型仍有差距。 国内头部模型之间的能力差异在变小。这说明模型竞争正在进入一个新阶段:在Agent时代,模型能否理解长上下文、适应复杂框架、稳定完成长程任务,并以可接受的成本和速度运行,会变得同样重要。 真正拉开差距的,不只是模型本身,而是模型、后训练、Agent框架、评估体系和工程效率形成的整体系统。 🧑‍🏫联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨 V4的发布没有包含原生多模态版本(即同时能处理文字、图像、声音等的模型),这在当前市场环境下稍显遗憾。 但结合其全面拥抱国产算力的战略,这很可能是为了集中资源攻克最核心的算力底座问题而做出的阶段性取舍。 🧑‍🏫零一万物技术与产品中心副总裁 赵斌强 说“不及预期”有点鸡蛋里挑骨头。 但如果从ToC(面向个人用户)角度来看,产品化打磨还不够——Flash版本涉及创作、编程等复杂任务,能力略显不足;Pro版本虽然接近顶级闭源模型水准,但起步算力要求较高,存在入门门槛。 影响:AI并不是简单地越来越便宜 🧑‍🏫涌跃智能创始人兼CEO 陈炜鹏 一个重要趋势是,AI并不是简单地越来越便宜。 全球最旗舰模型的调用成本其实在上升,因为它们承载的是更高复杂度、更长上下文、更高价值的任务。真正快速变便宜的,是中层模型、开源模型和可自部署模型。 所以未来应用公司不会只问“哪个模型最强”,而是要建立一套模型调度系统:哪些任务必须用最强模型,哪些任务可以用高性价比模型,哪些能力可以通过Agent框架和工程系统补足。 DeepSeek V4的意义在于,它进一步丰富了模型供给层。 对企业来说,它不是简单替代某一个海外模型,而是让应用可以更灵活地做多模型编排、自部署和成本优化。 未来AI应用的壁垒,也不会是简单调用一个模型,而是把模型、Agent、产品场景和数据反馈组织成一个可靠、低成本、可规模化的生产系统。 对Loopit来说,这个趋势非常关键。我们做的是AI互动内容,模型能力决定创作上限,成本和速度决定创作能否规模化。 只有当不同层级的模型都足够可用,并且能够被有效编排,普通用户的大量创意才有可能被实时生成、互动和传播。DeepSeek V4的进展,会加速这个过程。 🧑‍🏫Pine AI首席科学家 李博杰 在垂直微调市场,千问、Llama等200-300B档基座被V4-Flash系统性替换。 所有做该尺寸后训练的团队都会重新评测;Flash同尺寸效果反超、推理框架Day-0适配齐全(SGLang/vLLM/TileLang),6个月内会成为国内开源垂直模型的默认起点。 华为昇腾950 SuperNode推理生态正式起步,并冲击英伟达芯片溢价。 这是第一个完整跑通的“国产芯+国产顶级开源模型”方案(NVIDIA/AMD都没拿到V4的早期适配),下半年950大规模出货后,Agent长上下文场景里会出现一波纯本土推理替换; 这间接影响是英伟达在中国市场的估值与溢价被重新定价——不是销量崩,是议价能力被压。 能完成复杂长程任务的Agent整体使用成本大幅下降。 V4-Pro输入(缓存未命中)1.74美元/输出3.48美元+1M上下文高效KV+MegaMoE已经把单Token成本压到前沿模型的1/6-1/7; 只要业界在Agent Harness层把V4的工具调用稳定性和幻觉率补齐(验证器、外部接地、严格Schema、自一致性投票),那些过去因为成本无法实用化的多步研究、长程代码Agent、深度搜索类应用会在今年下半年走出demo进入真实业务,Agent经济性的拐点就在这一波。 以及,闭源前沿厂商不会因此降价——它们的产品仍然显著领先,V4不构成定价压力。 🧑‍🏫零一万物技术与产品中心副总裁 赵斌强 ToB AI应用的核心命题是:在保证效果的前提下实现全周期的成本控制。DeepSeek V4的出现为这一命题提供了极具竞争力的解法。 Flash覆盖简单任务,Pro覆盖高复杂度场景,整体成本相比主流闭源方案会大幅降低,让零一万物在交付时能够显著提升方案性价比。 更重要的是,DeepSeek的开源是坚定的、不摇摆的,不会突然宣布闭源让应用的投入打水漂。这种坚定的开源姿态为企业级技术选型提供了宝贵的确定性。 零一万物内部已经全面启动基于DeepSeek V4的产品评测与能力验证,重点评估其在生产调度、智能办公、投资管理等企业核心场景中的表现,验证达标后会考虑替换原有模型,让更多行业客户用上顶级国产大模型。 V4发布后,我认为行业会主要产生三个变化: 1.国产全技术栈解决方案进入发展轨道,国产化替代从“梦想”变“现实” DeepSeek成功适配华为昇腾,意味着国内AI产业在“芯片+框架+模型+应用”全技术栈国产化的方向上迈出了实质性一步。 对于有合规要求的政企客户,这是刚需。ToB市场的国产化替代进程将明显加速。 2.开源大模型倒逼闭源降价,AI应用业务减少被闭源模型吸血 DeepSeek用远远低于顶级闭源模型的价格实现了接近顶级闭源模型的效果,它的示范效应会进一步拉高开源模型的整体性能。 这也会迫使Anthropic、OpenAI等闭源模型厂商的高价策略面对压力。行业利润中心将从基座模型向深度行业应用迁移,对AI长期的发展极有益处。 3.开源模型≠企业应用,Harness能力成为新分水岭 开源降低了基座门槛,Harness决定了落地高度。从优质开源模型到稳定可靠的企业级产品,中间还隔着Harness这一层,包括幻觉消除、指令遵循、错误校验、专业性注入等工程能力。 每个行业的需求不同,没有一套Harness是通用的。这恰恰是零一万物的核心优势所在:基于自动评测、自动反馈、自动改进、专业性注入,为不同行业快速构建专属的Harness体系,让大模型真正在业务中用起来。 🧑‍🏫联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨 第一,百万级上下文成为应用层的“标配”,催生Agent爆发:V4将超长上下文能力下沉为普惠基础设施。 第二,行业竞争从“卷模型”转向“卷应用与数据”:当顶级开源模型性能逼近闭源、成本大幅下降后,模型本身将不再是稀缺壁垒。未来的投资与竞争焦点,将更明确地转向谁能利用这些基础模型,在医疗、金融、法律等高价值垂直场景中建立数据与应用闭环,形成商业护城河。 第三,国产算力产业链迎来巨大投资机遇:V4的成功,向业界证明了大模型在国产算力上也能摘取“皇冠上的明珠”。这必然催生对国产算力的确定性需求,带动从芯片设计、服务器到云服务的全产业链投资热潮。 我们判断,“今年的国产算力,就是去年的海外算力”,其产业趋势和资本市场的映射效应将尤为强劲。 我们会把资源向“能快速商业化、能落地行业、能形成产品壁垒”的项目集中,同时保持对底层架构与算力基础设施的长期投资。 🧑‍🏫某双币基金投资人 我今年的愿望是:基模Portfio(被投资方)顺利上市。 DeepSeek启动融资后,一定会吸收一级市场(尤其是国资)的大量资金。对剩下几家还没IPO的基模公司来说,继续滚动融资是不可持续的。 我还有个比较悲观的观点:今年应用层融资会比较困难。 基模能力还在快速迭代,意味着一大批应用会被颠覆。就像去年非常火热的Coding、Workflow,今年一级市场已经没什么人提了。 🧑‍🏫Coding Agent创业者 Chillin 开源是一个好事,DeepSeek V4能进一步推动交流和优化。但是这个时间距离拉的很大,让人感觉比较难受; DeepSeek V4会迫使模型厂更加正面地面对规模和数据的问题,然而这两个问题极难解决,这是资本量的问题; 它也进一步地证明了Scaling Law的极限。工程化带来的性能跃升是有限的,这迫使所有人去找更底层的解。路漫漫其修远兮。 Bonus:一份DeepSeek V4实用指南 适合干什么? 编程与代码学习: 如果你是编程初学者或需要编写个人脚本,DeepSeek V4是目前最顶级的选择之一。它能非常可靠地理解上下文、生成高质量代码,并且极擅长代码调试。 中文及中日韩(CJK)内容创作: 无论是写文章、润色文案还是进行翻译,V4在中文、日文和韩文环境下的表现极其优异。 超长文本阅读与分析: V4原生支持高达100万Token的上下文窗口。你可以一次性将整本书、数万字的长篇报告或完整的代码库直接喂给它,让它帮你总结或提取关键信息。 不适合干什么? 搜索与查证客观事实: V4是一款“推理模型”而非“百科全书”,它在事实性知识(如历史细节、特定实体信息)的回忆测试中表现较弱,且极容易产生幻觉。特别是V4-Flash版本,在事实问答测试中得分仅有34.1%。建议:不要用它来当搜索引擎,查证事实请使用带搜索功能的其他AI或自己核实。 处理图片或文档排版: DeepSeek V4是一个纯文本模型,不支持任何图像输入或输出(No Vision)。如果你需要分析图表或图片,请使用其他多模态模型(如GPT-5.4 Mini)。 纯英文的高级创意写作: 虽然它能写英文,但它的英文输出有时会显得行文生硬(stilted phrasing),如果你需要创作高度自然、地道或富有创意的纯英文内容,建议使用其他西方主流模型。 其他须知: 给予充分的思考空间: 如果你使用的是具备显式 思维链 (CoT,即模型在给出答案前会先一步步推理,类似于“先打草稿再誊写”)的Pro版本,遇到难题时,不妨在提示词中鼓励它“多想几步”或开启“Think Max”模式,它推导得越深入,给出的答案往往越准确。 容忍偶尔的啰嗦: 评估显示V4是一款相对“啰嗦”的模型,输出速度也偏慢。如果你只想要简短的答案,可以在提示词中明确要求“请用一句话回答”或“请尽量简短”。 欢迎交流! 欢迎交流!

36kr.com · None · tech

文|周鑫雨 资料整理|钟楚笛 编辑|苏建勋 杨轩 靴子终于落地。 被调侃“Next Week”近3个月的DeepSeek V4,终于显露真身。 1.6T的最大参数量、1M的上下文窗口、针对Agent的性能优化,以及基于MoE(混合专家模型)和稀疏注意力机制DSA,降低计算和显存需求——这些曾被外界纷纷猜测的参数和性能,随着V4的官宣,一锤定音。 DeepSeek V4性能测评结果。 姗姗来迟的原由,与V4将训练框架从英伟达迁移到华为昇腾上有关,也与DeepSeek内部的决策变动有关。我们得知,2025年年中,DeepSeek曾面临一次较为严重的训练失败。 “当时,DeepSeek面临重新适配芯片的问题。”一名知情者提到,“内部有关训练方向的意见也不完全统一。梁文锋提出了一些自己的要求,但在执行层面很难折中。” 不过,与外界关于“新模型支持多模态生成和理解”的猜测不同,V4依然是个语言模型。暂缓多模态生成的训练策略,主要源于算力和现金的掣肘。 多名知情者告诉《智能涌现》,DeepSeek的对外融资窗口,是2026年4月中旬打开的。内部的导火索,是DeepSeek需要更多资金支持,训练参数规模更大的模型,同时,留住和招纳更多的顶级人才。 “1.6T的参数量与OpenAI、Anthropic等顶级厂商的模型相比,并不具有绝对的竞争力。”一名从业者对我们提到,很快,国内也有模型厂商,将发布 3T 参数规模的模型。 在人才侧,随着郭达雅(DeepSeek R1核心作者)、王炳宣(DeepSeek LLM核心作者)等人才被字节、腾讯等大厂挖走,DeepSeek需要一笔大额融资稳定军心、招兵买马。 而转向开放融资的外部导火索,几名业内人士猜测,与腾讯的投资态度有关。在开发融资前,梁文锋和马化腾曾有关注独家注资有过几次商谈。但两名相关人士透露,给腾讯20%股份的条件,没有得到梁文锋的同意。 R1发布以来,一个明显的转变是: DeepSeek从一个偏非营利的、理想主义的技术乌托邦,被迫快速转向一家重视产品、商业化的务实公司。 2026年4月8日,DeepSeek App改版,上线支持复杂推理的“ 专家模式 ”,和处理简单任务的“ 快速模式 ”——随着V4的发布,我们也从而得知,负责“专家模式”的,是1.6T参数量的V4-pro,支持“快速模式”的,则是284B的V4-flash。 DeepSeek App的两种模式。 曾有知情人士表示,2025年下半年以来,梁文锋开始重视产品的打磨。有多名大厂AI产品经理向《智能涌现》提到,2025年年末,DeepSeek对产品策略/经理进行了“开闸式招聘”,他们也多次收到DeepSeek HR的联络。 一名业内人士也对《智能涌现》透露, DeepSeek内部已经搭建了数个创新产品团队,对Agent和其他C端产品形态进行探索。 从更新后的版本看,DeepSeek的文本能力提升明显。在过去一年,我们也听到多位AI行业HR、猎头提起过, 不止一次在北大中文系的宿舍,遇见加学生微信的DeepSeek HR 。 招中文系学生的目的,是做人文领域的数据标注和测评标准搭建。这被视为DeepSeek重视模型的人文性的信号。 虽然“普惠”“开放”,产品简单到只有一个Chat界面,是DeepSeek对外呈现出的形象。但我们了解到,2025年,DeepSeek对产品和商业化的探索一直没有停过—— 目前,内部已经组建了一支数十人的产品团队,对Agent等产品形态进行探索 。 甚至更早前,在2024年,爆火前的DeepSeek,也考虑过投流推广,但很快被梁文锋否决。 DeepSeek终于放出年度更新,有如终于掉落的达摩克利斯之剑,让中国乃至全球模型厂商悬着的心稍稍放下。 迈入2026年后,DeepSeek的年度迭代,已成为AI世界“狼来了”的故事。避开DeepSeek,成了近几个月模型厂商的标准动作。 两家刚刚上市的大模型厂商,智谱和MiniMax,在春节前,就错峰发布了新的模型GLM 5和M 2.5。 一名智谱员工告诉《智能涌现》,“DeepSeek将在春节发模型”的传言一放出,算法团队立马拉了会,要求“尽早”发布GLM 5。 MiniMax的一名员工也表示,1月中旬,港股IPO庆功酒的宿醉还没褪去,算法团队就自觉早早回到了工位上。 “错峰”,对这两家已经IPO的模型创业公司尤为重要。 “如果比DeepSeek晚发,性能不如它们,会影响股价;但不发,也会影响股价。”上述员工表示,“影响最小的办法,是早发。” 模型公司的融资动作,也要抢在DeepSeek更新前面。 1月末宣布了B+轮融资的阶跃星辰,也迫切地想在春节前Close这轮融资。一名知情人士告诉我们,一旦DeepSeek再次掀桌,和投资人的沟通成本将会非常高。 在从业者眼中,牌桌上一直有“两个DeepSeek”——一个带来被倾轧的恐惧,另一个则作为范式的引领。在模型厂商们温吞缠绵的两年里,行业需要这样一个“不确定性因素”,让厂商们反思、继而冲刺起来。 MiniMax一名员工记得,在年后的内部信和全员会上,创始人兼CEO闫俊杰提到: “DeepSeek帮我们走出了一条我想走的路。” 即使中国AI从业者对DeepSeek情绪复杂,但人们依然承认,DeepSeek改变了中国AI行业的诸多规则。 改变,往往意味着推倒和重建,这必不会是个舒适的体验,但正如一名六小虎投资人对我们评价的那样:DeepSeek奠定了近一年来中国大模型的组织文化、冲研发重点,而在这以后,“ 它是中国AI跻身全球一流的起点,但不会是终点 ”。 DeepSeek让中国AI行业的竞争格局,进入相对稳定的中场。但在模型技术的早期,DeepSeek为行业留下的不尽是共识。随着商业化和竞争压力加剧,围绕开源、商业化、增长等命题,各个厂商正在走向不同的分叉口。 在DeepSeek V4发布前,我们与十余位AI行业人士,围绕“DeepSeek改变了中国AI行业什么?”展开对话。 以下,是我们从中总结出的5条“后DeepSeek时代”的新命题。 命题一:重新审视开源的性价比 一年前,DeepSeek R1公开技术报告后,一名AI投资人的判断是:回归基模研究、靠开源开放打响技术品牌,对模型厂商而言是最重要的事。 但如今,他告诉我们,当时的判断有待商榷。 跟随DeepSeek一年后,厂商们大力托举开源和研究生态的时代是否要终结?这一关键问题,随着近期阿里千问大模型技术负责人林俊旸的离职,被摆到了明面上。 某种意义上,林俊旸领导的Qwen,代表着开源生态的利益。但如今,这与阿里作为商业公司的营利性,产生了尖锐的矛盾。 “ 非盈利的黄金时代结束了。 ”针对这��事件,一名Qwen员工对我们这样评价。 让厂商们动摇的事实是, 如今营收最高的2家模型厂商,走的是闭源路线 ——OpenAI,年化收入超过250亿美元;Anthropic,年化收入超过190亿美元(据The Information报道,数据截至2026年2月底)。 至于国内厂商的模型收入,近期披露的2025年财报显示,MiniMax全年总收入为7903.8万美元,智谱为7.24亿元(约1.05亿美元),与OpenAI和Anthropic相比,还有多个数量级的差距。 △2023年以来,OpenAI和Anthropic的年化收入情况。图源:The Information 2026年1月的AGI Next大会上,智谱创始人唐杰也发出警告,“我们可能只是在‘开源游乐场’里玩得开心,而美国的闭源模型早已进入下一个纪元”。 毫无疑问,DeepSeek带动的开源开放生态,让中国模型在2025年内,快速在全球建立知名度和技术口碑。 但一个残酷的事实是,靠开源快速“冷启动”、建立技术口碑的阶段已经过去了。在基模研发仍然“吞金”的当下,如何将口碑转化成真金白银,是更重要的存活命题。 开源的价值,到了被重新审视的时间点。 命题二:投流大战暂停,精细化投放开打 如何解读DeepSeek “0投流,App上线7天用户破亿”的成绩? 放置一年前,行业的目光会不由自主地聚焦在“0投流”之上——这套破圈叙事,推翻了不少厂商深信不疑的增长路径,也戳破了彼时模型产品烧出的虚假繁荣。 警醒,应激。2025年初,不少公司都做出了和大举投流同样激进的反思。 其中的典型,是拉开投流大战序幕的月之暗面。 《智能涌现》曾报道 ,2025年2月一场持续了五六个小时的战略会上,月之暗面联合创始人张予彤宣布,立刻暂停Kimi在安卓渠道的投流,同时将iOS渠道上的投流预算,从原来的千万元/天,削减到数万元/天。 一名六小虎中层曾对我们假设:以Kimi和豆包为主角, AI应用激进的投流大战,大概率会持续到2025年Q2 ,按照平均每个季度2亿美金的投流支出,月暗会因资金压力率先败下阵。 当应激的情绪逐渐回归理性,多数厂商的增长成员都告诉我们:投流,仍要继续,但要做聪明的、有的放矢的增长。 事实上,激进的投流、补贴大战,没有因DeepSeek的非典型成功而停止。只是, 参战的主要对象,剩下了财力雄厚、手握流量入口的几家大厂 。 增长大战最白热化的一幕,发生在刚过去不久的2026年春节。阿里千问豪掷30亿元请用户喝奶茶,腾讯元宝狂撒10亿元红包,字节则用同样的10亿元,将豆包送上春晚的舞台。 六小虎的一名增长团队成员,将如今的投流,称作“巧妇要为无米之炊”:“ 流量入口被大厂们把握,意味着剩余的模型厂商,要用更精细化的增长方式,放弃建立大盘认知,聚焦目标用户。 ” 他举了个例子,如果AI产品的主要场景是金融、法律办公,那就将产品推到一些金融App上,流量还更便宜。 命题三:回归基模,选实用,还是选研究? R1出圈后,聚焦基模研发,一夕之间成为AI模型厂商的共识。 “我们对自己的研究方向,都更坚定了。”一名亲历R1发布的前月之暗面研究员对我们表示,“R1并不是石破天惊的创新,但它证明, 只要大方向判断不出错,厂商坚持自己的路线,就能获得性能上的正反馈 ,就像DeepSeek一直坚持纯语言和推理。” 此前,为了打榜或是追逐热点,不少厂商会将聚焦在推理、对话等不同性能的模型,分开单独训练。 “这样做可以针对某项能力调优,但模型的实用性会打折扣,客户也不一定买单。”一名智谱员工告诉我们。他提到,一个令智谱警铃大作的现象是,R1发布后,不少行业头部客户,转向了部署DeepSeek。 彼时的智谱在冲击中,做出了一个在上述员工看来“难而正确”的决定:训练一个同时聚集推理、Coding和Agentic能力的模型,GLM 4.5。 “ 这是智谱第一个‘反榜单’的模型,性能调优方向都从真实的客户需求中来, ”他表示,“某种意义上,这也是智谱的背水一战。” 同样的反思,也席卷了大厂。2025年1月,前谷歌DeepMind研究副总裁吴永辉,挂帅字节模型团队Seed后,“不刷榜单,聚焦模型能力本身”的方针就被多次提起。 类似的,多名知情人告诉《智能涌现》,前OpenAI研究员姚顺雨加盟腾讯后,花了大力气把模型和AI产品的测评体系重新搭一遍,直接对接人员具体到每个场景的负责人,甚至他们的-1、-2。 “原来混元(腾讯大模型团队)的风格是‘刷榜’,让模型性能有些虚假繁荣。”一名混元成员告诉我们,“顺雨很Sharp,他希望团队认识到模型的真实水平,回归到研发本身。” 但共识之下必有裂隙。技术研发,向来有“实用派”和“研究派”之分,前者注重赢得竞争、商业落地,后者注重学术价值——具体到一家商业公司的体系中,在手头宽裕的时代,承担AI“研究派”角色的,往往是AI Lab、研究院。 然而,随着AI投入的压力逐步加大, 基础模型研究该倾向“研究”还是“实用”,业界并没有统一的答案。 可见的是,在商业化目标的趋势下,目前“实用派”占了大多数。一个显著的信号是,AI Lab正在后退和消亡,研发资源被聚集至“实用派”。 2025年以来,字节AI Lab被并入Seed团队,阿里达摩院多个研发团队被重组至通义实验室;2026年3月20日,腾讯也撤销了成立近10年的AI Lab,团队成员并入混元大模型团队。 但DeepSeek在某种意义上依旧验证了, 伟大是无法被计划的 ,不少突破性的技术,源自非功利性的研究。 依然有厂商,选择给“研究派”自由探索的空间——比如,字节Seed内部,还设置了注重研究的虚拟组织“Seed Edge”,鼓励骨干突破更基础、更长期的AGI课题,考核周期延长至3年。 命题四:大模型组织,顶层扁平高效,基层人海战术 命运的齿轮在梁文锋决定脱离幻方量化,单独成立DeepSeek那一天起就开始转动了。 一名接触过DeepSeek早期成员的知情人士告诉《智能涌现》,2023年初,DeepSeek早期团队到位后,梁文锋就坚持将DeepSeek脱离于幻方,理由是“ 幻方不是AI时代的组织形式,想要实现AGI,必须脱离原有的组织惯性做事。 ” R1的成功,让不少模型厂商开始重新审视适配AI时代的人才组织形式。 “ 本质每一代(巨头)企业,都是那个阶段最先进的组织,去适配那个时候的技术和商业 ,自然而然脱颖而出。”在近期一次播客访谈中,阶跃星辰董事长印奇也提到,如今每一家企业的AI顶尖人才都不少,关键在于组织形态。 《智能涌现》曾报道 , DeepSeek采取的是相当扁平和“学院派”的管理方式 :成员根据具体的目标,分成不同的研究小组;组内没有固定分工和上下级关系——这一组织形式的好处在于,可以充分发挥人的想象力,适配创新业务。 对于规模尚且不大的创业公司而言,寻找适配AI时代的组织形式,尚且有较高的试错空间。不少六小虎的员工都对我们表示,2025年以来,扩张规模成为一件“很谨慎”的事。不少企业甚至选择自行断尾,目的是“更高效、更聚焦”。 但对于动辄万人规模的互联网大厂而言,打破原有组织惯性并非易事。正如印奇所言: 创新者的窘境,往往是组织问题;领域内越是优秀的公司,越是将组织模式固化的更好,但往往也更难改变 。 只是,对于大厂而言,在AI时代延续辉煌辉煌,是必须要做的事。 2025年以来, 大厂玩家都试图将模型研发和AI创新业务,规整为一个相对独立于互联网业务的组织,用更为扁平的方式管理 。 比如虽晚但到的腾讯。《智能涌现》曾独家报道,原来分散在各个BG中的模型核心研发资源,在数次调整中,被集中在姚顺雨管理的AI Infra部,以及大语言模型部。 在近期的答疑会上,姚顺雨针对AI Lab与混元的整并,也做出了回应:要打破部门墙,让AI基础模型的开发和研究架构 更年轻、更直接 。 但精简研发团队的另一面,是数据、评测等支持团队的激进扩张。 “模型底层算法的迭代,到了一个平台期。在算法架构没有突破的情况下,训练数据的质量在模型性能迭代中起到了关键作用。”一名大语言模型研究员告诉我们,“尤其是视频、3D等涉及主观审美的多模态数据,各个厂商之间的质量差距就会显现出来。” 用高薪、高职级组建数据、评测,在不少厂商中已经屡见不鲜。 一名知情者告诉我们,, 近期字节Seed总规模相较于年初,已经翻了约2倍 。 豆包某一个尺寸的模型,光负责智商评测的就有5人,负责策略产品的有五六十人 ,“豆包、Seedance目前的性能优势,都是靠人力堆出来的。” 在数据供应的上游,盘踞在成都、武汉等城市的数据标注公司,已经跑出了不少年营收过亿的“隐形巨头”,招聘的普遍门槛,从中专、大专,抬高到了211硕士。 “ 金字塔结构 ”,一名Seed研究员如此形容目前模型组织的标准范式:研发顶端,是少数顶尖大脑,而为顶层输送燃料的数据、评测,依然需要人海战术。 命题五:年轻人和“一把手工程” 组织最重要的毛细血管,则是人。很难说, 是DeepSeek统一了行业“重视年轻天才”的人才审美 ,但各个厂商对AI年轻人才的渴求,被拉到了一个史无前例的高度。 △腾讯“CEO/总裁办公室”首席AI科学家 姚顺雨,1998年生。图源:姚顺雨个人博客 “很多大厂的HR团队,前几年招人的姿态都比较‘甲方’。”一名在AI行业从事了7、8年高端人才招聘的猎头告诉我们,“他们只负责给钱,但与人才在业务上的沟通都比较浅。” 明显的转变发生在R1发布之后—— 抢人,成了各大公司的“一把手工程”。 比如,2025年以来,隐退近4年的张一鸣的身影,频繁出现在新加坡,目的是引进全球各地的AI人才。也有不少人看到,腾讯总裁刘炽平亲自带HR团队,现身多个国内外计算机顶会现场,给参会者发名片、加微信。 一名混元成员也告诉我们, 姚顺雨进入腾讯后的一个重要任务,是招人 。自2025年9月,他加入腾讯以来,已经替混元面试了近百人,“每个校招生他都会亲自面,也常找突出的实习生吃饭”。 “DeepSeek终于让厂商们 自上而下 对齐了一件事: AI就是top mission 。”一名AI投资人总结。 结语:一直仰望,就无法超越 DeepSeek不能一直待在神坛上。正如一名混元研究员所言: 一直仰望,就无法超越 。 2025年下半年以来,模型玩家们对DeepSeek的态度,不再只有景仰,而是暗自卯足了超越的野心。 这一点,在去年借助DeepSeek流量,快速托举元宝的腾讯身上,尤为明显。一名元宝员工告诉我们, 截至2025年底,仍有约7成用户将DeepSeek选为元宝的默认模型 ,而非腾讯自己的模型混元。 “2026年,元宝的一个重要目标就是摆脱DeepSeek依赖,让腾讯自己的搜索品牌形成一定的用户心智。”她告诉我们。 当然,这也势必伴随更激进的模型研发目标。一名混元研究员告诉我们,2026年4月23日发布的新模型Hy3 preview,腾讯设定的目标是跟上第一梯队。 第一梯队的名单,则是DeepSeek和阿里。 对于牌桌上更早进场的其他玩家而言,经过一年的调整、加速,几乎所有厂商都在模型赛道,找到了差异化的身位: 字节和阶跃星辰聚焦全模态;月之暗面和智谱打磨Coding和Agentic能力;MiniMax保持语言模型不掉队的同时,突出视频生成模型的优势。 “每个厂商都沿自己的路线走。”Jason告诉我们,“这条路的终点可以是AGI、是泼天财富,但绝对不会是包括DeepSeek在内的任何一家公司。” 2016年,埃隆·马斯克和OpenAI CEO山姆·奥特曼有过一段公开对话。他提到:“人们有时会认为技术每年都会自动进步,但其实并非如此。 只有聪明的人们拼命努力去改进它,技术才会进步。 ” △埃隆·马斯克(右)与山姆·阿尔特曼(左)的对谈。图源:YouTube@Y Combinator 2025年初,DeepSeek恰好成了那个吹哨的聪明人。2026年,努力的聪明人会更多。 (文中受访者均为化名) 欢迎交流!

36kr.com · None · tech

文|周鑫雨 编辑|杨轩 一句话介绍 Buzzy(https://www.buzzy.now/)是AI内容创作公司“感知阶跃”旗下的视频编辑Agent平台,主要面向C端内容创作者和中小型商家。 好比“视频版的PhotoShop”,用户只需下达自然语言指令,就能驱动Agent对视频进行背景去除、光线修正、产品替换、背景/视角更改等编辑操作。 团队介绍 “感知阶跃”创始人兼CEO Ella Zhang(张诗莹),曾在苹果、Oculus VR、Google负责核心产品。 在苹果期间,她曾为AirPods产品线创始团队核心成员,负责产品的系统集成和全周期设计落地,包括音频产品的架构设计、元器件选型、原理图绘制、版图设计、验证以及大规模生产。 此后,张诗莹又在Google担任AR产品的系统架构师,负责Glass、Reflector等产品的算法和架构研发。 “感知阶跃”其余核心成员,来自Adobe、小米、商汤等公司。 融资进展 近期,“感知阶跃”完成了新一轮融资, 金额超过2000万美元,领投方为Redpoint(红点创投)。 深渡资本担任本轮独家财务顾问。 产品及业务 在张诗莹看来,随着视频生成模型性能的发展,生成类的工具赛道,已经逐渐“红海”。她将市面上的视频创作工具,大致分成了两类: 一类是“画布型”产品,优点在于可以通过手动控制,保证生成结果的质量,但缺点是对大多数用户而言,使用门槛高;另一类则是向用户提供预制的workflow和模板,劣势在于不够灵活,同时,idea不够创新。 “用户更倾向于一次性生成整段视频,并通过不断迭代修改的方法来修到完美方案。所以一个指哪打哪的视频编辑器就变成了刚需。” 当下,由于视频的连贯性以及模型理解能力的局限性,用户很难通过Chat的方式,对视频进行换背景、换人物、消除某元素的“局部精修”。大多AI编辑器会改变整个画面,接近于重新生成。 近期, “感知阶跃”上线的新产品Buzzy, 就是一款AI视频编辑器,让用户可以 像P图一样便捷地“P视频”。 只需要通过Chat,Buzzy就可以对视频完成去除背景路人、修正光线、替换产品、合拍、更改背景与视角等操作,真正实现局部精修。 △背景路人去除。左:去除后;右:去除前。图源:受访者供图 △改变光线。上:改变前;下:改变后。图源:受访者供图 △拍摄角度改变。左:改变后;右:改变前。图源:受访者供图 做到对视频的局部编辑、维持其余部分,技术门槛并不低。张诗莹告诉我们,局部编辑要求视频模型有更高的视频和语言理解能力,“首先它要识别修改的部分到底是什么、在哪里出现,其次它还要准确理解用户的意图,比如prompt中的梗。” 为此,“感知阶跃”基于RLHF(人类反馈强化学习),训练了一个小模型,来增强Buzzy对视频编辑的理解。 与此同时,Buzzy也被设计为一个能够 自主学习用户审美和品味 的Agent。 Buzzy上线了一个“类OpenClaw”的Bot。用户可以通过扫码,直接将Bot接入Telegram和WhatsApp中。 通过向Bot分享TikTok、YouTube上的视频链接,Bot会自动分析用户的视频偏好和品味,基于该视频风格24*7自动全网搜索灵感素材,并将该风格沉淀为Skill。 风格沉淀。图源:受访者供图 此前,自2021年成立以来,“感知阶跃”经历了两次内容创作产品迭代: 在Midjourney、Stable Diffusion等文生图产品爆发之前,“感知阶跃”就基于GAN(生成对抗网络),开发出了第一款面向国内B端电商客户的AI模特图生成平台ZMO.ai,并在后续将落地场景扩展到商品图设计、编辑等场景。 ZMO.图源:受访者供图 占据先发优势的ZMO.ai,MAU一度达到了700万。 2024年起,视频生成赛道随着Sora的发布,迎来了一个小爆发。在风口中,“感知阶跃”叫停了ZMO.ai,并在2024年4月上线了涵盖图片、视频的内容创作平台Creati。 相较于聚焦电商、广告图片生成和编辑的ZMO.ai,Creati将内容创作扩展到了视频领域,包括文生视频、基于视频模板二创等功能。 与此同时,它为用户提供了移动端产品。不少非专业内容生产者,就可以直接用手机拍摄素材后,直接在App端完成内容的创作、编辑和发布,而非辗转导入电脑。 “用户对AI生视频的需求,比图片更刚一些。”张诗莹提到,“在传播效果上,无论在社媒端,还是广告端, 视频都比图片更能吸引注意力。 与此同时,用户拍视频的难度,比做图片高很多。” Creati。图源:受访者供图 同样转变的还有目标用户。ZMO.ai的主要客户,是国内B端的电商、广告商。但很快,张诗莹发现,即便ZMO.ai用户增长很快,但流量并没有转化为实际的付费。 核心原因在于,其一,“大B”客户的结款周期过长;其二,图片的创作成本比视频更���,因此 用户对图片的付费意愿不够高。 Creati则是一款面向“大C小B”的产品:C端内容创作者,以及中小商户。张诗莹告诉《智能涌现》, “大C小B”是付费意愿最高的人群, “更大的B端企业倾向于自研工作流”。 上线一年,Creati的全球用户量就突破了千万级别。 产品ARR(年度经常性收入),一度达到了2000万美金。 商业模式 靠用户订阅,覆盖Token消耗成本,是目前AI软件的主流商业模式。但张诗莹认为,订阅是SaaS时代的商业模式, Agent时代的商业模式应该为效果付费,而不应该为成本付费。 她告诉《智能涌现》,现阶段,用户依然将Agent视作工具,而非创造价值的人。 当Agent可以覆盖内容生成、发布、投放、A/B Test、效果分析、二创等创作全流程,Agent的商业模式,应该与人类Agency越来越相似,“收费模式不会是订阅,而更多会采用分佣的形式。” Founder思考 大多数非专业用户的内容创作场景,主要在Mobile端,而非PC端。 不少商家、非专业内容创作者,习惯用手机拍摄获取商品图、短视频等素材。但矛盾的是,创作工具往往集中在PC端。这就会导致内容创作链路的断裂。 因此,无论Creati,还是Buzzy,我们都向用户提供了MobileApp产品,让素材的获取、内容创作和编辑、发布,都可以在手机上完成。 当AI生成视频技术足够成熟,应用层能做的事只有两块:内容生成之前,以及内容生成之后。 内容生成之前,应用层解决的是产生创意的问题;内容生成之后,需要解决的是“怎么改”的问题。 应用层不应该去做模型层的事,因为模型一定会变得足够好。 当下有很多“套壳”视频模型能力的产品,无论是“画布”,还是workflow,解决的都是模型能力不够强的问题,比如“抽卡”、视频生成长度有限。 但未来,模型层一定会解决生成质量和长度的问题。应用层的机会,就在于解决生成环节之外的问题。 未来,Skill会成为可以交易的资产。 Skill本质上是用户沉淀下的品味、认知,以及工作流。就创作领域而言,人的审美和品味,以及掌握找素材的技能,都是有价值的。 因此未来,卖Skill可能会成为一种商业模式。 新的时代,应该独立开发新的产品,而不是在旧产品上加上一个新入口。 Buzzy和Creati是两代完全不同的产品。Creati聚焦生成,Buzzy聚焦生成后的编辑。不同代的产品,会形成不同的用户心智。 所有的Go Viral(走红)都很偶然,产品不应该过分追求Go Viral。 很多用户刚需,其实不具备在社媒上Go Viral的潜质,比如PDF Editor,但它们的用户量非常大。 根据我们的经验,能够Go Viral的产品有几个特点:第一,产品形态、设计比较创新;第二,实用,只有解决了用户的痛点,他们才愿意自发传播;第三,降低用户生产有趣内容的门槛。 欢迎交流!

36kr.com · None · tech

访谈|邓咏仪 周鑫雨 文|周鑫雨 编辑|杨轩 乍一使用,你很难给Ribbi一个准确的定义。 若说这是一个多模态内容创作工具,Ribbi能做得不止于此。比起一个“死”的工具,Ribbi更像一个可以自动管理创作全链路的“人”。 它能将用户的创作流程,自动沉淀为Skill;也能监测社交媒体的数据表现,总结复盘,并 自动对后续的创作进行优化。 Ribbi官网首页。 对绝大多数创作者而言,这又是一个使用体验极度“陌生”的产品。区别于Figma、Lovart等设计产品,Ribbi没有醒目的画布,所有的创作、编辑交互,都集中在一个小小的对话框中。 而与你对话的Ribbi,被设定为一只个性十足的“青蛙”:爱吐槽,偶尔还能爆点粗口。 与Ribbi的对话。 这款有些“怪”的产品,却在 上线封测一周内,收到了全球4万多用户的使用申请。 用户群从上线第一天的20人,快速扩张成了20个几乎满员的大群。闲鱼上,Ribbi的内测码,一度被炒到了200元。 “我们上线Ribbi,本来是为了找100多个种子用户做封闭测试,验证PMF(产品-市场适配率),都没正式开始做营销和投放。”Ribbi创始人兼CEO Robin告诉我们,用户通过口碑传播的裂变速度,远超他的预期。 在4月初和《智能涌现》的交流中,Robin的嗓子已经哑了。半个月内,他见了多家投资机构,官方Linkedin的私信箱,也堆满了合作邀约。 毕业于工业设计专业,Robin做过4A和品牌企划,后续还在几家头部大厂,主导多款明星AI产品的创作功能设计、创意Agent落地等工作。 创业前,Robin就一直在探索:如何让创意实现的过程更简单。他发现, 市面上的创作工具,都彼此独立,用户创作的上下文互不相通。 这就导致,当用户要创作内容,每涉及一个环节,就要切换一款工具,还需要重新和工具对齐创作的需求。 “市面上不少AI设计工具,仍然把内容创作视作单点环节的拼接。但事实上, 创作应该是涵盖创意生成、内容生成、发布、数据监测、复盘、优化的完整链路 。”Robin告诉《智能涌现》。 基于这一认知,2025年末决定创业时,Robin做了不少“非共识”的决定: 不做Multi-Agent(多Agent架构)的产品 ,因为不同专家Agent在传递过程中,会造成Context的损耗; 不做单点的内容生成, 而是用一个Agent,打通创作、发布、效果监测、复盘优化等创作中所有的链路; 不做“画布类”的产品, 而是用Chat作为UI,给Agent更多的自由度; 自训VLM(视觉-语言模型)、自研名为Contxt Layer的Agent架构, 沉淀创作经验和反馈,让AI自主进化。 这一切设计的最终目标,Robin告诉我们,是让Ribbi不仅仅局限于一个“工具”,而是成为理解完整创作闭环的“人”。 以下,是Ribbi创始人兼CEO Robin关于Agent创业的20条“暴论”: 🐸 大厂中,业务、模型和顶层之间的对齐是最困难的事,除非已经有业内共识。 比如,当Coding成为业内共识,不管是大厂,还是“AI六小虎”,都不约而同朝这个方向冲。 但在看到Taste的确切价值之前,为审美、品味构建模型,是大厂不愿意做的。只有当视觉创意生成从非共识,变成共识,才能激发更多大厂和顶尖人才参与进来。 🐸 一旦团队变大,对Context的折损就会增加。 大厂的基模能力很强,但模型团队对业务的认知有偏差。一旦团队变大,每个团队之间信息传递的过程,会折损大量的Context。 这也是Ribbi团队只有6个人的原因。我们只有3个程序员,他们现在是全栈设计师、全栈工程师,什么都能开发,并且可以做得很好。 这就是Claude Code带来的代码生产力的进化。 我相信,Ribbi会带来内容生产力的进化。 🐸 很多AI产品都在虚假宣传。 我们在宣发的过程中搞了很多“抽象”,比如“72小时ARR破亿”“一夜百万用户”,本质上是为了讽刺很多AI产品的虚假宣传。 只是我们讽刺做得不够好,很多用户信以为真了(无奈笑)。 我们在X上的CEO账号也是虚假的,根本没有“Robin Bisset”这个人。账号上的很多内容,包括Robin的外国人形象,都是Ribbi生成的。 △Ribbi的虚拟老外CEO。图源:X 🐸 AI行业正在逐渐“币圈化”。 我花了很长时间才研究明白Harness。圈内很喜欢造概念,又是“马鞍”,又是“驾驭”,搞得很玄乎。 其实Harness很简单,就是一个脚本,或者一个workflow,让模型不偏离目标,更好地发挥价值。 在Harness这个概念出现之前,依靠框架或者Agent去优化AI执行任务的上下文,本身就是一个共识。如今行业只是把这件事抽象了出来,给了一个核心定义。 🐸 画布类的产品,把模型的可能性“锁死”了。 我们没有把Ribbi做成画布类的产品。画布类的AI产品看起来交互很酷炫,能让投资人眼前一亮,专业用户使用起来也很顺手。 但它们有一个“致命伤”:把模型的可能性提前“锁死”了。因为画布的本质,是将工作流拆成一个个节点,模型只能沿着这条路径走。 我们一直以来的判断是, AI时代的UI应该是容器化的,而不是功能化的。 产品应该给AI创造一个容器,让它可以自由决定调用什么样的工具、怎么组合工具,甚至按照什么样的顺序执行任务。 🐸 具身智能成熟之前,Chat是AI最好的UI。 在互联网时代,我们就习惯通过Chat完成信息的传递,比如微信上可以拍图片、拍视频,也可以发链接、小程序。 在我看来, Chat是一个足够简单,并且灵活兼容一切的容器。 比如豆包DAU跑得很快,其中一个原因在于,它的移动端App设计得很轻量。用户不需要打开新的对话框,只要在一个session中疯狂Chat就能生图、生视频。 它将用户的交互和AI的行为,统一在一个非常简单的框架中。 用户认为Ribbi好用的点,就在于他们可以随时把X、Instagram、Pinterest等平台上的素材,采集、保存在Ribbi中,底层的AI再自主学习其中的审美。这其实就是人与AI Chat的过程。 作为AI产品经理,我非常讨厌用复杂的交互去操作AI。AI应该很聪明,不用我时时刻刻盯着,就把活干了。当你产品的交互门槛、使用门槛足够低的时候,自然而然就能吸引更多人。 🐸 真实的创作需求从来不是单一维度的。 很多人会疑惑:为什么要往Ribbi里塞这么多功能(图片/视频/音乐创作、社交媒体监测、编辑器)?这样会不会导致定位模糊,或者每个功能都做不深? 我们一直认为,真正的创作需求从来不只有单一维度。比如一条抖音视频的制作,就涵盖了想选题、写文案、写脚本、生成分镜、配音、剪辑、编辑封面、发布、数据监测、复盘等流程。 这是一个完整的链路。没有All in one的工具意味着,用户需要切换不同的工具,重新对齐创作的上下文。 人一定是懒的动物。 没有用户希望做一个产品、完成一个环节,就换一个模型、换一套工具。比如做一个视频,要先用ChatGPT生成文案,再用Gemini生成分镜,最后还要用剪映拼接视频,是很麻烦的。 我们设计Ribbi功能的出发点,不是为了把功能做全面,而是为了 让创作链路的Context完整连通。 🐸 Ribbi构建Agent的核心在于自主进化。 互联网平台的核心是UGC, Ribbi的核心是AGC,Agent Generated Content。 创业前,我就在寻找可以让“Agent自主进化”落地的场景,创作就是一个很好的答案。 首先,Taste会自主进化,这就是我们设计Pond和训练VLM的原因。 其次,Skills也会随着用户的使用自主进化。用户在使用Skill地过程中,会产生新的场景、需求和Context,这些Context就会凝练成专属用户个人的Skill。 这些个人Skill,都会经过Context Layer中的Skill Agent的评估、去重、去隐私化,再贡献给平台全端。因此,平台的Skill也会循环进化,用户使用越多,Skill就越多,能力也越强。 最后,用户的创作也会自主进化。我们建立完整创作工具的原因,就在于用户的创作是连续的过程,涵盖搜索、发现素材、生成内容、编辑优化、发布到社媒、数据监测等流程。 社交媒体,是Agent在线进化落地的核心训练场, 将作品发布到社交媒体,是Agent与真实世界的一种交互。监测数据表现后,Ribbi能够自主迭代和优化创作路径,交付更好的结果。最终,平台就能够形成一个自主进化的创作闭环。 🐸 Multi-Agent本质上是对模型能力的低估,产品要让Agent更自由。 Multi-Agent架构中,大部分专家Agent的底层能力,都来源于Claude。既然底层模型一样,为什么还要通过提示词工程,把模型拆分成不同的Agent? 提示词工程,本质上是对模型能力的约束。 与此同时, 任务在多层Agent架构中的传递,都会造成Context的损耗。 我们做Ribbi的时候,核心观点是:让Agent足够自由。 Agent要在一个非常丰满、质量足够高的Context中,发挥自己的能力。因此, 我们的核心架构其实是一条Single-Agent链路。 除此之外,我们构建了一个中间层, Context Layer。 它由Memory、Taste 、Skills等不同层级构成,每一层都有对应的Agent。它们的作用不是执行任务,而是辅助Single-Agent收集Context。 这样做的好处是 Single-Agent对上下文的感知不会折损,Token的损耗也会降低,这是我们的核心优势。 与此同时,其他Agent又能补足一些上下文信息。 🐸 Ribbi不是OpenClaw的“套壳”,大家只是对Agent有相同的想象。 2025年11月,那时还没有OpenClaw,我就在公众号上写了一篇文章,构想了Agent发展的路径:第一,Agent会从被动,发展为更主动;第二,Agent的Context会不断自我进化。 这两点在OpenClaw上得到了具体的体现。但我们的产品定义和OpenClaw非常不一样: 首先我们提出了Context Layer,为Agent提供了很干净的Context;其次我们不希望为用户提供一个部署门槛很高的产品;最后我们整体的功能链路都是为内容创作服务,所以Ribbi提供了100多个可以自由组合、循环进化的Skills。 我相信世界上很多人对Agent的想象是一致的。OpenClaw很多的底层思考来源于Claude Code,我们的核心想象也出自Claude Code。 Claude Code为Agent创造了一个非常简洁的系统: Coding是Agent的环境,Function Call是Agent的手。 Claude Code的出现让任何人可以成为全栈工程师,Ribbi的出现是让任何人能成为全栈的创作者。 🐸 我们不把Ribbi定义为“工具”,而是理解完整创作闭环的“人”。 首先,Ribbi是一个可以自我进化的内容引擎。其中,“Pond”是它的审美输入端,Skills是流程的沉淀,主动发布和数据监控是内容创作的最后一公里。 其次,我们希望Ribbi有活人感。如果你和Ribbi对话,就会发现ta是一只嘴上嘟囔、但会认真干活的青蛙。 🐸 Taste is all you need。 创作过程中最难用语言表达的,就是审美和品味。 为了解决审美建立的问题,我们为Ribbi设计了一个叫做“Pond”的板块。 用户在浏览Behance、Pinterest等设计平台时,可以通过Ribbi插件,将喜欢的设计采集并保存到Pond中。通过对Pond中资产的学习,Ribbi可以建立对用户审美的认知,未来创作的设计也会更符合用户的偏好。 除了学习用户个体的审美,Ribbi也会凝练平台所有用户的审美,成为平台共识。这么做的意义在于,让用户在不输入Prompt的情况下,也能获得高质量的设计。 支撑Ribbi学习、积累、迭代用户审美的核心,是我们基于开源的千问8B小模型训练的VLM(视觉-语言模型)模型。 它可以将图片、视频转化为文本Context,并将Context压缩进用于构建审美的Taste层,再基于Taste层生成新的设计。 对审美的不断沉淀,也是Ribbi产生用户粘性的核心。平台上,用户不断贡献新的审美Context,这些Context都会沉淀为Ribbi对你审美的认知。 在Pond中可以上传个人资产。 🐸 不能让模型,不知道你的操作。 目前,我对Ribbi主要有两个不满意的地方,一方面,稳定性还不够,包括性能和服务器、API负载; 另一方面,创作流程还不够灵活。因为没有编辑器,所以诸如“把字幕往上挪一点点”等简单调整,都需要用户去Chat。因此我们需要上线一些后编辑的功能。 但迭代的卡点在于,我们必须让底层模型知道用户的所有操作,对齐用户所有的上下文。只有这样,在后续创作过程中,Agent才能记住用户的偏好。 让模型感知到用户的后编辑,目前来看还有很高的开发门槛。 🐸 Ribbi的壁垒在于对技术的想象。 我们自主训练的VLM模型,目前多多少少算壁垒。当然,技术壁垒很容易被超越,Claude发布一个新模型可能就可以做到。 Ribbi的核心价值在于,我们不仅希望只做一家应用层的公司,而是在未做模型层的探索。训练VLM是现阶段探索的开始,包括中间层Context Layer的设计,都是基于我们对行业的Know-How和共识去完成的, 这些事说出来其实不难,难的是把它想象出来。所有的事最重要的就是想象,而 我们是第一个把技术领域的AI自主进化想象、并且落地的团队。 而且我们对Agent的认知一直在往前走,这是我们的想象保持领先性、建立壁垒的前提。 🐸 把Token消耗转化为扣积分的商业模式,不够诚实清晰。 我们的商业化会做得比较诚实。虽然模式还没完全确定,但一定不会是积分制。 △Ribbi会显示每个环节消耗的Token量。图源:作者试用 不少AI产品会采用积分发放的方式。个人觉得挺绕,用户还得把积分转化为Token消耗量,不够清晰。 也有平台会告诉你,“充值一次,无限Token”,但实际上用户天天在排队。这样的商业模式不诚实,而且平台还会亏本。 🐸 好的内容平台应该有广告。 我最近也在研究一些好的内容平台的商业模式。YouTube几乎是免费的,因为有足够多的广告商在视频中分发贴片广告。 广告的好处在于,让平台把用户的成本转嫁给广告商,同时也让创作者通过广告,有直接的收入,从而激励他们在平台上的创作。 🐸 Ribbi的北极星指标,是Skill的增长。 目前,网站上有20多个Skill,其实我们内部已经有100多个Skill,比如一键消除、做PPT等技能。没有放出来的核心原因在于,我们的设计师对审美的要求很高。 所以我们的北极星指标是不断裂变出更多高质量、高审美的Skill。 并且我们不希望Ribbi成为一个工具集。 工具聚合网站,更像是一个个的小程序,它们之间是相互独立、互不连通的状态。 但我们的Skill会在同一个Single-Agent中连通。这样的好处是Agent可以在接管创作全流程中,灵活串联不同的Skill。 另一点,我也希望Ribbi上的工具数量能不断增长。目前我们的100多个Skill,靠的是100多个工具的不同组合。一旦我们的工具数量扩大到1000多个,Skill会进化产生我们想象不到的价值。 △Ribbi上沉淀的Skills。图源:Ribbi官网 🐸 应用公司探索模型层是有必要的。 只有自己亲身训练和使用,才能知道当下模型的限制,以及实现AI自主进化的逻辑路径。我们现在实现AI自主进化的路径,是基于Context实现的。 但未来, 自主进化一定会在模型层上实现 ,并且会有非常多的人探索。自己训练模型,是为了提前积累经验。 🐸 我们不把自己定义为创业团队,而是独立开发者的组织。 我们不会像某些友商那样,不断花钱买量、烧各种补贴。我们不想做一家为估值而奋不顾身的公司。 融资当然也很重要。你要确保账上有足够的资金,去支撑研发-获得用户反馈-迭代的循环。 我们现在正在推进下一轮融资,并非是有意的,而是如今Ribbi获得的用户声量,远超我们的预期。现在的状态,有点像时代推着你往前走。 我们收到了很多投资意向书,但我希望愿意投资我们的机构,是真正对AI有价值判断的、长期看好AI的自主进化,而不是出于FOMO(错失恐慌)。 🐸 我立志成为硅基生命的垫脚石。 我们一直在找一个符号表达“自主进化”的理念。Ribbi LOGO是一只青蛙的原因,是因为蝌蚪进化为青蛙是一种非线性的变态发育,“Ribbi”就是呱呱叫(ribbit)的拟声词。 我相信AGI一定会到来。无论是训练模型,还是做Context Layer,这些看起来“很重”的事,目的都是为了加快AGI到来的进程,哪怕只留下一点点痕迹。 假设某一天,某家模型厂商实现了AI的自主进化,即便功不在我,我愿意贡献我们对Context Layer自主进化的Know-How、开源我们的技术架构,帮助模型厂商训练更好的自主进化模型。 欢迎交流!

36kr.com · None · tech

文|周鑫雨 编辑|杨轩 一句话介绍 成立于2025年6月的“涌跃智能”,是《智能涌现》曾报道过的AI创业公司 。 其旗下产品Loopit,好比“可以玩的抖音”,是一个面向C端的AI互动内容平台,覆盖可交互内容的创作、分发和消费。 基于自研的“AI Coding+多模态生成”的互动引擎,用户既可以与社区中的内容互动,也可以创作、发表支持图像、语音、视频、3D等全模态可交互互动内容。 团队介绍 “涌跃智能”创始团队,主要出身于“AI六小虎”百川智能的核心团队。 “涌跃智能”联合创始人兼CEO陈炜鹏,前百川智能的联合创始人兼大模型负责人,主导了BaiChuan 1-4等大模型的训练。 此前,他的职业路径横跨搜索、推荐与社区产品——从搜狗的搜索与信息流,到Soul的内容社区,一直围绕分发与内容形态演进展开。 融资进展 近期,“涌跃智能”完成了新一轮融资,金额为5000万美元。 该轮融资由全球头部游戏厂商Garena领投。 本轮投资阵容还包括 经纬创投、蓝驰创投、渶策资本、柏睿资本等 机构,高鹄资本担任独家财务顾问。其中天使股东经纬创投为第4次加码。 2026年以来,“涌跃智能”已经连续完成了3轮融资,累计金额近1亿美元。此前,投资方还包括天使股东耀途资本、钟鼎资本等机构。 产品及业务 2026年才过了1/3,“涌跃智能”就连续完成了三轮融资。资本市场火热,背后是Loopit所代表的AI应用赛道的兴起: AI互动式内容平台 。 在Loopit创作端,用户可以通过文字输入创意,生成可互动的mini-App,也可以基于其余用户创作的内容进行remix(魔改); △Loopit支持复杂互动内容的创作。图源:受访者供图 在消费端,产品采用单列Feed流进行分发,将互动体验封装进统一内容卡片中,降低用户参与体验的门槛。 △左:Loopit创作后台;中:Loopit首页Feed流;右:Loopit内容分区。图源:产品界面 在众多互动内容产品中,Loopit是增长最为迅猛的产品之一:正式上线(2026年2月10日)不到24小时,用户制作互动内容就在X上被马斯克评论转发; 《智能涌现》独家获悉,上线两个月以来, Loopit的全球注册用户规模达到了近200万 ,其中北美用户超过半数; 产品次日留存从早期的30%,上升到超过50% ,用户创作率达到30%。 实现用户新增、留存和消费时长的同时增长,陈炜鹏告诉《智能涌现》, Loopit核心做对了两件事 : 一方面,不断拓展互动内容的体验边界;另一方面,持续降低互动内容创作的门槛。 围绕增强“体验”,近期Loopit拓展了 “联机内容”的创作 ,支持多人互动内容的生成和发布。 陈炜鹏观察到,近几年来,用户对“体验”有个更深的需求:“人与内容的关系,从人观看内容,发展为人与内容互动,现在又扩展到人和人之间通过内容产生联系。” 比如,在Loopit平台上,有用户生成了一个全网聊天室,支持多人视频连线;也有网友制作了多人可以参与的闯关游戏。 △用户生成的联机闯关游戏。图源:作者体验 增强内容体验的同时,在陈炜鹏看来, 底层技术足够通用、内容生成的门槛足够低 ,是激发用户创作欲、满足用户探索欲的前提。 陈炜鹏认为,支持 “许愿式创作”,是驱动用户创作的核心之一 。即便用户尚未形成成熟的创意、没有创作目的,也能通过描述大致的创作需求,生成互动内容。 比如,用户只需要输入“90年代TV”,Loopit的创作引擎也能在几分钟内完善创意,生成一个可以调频道的互动内容。 △许愿式创作。图源:作者体验 Loopit背后的互动内容创作引擎,是团队自研的Coding驱动多模态生成架构,支持涵盖语言、图片、语音、视频、3D等全模态的互动内容生成。平均经过3轮对话,用户就能创作出模态、交互形式较为复杂的内容。 据陈炜鹏介绍,这一套架构,本质上是一个通用的Coding Agent与一个通用的多模态Agent的组合,“这套技术实现的门槛非常高,Coding和多模态的生成都在互相约束”。 可以看见,互动内容平台,已经成为当下最火热的AI赛道之一。陈炜鹏认为, Loopit的差异化在于,产品更为通用。 “不少产品或聚焦在小游戏、社交等具体场景,吸引的也是某一圈层的用户。”他不希望在早期就将Loopit的定位限定“死”,“我们把底层能力做得足够通用、创作的门槛降到足够低,是为了让每个普通人的创意涌现出来。” 商业模式 陈炜鹏对我们坦言,现阶段对Loopit而言,谈商业化还为时尚早:“ 过早讨论一个社区型产品的商业化,是不专业的、不懂社区的行为。 ” 在陈炜鹏看来,产品仍在快速演进阶段,未来的商业模式很大程度上会与用户结构深度绑定,而当下的任何设计,都未必能完全匹配未来。 团队更关注的是另一件事:用户是否愿意在Loopit上持续停留,以及是否在这里产生足够深的体验。“只要用户的时间和体验深度成立,商业化的答案是可以被自然推导出来的。” Founder思考 过去分发的是信息,未来分发的是体验。 过去用户和内容的关系是观看,今天的关系变成了体验和参与。用户参与内容的形式又可以分成两种:一种是人参与内容,另一种是人与人通过内容产生连接。 AI时代,做70分但通用的产品,别做90分但垂直的产品。 做90分的产品是有代价的,你会过早收敛产品的形态。在技术不完全ready的情况下,做一个90分的垂类产品会错失未来智能增长红利。 大部分Agent看起来相似,真正拉开差距的是底层抽象能力。 底层抽象能力不仅决定了系统当前能完成多复杂的任务,也决定了未来是否具备持续扩展和演化的空间。 过早把产品边界定义得过于狭窄,往往会与未来技术的发展脱节。 在互动内容赛道中,如何定义边界、从哪些人群切入,本身仍然没有共识。 不少产品选择聚焦单一场景,例如小游戏或小发明。这种路径对技术能力的要求更集中,但也意味着对内容深度和完成度的预期更高,边界更容易被锁死。 Loopit则选择另一条路径——以“Make everything playable”为核心,构建一个通用的UGC表达平台。我们更看重底层能力的通用性,以及尽可能放大创作的可能性。 对于内容平台而言,真正重要的不是某一个具体场景,而是能否持续激发创意的涌现,从而不断产生让用户产生“Aha Moment”的内容。 产品内容越复杂,内容入口就要越简单。 很多早期用户规模不小的产品最终做不大,除了市场空间限制,一个重要原因是入口过于复杂。 好的内容平台往往遵循同一原则:把复杂性封装在内容里,而不是暴露在入口上。 每一代优秀的产品设计,本质上都是技术驱动下的抽象升级。例如Feed流的出现,让用户始终在同一个认知框架内完成消费与切换,从而降低使用成本、提升分发效率,并放大平台的整体规模。 在大模型时代,这一逻辑进一步成立:产品不再由功能定义,而是成为承接能力涌现的载体。 欢迎交流!