AI 资讯 · 2026-05-11
-
「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?
雷峰网讯 你可以从同事.skill 的爆火中看到两种截然不同的时代情绪,其一固然是对 Markdown 文件“大变活人”这一魔幻现实的试探,而反面则是如今对模型能力的评价,已经离不开工作级任务的场景。“AI 能不能替代程序员”的老生常谈之下,今天的真问题是,国产大模型能在多大程度上接管开发工作流。这背后是一个被反复验证的痛点:当 AI Agent 被放进真实项目,它并没有想象中那么“能扛活”。它能开始任务,但执行过程反复中断,多轮对话后上下文丢失,结果前后不一致。面对非标准需求时,工具调用也频频失误。你一觉醒来,发现流程早已卡死,标准结局总是如此。问题的根源不在 Agent 的外壳,而在底层大模型本身还缺乏稳定可靠的“执行力”和“决策力”。4月7日,阿里云通义千问 Qwen3.6-Plus 正式上线,在 Terminal-Bench 2.0 编程测试中超越了 Claude Opus 4.5,拿下全球编程模型榜首。但我们决定换一种更接近真实场景的方式测一次,不用单点的 Benchmark,而是用两套真实复杂任务,覆盖“决策”与“执行”两条能力轴,全面评估 Qwen 3.6-Plus 的智
-
DeepSeek-V4:华为昇腾适配、性价比王者、最新底层技术
雷峰网讯 越过数个发布窗口,4 月 24 日,DeepSeek 最新一代旗舰模型 DeepSeek-V4 终于正式发布。此次发布的 DeepSeek-V4 主打百万字超长上下文,在 Agent 能力、世界知识和推理性能上均表现亮眼。有意思的是,4 月 8 日凌晨 DeepSeek 悄然上线了专家模式和快速模式,外界一度猜测是 V4 的不同版本。这一猜测得到了官方确认,按参数量大小,V4 此次同步推出了 pro 及 flash 两个版本。相较于前代模型,V4 的 Agent 能力有了大幅提高。DeepSeek-V4-Pro 在 Agentic Coding 评测中,已达到当前开源模型最佳水平,且在其它 Agent 相关评测中同样表现优异。DeepSeek 内部评测反馈显示,DeepSeek-V4-Pro 使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。此外在 SimpleQA Verified、HLE 等知识推理类基准测试中,DeepSeek V4 的表现均居于前列,特别是在ApexShortlist、Cod
-
西游取经团再出征:小米 Token Plan 能把 Token 价格打下来吗?
雷峰网讯 大模型要怎么收费,众说纷纭。今天最常见的是订阅制,都说模型是新时代的基建,但没见谁家电表是包月的。作为模型层的后起之秀,4 月 3 日,小米发布了第一款“走字儿”的 Token Plan。在这套计费方案中,Token 消耗的最小计数单位被统一为 Credit。用户为后者付费,购买额度不一的套餐。在调用 MiMo 系列的不同模型时,每个 Credit 点数也对应着不同的 Token 额度,换算比例如下:MiMo-V2-Omni 256k 上下文:1x(消耗 1 Token = 1 Credit)MiMo-V2-Pro 256k 上下文: 2x(消耗 1 Token = 2 Credits)MiMo-V2-Pro 256k~1M 上下文: 4x(消耗 1 Token = 4 Credits)MiMo-V2-TTS:0x(限时免费,不消耗 Credit)类似流量包的设计让用户对模型调用有了更大的自由度。在 Anthropic、OpenAI、阿里等主流模型厂商都通过“5 小时滚动窗口”限制用户的使用时间时,小米此次推出的 Token Plan 取消了这一规定,支持用户集中消耗 Tok
-
生数科技完成近 20 亿元人民币 B 轮融资,发力通用世界模型
雷峰网讯 中国世界模型团队再传捷报,朱军领衔的生数科技,宣布完成了近 20 亿元人民币的 B 轮融资。本轮融资由阿里云领投,中网投、九安海棠、好未来、光合创投等投资人战略投资,星连资本、达泰资本、建发新兴投资、百度 BV 风投、卓源亚洲等原有股东持续追加投资。这已经是生数科技在 2026 年拿到的第二笔大额融资,距离上一轮由中关村科学城公司、星连资本领投的超 6 亿元人民币 A+ 轮融资,仅仅时隔两个月。生数科技成立于 2023 年 3 月,其成名之战是 2024 年 4 月发布的视频大模型 Vidu,后者是中国首个全面对标 Sora 的文生视频大模型。2026 年 1 月 30 日,Vidu 模型已迭代至 Q3 版本,实现最长 16 秒声画同出,并支持多镜头切换、运镜控制、 BGM 与音效生成,以及多语种对话。Vidu Q3 发布后,在国际权威 AI 基准测试机构 Artificial Analysis 公布的榜单中位居全球第一,目前已在互联网、广告营销、动画影视、教育文旅等行业落地。在 AGI 愿景中,视频模型的特殊之处在于,其物理拟真的技术追求和通用世界模型不谋而合,因此被视为后
-
1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来
雷峰网讯 用户苦 Token 成本久矣。“烧了几千块钱的 Token,Agent 还是没把活干完”,这或许是第一批尝鲜“养虾”的弄潮儿们最不想面对、却又最常遭遇的尴尬时刻。当 Agent 越发全面地接管工作流,人们在交付效果的权衡中,开始更多地看到效率问题。有时候它们能自主完成需求分析、多轮修改,直接交付可用的文案或代码,有时候却在复杂任务的拆解中,迷失工具调用的方向。端到端的任务场景,往往会让成本失控的问题更加凸显。一觉醒来,Token账单几百美元,正事却没干多少。不少开发者会将之归咎于 Agent 的架构设计、工具链的完善程度,或是 Prompt 工程的深浅。但更根本的矛盾是,大模型本身的“执行力”,即高效完成任务的能力,可能远未达到工业级可用标准。这不仅指推理质量本身,一个常被忽视的维度是词元效率(Token Efficiency)。当传统模型在多轮对话中不断膨胀上下文窗口、消耗惊人 Token 时,蚂蚁百灵最新发布的Ling-2.6-flash,却在用一个简单的主张撬动开发者的注意:更少 Token,更快响应、更强执行。一周前,代号为 Elephant Alpha 的匿名模型登
-
波兰电商平台Allegro与OpenAI达成合作,将生成式AI引入购物体验
5月11日,波兰主流电商平台Allegro正式宣布与OpenAI开展技术合作,计划将生成式人工智能应用于其电商生态系统。通过此次合作,Allegro旨在利用OpenAI的技术模型优化基础功能,包括改进搜索结果的准确性、提升个性化推荐质量以及升级智能客服响应速度。(界面)
-
OpenAI just released its answer to Claude Mythos
OpenAI is launching Daybreak, an AI initiative focused on detecting and patching vulnerabilities before attackers find them. Daybreak uses the Codex Security AI agent that launched in March to create a threat model based on an organization's code and focus on possible attack paths, validate likely vulnerabilities, and then automate the detection of the higher […]
-
欧盟委员会对OpenAI开放新型ChatGPT模型访问权限表示欢迎
欧盟委员会发言人托马斯·雷尼尔5月11日表示,欧盟委员会欢迎OpenAI拟开放其最新版ChatGPT模型访问权限的意向,本周将与OpenAI展开进一步交流。欧盟委员会发言人指出,与Anthropic公司就其Mythos模型进行的磋商目前处于不同阶段,双方正保持持续接触,欧盟委员会正寻求与Anthropic达成类似目前正与OpenAI探讨的解决方案。(财联社)
-
数学专业,危!菲尔兹奖得主亲测ChatGPT 5.5 Pro,17分钟出论文级成果
陶哲轩:但「消化」属于人类
-
8点1氪丨SK海力士回应“员工人均奖金达610万元”传闻;世界杯中国转播费从3亿美元腰斩到1.5亿;曝三星中国家电部门裁员补偿N+4,还送手机
今日热点导览 一季度全国结婚登记169.7万对 bosie创始人刘光耀成为Kimi顾问?刘光耀回复“没入职” 英特尔与苹果据悉达成初步协议,将为后者设备制造芯片 业内人士称阿里未参与DeepSeek融资 新华社调查“胖东来为啥总被黑” TOP3大新闻 员工人均奖金达610万人民币?SK海力士回应 近日有消息称,SK海力士韩国员工人均奖金将达610万人民币。该消息源于国际投行麦格理证券的预测。该投行认为,若SK海力士2027 年营业利润达到447万亿韩元,按营业利润的10%和去年年末约3.5万名员工总数简单计算,分红总规模将达到约44.7万亿韩元,人均可发放奖金约12.9亿韩元,接近610万人民币。5月9日,SK海力士向第一财经记者回应称,由于今年与明年的年度业绩尚未确定,奖金规模也无法预测。该公司同时表示,已在总部层面建立了一套新制度,即以营业利润的10%作为资金来源,每年发放一次绩效奖金。(第一财经) 世界杯中国转播费脱离实际,央视拒绝,FIFA被曝大砍报价:从20亿元腰斩到10亿元 5月10日消息,据多家媒体披露,此次国际足联为中国内地市场开出的2026年世界杯转播权报价,最初高达
-
一分钟的奇迹与幻觉:实测世界模型Happy Oyster
雷峰网讯 4 月 16 日,阿里发布了主打实时构建和交互的开放式世界模型产品 Happy Oyster。基于原生多模态架构,Happy Oyster 支持多模态输入与音视频联合生成,且生成过程中能够持续接收用户指令,实现画面实时响应、持续演绎。如果说 AGI 是终极愿景,具身智能是物质载体,那么世界模型就是这一切的认知基础。它在技术脉络中占据了一个极其特殊的位置,那就是从大模型的“预测下一个词“,向”预测下一个物理状态“的演进节点。这也让世界模型成为了一条炙手可热的赛道。16 日当天,腾讯开源了 HY-World 2.0,次日群核科技在港交所上市,成为“全球空间智能第一股“。视角拉得更远,谷歌、英伟达、Meta,以及李飞飞坐镇的 World Labs 都早就对这一赛道有所布局。竞争逐渐升温之际,我们不禁要问,在最宏伟的愿景实现之前,有哪些先期落地场景可以为日后的争夺输血?在诸多可能的应用方向中,游戏开发是一个被各大厂商频频提及的选择。原因不难理解。视频模型证明了 AI 已经很擅于交付画面,交互式的世界模型又向前迈了一步,尝试给用户一个可以进入、修改,并支持对用户的交互做出反应的场景。当
-
从Mobileye到亿咖通,吉利的智驾自研前传
2022年12月21日,亿咖通科技董事长兼CEO的沈子瑜在美国纳斯达克敲响开市钟。他说,“这是整个亿咖通科技团队的荣誉时刻。”这个曾被寄予厚望的吉利智能化转型先锋,在投入近40亿、经历两次上市申请后,终于以一种体面的方式完成与资本市场的握手。而这个属于全团队的荣耀时刻里,亿咖通的智能驾驶的身影却显得有些落寞。在中国车企智能驾驶的历史上,亿咖通是投入时间最早、决心最彻底的企业之一。为了尽快实现上车,与吉利绑定颇深的亿咖通大举押注高精地图赛道、数据标注,却在关键的自动驾驶系统开发投入不足。而与自研同步进行的Plan B——与Mobileye的合作,也没有发挥出最理想的效果。不过,正是这两次的探索,推动了吉利在认知、组织与技术路线上的持续升级。2025年,吉利与“天才少年”印奇联手组建千里科技,以“AI+汽车”重构技术与业务版图,从底层能力入手补齐短板,加速向国内智驾第一梯队迈进。同时,其目标也不再局限于国内,而是将智能驾驶能力推向更广阔的海外市场。理解亿咖通以及与Mobileye的合作,是理解吉利一路转型漫长又迂回前进的起点。01做自动驾驶,应该先做什么?2017年,随着《新一代人工智能发
-
三年800万辆、2030年30万辆Robotaxi,印奇和赵明凭什么?
第三方智驾供应商的竞争在过去一年格外激烈。华为乾崑智驾搭载超过170万辆新车,合作车型品牌25家,综合领先;强调数据驱动的Momenta以端到端+强化学习见长,占据过半的市场份额;元戎启行依托VLA大模型和爆款车型策略强势扩张;而地平线的野心从芯片走向系统级方案提供者。头部供应商看似格局初定,但随着AI技术的介入,新的变数已经出现。入场仅一年的千里科技从旁杀出,更是在22日举办的AI战略暨产品发布会上放出激进目标:三年内实现量产800万套智驾方案,成为全球最大智驾供应商之一。同时,到2030年,将有30万辆搭载千里科技解决方案的Robotaxi穿行在世界各地。这份大胆又激进的规划图背后,是千里科技兼阶跃星辰董事长印奇的技术判断。他认为,L4是L3的升级版,不存在所谓的“L2+过渡期”。千里科技的做法是:用L4级技术架构开发L2级产品,同时打造原生智驾基座模型。“L3、L4如此令人兴奋的时间点即将到来,在整个智驾真正要交卷的时候,千里科技对自己的技术路线很有信心。”印奇说。L4架构下放,一条不同于主流的技术路线自动驾驶拐点到来前夜,技术路线快速收敛。印奇提出一个核心判断:未来不会存在L2
-
How ChatGPT adoption broadened in early 2026
ChatGPT adoption surged in Q1 2026, with fastest growth among users over 35 and more balanced gender usage, signaling broader mainstream AI adoption.
-
魔法原子登陆硅谷,行业首个「自进化具身大脑」发布
英伟达、亚马逊都来了。 作者丨齐铖湧 编辑丨马晓宁 美西时间 4 月 28 日,硅谷迎来一场关乎具身智能未来走向的重磅盛会。大会全称为全球具身智能创新大会,简称 GEIS。作为首届全球性具身峰会,GEIS 不仅吸引了 Openmind、PrismaX AI、Cosmicbrain AI、Physis 等一众硅谷前沿 AI 企业深度参与,更汇聚图灵奖得主、密码学先驱 Martin Hellman,英伟达 GEAR Lab 高级研究科学家 Zhengyi Luo,亚马逊前沿 AI 与机器人研究院科学家 Haozhi Qi 等知名学者,展开前沿技术深度对话,成为一场高规格行业前瞻盛会。值得关注的是,GEIS 主办方并非硅谷科技新贵,而是国内头部具身智能企业魔法原子 MagicLab。这也是中国具身智能企业首次走出国门,以主办方身份在硅谷发起全球行业顶级对话。首届 GEIS 大会
-
360内部启动“龙虾计划”:每人1亿Token自动到账 “龙虾教练”即将亮相
360公司近日发布全员信,宣布向全体员工每人发放1亿Token,用于使用“360安全龙虾”AI智能体平台,额度无需申请,已自动充值到员工账户。此次统一发放Token,被视为360探索“人机协同”新工作模式的重要动作。公司内部人士透露,希望通过“人手一支AI专家团”,推动员工从“使用AI工具”升级为“带着AI团队工作”,实现“人人都是超级个体”。据悉,目前360安全龙虾已内置上百个专业智能体,覆盖代码开发、知识问答、办公协作、行业分析、内容创作等多个场景,其中既包括Claude Code、codex等开发专家,也有面向经营分析、商业决策等方向的“CEO智囊团”智能体。据内部人士透露,360将于5月13日发布360安全龙虾产品升级,重磅推出全新功能“龙虾教练”。该功能可帮助用户在10分钟内快速训练自己的专属AI智能体,自动完成角色设定、技能配置以及工作流搭建。除功能升级外,360此次还重点解决了当前大模型应用中的高成本问题。针对不同场景,360安全龙虾提供多档模型调用模式。其中轻量版最高可节省99%的Token消耗,省钱版可节省约80%的使用成本,以降低普通用户和企业团队的大规模使用门槛。
-
央行:展望未来,人工智能行业将为经济高质量发展注入更多动能
36氪获悉,央行发布2026年第一季度中国货币政策执行报告,其中提到展望未来,人工智能行业将为经济高质量发展注入更多动能。一是技术迭代持续加速。随着多模态、强逻辑推理等关键技术不断突破,国产大模型性能有望进一步提升。二是产业融合向纵深发展。人工智能将深度融入智能制造、金融、医疗、交通等关键领域,推动传统产业全流程智能化重构。三是国际市场空间持续拓展。国内人工智能企业在东南亚、中东等新兴市场落地应用项目,产品与服务出海步伐进一步加快,国际竞争力稳步提升。
-
独家丨腾讯混元3幕后:重构架构,姚顺雨一场非典型的「逆袭」
早在三月,提起马上要上线的混元 3.0,在腾讯混元工作的同学左飞就对雷峰网说过:“这次混元的新版本,其实团队预期不算太高。”一个月后,4 月 23 日晚,Hy3 的 Preview 版本正式发布,同步开源,向世界展示自己最真实的样子。雷峰网独家获悉,Hy3 规模更大、功能更全面的闭源旗舰版本将在五六月份发布,给人留下不少想象空间。(腾讯混元的新进展,雷峰网正在持续关注,欢迎添加作者微信:william_dong,交流信息,探讨认知。)说起来,腾讯 Hy3 Preview 的发布也有点“生不逢时”——前有 GPT 5.5 举世围观,后有 DeepSeek V4 重磅回归,被夹在中间的混元,还是在“9.7 减去 9.11”的小学数学题上犯了难,在社交平台上引起了一阵围观。“其实 GPT 和 DeepSeek 的发布日期在我们内部也不是什么秘密,但为什么选择在这个时候和他们一起发布,我也不太清楚。”左飞对雷峰网如是说Hy3 之于 4 个月前的上一个版本究竟有哪些变化?在混元内部的同学邰萝对雷峰网分享道:“Hy3 基本上把之前的架构重构了一遍,但简单来来说,是回到了‘基本’。”一直以来,业界的
-
腾讯 AI · 五问丨混元的三年战争
2025年,从阿里巴巴离职的语音专家鄢志杰,正面临一个重要抉择。鄢志杰一边是急于在AI领域大展拳脚的京东,其研究院正招兵买马,尤其从阿里、商汤、百度等企业招揽英才;另一边是腾讯的AI Lab团队,俞栋团队也正在寻找一位值得信赖的语音领域顶尖人才。当时,早就有意亲自管理京东研究院的刘强东求贤若渴,甚至直接与鄢志杰会面,希望将这位通义实验室语音团队的前负责人招入麾下,最终却被鄢志杰婉拒。鄢志杰婉拒老刘的原因,并非腾讯AI Lab给出的待遇优厚——在他心中,俞栋是自己在微软时期的同事,这份情谊重逾千钧。俞栋于是,鄢志杰义无反顾地加入了俞栋的团队。天有不测风云,鄢志杰到岗时,俞栋麾下语音团队已经开始跟混元团队合作,共同开发对标豆包语音的项目——“混元-O”,此时混元团队研发任务紧张,语音+视觉理解的团队已成建制,项目已经在跑起来了。人员调动,刚入职腾讯的鄢志杰也受到了影响。一说鄢志杰本人被调到混元,无法和俞栋“双剑合璧”;一说鄢志杰的团队被调走了一批人,而把鄢和一个三五个人的小团队留在了 AI Lab。然而,“混元-O”项目的开发却并不顺利。由于缺乏语音数据,团队巧妇难为无米之炊,最终的训练结
-
GM just laid off hundreds of IT workers to hire those with stronger AI skills
Some of the positions focus on AI-native development, data engineering and analytics, cloud-based engineering, and agent and model development as well as prompt engineering and new AI workflows.