· 晨讯 Dispatch 2026-05-11

AI 资讯 · 2026-05-11

20 · 精选 5 · 关注 15 · 简讯 0 · 国内 17 / 海外 3
今日精选 · TOP 5 algorithmic top-5 by composite score
  1. #1 / 7.0 / AI科技评论 /模型发布 /2026-05-11
    「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?

    雷峰网讯 你可以从同事.skill 的爆火中看到两种截然不同的时代情绪,其一固然是对 Markdown 文件“大变活人”这一魔幻现实的试探,而反面则是如今对模型能力的评价,已经离不开工作级任务的场景。“AI 能不能替代程序员”的老生常谈之下,今天的真问题是,国产大模型能在多大程度上接管开发工作流。这背后是一个被反复验证的痛点:当 AI Agent 被放进真实项目,它并没有想象中那么“能扛活”。它能开始任务,但执行过程反复中断,多轮对话后上下文丢失,结果前后不一致。面对非标准需求时,工具调用也频频失误。你一觉醒来,发现流程早已卡死,标准结局总是如此。问题的根源不在 Agent 的外壳,而在底层大模型本身还缺乏稳定可靠的“执行力”和“决策力”。4月7日,阿里云通义千问 Qwen3.6-Plus 正式上线,在 Terminal-Bench 2.0 编程测试中超越了 Claude Opus 4.5,拿下全球编程模型榜首。但我们决定换一种更接近真实场景的方式测一次,不用单点的 Benchmark,而是用两套真实复杂任务,覆盖“决策”与“执行”两条能力轴,全面评估 Qwen 3.6-Plus 的智

  2. #2 / 6.0 / AI科技评论 /模型发布 /2026-05-11
    DeepSeek-V4:华为昇腾适配、性价比王者、最新底层技术

    雷峰网讯 越过数个发布窗口,4 月 24 日,DeepSeek 最新一代旗舰模型 DeepSeek-V4 终于正式发布。此次发布的 DeepSeek-V4 主打百万字超长上下文,在 Agent 能力、世界知识和推理性能上均表现亮眼。有意思的是,4 月 8 日凌晨 DeepSeek 悄然上线了专家模式和快速模式,外界一度猜测是 V4 的不同版本。这一猜测得到了官方确认,按参数量大小,V4 此次同步推出了 pro 及 flash 两个版本。相较于前代模型,V4 的 Agent 能力有了大幅提高。DeepSeek-V4-Pro 在 Agentic Coding 评测中,已达到当前开源模型最佳水平,且在其它 Agent 相关评测中同样表现优异。DeepSeek 内部评测反馈显示,DeepSeek-V4-Pro 使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。此外在 SimpleQA Verified、HLE 等知识推理类基准测试中,DeepSeek V4 的表现均居于前列,特别是在ApexShortlist、Cod

  3. #3 / 6.0 / AI科技评论 /新产品发布 /2026-05-11
    西游取经团再出征:小米 Token Plan 能把 Token 价格打下来吗?

    雷峰网讯 大模型要怎么收费,众说纷纭。今天最常见的是订阅制,都说模型是新时代的基建,但没见谁家电表是包月的。作为模型层的后起之秀,4 月 3 日,小米发布了第一款“走字儿”的 Token Plan。在这套计费方案中,Token 消耗的最小计数单位被统一为 Credit。用户为后者付费,购买额度不一的套餐。在调用 MiMo 系列的不同模型时,每个 Credit 点数也对应着不同的 Token 额度,换算比例如下:MiMo-V2-Omni 256k 上下文:1x(消耗 1 Token = 1 Credit)MiMo-V2-Pro 256k 上下文: 2x(消耗 1 Token = 2 Credits)MiMo-V2-Pro 256k~1M 上下文: 4x(消耗 1 Token = 4 Credits)MiMo-V2-TTS:0x(限时免费,不消耗 Credit)类似流量包的设计让用户对模型调用有了更大的自由度。在 Anthropic、OpenAI、阿里等主流模型厂商都通过“5 小时滚动窗口”限制用户的使用时间时,小米此次推出的 Token Plan 取消了这一规定,支持用户集中消耗 Tok

  4. #4 / 6.0 / AI科技评论 /融资与收购 /2026-05-11
    生数科技完成近 20 亿元人民币 B 轮融资,发力通用世界模型

    雷峰网讯 中国世界模型团队再传捷报,朱军领衔的生数科技,宣布完成了近 20 亿元人民币的 B 轮融资。本轮融资由阿里云领投,中网投、九安海棠、好未来、光合创投等投资人战略投资,星连资本、达泰资本、建发新兴投资、百度 BV 风投、卓源亚洲等原有股东持续追加投资。这已经是生数科技在 2026 年拿到的第二笔大额融资,距离上一轮由中关村科学城公司、星连资本领投的超 6 亿元人民币 A+ 轮融资,仅仅时隔两个月。生数科技成立于 2023 年 3 月,其成名之战是 2024 年 4 月发布的视频大模型 Vidu,后者是中国首个全面对标 Sora 的文生视频大模型。2026 年 1 月 30 日,Vidu 模型已迭代至 Q3 版本,实现最长 16 秒声画同出,并支持多镜头切换、运镜控制、 BGM 与音效生成,以及多语种对话。Vidu Q3 发布后,在国际权威 AI 基准测试机构 Artificial Analysis 公布的榜单中位居全球第一,目前已在互联网、广告营销、动画影视、教育文旅等行业落地。在 AGI 愿景中,视频模型的特殊之处在于,其物理拟真的技术追求和通用世界模型不谋而合,因此被视为后

  5. #5 / 6.0 / AI科技评论 /其他 /2026-05-11
    1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

    雷峰网讯 用户苦 Token 成本久矣。“烧了几千块钱的 Token,Agent 还是没把活干完”,这或许是第一批尝鲜“养虾”的弄潮儿们最不想面对、却又最常遭遇的尴尬时刻。当 Agent 越发全面地接管工作流,人们在交付效果的权衡中,开始更多地看到效率问题。有时候它们能自主完成需求分析、多轮修改,直接交付可用的文案或代码,有时候却在复杂任务的拆解中,迷失工具调用的方向。端到端的任务场景,往往会让成本失控的问题更加凸显。一觉醒来,Token账单几百美元,正事却没干多少。不少开发者会将之归咎于 Agent 的架构设计、工具链的完善程度,或是 Prompt 工程的深浅。但更根本的矛盾是,大模型本身的“执行力”,即高效完成任务的能力,可能远未达到工业级可用标准。这不仅指推理质量本身,一个常被忽视的维度是词元效率(Token Efficiency)。当传统模型在多轮对话中不断膨胀上下文窗口、消耗惊人 Token 时,蚂蚁百灵最新发布的Ling-2.6-flash,却在用一个简单的主张撬动开发者的注意:更少 Token,更快响应、更强执行。一周前,代号为 Elephant Alpha 的匿名模型登

值得关注 15 items