每日AI快讯热闻

54 1032

AI工具集每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等，让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI工具集官方社群，获取最新一手信息！

8月13·周三

「Skywork UniPic 2.0」开源，统一多模态模型再迎新突破

昆仑万维正式开源「Skywork UniPic 2.0」模型，是面向统一多模态建模的高效训练和推理框架。模型由生图编辑、统一模型能力和生图编辑后训练三个核心模块组成，具备生成模块轻量高效、引入强化学习提升性能和一体化灵活切换等核心优势。来源：昆仑万维集团

Anthropic宣布Claude Sonnet 4支持高达100万Token的上下文窗口

Anthropic宣布Claude Sonnet 4 API支持高达100万Token的上下文窗口，容量是之前的5倍。开发者可在单次请求中处理大型代码库或数十篇研究论文。来源：AI工具集

OpenAI ChatGPT 更新：GPT-5 引入三种模式，4o 模型回归

OpenAI CEO 萨姆・奥尔特曼宣布 ChatGPT 重大更新。GPT-5 新增“自动”“快速”“思考”三种模式，用户可按需选择。“思考”模式每周限 3000 条消息，超限可用 mini 版，上下文限制为 196,000 个 token。4o 模型回归，付费用户可在网页设置中切换多款模型。来源：IT之家

Perplexity想花345亿美元收购谷歌Chrome

美国AI搜索初创公司Perplexity计划以345亿美元全现金收购谷歌Chrome浏览器。收购动机在于AI搜索领域增长焦虑，传统浏览器仍是重要流量入口。Perplexity承诺若收购成功，将投资30亿美元维持Chrome开源并保留默认搜索引擎。来源：智能涌现

8月12·周二

Seele AI：全球首个端到端AI 3D游戏生成工具上线

Seele AI是全灵公司推出的全球首个端到端AI 3D游戏生成工具。用户可通过自然语言描述生成3D游戏，如FPS、飞行模拟等，实现零代码开发。工具支持多模态交互，涵盖文本、3D建模和物理引擎。Seele AI已开放全球公测。来源：AI工具集

全球多模态推理新标杆，GLM-4.5V正式上线并开源

智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，总参数106B，激活参数12B。模型基于智谱新一代文本基座模型GLM-4.5-Air，综合效果在41个公开视觉多模态榜单中达到SOTA水平，支持图像、视频、文档理解及GUI Agent等任务。来源：智谱

Vercel 推出全栈应用构建AI工具——v0.app

Vercel 推出全栈应用构建工具 v0.app，可根据用户输入的文本提示，快速生成基于 React、Shadcn UI 和 Tailwind CSS 的网页用户界面代码，提供三种界面选择。用户能直接复制代码，可以对生成的 UI 进行微调和优化。目前处于免费内测阶段，可以访问官网加入等候名单。来源：AI工具集

昆仑万维发布「Matrix-Game 2.0」，国产开源的Genie 3来啦！

昆仑万维发布自研世界模型Matrix系列的升级版本「Matrix-Game 2.0」。实现通用场景下的交互式实时长序列生成，支持25 FPS速度生成连续视频内容，时长可达分钟级，具备高帧率、低延迟、强物理一致性和多场景泛化能力。与依赖文本语义的模型不同，「Matrix-Game 2.0」通过视觉驱动和物理规律学习构建虚拟世界，避免语义偏置。来源：昆仑万维集团

达摩院开源具身智能“三大件” 机器人上下文协议首次开源

阿里达摩院宣布开源具身智能“三大件”：视觉 – 语言 – 动作模型RynnVLA-001-7B、世界理解模型RynnEC和机器人上下文协议RynnRCP。RynnVLA-001-7B可从第一人称视频中学习人类操作技能并迁移到机器人手臂操控；RynnEC能从多维度解析场景物体并精准定位；RynnRCP打通了从传感器数据采集到机器人动作执行的完整工作流，支持多款热门模型和机械臂。来源：达摩院DAMO

昆仑万维开源Matrix-3D大模型，树立3D世界生成新标杆

昆仑万维开源了Matrix-3D大模型，用于3D世界的生成与探索。Matrix-3D是融合全景视频生成与三维重建的统一框架，能从单张图像生成高质量、轨迹一致的全景视频，还原可漫游的三维空间。模型具有场景全局一致、生成范围大、高度可控、泛化能力强和生成速度快等优势，支持文本和图像输入，生成的3D场景可自由探索。来源：昆仑万维集团

8月11·周一

昆仑万维正式发布SkyReels-A3模型，让数字人“说话”的魔法

昆仑万维发布SkyReels-A3模型，是基于“DiT视频扩散模型+插帧模型+强化学习动作优化+运镜可控”的音频驱动人像视频生成模型。用户只需上传人像图片和音频，可生成自然同步的视频，支持照片“活”起来、创作新视频、改台词等功能。来源：昆仑万维集团

百川开源大模型Baichuan-M2，医疗能力登顶世界第一

百川智能发布开源医疗增强大模型Baichuan-M2。该模型在HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型，成为全球医疗能力最强的开源大模型。Baichuan-M2通过AI患者模拟器和端到端强化学习，实现了医疗场景的高度还原和模型性能的大幅提升。来源：百川大模型

Grok 4 现已免费开放，非订阅用户每天可限量使用

马斯克宣布AI模型Grok 4向所有用户免费开放，非订阅用户每天可限量使用。Grok 4号称“全球最强”AI模型，具备深度推理能力，经过xAI的Colossus超级计算机训练，逻辑推理和文本生成能力出色。来源：AI工具集

8月8·周五

GPT-5 正式发布！奥特曼：这是全球最好的模型

OpenAI正式发布GPT-5，CEO Sam Altman称其为全球最佳模型。GPT-5引入“智能路由”系统，能自动判断问题难度，快速或深度思考作答。全面取代并超越GPT-4等前代模型，免费用户即可使用。GPT-5 Pro（付费）则具备“扩展推理”能力，适合高难度问题。来源：AI工具集

8月7·周四

讯飞星火代码画布上线！「动嘴开发」的时代到了

科大讯飞推出星火代码画布，标志着“动嘴开发”时代的到来。工具通过语音指令、草图、链接或文字描述，快速生成交互网页。来源：讯飞开放平台

MiniMax Speech 2.5上线：多语种表现力更强，音色复刻更“像”

MiniMax发布新一代语音生成模型Speech 2.5，再次刷新全球最强语音模型记录。Speech 2.5在多语种表现力、音色复刻和语种覆盖范围上实现三大突破。支持40种语言，中文表现全球最强，英文相似度显著提升，音色复刻精度行业领先，可跨语种保留口音和风格。来源：MiniMax 稀宇科技

灵心巧手完成数亿元天使轮融资，蚂蚁集团领投

全球高自由度灵巧手领军企业灵心巧手完成数亿元天使轮融资，由蚂蚁集团领投，多家知名机构跟投，老股东红杉中国种子基金加注。本轮融资将用于技术储备提升和具身智能数据采集场建设，加速灵巧手落地应用。来源：灵心巧手LINKERBOT

通义千问推出Qwen-Flash，全员拥抱1 M上下文！

Qwen API 迎来重大更新，推出 Qwen-Flash、Qwen3-Coder-Flash 两款新模型，升级了 Qwen-Plus。三款模型均支持 1M 超长上下文，理解力大幅提升。Qwen-Flash 以极速响应著称，适合轻快任务。来源：通义千问Qwen

谷歌正式推出异步 AI 编程智能体工具 Jules

谷歌正式推出异步AI编程智能体工具Jules，由Gemini 2.5 Pro驱动。Jules支持集成GitHub，可克隆代码库至Google Cloud虚拟机，在GitHub仓库中异步处理任务，助力开发者提升效率。Jules定价分免费版（每日15任务，3并发）和付费版（Google AI Pro每月19.99美元，Ultra套餐124.99美元）。来源：AI工具集

Qwen3-4B超顶小模型更新登场！手机也能轻松跑！

Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507 两款小尺寸语言模型更新发布。Qwen3-4B-Instruct-2507 通用能力大幅提升，超越闭源的 GPT4.1-Nano，支持多语言长尾知识，上下文理解能力扩展至 256K。Qwen3-4B-Thinking-2507 推理能力显著增强，AIME25 测评获 81.3 分。来源：通义千问Qwen

谷歌 Gemini AI 推出“引导式学习”功能

谷歌 Gemini AI 推出“引导式学习”功能，通过提问和逐步指导帮助用户理解问题，答案形式包括图片、视频和互动小测验等。促进学习而非简单提供答案，谷歌与教育专家合作确保其科学性。来源：AI工具集

8月6·周三

OpenAI首次推出开源语言模型——gpt-oss

OpenAI开源大模型gpt-oss，包含1200亿和200亿参数两种版本，支持Apache 2.0商业化。模型针对AI Agent进行特殊训练，支持函数调用、网络搜索等功能，可助力快速开发智能体。来源：AI工具集

小红书 hi lab 开源多模态大模型 dots.vlm1，效果接近闭源 SoTA 模型

小红书hi lab开源了多模态大模型dots.vlm1。模型基于12亿参数的NaViT视觉编码器和DeepSeek V3 LLM构建，具备强大的视觉感知和文本推理能力。视觉编码器从零训练，支持动态分辨率，引入纯视觉监督提升感知能力。来源：小红书技术REDTech

谷歌DeepMind推出通用世界模型Genie 3，首个可实时交互世界模型

谷歌DeepMind推出通用世界模型Genie 3，是首个可实时交互的世界模型。基于文本提示，Genie 3能以每秒24帧、720p分辨率生成长达数分钟的交互式3D环境，相比Genie 2的10到20秒有了显著提升。Genie 3在模拟世界物理特性、自然世界、动画和小说建模等方面表现出色，能突破时空限制生成内容。来源：智东西

Anthropic发布Claude Opus 4.1模型，全面超越OpenAI o3

Anthropic发布Claude Opus 4.1模型，Pro/Max/Team用户可在网页端使用，API也已开放。Claude Opus 4.1性能更强，价格不变。在Agent能力、高级编程、搜索和写作等方面全面提升，能准确处理长时程任务和复杂企业工作流程，完成上千步骤的长程编程任务。来源：AI工具集

谷歌Gemini上线 AI 生成故事书功能——Storybook

谷歌Gemini AI聊天机器人上线“Storybook”功能，可生成10页图文并茂的故事书。用户只需简单描述，能生成带插图的故事，Gemini能朗读内容。用户可定制故事风格，如黏土动画、动漫等，可上传图片，如孩子的画作，让Gemini以此编故事。来源：AI工具集

美国AI Agent营销平台Clay完成1亿美元C轮融资

美国AI营销平台Clay完成1亿美元C轮融资，投后估值达31亿美元。本轮融资由Alphabet旗下CapitalG领投，Meritech Capital Partners、红杉资本等参投。Clay成立于2017年，总部位于纽约，最初聚焦“让编程民主化”，后转型为AI营销工具，帮助销售和市场团队寻找潜在客户并推动转化。来源：智东西

ElevenLabs推出AI音乐生成工具：Eleven Music

ElevenLabs推出AI音乐生成工具Eleven Music，可根据文本提示快速生成高质量、定制化的音乐作品。用户通过自然语言描述调整歌曲风格、节奏、歌词等，支持逐段编辑，实现无缝过渡和精确情绪转换。来源：AI工具集

8月5·周二

告别文字乱码！全新文生图模型Qwen-Image来咯

通义千问团队开源了20B参数的文生图模型Qwen-Image。作为通义千问系列首个图像生成基础模型，Qwen-Image在复杂文本渲染和精确图像编辑方面表现出色，支持多行布局、段落级文本生成及细粒度细节呈现，英语或是中文，能实现高保真输出。来源：通义千问Qwen

腾讯混元「AI播客」来了，ima、腾讯新闻都在用

腾讯混元正式发布AI播客功能，功能可将文本、网页、文档一键转化为自然流畅的双人对谈式音频，将晦涩难懂的内容转化为有逻辑、有节奏的对话。用户可通过主题描述、网页URL和文档上传三种模式输入内容，平均90秒即可完成转换。来源：腾讯混元

京东战略领投！帕西尼4个月狂揽10亿元

帕西尼完成新一轮A系列融资，由京东战略领投，浦耀信晔等多家机构跟投，老股东持续加码，4个月内融资达10亿元人民币。帕西尼凭借高精度多维触觉感知技术及亿级全模态数据集，构建具身智能核心生态闭环，推进具身智能模型落地。来源：帕西尼感知科技

松延动力半年订单破亿，两年六轮融资狂飙突进

成立不足两年的松延动力近日完成数亿元A++轮融资，由金浦投资领投，北汽产投等跟投。是其今年上半年的第三轮融资，累计已达六轮。松延动力上半年斩获超2000台人形机器人订单，合同额破亿，成为国内第二家迈入“千台销量”门槛的公司。来源：NOETIX松延动力

8月4·周一

继续开源：腾讯混元 0.5B、1.8B、4B、7B模型发布

腾讯宣布开源四款小尺寸混元模型，参数分别为0.5B、1.8B、4B、7B，可在消费级显卡上运行，适用于低功耗场景，支持垂直领域低成本微调。这些模型在语言理解、数学、推理等领域表现优异，具备agent能力和超长上下文窗口（256k），可处理超长内容。来源：腾讯混元

小米开源声音理解大模型 MiDashengLM-7B

小米开源了声音理解大模型MiDashengLM-7B。模型基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B解码器，采用创新训练策略，实现语音、环境声和音乐的统一理解，性能在22个公开评测集上刷新最佳成绩。来源：小米技术

全球首个！纳米AI多智能体蜂群上线

360集团宣布纳米AI完成品牌焕新，升级为“多智能体蜂群”，成为全球首个迈入L4级别的智能体系统。实现了从“单兵作战”到“群体协同”的进化，突破以往智能体在跨领域复杂问题上的瓶颈。纳米AI独创的“蜂群协作框架”可让多个推理型智能体灵活拉群、多层嵌套、组队协作，完成超长复杂任务，如制作10分钟电影级大片仅需20分钟。来源：360公司

小红书推出首个社交大模型RedOne

小红书推出首个社交大模型RedOne。模型采用“继续预训练→监督微调→偏好优化”的三阶段训练策略，针对社交网络服务（SNS）领域的复杂数据特征和多元场景进行优化。来源：AI工具集

谷歌推出 Gemini 2.5 Deep Think 模型

谷歌推出 Gemini 2.5 Deep Think，面向 Google AI Ultra 订阅者开放。模型基于在国际数学奥林匹克竞赛中获得金牌标准的版本改进，具备更快的推理速度和日常可用性，达到 2025 年 IMO 铜牌水平。Deep Think 通过并行思考技术，延长推理时间，生成多种想法并逐步优化，适用于复杂问题解决、科学发现、算法开发等场景。来源：AI工具集

昆仑万维发布并开源全新推理大模型 MindLink

昆仑万维推出并开源全新推理大模型Skywork MindLink，基于Qwen3-32B和Qwen2.5-72B后训练而成。模型采用新的推理范式Plan-based Reasoning，去掉了“think”标签，能根据任务难度自适应整合推理和非推理生成回复，降低推理成本且提升多轮对话能力。来源：AI工具集

8月1·周五

Manus 推出 Wide Research，支持上百个 Agents 同时工作

Manus AI 上线以来最大更新，推出 Wide Research 功能。功能支持用户一键开启大规模并行 Agent 协作，可同时启动多达100个 Agent 处理复杂任务。来源：APPSO

Black Forest Labs开源新版Flux模型：FLUX.1 Krea dev

Flux开源模型新版本FLUX.1 Krea dev 正式发布。模型由Black Forest Labs与krea_ai联合开发，专为照片级写实而生，具备业界领先的开源文本生成图像能力，图像质量卓越且真实感强，能有效避免常见的“AI感”和过度饱和纹理问题。来源：AI工具集

Kimi K2 高速版发布：kimi-k2-turbo-preview

kimi-k2-turbo-preview 是 kimi-k2 的高速版，模型参数与 kimi-k2 一致，但输出速度由每秒 10 Tokens 提升至每秒 40 Tokens。目前限时 5 折特惠，9月1日恢复原价，折扣后的价格：模型每百万 tokens 输入价格（缓存命中）¥2.00，输入价格（缓存未命中）¥8.00，输出价格 ¥32.00。来源：Kimi 开放平台

阿里通义千问发布 Qwen3-Coder-Flash 编程模型

编程模型 Qwen3-Coder-Flash 正式发布。模型全称 Qwen3-Coder-30B-A3B-Instruct，性能出色，具备超强的 Agentic 能力，超越当前顶级开源模型，仅次于顶配版 Qwen3-Coder 和部分领先闭源模型。原生支持 256K tokens，可通过 YaRN 扩展至 1M tokens，能理解整个项目库代码，避免上下文断层。来源：通义千问Qwen

字节跳动发布实验性扩散语言模型 Seed Diffusion

字节跳动Seed团队发布实验性扩散语言模型Seed Diffusion Preview。验证离散扩散技术作为下一代语言模型基础框架的可行性，通过两阶段扩散训练、约束顺序学习与强化高效并行解码等关键技术，实现了每秒2146 tokens的推理速度，相比同等规模的自回归模型提升5.4倍。来源：字节跳动Seed

7月31·周四

通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507

Qwen3-30B-A3B模型迎来重大升级，新版本Qwen3-30B-A3B-Thinking-2507在推理能力、通用能力及上下文长度上显著提升。在数学和代码能力评测中超越Gemini2.5-Flash和Qwen3-235B-A22B，在写作、Agent能力、多轮对话等通用能力上也表现优异。新模型原生支持256K tokens，可扩展至1M tokens，思考长度增加，适合复杂推理任务。来源：通义千问Qwen

Ollama发布桌面客户端，本地AI从此告别命令行

Ollama推出适用于macOS和Windows的桌面应用。应用支持下载并聊天模型，具备文件拖拽功能，可处理文本或PDF文件，能通过增加上下文长度处理大型文档（需更多内存）。新应用支持多模态功能，可向支持该功能的模型（如Google DeepMind的Gemma 3）发送图像。能处理代码文件以帮助理解文档。来源：AI工具集

零次方机器人再获两轮亿元级融资加速具身基础模型突破与量产爬坡

零次方机器人宣布完成天使+轮和天使++轮亿元级融资，半年内已获三轮融资。资金将用于深化具身智能基础模型研发、加速量产交付以及生态布局。零次方已发布专项场景操作基础模型Zerith-V0和轮臂人形机器人Zerith-H1，成为国内首家实现超长序列多任务连贯操作的企业。来源：Zerith零次方

阿里巴巴旗下1688推出“1688 AI版”AI生意助手应用

阿里巴巴集团旗下1688在浙江省“平台+产业”AI对接会上推出“1688 AI版”App及多项AI产品。1688 AI版聚焦创业与拿货场景，集成AI搜索、选品、创款、图搜、查企等核心功能，覆盖商机发现到产品创新全链路。来源：智东西

阿里推出 AI 医学助手“氢离子”，收录千万级医学核心期刊文献

阿里健康发布 AI 医学助手“氢离子”。收录千万级医学核心期刊文献，支持权威指南查阅、AI 总结、全文翻译及智能问答，能查询疾病和药品信息。AI 研读功能可总结外文文献重点并标注出处。来源：AI工具集

京东健康推出 AI 情绪漫画生成应用“小星绪”

京东健康团队推出 AIGC 产品“小星绪”，用户可通过语音或文字输入情绪或讲述故事，AI 将生成个性化漫画及故事解读。帮助用户表达情绪、激发创意并构建社交关系链。来源：AI工具集

7月30·周三

拒绝代做作业：OpenAI 发布 ChatGPT Study 学习模式

OpenAI发布ChatGPT Study学习模式，面向教育领域，提供交互式提示、支架式回应、个性化教育和知识点检查等功能，深度解读难题解题思路，培养学生的批判性思维和自主学习能力。来源：AI工具集

RoboScience 完成近 2 亿元天使轮融资，京东领投

RoboScience宣布完成近2亿元天使轮融资，由京东领投，招商局创投、商汤国香资本跟投，老股东零一创投继续追投。RoboScience专注于具身智能技术，采用快慢脑分层端到端模型，自主研发仿真物理引擎和具身操作大模型，实现机器人操作的高精度和高泛化能力。来源：RoboScience

昆仑万维开源多模态统一预训练模型「Skywork UniPic」

昆仑万维推出并开源了多模态统一预训练模型Skywork UniPic。模型融合图像理解、文本生成图像和图像编辑三大核心能力，采用自回归路线，基于大规模高质量数据进行端到端预训练。1.5B参数规模实现轻量级与高性能的平衡，具备指令遵循、复杂指令生图和图像编辑的领先能力。来源：昆仑万维集团

无影AgentBay来了！给AI智能体装上“超级大脑”

阿里云在上海世界人工智能大会上推出首款AI Agents“超级大脑”——无影AgentBay。是一款云端电脑，具备视觉理解、自然语言控制等AI技能，可在多系统间无缝切换，调用云端算力与资源，仅需三行代码即可接入。来源：阿里云

豆包·图像编辑模型3.0上线火山方舟

豆包·图像编辑模型SeedEdit 3.0正式上线火山方舟。模型基于强大的文生图模型Seedream 3.0，支持高清图像生成与处理，可精准锁定编辑区域，实现人物姿态调整、文字修改、光影变换等功能，同时保留图像细节。来源：火山引擎

谷歌AI笔记应用NotebookLM，新增“视频概览”功能

谷歌宣布升级AI笔记应用NotebookLM，新增“视频概览”功能。功能可根据用户输入的主题自动创建带有旁白的幻灯片视频，从用户上传的图片、图表、引用和文档中提取数据以丰富内容。来源：AI工具集

7月29·周二

GLM-4.5发布：面向推理、代码与智能体的开源SOTA模型

智谱旗舰模型 GLM-4.5 重磅发布并开源，作为首款SOTA级原生智能体模型，国产综合评测第一，性能媲美全球最强旗舰模型。参数效率翻倍，API价格仅为Claude的1/10，速度最快可达100tokens/秒。率先在一个模型中实现多能力原生融合并取得重要技术突破——单个模型同时具备强大的推理、代码、智能体等能力，已上线智谱清言和Z.ai开放免费体验。来源：智谱

通义万相2.2开源！首创电影级美学控制系统

阿里正式开源通义万相Wan2.2，含文生、图生及统一视频三模型，首次在扩散模型中引入MoE架构，降耗50%，并首创电影级美学控制系统，光影色彩媲美专业片。小模型5B可在消费级显卡22G显存跑5秒720P视频，代码已上架GitHub、Hugging Face与魔搭。来源：通义万相Wan

阶跃 AI 有了一个研究小助手：阶跃深研

阶跃星辰推出了“阶跃深研”研究小助手，开启邀测。阶跃深研能在约十分钟内完成复杂问题的研究任务，生成深度、专业的研究报告，适用于金融、咨询、医疗、法律、政策与学术研究等多个领域。在红杉中国发布的xbench-DeepSearch评测中以70%的通过率位列第一，在OpenAI的BrowseComp基准测试中也达到行业领先水平。来源：阶跃星辰

微软为 Edge 浏览器引入 Copilot 模式，变为“AI 原生”浏览器

微软在 Edge 浏览器中推出实验性功能“Copilot 模式”，将其从传统网页浏览器转变为“AI 原生”浏览器。Copilot 被定位为用户的“浏览智能体”，能看懂所有打开的标签页，帮助总结、对比信息，甚至未来可预订行程、处理琐事。来源：APPSO

Runway推出多任务视频生成与编辑模型——Aleph

Runway 近日宣布推出 Runway Aleph，是多任务视频生成与编辑模型。Aleph 能对输入视频进行多种编辑操作，包括添加、移除和转换对象、生成任意角度的场景，以及修改风格和灯光等。来源：AI工具集

7月28·周一

腾讯正式发布混元3D世界模型 1.0，全面开源

腾讯在世界人工智能大会上正式发布并开源混元3D世界模型1.0。是业界首个开源的可沉浸漫游、可交互、可仿真的3D世界生成模型，融合全景视觉生成与分层3D重建技术，支持文字和图片输入，能在几分钟内生成高质量3D场景。来源：腾讯混元

快手可灵 AI 发布全新创意工作台「灵动画布」

快手可灵 AI 发布全新创意工作台「灵动画布」和升级后的「多图参考」功能。「灵动画布」支持最多 5 人协同创作，素材共享且可实时联动；「多图参考」功能则大幅提升了 AI 视频生成中角色、主体和场景的一致性，解决了以往角色形象前后不一致、画风突变等痛点。来源：AI工具集

千问推出Qwen3升级版：Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B推理模型升级版本Qwen3-235B-A22B-Thinking-2507正式发布。版本在推理性能和通用能力上取得巨大飞跃，可比肩Gemini-2.5 Pro、O4-mini等顶尖闭源模型，创下全球开源模型SOTA最佳性能表现。来源：通义千问Qwen

阶跃星辰发布新一代基模Step 3，推理效率创行业新高

阶跃星辰在上海发布新一代基础大模型Step 3。模型总参数量321B，激活参数量38B，采用MoE架构，具备强大的视觉感知和复杂推理能力，性能达到开源SOTA水平。Step 3在推理效率上实现行业领先，尤其在国产芯片上效率显著提升。来源：阶跃星辰

上海AI实验室开源发布『书生』科学多模态大模型Intern-S1

上海人工智能实验室在世界人工智能大会（WAIC 2025）上发布并开源了“书生”科学多模态大模型Intern-S1。模型是首个融合专业科学能力的开源通用模型，具备跨模态科学解析能力，可精准解读多种复杂科学模态数据，如化学分子式、蛋白质结构、地震波信号等，并在化学、材料、地球等多学科专业任务基准上超越顶尖闭源模型Grok-4。来源：书生Intern

商汤科技发布「悟能」具身智能平台，官宣入局具身智能

在世界人工智能大会（WAIC 2025）大模型论坛上，商汤科技发布「悟能」具身智能平台，正式入局具身智能领域。商汤凭借十年多模态技术积累和世界模型经验，推出日日新V6.5多模态推理大模型，其图文交错思维链显著提升了跨模态推理精度，性价比提升5倍。来源：量子位

扣子开源：扣子开发平台Coze Studio和扣子罗盘Coze Loop

Coze宣布开源两款核心产品：零代码开发平台Coze Studio和调试工具Coze Loop。扣子开发平台采用Apache 2.0开源协议，支持零代码开发，用户可通过拖拽组件快速搭建智能体工作流程。Coze Loop提供全生命周期管理工具链，涵盖开发、评测、观测和优化四大阶段，助力开发者高效调试和优化智能体。来源：AI工具集

7月25·周五

从灵感到网站，只要5分钟，扣子空间网页设计功能上线

扣子空间推出了一键生成网页设计的新功能。用户只需输入需求，即可快速生成现代、响应式的网站，支持自然语言编辑和上传设计稿复刻。功能适用于招聘网站、活动营销页面、机构主页、个人主页、生活网页和前端工具等多种场景。来源：扣子Coze

讯飞星火X1升级版正式上线！

科大讯飞宣布其深度推理大模型讯飞星火X1升级版正式上线。此次升级实现了综合能力的大幅提升，对标OpenAI等一流大模型，在翻译、推理、文本生成、数学等方面保持领先。星火X1在幻觉治理方面取得显著进步，多语言能力覆盖130多种语种，为全球提供自主可控的大模型底座。来源：科大讯飞

快手 AutoThink 大模型 KAT-V1 正式开源，40B 性能逼近 R1-0528

快手开源了KAT-V1自动思考大模型，包含40B和200B两个版本。40B版本性能追平DeepSeek-R1（6850亿参数），200B版本在多项基准测试中超越Qwen、DeepSeek和Llama等旗舰模型。KAT-V1通过长短思考混合训练范式、新型强化学习方法Step-SRPO等技术创新，实现了根据问题难度自动切换思考模式。来源：快手技术

宇树科技发布双足人形机器人新品Unitree R1，售价3.99万元起

宇树科技发布双足人形机器人新品Unitree R1，售价3.99万元起，重量仅25千克。R1具备出色的运动控制能力，可下坡、翻跟头、倒立，支持开发与定制。来源：第一财经

ChatGPT Agent 正式推送至所有 Plus、Pro 与团队用户

ChatGPT Agent 功能现已正式向所有 Plus、Pro 与团队用户推出。Agent 能在内置“虚拟电脑”环境中自主执行多步骤任务，包括上网浏览、填写表单、运行代码、生成表格与幻灯片等，用户通过对话中的“agent mode”菜单激活，可随时中断或确认 AI 操作。当前 Pro 用户每月可用 400 次，Plus 和团队用户为 40 次。来源：AI工具集

阿里云通义千问宣布 Qwen-MT 机器翻译模型：支持 92 种语言互译

基于Qwen3模型的机器翻译模型Qwen-MT正式发布。该模型支持92种语言互译，覆盖全球95%以上人口，具备高度可控性，提供术语干预、领域提示等功能。采用轻量级MoE架构，低延迟、低成本，API调用价格低至每百万输出token 2元。来源：通义千问Qwen

Lovart 正式版上线，用 ChatCanvas 改写 AI 设计交互范式

AI 设计智能体 Lovart 正式版发布，推出全新交互系统 ChatCanvas，实现从“工具”到“设计伙伴”的升级，首次将“评论系统”用于 AI 交互，用户可直接在画布上点击、标注、对话式修改图像；支持多图联动、Frame 管理、评论追踪与复用，像用 Figma 那样精细控制设计流程。来源：AI工具集

7月24·周四

字节跳动 Seed 团队发布端到端同声传译模型 Seed LiveInterpret 2.0

字节跳动Seed团队推出了Seed LiveInterpret 2.0，是支持中英双向翻译的端到端同声传译模型。具备接近真人水平的翻译准确率和极低的延迟（仅3秒），能实时处理多人语音输入并进行“边听边说”翻译。零样本声音复刻功能可实时复刻说话人的音色，无需提前采集样本。来源：字节跳动Seed

免费不限量，通义灵码已经全面支持 Qwen3-coder 模型

阿里云宣布开源其AI编程大模型Qwen3-Coder，全面接入AI编程产品“通义灵码”，向全球开发者免费提供不限量服务。来源：通义灵码

微软发布一键生成全栈应用工具——GitHub Spark

微软发布GitHub Spark，可将自然语言描述一键生成全栈应用并部署上线。GitHub Spark遵循微应用理念，支持多种功能，如交互式预览、自动历史记录、托管运行时环境等，深度集成GitHub平台。来源：AI工具集

像素绽放PixelBloom完成B3轮融资

像素绽放PixelBloom近日宣布完成B3轮战略融资，由国内领先国有产业投资平台亦庄国投领投，国科投资、英诺天使基金、水木清华校友种子基金及探路者创始人盛发强先生参与投资。融资将支持PixelBloom加速全球化布局，确立AiPPT.com在全球AI演示软件领域的领导地位，扩展其独特的AI Venture Studio模式。来源：像素绽放PixelBloom

加速进化宣布完成超亿元A+轮融资

加速进化宣布完成超亿元A+轮融资，由北京市机器人产业发展投资基金领投，北京市人工智能产业投资基金和博华资本跟投。专注于双足人形机器人研发，其产品Booster T1在2025年RoboCup机器人世界杯上助力清华火神队获得成人组冠军。来源：智东西

7月23·周三

通义千问 Qwen3-Coder 宣布开源：480B 参数、原生支持 256K 上下文

Qwen团队正式发布Qwen3-Coder，是迄今为止最具代理能力的代码模型。Qwen3-Coder-480B-A35B-Instruct是其最强大的版本，拥有480B参数激活35B参数，原生支持256K token上下文并可通过YaRN扩展到1M token，在Agentic Coding等任务上达到开源模型SOTA效果。来源：通义千问Qwen

昆仑万维发布最新AI音乐模型——Mureka V7

昆仑万维发布AI音乐模型Mureka V7。模型通过核心技术MusiCoT（音乐思维链）实现了先规划整体音乐结构再生成细节的功能，解决了传统AI音乐模型“走一步看一步”的问题，生成的音乐作品更具连贯性和感染力。Mureka V7支持10种语言，可创作流行、摇滚等多种风格音乐，最长单曲时长5.5分钟。来源：AI工具集

讯飞星火X1将于7月25日全新升级！

科大讯飞宣布讯飞星火X1升级版将于7月25日正式上线。此次升级的核心亮点包括综合能力大幅提升，在数学、翻译、推理、文本生成等方面保持领先；幻觉治理显著进步，慢思考模式的幻觉治理准确率大幅领先；多语言能力全面扩展，支持130+语种。来源：科大讯飞

阿里本周将发布首款自研AI眼镜，加入“百镜大战”

阿里巴巴将于本周发布首款自研AI眼镜，加入“百镜大战”。产品具备语音助手、音乐播放、电话通话、实时翻译等功能，整合了阿里巴巴生态内的地图、支付、购物等功能。硬件上，分为不带显示的AI智能眼镜和带显示的AI+AR智能眼镜，采用双芯片架构。来源：智能涌现

通用机器人模型GR-3发布！支持高泛化、长程任务、柔性物体双臂操作

字节跳动Seed团队发布通用机器人模型GR-3。模型具备高泛化能力、长程任务处理能力和柔性物体双臂操作能力，能理解抽象语言指令并快速适应新环境和新任务。GR-3采用Mixture-of-Transformers网络结构，融合了视觉、语言和动作信息，通过遥操作机器人数据、人类VR轨迹数据和大规模视觉语言数据联合训练，提升了泛化性和灵活性。来源：字节跳动Seed

零一万物发布万智企业大模型一站式平台2.0

零一万物在北京发布万智企业大模型一站式平台2.0版本，并推出企业级Agent智能体，定位为“超级员工”。该Agent具备深度思考和任务规划能力，能访问手机和Web端，连接各类企业服务。来源：零一万物 01AI

7月22·周二

字节跳动TRAE推出SOLO模式，从需求到交付“一站式完成”

字节跳动发布AI编程助手TRAE SOLO模式，主打全流程自动化开发体验。从需求输入到部署交付“一站式完成”，支持自然语言或语音输入需求，AI自动完成PRD撰写、代码生成、调试验证并直接上线。引入“实时跟随”功能，动态展示AI操作阶段，用户可随时切换AI主导与手动主导模式。来源：AI工具集

首款本地大模型办公本来了！讯飞智能办公本X5正式发布

科大讯飞发布全新旗舰级智能办公本X5。作为首款本地大模型办公本，具备离线AI能力，支持离线语音转写、多人识别、中英互译及会议纪要等功能，构建“全链路安全”体系。配备10.65英寸墨水屏，仅重355克，薄至4.6毫米，搭载6nm AI芯片和8核CPU，支持300PPI高清显示与GPU快刷技术，书写体验接近真实纸笔。来源：科大讯飞

Qwen3深夜升级，全面告别混合思维模式

阿里通义千问推出Qwen3-235B-A22B-Instruct-2507-FP8版本，通用能力显著增强，涵盖指令遵循、逻辑推理、文本理解等多领域。在多项测评中超越Kimi-K2、DeepSeek-V3等顶级模型。新版本在多语言长尾知识、主观任务契合能力及长文本处理方面进步显著，上下文理解能力提升至256K。来源：新智元

腾讯推出全栈开发AI IDE——CodeBuddy IDE

腾讯推出CodeBuddy IDE的AI助手，专为零基础用户设计，助力无经验者轻松开发互联网产品。用户只需输入简单指令，工具可完成产品构想、设计、开发及调试等全流程操作。CodeBuddy IDE支持多种AI模型，内嵌Figma设计工具，可一键将设计稿转为代码，现已开启内测。来源：腾讯

专为开发者设计的AI源码解读工具——Zread

Zread是帮助开发者快速掌握项目核心知识的AI工具，能一键生成清晰易懂的仓库Guide，快速梳理复杂代码，生成API文档和用户手册。支持多仓库对比学习，解读GitHub Trending热门项目，提供深度研究功能，助力开发者提升技能。来源：AI工具集

7月21·周一

千寻智能完成近6亿元PreA+轮融资，京东领投

具身智能领域头部企业千寻智能宣布完成近6亿元PreA+轮融资，由京东领投，中网投、浙江省科创母基金等知名机构跟投，老股东P7、顺为资本等超额追加投资。本轮融资由高鹄资本担任独家财务顾问。来源：千寻智能 Spirit AI

Le Chat再一次升级，全方面对标ChatGPT

Mistral AI推出升级版Le Chat，全方位对标ChatGPT。Le Chat新增深度研究模式，可生成结构化研究报告；语音模式借助新发布的Voxtral模型实现语音输入；原生多语言推理功能提供更精准回答；项目管理功能可组织对话内容；高级图像编辑功能支持复杂图像修改。来源：机器之心

宇树科技，开启上市辅导

中国证监会官网显示，宇树科技已正式开启上市辅导，中信证券担任辅导机构。辅导备案报告披露，宇树科技控股股东及实际控制人为王兴兴，直接持有公司23.8216%股权，通过上海宇翼企业管理咨询合伙企业（有限合伙）控制10.9414%股权，合计控制公司34.7630%股权。来源：财联社

「众擎机器人」连续完成Pre-A++与A1轮融资，京东领投

众擎机器人连续完成两轮融资，Pre-A++轮由星航资本投资，A1轮由京东领投，宁德时代旗下溥泉资本、银泰集团等参投，老股东中东资本等也参与增资。来源：众擎机器人

逐际动力获京东战略领投，以IDS生态协同加速具身智能技术落地

具身智能机器人公司逐际动力LimX Dynamics宣布完成新一轮融资，由京东战略领投。逐际动力将推进全尺寸人形机器人量产与销售，深化具身大模型技术研发及IDS生态平台建设。其全尺寸人形机器人将于下半年公开销售，双足机器人TRON 1持续升级。来源：逐际动力

7月18·周五

OpenAI正式发布ChatGPT Agent！

OpenAI正式发布ChatGPT Agent功能。功能整合了Operator、Deep Research和ChatGPT本体，用户只需描述任务，Agent能自主调用工具，完成网页访问、信息提取、代码运行、PPT生成等操作，支持任务中断与修改。ChatGPT Agent支持手机端使用，可连接Gmail、GitHub等应用，深度嵌入工作流。来源：APPSO

全球首个A股金融博弈智能体应用FinGenius开源

由00后团队创建的全球首个A股金融博弈智能体应用FinGenius在GitHub开源。项目在内测阶段吸引了4000+用户申请体验。FinGenius通过16个超级智能体分工协作，结合多智能体博弈机制，30秒内生成分析报告，解决传统金融工具信息加工过度、数据不真实、大模型局限性等问题。来源：AI工具集

Perplexity 向印度 3.6 亿用户免费赠送一年 Pro 服务

AI搜索企业Perplexity与印度第二大电信运营商Bharti Airtel达成独家合作，向其3.6亿用户免费提供原价200美元的12个月Perplexity Pro订阅服务。合作具有排他性，印度其他电信商不得提供Perplexity服务。来源：IT之家

AI初创公司DecartAI发布全球首个实时视频生成模型MirageLSD

初创公司DecartAI发布全球首个视频直播模型MirageLSD，获Andrej Karpathy天使投资。模型可实时将摄像头画面转化为其他风格和内容，支持24FPS稳定运行，延迟低于40毫秒。通过英伟达CUDA Megakernels和抗漂移训练实现效率提升，能重塑观看体验、革新游戏世界、赋能内容创作者等。来源：AI工具集

7月17·周四

Kimi Playground: 一站式体验 Kimi K2 的工具调用能力

Kimi开放平台宣布正式上线Kimi Playground，为开发者提供一站式工具调用能力体验。平台支持直观的工具调用界面和便捷的调试体验，可快速选择不同工具并实时调整参数。来源：Kimi 开放平台

普林斯顿团队领衔发布最强开源数学定理证明模型：Goedel-Prover-V2

普林斯顿大学联合清华大学、北京大学等顶尖高校及英伟达等机构，发布了新一代开源数学定理证明模型Goedel-Prover-V2。32B旗舰模型在自动数学定理证明基准测试中大幅超越前代SOTA模型DeepSeek-Prover-V2-671B，8B小尺寸模型性能也与之持平。来源：机器之心

无界方舟连续完成Pre-A & Pre-A+轮亿元级别融资

无界方舟（AutoArk）宣布连续完成Pre-A & Pre-A+轮亿元级融资。公司基于自研多模态大模型，打造AI应用的“超级感官”与“真大脑”。无界方舟的EVA多模态模型在性能上对标OpenAI的GPT-4o，具备高智商分析、真人般交互、全自动数据合成等优势，已实现商业化落地。来源：AutoArk无界方舟

Mistral首个开源语音模型Voxtral，全面碾压Whisper

Mistral AI发布首个开源语音模型Voxtral，包含24B和3B参数规模版本，基于Apache 2.0许可证开源并提供API接口。Voxtral支持8大主流语言，可处理30分钟音频转录或40分钟语义理解任务，全面超越Whisper，在多语言基准测试中表现优异，语音翻译成绩占据榜首，语音理解能力追平GPT-4o-mini。来源：智东西

MiniMax Agent全栈开发能力“靠谱”上新

MiniMax Agent发布全栈开发功能，用户仅需一句话即可生成复杂全栈应用，无需编程基础。功能支持Supabase后端托管、Stripe支付、定时任务等，可快速开发演唱会选座系统、实时金融看板、出海独立站、企业数据看板等应用。来源：MiniMax 稀宇科技

7月16·周三

观猹正式发布，打造AI产品的专业点评平台

由特工宇宙团队打造的AI产品点评社区「观猹」正式发布，用真实用户视角判断产品PMF。面向AI爱好者，观猹提供真实、可信的产品评分与交流社区。创作者可分享AI作品，获取反馈；创业者能冷启动项目，连接用户与投资人。来源：AI工具集

亚马逊推出Kiro AI编程工具，正式开放公测

亚马逊云科技宣布推出Kiro AI编程工具，正式开放公测。Kiro是Agentic IDE，提供AI编码辅助，能帮助开发者从想法到上线的全过程。Specs可将模糊需求转化为具体用户故事和边界条件，Hooks能在代码提交前自动完成测试、文档更新和安全扫描等任务。来源：亚马逊云科技

百度上线TizzyAI，主打无广告智能搜索

百度上线全新AI搜索App“Tizzy.ai”，定位为无广告的AI智能搜索助手。应用基于百度多个大模型能力开发，界面简洁，无弹窗和信息流推荐，仅设“搜索”和“资源库”两个核心入口。TizzyAI支持自动和深度搜索模式，能快速回答问题并提供深度分析。来源：AI工具集

Grok 推出交互式「数字伴侣」，基于Grok 4大模型

马斯克旗下Grok APP推出基于Grok 4大模型的“智能伴侣”功能，付费用户可优先体验。功能提供动漫头像Ani、卡通小熊猫Rudy等3D形象，支持更换背景和动作。来源：机器之心

ChatExcel·桌面版全新上线、AI提示词优化、常用提示词保存功能

ChatExcel桌面版全新上线，支持Mac和Windows平台，用户可直接在桌面处理Excel数据、生成图表等，无需浏览器。新增AI优化提示词功能，点击“魔术笔”可一键优化提示词内容，更规范、准确。上线常用提示词保存功能，方便用户在重复场景中快速使用。来源：元空AIExcel

华为携手云南交投发布“绿美通道·交通大模型”

云南省交通投资建设集团有限公司与华为、长安大学合作研发的“绿美通道·交通大模型”在昆明正式发布。模型历时两年研发，涵盖智算中心底座、高质量数据集、AI平台工具链、行业模型集及AI场景应用等成果。来源：华为

OpenAI正在开发基于Chromium的AI浏览器——“Aura”

OpenAI正在开发一款基于Chromium的AI驱动浏览器，内部代号为“Aura”。浏览器将利用生成式和代理式AI能力，彻底改变用户的网络浏览体验。来源：IT之家

百度AI助手全新功能「视频通话」上线！

百度AI助手推出全新功能「视频通话」。用户可通过百度APP进入「AI+」选择「视频通话」，开启与AI的视频互动。覆盖多种生活场景：可识别花草、解答难题；提供专业穿搭建议；解读宠物行为；倾听烦恼、提供慰藉。来源：百度搜索

LG 推出韩国首个混合推理 AI 模型 EXAONE 4.0

LG AI Research研究所推出韩国首个混合推理AI模型EXAONE 4.0。模型融合通用自然语言处理与高级推理能力，在数学、科学及编程等高难度领域表现优异，支持多语言并提供32B专业版和1.2B端侧版。来源：IT之家

7月15·周二

TRAE 自定义模型新增 Kimi-K2，国际版支持Grok-4

TRAE自定义模型服务商宣布新增Kimi-K2模型，支持通过API Key接入，满足开发者对模型多样性和专业性的需求。TRAE国际版新增超级模型Grok-4（Beta），进一步丰富了模型阵容，支持全球主流大模型一站式调用。来源：TRAE.ai

秘塔AI搜索推出“深度研究”模块，动态展示研究过程

秘塔AI搜索宣布其“深度研究”模块正式上线。秘塔通过优化数据和算法，降低了算力成本，提升了准确率，在中文搜索上表现突出。秘塔版“深度研究”免费开放，增加了“问题链”功能，可动态展示研究过程，为复杂问题提供结构化报告。来源：AI秘塔

华人团队Cognition收购Windsurf剩余团队

编程助手公司 Cognition 宣布收购编程初创公司Windsurf剩余员工和资产，获得其银行账户中超过 1 亿美元资金。此次收购后，Windsurf 将短期独立运营，继续开发其 AI 驱动的 IDE，Cognition 提供资金支持并计划将 Windsurf 的 IP 和功能集成到自身产品中。来源：机器之心

ima 网页版正式上线，随时进入知识库

ima 网页版正式上线，用户无需下载，打开浏览器即可使用。访问 ima.qq.com 并登录账号，可基于全网或知识库内容提问，能逛知识库广场、加入感兴趣的知识库。来源：ima.copilot

MiniMax已基本完成近 3 亿美元新一轮融资

大模型公司 MiniMax 近期已完成近 3 亿美元新一轮融资，估值超 40 亿美元。本轮融资新增上海国资等出资方，成为今年 AI 六小虎中仅有的两家获得融资的公司之一。来源：IT之家

智源全面开源RoboBrain 2.0与RoboOS 2.0：刷新10项评测基准

智源研究院发布 RoboBrain 2.0 和 RoboOS 2.0，RoboBrain 2.0 是集感知、推理与规划于一体的通用具身大脑，32B 版本刷新多项权威评测基准，7B 版本适配边缘设备。RoboOS 2.0 是全球首个具身智能 SaaS 开源框架，集成 MCP 协议与无服务器架构，支持多机协作，推出单机版及技能商店。来源：智源研究院

7月14·周一

通义千问推出Qwen Chat桌面端，一键使用MCP

阿里巴巴旗下通义千问发布Qwen Chat桌面端，目前支持macOS端，支持多模型PK及MCP协议，可通过插件实时调用地图、搜索、本地文件等外部数据，实现更精准回答。来源：通义千问Qwen

美图推出专注于影像与设计的AI智能体RoboNeo

美图公司正式推出专注于影像与设计的AI智能体RoboNeo，用户可通过自然语言交互轻松完成修图、设计和视频制作等任务。RoboNeo具备智能修图、AI设计生成、视频智能处理及多模态创作等多项功能来源：美图公司

奥尔特曼宣布延期 OpenAI 首个开源权重 AI 模型

OpenAI CEO山姆·奥尔特曼7月12日宣布，再次推迟发布其首个开源权重AI模型，理由是需要更多时间进行安全测试及高风险内容审查，但未给出新的发布日期。该模型原计划下周亮相，已是年内第二次延期。来源：IT之家

「汉阳科技Yarbo」近日完成超亿元B+轮融资

消费级扫雪机器人公司「汉阳科技Yarbo」完成逾亿元B+轮融资，由国科投资、中金资本、九阳创投联合注资。本轮资金将用于技术研发、供应链优化及北美、欧洲市场拓展，借助九阳SharkNinja渠道加速全球化布局。来源：36氪

OpenAI 收购 Windsurf 计划告吹，后者 CEO 及创始人已被谷歌招入麾下

OpenAI收购AI编码助手Windsurf的交易正式取消。谷歌迅速出手，Windsurf CEO Varun Mohan、联合创始人Douglas Chen及核心团队集体加入DeepMind，谷歌以约24亿美元获其技术非独家授权。原30亿美元收购价落空，Windsurf高层换血，业务由临时CEO接手。来源：IT之家

CAMEL-AI与Gemini官宣合作，实现数据可视化和自动化

开源多智能体框架CAMEL-AI宣布与Google DeepMind合作，集成Gemini 2.5 Pro模型，推出OWL系统。用户只需一句自然语言指令，OWL即可自动完成搜索、提取、分析并生成可视化图表，支持在线数据、本地文件及浏览器操作。来源：CAMEL AI

7月11·周五

月之暗面Kimi正式发布k2模型，具备超强代码和 Agent 能力

月之暗面发布MoE架构基础模型k2，总参1T、激活32B，上下文128k tokens，支持ToolCalls、JSON/Partial/联网，无视觉。输入价￥1.00/1M tokens，输出￥4.00/1M，缓存命中￥16.00/1M，性能领先开源模型。来源：AI工具集

拍我AI（PixVerse）上线多关键帧生成功能，从“片段”迈向“故事性表达”

拍我AI（PixVerse）上线“多关键帧生成”功能，用户可上传最多7张图，在首尾帧模式下生成长达30秒的叙事视频，实现动作、场景及景别自然衔接，助力短剧、广告等高效创作。来源：爱诗科技AIsphere

欧盟公布最终版《通用人工智能行为准则》，8 月 2 日起正式实施

欧盟发布最终版《通用人工智能行为准则》，8月2日实施，涵盖安全、透明、版权三方面，由13位专家联合1000多利益方制定，企业可自愿签署以减轻负担，旧模型有2年调整期，新模型1年。来源：IT之家

墨刀AI重磅上线：原型图，现在可以自动生成了！

墨刀AI上线全新原型生成能力，从灵感到可交付界面只需30秒，面向产品经理和设计师提供零门槛体验。支持文字/草图/截图转原型，自动识别布局与组件；多轮对话优化设计，像“聊天”一样改原型；自动生成产品文档与页面逻辑，规范输出流程。来源：墨刀

微软发布 Phi-4-mini-flash-reasoning 端侧 AI 模型：10 倍吞吐量

微软发布Phi-4-mini-flash-reasoning端侧AI模型，采用SambaY架构与GMU组件，推理吞吐量提升10倍、延迟降至1/3，专注数学与逻辑推理，已上线Azure AI Foundry等平台。来源：IT之家

7月10·周四

马斯克发布 Grok 4，处理学术问题达到博士级别

马斯克旗下xAI发布新一代大模型Grok 4，推理能力较前代提升10倍，在多项基准测试中超越现有模型，达到“博士后水平”。Grok 4支持工具调用、语音交互、多模态任务，并在ARC-AGI等高难度测试中刷新纪录。来源：机器之心

办公小浣熊 · 桌面版全新上线！

商汤科技推出“办公小浣熊”桌面版，支持Windows和Mac平台，用户无需浏览器即可一键唤醒AI助手，实现任务拆解、数据分析、图表生成等办公功能。老用户可同步历史内容。来源：商汤小浣熊

智谱Z.ai推出的实验性大模型GLM-Experimental

智谱AI推出全新实验模型GLM-Experimental，主打“AI Presentation”功能，可一键生成网页版PPT，支持多种风格与互动效果。用户只需输入简单Prompt，模型可自动生成内容、设计排版，实现弹幕、动画等高级效果。来源：AI工具集

Perplexity推出 AI 浏览器——Comet

Perplexity发布AI浏览器Comet，主打“从浏览到思考”，整合网页解释、任务执行等功能，成为用户的“思考伙伴”。Comet目前仅向高价订阅用户开放。来源：AI工具集

抖音快手前高管创业，上线AI图片工具 KIRA

由抖音、TikTok、快手前核心成员创立的 AI 图片生成工具 KIRA 正式亮相。产品由 ILLA Cloud 孵化，支持一键替换/移除背景、修补、画质增强、扩图等操作，并具备 AI 生成图片能力。创始团队包括曾任抖音 & TikTok 研发、快手孵化业务大前端负责人陈龙博，及抖音、快手多项战略项目设计负责人吴晓松。来源：AI工具集

7月9·周三

谷歌Veo 3逆天升级，照片秒变活人开口讲话！

谷歌AI视频生成模型Veo 3近日升级，用户只需上传一张照片，即可生成角色一致、配有音频的视频，实现“照片开口说话”。新功能支持多种运镜和风格，适用于广告、动漫等创作场景。来源：新智元

字节旗下小荷健康推出AI医疗助手——小荷AI医生

字节跳动推出首款AI医疗助手App“小荷AI医生”，提供健康咨询、报告解读、药品查询等服务，强调“先求证、再建议”的诊疗逻辑。用户可通过拍照上传报告或病灶图片，获取个性化分析和用药建议。来源：AI工具集

昆仑万维发布并开源 Skywork-R1V 3.0，刷新开源模型性能上限

昆仑万维正式开源多模态推理模型Skywork-R1V 3.0，模型在高考数学中取得142分，在多学科多模态评测MMMU中获得76分，刷新开源模型性能上限。Skywork-R1V 3.0通过强化学习策略提升跨模态推理能力。来源：昆仑万维集团

具身智能星海图再获超 1 亿美元融资，美团龙珠、今日资本领投

具身智能公司星海图完成A4轮及A5轮融资，总额超1亿美元，由美团、美团龙珠、今日资本领投，老股东持续加码。公司专注于“整机+智能”战略，推出多款机器人平台及开发工具，服务全球开发者生态。来源：星海图

钉钉重磅发布全新“AI表格”

钉钉发布全新“AI表格”，将AI能力深度融入表格工具，支持智能数据分析、自动化流程和多模态内容生成。新增“表格即文档”功能，实现结构化数据与非结构化信息融合，提升协作效率。来源：钉钉

Vidu Q1 参考生视频全球上线：重新定义叙事

AI视频模型Vidu Q1推出“参考生”功能，用户只需上传参考图，可快速生成高质量视频素材，省去传统分镜、拍摄和特效流程，大幅降低创作门槛和成本。来源：生数ShengShu

通义开源 HumanOmniV2 比你还懂“社交潜台词”！

通义大模型推出多模态推理模型HumanOmniV2，能更好理解人类社交潜台词。模型引入强制上下文总结机制，结合视觉、听觉和语言信息，提升对复杂意图的理解能力。通过多维度奖励机制和优化训练策略，HumanOmniV2在多个基准测试中表现优异。来源：通义大模型

7月8·周二

混元3D再升级，推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen

腾讯混元3D宣布升级，推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen。模型结合自研高压缩率表征BPT技术，可生成上万面复杂几何模型，布线精度高，细节丰富，支持三边面和四边面，满足不同专业需求。来源：腾讯混元

它石智航完成1.22亿美元天使+轮融

具身智能公司它石智航（TARS）宣布完成1.22亿美元天使+轮融资，由美团战投领投，钧山投资、碧鸿投资、国汽投资、临港科创投、赛富投资基金、建发新兴投资跟投，老股东线性资本、襄禾资本持续加码。来源：蓝驰创投

强化学习新范式！元石提出“自反思生成范式”MetaStone-S1

元石科技发布新一代反思型生成式模型MetaStone-S1，采用“自反思生成范式”，融合Long-CoT强化学习与过程评分学习，实现深度推理与推理链路筛选能力统一。模型在多个基准测试中性能对标OpenAI o3-mini，具备更长思考长度与更低推理成本。来源：问小白

云深处科技完成近5亿元新融资加速具身智能产业化布局

由浙大博导朱秋国创立的云深处科技宣布完成近5亿元融资，由达晨财智、国新基金等联合领投。本轮融资将用于四足机器人产线扩建、人形机器人技术研发及高端人才引进。来源：智东西

7月7·周一

通义网络智能体WebSailor开源，检索性能登顶开源榜单！

阿里云通义实验室开源网络智能体WebSailor。智能体具备强大的推理和检索能力，在智能体评测集BrowseComp上超越DeepSeek R1、Grok-3等模型，登顶开源网络智能体榜单。WebSailor通过创新的post-training方法和强化学习算法DUPO，大幅提升了复杂网页推理任务的表现。来源：阿里云

字节跳动开源 AI IDE 工具核心组件 Trae-Agent

字节开源TRAE Agent 在 SWE-bench Verified 排行榜上取得 75.2% 的求解率，位居第一。TRAE Agent 是基于大语言模型的智能助手，专为软件工程任务设计，能自主完成代码理解、问题复现、修复方案制定、高质量代码编写等任务。来源：TRAE.ai

星动纪元完成近5亿元A轮融资！通用具身技术突破驱动商业化落地

星动纪元宣布完成近5亿元A轮融资，由鼎晖VGC和海尔资本联合领投。公司成立于2023年，是清华大学唯一持股的具身智能企业，致力于打造通用智能体。目前，星动纪元已向全球科技巨头批量交付超200台产品，订单中50%以上来自海外客户，在工业物流、连锁零售等行业加速落地。来源：北京星动纪元科技有限公司

通义实验室开源首个音频生成模型 ThinkSound

通义实验室开源首个音频生成模型ThinkSound，专为打破“静音画面”局限而生。模型通过引入思维链（CoT）技术，让AI学会结构化推理画面与声音的关系，实现高保真、强同步的空间音频生成。基于2531.8小时高质量多模态数据训练，包含对象级和指令级样本，支持交互式编辑。来源：通义大模型

AIGC独角兽硅基智能完成D轮融资，数字人业务营收数亿

AIGC独角兽硅基智能完成数亿元D轮融资，投资方为嘉兴高新区产业基金。本轮资金将用于研发创新、技术落地及产品市场化。自2017年成立以来，硅基智能已完成10轮融资，投资方包括腾讯、红杉中国等。来源：36氪

TNG推出DeepSeek“野生版”R1T2：速度碾压官方，开源

德国AI公司TNG推出“DeepSeek R1T2”模型。基于DeepSeek R1、R1-0528和V3三大模型开发，采用专家组合（AoE）技术，速度比R1快20%，推理能力显著提升。与初代模型相比，R1T2的智力大幅提升，解决了token一致性缺陷，在无系统提示时也能提供自然对话体验。来源：AI工具集

7月4·周五

京东内测“宠TA”与“聊愈小宇宙”AI设计产品

京东APP悄然上线两款AI社交产品，“宠TA”和“聊愈小宇宙”。“宠TA”围绕宠物数字人提供陪聊、换装、问诊及一键购粮等闭环消费；“聊愈小宇宙”则通过情绪识别、回忆日历和社区交流，结合专业的心理咨询服务。来源：AI工具集

谷歌 Veo 3 AI文生视频模型正式向 Pro / Ultra 会员开放

谷歌Veo 3 AI文生视频模型正式向Pro/Ultra会员开放。Pro会员每天可生成3段视频，Ultra会员生成数量未公布。Veo 3的“照片生成视频”功能即将上线。来源：AI工具集

昆仑万维再次开源奖励模型！Skywork-Reward-V2

昆仑万维开源第二代奖励模型Skywork-Reward-V2系列，共8个模型，参数规模从6亿到80亿不等。系列在七大主流奖励模型评测榜单中全面夺魁。来源：昆仑万维集团

腾讯元宝支持一句话搜索图片、视频号内容

腾讯元宝推出新功能，支持用户通过“一句话搜索”匹配图片和视频号内容。用户开启“联网搜索”后，元宝可自动根据提问匹配图片与视频号，支持任意模型，不限“深度思考”是否开启。来源：腾讯元宝

OmniGen2重磅升级，统一图像生成再进化

智源研究院宣布 OmniGen2 图像生成模型重磅升级。OmniGen2采用分离式架构与双编码器策略，强化上下文理解与指令遵循能力，图像生成质量大幅提升。重构数据生成流程，解决开源数据集质量缺陷问题，引入图像生成反思机制，提升模型自我优化能力。来源：智源研究院

7月3·周四

智谱获上海国资10亿元战略融资

国产AI大模型企业智谱在开放平台产业生态大会上宣布获得上海国资10亿元战略投资，由浦东创投集团和张江集团完成首笔交割。同时，三方与上海仪电、浦发集团合作，共同建设AI新型基础设施。来源：钛媒体AGI

星流 Agent上线！更适合中国设计师的一站式创意设计Agent

星流Agent正式上线，是专为中国设计师打造的一站式创意设计Agent。星流Agent延续了Lovart的全栈式智能设计能力，全面适配中文语义、东方美学和本地场景。用户只需输入一句话，能自动拆解任务、匹配风格、生成整套设计物料，支持多模态内容创作，涵盖图像、视频、3D等多种格式。来源：LiblibAI

Perplexity Max 订阅上线，月费 200 美元

Perplexity推出高端订阅服务Perplexity Max，月费200美元（约合1433元人民币）。订阅用户可无限制访问电子表格和报告生成工具Labs，提前体验Comet浏览器等新功能，调用OpenAI的o3-pro和Claude Opus 4等先进AI模型。来源：AI工具集

7月2·周三

智谱发布并开源 GLM-4.1V-Thinking 系列视觉模型

智谱发布两项重要成果。一是开源新一代通用视觉语言模型GLM-4.1V-Thinking，10B级轻量版在多项权威评测中表现卓越，具备图像、视频、文档等多模态输入能力，支持复杂推理任务。二是上线MaaS“Agent应用空间”平台，启动Agent开拓者专项扶持计划，助力企业低门槛接入Agent能力，推动AI原生创业发展。来源：智谱

百度推出自研多模态大模型MuseSteamer和AI视频创作平台绘想

百度发布自研视频生成模型MuseSteamer及AI视频创作平台“绘想”。MuseSteamer是全球首个实现中文音视频一体化生成的模型，打破传统AIGC视频“先画面后配音”的流程，可实现画面、音效与人声台词协同创作。用户仅需上传一张图片即可生成专业级视频内容。来源：AI工具集

阿里云加码领投，智能体开发平台BetterYeah AI完成超亿元B轮融资

企业级AI智能体开发平台BetterYeah AI宣布完成超亿元人民币B轮融资，由阿里云领投、名川资本跟投。资金将用于新一代智能体产品研发。BetterYeah AI由钉钉创始团队成员创立，核心团队具备深厚的企业级产品基因。来源：钛媒体AGI

北京中小学生 9 月起开设 AI 通识课

北京宣布从2025年秋季学期起，全市中小学将全面普及人工智能通识教育，每学年不少于8课时。课程将涵盖人工智能的基本概念、应用与技术、实现方法及伦理与社会等方面，并将评价结果纳入学生综合素质评价体系。来源：北京市教育委员会

豆包「图像生成」超能创意2.0开启灰度测试

豆包超能创意 2.0 已在网页版和电脑版灰度测试，模型升级至豆包大模型 1.6 版本，接入 seedream 3.0、seededit 3.0 和 seedance 1.0 Pro 模型，分别提升图片生成、编辑和视频生成效果。来源：AI工具集

7月1·周二

Cursor 推出网页端和移动端 Agent，支持多任务并行

Cursor 新推出的网页端和移动端 Agent 功能，用户可以在任何设备上通过浏览器访问 Cursor Agents，连接 GitHub 后即可使用。随时分配任务，Agent 后台自动运行并通知；支持多设备访问，满足不同场景需求；可分享工作链接，方便团队协作；支持多任务并行，提供多种解决方案。来源：AI工具集

通义千问推出语音合成模型Qwen-TTS，新增三种中文方言

Qwen-TTS发布了最新版本，新增支持生成北京话、上海话和四川话三种中文方言。语音合成模型使用超过300万小时语料库训练，合成效果自然且富有表现力，能自动调整韵律、节奏和情绪。来源：通义千问Qwen

Meta宣布正式成立「超级智能实验室」11人豪华团队

Meta正式宣布成立「超级智能实验室」（Meta Superintelligence Labs，MSL）。实验室由Scale AI前CEO Alexandr Wang担任首席人工智能官并领导，同时挖角了来自OpenAI、Anthropic和谷歌DeepMind的11位顶尖人才。来源：机器之心

ima.copilot更新，支持图文并茂回答

ima.copilot更新，支持图文并茂的回答。更新覆盖首页、知识库、侧边栏和笔记AI帮写等功能。用户可上传PDF、Word或PPT，ima能提炼重点并生成图文结合的内容。来源：ima.copilot

# AI快讯

本站文章版权归 AI工具集所有，未经允许禁止任何形式的转载。

AI快讯：5月第1期（5月1日到5月10日的AI行业新闻）

AI小集

热门AI教程

AI小集

谷歌《智能体Agent》白皮书（中文版）

AI小集

AI快讯：6月第2期（6月11日到6月20日的AI行业新闻）

AI小集

AI快讯：4月第1期（4月1日到4月10日的AI行业新闻）

AI小集

AI快讯：7月第2期（7月11日到7月20日的AI行业新闻）

AI小集

54 条评论

太缘游客

这个栏目真的特别好~🌸

2年前 (2023)

回复
- AI工具集管理员
  
  感谢认可，对您有帮助就行！
  
  2年前 (2023)
  
  回复
  - 青野大魔王游客
    
    你是我的神
    
    3个月前
    
    回复
    - AI小集
      
      夸张了，哥
      
      3个月前
      
      回复
- 东申道人游客
  
  确实，支持
  
  2年前 (2023)
  
  回复
  - yoh 游客
    
    支持，这是个非常好的栏目，这也是个非常棒的网站
    
    2年前 (2023)
    
    回复
太缘游客

再次感谢，真挺好的网站~~~

2年前 (2023)

回复
本游客

真好真好👍

2年前 (2024)

回复
零号游客

请问能做个分页不，按日期或者按个数之类的，这一页好长~好长~

1年前 (2024)

回复
- AI工具集管理员
  
  后面会考虑出个按日期来选择的功能，不过资讯类型具有较高的时效性，通常情况下只会关注最近两三天的报道。
  
  1年前 (2024)
  
  回复
  - 零号游客
    
    多谢采纳！时效性确实，那第一页放三天，或者每页一周？推荐给好几个朋友了，非常实用👍
    
    1年前 (2024)
    
    回复
老高项目网游客

请问，这个栏目是ai插件生成的？还是说是手动编辑的？

1年前 (2024)

回复
- AI工具集管理员
  
  人工手动编辑的
  
  1年前 (2024)
  
  回复
麦洛游客

非常好的分享,如果支持分享就更好了

1年前 (2024)

回复
桑猫眼游客

这个网站的工具和资讯真是帮了大忙~

1年前 (2024)

回复
rhythm 游客

前来点赞，可惜没有怎么推广，知道的人还是太少了

1年前 (2024)

回复
- AI小集管理员
  
  感谢支持~后面会加强推广的！
  
  1年前 (2024)
  
  回复
Foam 游客

请问有 rss 吗？付费也行

1年前 (2024)

回复
- AI小集管理员
  
  目前正在考虑推出社群or邮件推送服务，暂无RSS
  
  1年前 (2024)
  
  回复
ai拓荒者游客

请问更新策略是什么样的？比如今天周五，上午11:00只能看周四的内容吗？

12个月前

回复
- AI小集管理员
  
  个人不定时更新，时间不固定呢 -_-
  
  12个月前
  
  回复
patrick 游客

真的好！

11个月前

回复
Song 游客

请问要怎么看到2024年7月之前的快讯？

11个月前

回复
- AI小集
  
  快讯具有时效性，历史信息会定期清理~ 后续会单独整合一篇月度合集
  
  11个月前
  
  回复
Youne 游客

栏目确实不错，推荐给朋友了

11个月前

回复
- AI小集
  
  感谢推荐~
  
  11个月前
  
  回复
Keiraaaa 游客

特别好！希望能坚持更新下去：）

11个月前

回复
- AI小集
  
  必须的，假期愉快～
  
  11个月前
  
  回复
chuanxi 游客

很好的网站和新闻，希望持续更新

10个月前

回复
- AI小集
  
  嗯嗯会的~
  
  10个月前
  
  回复
Dala 游客

真的是非常优秀的开发团队

10个月前

回复
- AI小集
  
  谢谢你的支持~
  
  10个月前
  
  回复
piney 游客

新闻汇总很棒~

6个月前

回复
1321441 游客

请问还能找到以前的新闻吗，我从去年9月开始的还有一些没看，想全面再看看，谢谢了，付费也行

6个月前

回复
- AI小集
  
  可以，稍后我整理一份历史快讯合集PDF，方便回溯和阅读
  
  6个月前
  
  回复
  - Steven 游客
    
    赞这个工作可以单开一个栏目
    
    6个月前
    
    回复
bx 游客

感谢更新！！已经“追更”快一年了hhh

6个月前

回复
- AI小集
  
  厉害了！感谢老粉！！
  
  6个月前
  
  回复
哦哦游客

👍很好

6个月前

回复
试试游客

不错

5个月前

回复
老李游客

AI资讯蛮好的。

5个月前

回复
太渊游客

每日必看

5个月前

回复
小卒子游客

这个网站是您自己开发的吗?感觉好好哦，确实不错！

4个月前

回复
- AI小集
  
  感谢支持，继续加油啊！
  
  4个月前
  
  回复
Logic 游客

太棒了~！后悔没有早点发现这个宝藏网站，之前吭哧吭哧找AI相关资讯，花了好多时间QAQ

4个月前

回复
- AI小集
  
  哈哈哈哈，感谢认可！！！
  
  4个月前
  
  回复
成歌游客

谢谢每日更新

3个月前

回复
小蒙游客

挺好

3个月前

回复
- AI小集
  
  感谢支持！
  
  3个月前
  
  回复
5555 游客

有邮箱推送了吗。

3个月前

回复
- AI小集
  
  暂不支持哦。
  
  3个月前
  
  回复
九书游客

请问可以接入coze工作流自动推送吗

2个月前

回复
- AI小集
  
  目前不行呢，后面会考虑
  
  2个月前
  
  回复
  - 九书游客
    
    好的期待
    
    2个月前
    
    回复