每日AI快讯热闻

每日AI快讯

AI工具集每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等,让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI工具集官方社群,获取最新一手信息!

8月13·周三

「Skywork UniPic 2.0」开源,统一多模态模型再迎新突破

昆仑万维正式开源「Skywork UniPic 2.0」模型,是面向统一多模态建模的高效训练和推理框架。模型由生图编辑、统一模型能力和生图编辑后训练三个核心模块组成,具备生成模块轻量高效、引入强化学习提升性能和一体化灵活切换等核心优势。来源:昆仑万维集团

Anthropic宣布Claude Sonnet 4支持高达100万Token的上下文窗口

Anthropic宣布Claude Sonnet 4 API支持高达100万Token的上下文窗口,容量是之前的5倍。开发者可在单次请求中处理大型代码库或数十篇研究论文。来源:AI工具集

OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归

OpenAI CEO 萨姆・奥尔特曼宣布 ChatGPT 重大更新。GPT-5 新增“自动”“快速”“思考”三种模式,用户可按需选择。“思考”模式每周限 3000 条消息,超限可用 mini 版,上下文限制为 196,000 个 token。4o 模型回归,付费用户可在网页设置中切换多款模型。来源:IT之家

Perplexity想花345亿美元收购谷歌Chrome

美国AI搜索初创公司Perplexity计划以345亿美元全现金收购谷歌Chrome浏览器。收购动机在于AI搜索领域增长焦虑,传统浏览器仍是重要流量入口。Perplexity承诺若收购成功,将投资30亿美元维持Chrome开源并保留默认搜索引擎。来源:智能涌现

8月12·周二

Seele AI:全球首个端到端AI 3D游戏生成工具上线

Seele AI是全灵公司推出的全球首个端到端AI 3D游戏生成工具。用户可通过自然语言描述生成3D游戏,如FPS、飞行模拟等,实现零代码开发。工具支持多模态交互,涵盖文本、3D建模和物理引擎。Seele AI已开放全球公测。来源:AI工具集

全球多模态推理新标杆,GLM-4.5V正式上线并开源

智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,总参数106B,激活参数12B。模型基于智谱新一代文本基座模型GLM-4.5-Air,综合效果在41个公开视觉多模态榜单中达到SOTA水平,支持图像、视频、文档理解及GUI Agent等任务。来源:智谱

Vercel 推出全栈应用构建AI工具——v0.app

Vercel 推出全栈应用构建工具 v0.app,可根据用户输入的文本提示,快速生成基于 React、Shadcn UI 和 Tailwind CSS 的网页用户界面代码,提供三种界面选择。用户能直接复制代码,可以对生成的 UI 进行微调和优化。目前处于免费内测阶段,可以访问官网加入等候名单。来源:AI工具集

昆仑万维发布「Matrix-Game 2.0」,国产开源的Genie 3来啦!

昆仑万维发布自研世界模型Matrix系列的升级版本「Matrix-Game 2.0」。实现通用场景下的交互式实时长序列生成,支持25 FPS速度生成连续视频内容,时长可达分钟级,具备高帧率、低延迟、强物理一致性和多场景泛化能力。与依赖文本语义的模型不同,「Matrix-Game 2.0」通过视觉驱动和物理规律学习构建虚拟世界,避免语义偏置。来源:昆仑万维集团

达摩院开源具身智能“三大件” 机器人上下文协议首次开源

阿里达摩院宣布开源具身智能“三大件”:视觉 – 语言 – 动作模型RynnVLA-001-7B、世界理解模型RynnEC和机器人上下文协议RynnRCP。RynnVLA-001-7B可从第一人称视频中学习人类操作技能并迁移到机器人手臂操控;RynnEC能从多维度解析场景物体并精准定位;RynnRCP打通了从传感器数据采集到机器人动作执行的完整工作流,支持多款热门模型和机械臂。来源:达摩院DAMO

昆仑万维开源Matrix-3D大模型,树立3D世界生成新标杆

昆仑万维开源了Matrix-3D大模型,用于3D世界的生成与探索。Matrix-3D是融合全景视频生成与三维重建的统一框架,能从单张图像生成高质量、轨迹一致的全景视频,还原可漫游的三维空间。模型具有场景全局一致、生成范围大、高度可控、泛化能力强和生成速度快等优势,支持文本和图像输入,生成的3D场景可自由探索。来源:昆仑万维集团

8月11·周一

昆仑万维正式发布SkyReels-A3模型,让数字人“说话”的魔法

昆仑万维发布SkyReels-A3模型,是基于“DiT视频扩散模型+插帧模型+强化学习动作优化+运镜可控”的音频驱动人像视频生成模型。用户只需上传人像图片和音频,可生成自然同步的视频,支持照片“活”起来、创作新视频、改台词等功能。来源:昆仑万维集团

百川开源大模型Baichuan-M2,医疗能力登顶世界第一

百川智能发布开源医疗增强大模型Baichuan-M2。该模型在HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型,成为全球医疗能力最强的开源大模型。Baichuan-M2通过AI患者模拟器和端到端强化学习,实现了医疗场景的高度还原和模型性能的大幅提升。来源:百川大模型

Grok 4 现已免费开放,非订阅用户每天可限量使用

马斯克宣布AI模型Grok 4向所有用户免费开放,非订阅用户每天可限量使用。Grok 4号称“全球最强”AI模型,具备深度推理能力,经过xAI的Colossus超级计算机训练,逻辑推理和文本生成能力出色。来源:AI工具集

8月8·周五

GPT-5 正式发布!奥特曼:这是全球最好的模型

OpenAI正式发布GPT-5,CEO Sam Altman称其为全球最佳模型。GPT-5引入“智能路由”系统,能自动判断问题难度,快速或深度思考作答。全面取代并超越GPT-4等前代模型,免费用户即可使用。GPT-5 Pro(付费)则具备“扩展推理”能力,适合高难度问题。来源:AI工具集

8月7·周四

讯飞星火代码画布上线!「动嘴开发」的时代到了

科大讯飞推出星火代码画布,标志着“动嘴开发”时代的到来。工具通过语音指令、草图、链接或文字描述,快速生成交互网页。来源:讯飞开放平台

MiniMax Speech 2.5上线:多语种表现力更强,音色复刻更“像”

MiniMax发布新一代语音生成模型Speech 2.5,再次刷新全球最强语音模型记录。Speech 2.5在多语种表现力、音色复刻和语种覆盖范围上实现三大突破。支持40种语言,中文表现全球最强,英文相似度显著提升,音色复刻精度行业领先,可跨语种保留口音和风格。来源:MiniMax 稀宇科技

灵心巧手完成数亿元天使轮融资,蚂蚁集团领投

全球高自由度灵巧手领军企业灵心巧手完成数亿元天使轮融资,由蚂蚁集团领投,多家知名机构跟投,老股东红杉中国种子基金加注。本轮融资将用于技术储备提升和具身智能数据采集场建设,加速灵巧手落地应用。来源:灵心巧手LINKERBOT

通义千问推出Qwen-Flash,全员拥抱1 M上下文!

Qwen API 迎来重大更新,推出 Qwen-Flash、Qwen3-Coder-Flash 两款新模型,升级了 Qwen-Plus。三款模型均支持 1M 超长上下文,理解力大幅提升。Qwen-Flash 以极速响应著称,适合轻快任务。来源:通义千问Qwen

谷歌正式推出异步 AI 编程智能体工具 Jules

谷歌正式推出异步AI编程智能体工具Jules,由Gemini 2.5 Pro驱动。Jules支持集成GitHub,可克隆代码库至Google Cloud虚拟机,在GitHub仓库中异步处理任务,助力开发者提升效率。Jules定价分免费版(每日15任务,3并发)和付费版(Google AI Pro每月19.99美元,Ultra套餐124.99美元)。来源:AI工具集

Qwen3-4B超顶小模型更新登场!手机也能轻松跑!

Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507 两款小尺寸语言模型更新发布。Qwen3-4B-Instruct-2507 通用能力大幅提升,超越闭源的 GPT4.1-Nano,支持多语言长尾知识,上下文理解能力扩展至 256K。Qwen3-4B-Thinking-2507 推理能力显著增强,AIME25 测评获 81.3 分。来源:通义千问Qwen

谷歌 Gemini AI 推出“引导式学习”功能

谷歌 Gemini AI 推出“引导式学习”功能,通过提问和逐步指导帮助用户理解问题,答案形式包括图片、视频和互动小测验等。促进学习而非简单提供答案,谷歌与教育专家合作确保其科学性。来源:AI工具集

8月6·周三

OpenAI首次推出开源语言模型——gpt-oss

OpenAI开源大模型gpt-oss,包含1200亿和200亿参数两种版本,支持Apache 2.0商业化。模型针对AI Agent进行特殊训练,支持函数调用、网络搜索等功能,可助力快速开发智能体。来源:AI工具集

小红书 hi lab 开源多模态大模型 dots.vlm1,效果接近闭源 SoTA 模型

小红书hi lab开源了多模态大模型dots.vlm1。模型基于12亿参数的NaViT视觉编码器和DeepSeek V3 LLM构建,具备强大的视觉感知和文本推理能力。视觉编码器从零训练,支持动态分辨率,引入纯视觉监督提升感知能力。来源:小红书技术REDTech

谷歌DeepMind推出通用世界模型Genie 3,首个可实时交互世界模型

谷歌DeepMind推出通用世界模型Genie 3,是首个可实时交互的世界模型。基于文本提示,Genie 3能以每秒24帧、720p分辨率生成长达数分钟的交互式3D环境,相比Genie 2的10到20秒有了显著提升。Genie 3在模拟世界物理特性、自然世界、动画和小说建模等方面表现出色,能突破时空限制生成内容。来源:智东西

Anthropic发布Claude Opus 4.1模型,全面超越OpenAI o3

Anthropic发布Claude Opus 4.1模型,Pro/Max/Team用户可在网页端使用,API也已开放。Claude Opus 4.1性能更强,价格不变。在Agent能力、高级编程、搜索和写作等方面全面提升,能准确处理长时程任务和复杂企业工作流程,完成上千步骤的长程编程任务。来源:AI工具集

谷歌Gemini上线 AI 生成故事书功能——Storybook

谷歌Gemini AI聊天机器人上线“Storybook”功能,可生成10页图文并茂的故事书。用户只需简单描述,能生成带插图的故事,Gemini能朗读内容。用户可定制故事风格,如黏土动画、动漫等,可上传图片,如孩子的画作,让Gemini以此编故事。来源:AI工具集

美国AI Agent营销平台Clay完成1亿美元C轮融资

美国AI营销平台Clay完成1亿美元C轮融资,投后估值达31亿美元。本轮融资由Alphabet旗下CapitalG领投,Meritech Capital Partners、红杉资本等参投。Clay成立于2017年,总部位于纽约,最初聚焦“让编程民主化”,后转型为AI营销工具,帮助销售和市场团队寻找潜在客户并推动转化。来源:智东西

ElevenLabs推出AI音乐生成工具:Eleven Music

ElevenLabs推出AI音乐生成工具Eleven Music,可根据文本提示快速生成高质量、定制化的音乐作品。用户通过自然语言描述调整歌曲风格、节奏、歌词等,支持逐段编辑,实现无缝过渡和精确情绪转换。来源:AI工具集

8月5·周二

告别文字乱码!全新文生图模型Qwen-Image来咯

通义千问团队开源了20B参数的文生图模型Qwen-Image。作为通义千问系列首个图像生成基础模型,Qwen-Image在复杂文本渲染和精确图像编辑方面表现出色,支持多行布局、段落级文本生成及细粒度细节呈现,英语或是中文,能实现高保真输出。来源:通义千问Qwen

腾讯混元「AI播客」来了,ima、腾讯新闻都在用

腾讯混元正式发布AI播客功能,功能可将文本、网页、文档一键转化为自然流畅的双人对谈式音频,将晦涩难懂的内容转化为有逻辑、有节奏的对话。用户可通过主题描述、网页URL和文档上传三种模式输入内容,平均90秒即可完成转换。来源:腾讯混元

京东战略领投!帕西尼4个月狂揽10亿元

帕西尼完成新一轮A系列融资,由京东战略领投,浦耀信晔等多家机构跟投,老股东持续加码,4个月内融资达10亿元人民币。帕西尼凭借高精度多维触觉感知技术及亿级全模态数据集,构建具身智能核心生态闭环,推进具身智能模型落地。来源:帕西尼感知科技

松延动力半年订单破亿,两年六轮融资狂飙突进

成立不足两年的松延动力近日完成数亿元A++轮融资,由金浦投资领投,北汽产投等跟投。是其今年上半年的第三轮融资,累计已达六轮。松延动力上半年斩获超2000台人形机器人订单,合同额破亿,成为国内第二家迈入“千台销量”门槛的公司。来源:NOETIX松延动力

8月4·周一

继续开源:腾讯混元 0.5B、1.8B、4B、7B模型发布

腾讯宣布开源四款小尺寸混元模型,参数分别为0.5B、1.8B、4B、7B,可在消费级显卡上运行,适用于低功耗场景,支持垂直领域低成本微调。这些模型在语言理解、数学、推理等领域表现优异,具备agent能力和超长上下文窗口(256k),可处理超长内容。来源:腾讯混元

小米开源声音理解大模型 MiDashengLM-7B

小米开源了声音理解大模型MiDashengLM-7B。模型基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B解码器,采用创新训练策略,实现语音、环境声和音乐的统一理解,性能在22个公开评测集上刷新最佳成绩。来源:小米技术

全球首个!纳米AI多智能体蜂群上线

360集团宣布纳米AI完成品牌焕新,升级为“多智能体蜂群”,成为全球首个迈入L4级别的智能体系统。实现了从“单兵作战”到“群体协同”的进化,突破以往智能体在跨领域复杂问题上的瓶颈。纳米AI独创的“蜂群协作框架”可让多个推理型智能体灵活拉群、多层嵌套、组队协作,完成超长复杂任务,如制作10分钟电影级大片仅需20分钟。来源:360公司

小红书推出首个社交大模型RedOne

小红书推出首个社交大模型RedOne。模型采用“继续预训练→监督微调→偏好优化”的三阶段训练策略,针对社交网络服务(SNS)领域的复杂数据特征和多元场景进行优化。来源:AI工具集

谷歌推出 Gemini 2.5 Deep Think 模型

谷歌推出 Gemini 2.5 Deep Think,面向 Google AI Ultra 订阅者开放。模型基于在国际数学奥林匹克竞赛中获得金牌标准的版本改进,具备更快的推理速度和日常可用性,达到 2025 年 IMO 铜牌水平。Deep Think 通过并行思考技术,延长推理时间,生成多种想法并逐步优化,适用于复杂问题解决、科学发现、算法开发等场景。来源:AI工具集

昆仑万维发布并开源全新推理大模型 MindLink

昆仑万维推出并开源全新推理大模型Skywork MindLink,基于Qwen3-32B和Qwen2.5-72B后训练而成。模型采用新的推理范式Plan-based Reasoning,去掉了“think”标签,能根据任务难度自适应整合推理和非推理生成回复,降低推理成本且提升多轮对话能力。来源:AI工具集

8月1·周五

Manus 推出 Wide Research,支持上百个 Agents 同时工作

Manus AI 上线以来最大更新,推出 Wide Research 功能。功能支持用户一键开启大规模并行 Agent 协作,可同时启动多达100个 Agent 处理复杂任务。来源:APPSO

Black Forest Labs开源新版Flux模型:FLUX.1 Krea dev

Flux开源模型新版本FLUX.1 Krea dev 正式发布。模型由Black Forest Labs与krea_ai联合开发,专为照片级写实而生,具备业界领先的开源文本生成图像能力,图像质量卓越且真实感强,能有效避免常见的“AI感”和过度饱和纹理问题。来源:AI工具集

Kimi K2 高速版发布:kimi-k2-turbo-preview

kimi-k2-turbo-preview 是 kimi-k2 的高速版,模型参数与 kimi-k2 一致,但输出速度由每秒 10 Tokens 提升至每秒 40 Tokens。目前限时 5 折特惠,9月1日恢复原价,折扣后的价格:模型每百万 tokens 输入价格(缓存命中)¥2.00,输入价格(缓存未命中)¥8.00,输出价格 ¥32.00。来源:Kimi 开放平台

阿里通义千问发布 Qwen3-Coder-Flash 编程模型

编程模型 Qwen3-Coder-Flash 正式发布。模型全称 Qwen3-Coder-30B-A3B-Instruct,性能出色,具备超强的 Agentic 能力,超越当前顶级开源模型,仅次于顶配版 Qwen3-Coder 和部分领先闭源模型。原生支持 256K tokens,可通过 YaRN 扩展至 1M tokens,能理解整个项目库代码,避免上下文断层。来源:通义千问Qwen

字节跳动发布实验性扩散语言模型 Seed Diffusion

字节跳动Seed团队发布实验性扩散语言模型Seed Diffusion Preview。验证离散扩散技术作为下一代语言模型基础框架的可行性,通过两阶段扩散训练、约束顺序学习与强化高效并行解码等关键技术,实现了每秒2146 tokens的推理速度,相比同等规模的自回归模型提升5.4倍。来源:字节跳动Seed

7月31·周四

通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507

Qwen3-30B-A3B模型迎来重大升级,新版本Qwen3-30B-A3B-Thinking-2507在推理能力、通用能力及上下文长度上显著提升。在数学和代码能力评测中超越Gemini2.5-Flash和Qwen3-235B-A22B,在写作、Agent能力、多轮对话等通用能力上也表现优异。新模型原生支持256K tokens,可扩展至1M tokens,思考长度增加,适合复杂推理任务。来源:通义千问Qwen

Ollama发布桌面客户端,本地AI从此告别命令行

Ollama推出适用于macOS和Windows的桌面应用。应用支持下载并聊天模型,具备文件拖拽功能,可处理文本或PDF文件,能通过增加上下文长度处理大型文档(需更多内存)。新应用支持多模态功能,可向支持该功能的模型(如Google DeepMind的Gemma 3)发送图像。能处理代码文件以帮助理解文档。来源:AI工具集

零次方机器人再获两轮亿元级融资 加速具身基础模型突破与量产爬坡

零次方机器人宣布完成天使+轮和天使++轮亿元级融资,半年内已获三轮融资。资金将用于深化具身智能基础模型研发、加速量产交付以及生态布局。零次方已发布专项场景操作基础模型Zerith-V0和轮臂人形机器人Zerith-H1,成为国内首家实现超长序列多任务连贯操作的企业。来源:Zerith零次方

阿里巴巴旗下1688推出“1688 AI版”AI生意助手应用

阿里巴巴集团旗下1688在浙江省“平台+产业”AI对接会上推出“1688 AI版”App及多项AI产品。1688 AI版聚焦创业与拿货场景,集成AI搜索、选品、创款、图搜、查企等核心功能,覆盖商机发现到产品创新全链路。来源:智东西

阿里推出 AI 医学助手“氢离子”,收录千万级医学核心期刊文献

阿里健康发布 AI 医学助手“氢离子”。收录千万级医学核心期刊文献,支持权威指南查阅、AI 总结、全文翻译及智能问答,能查询疾病和药品信息。AI 研读功能可总结外文文献重点并标注出处。来源:AI工具集

京东健康推出 AI 情绪漫画生成应用“小星绪”

京东健康团队推出 AIGC 产品“小星绪”,用户可通过语音或文字输入情绪或讲述故事,AI 将生成个性化漫画及故事解读。帮助用户表达情绪、激发创意并构建社交关系链。来源:AI工具集

7月30·周三

拒绝代做作业:OpenAI 发布 ChatGPT Study 学习模式

OpenAI发布ChatGPT Study学习模式,面向教育领域,提供交互式提示、支架式回应、个性化教育和知识点检查等功能,深度解读难题解题思路,培养学生的批判性思维和自主学习能力。来源:AI工具集

RoboScience 完成近 2 亿元天使轮融资,京东领投

RoboScience宣布完成近2亿元天使轮融资,由京东领投,招商局创投、商汤国香资本跟投,老股东零一创投继续追投。RoboScience专注于具身智能技术,采用快慢脑分层端到端模型,自主研发仿真物理引擎和具身操作大模型,实现机器人操作的高精度和高泛化能力。来源:RoboScience

昆仑万维开源多模态统一预训练模型「Skywork UniPic」

昆仑万维推出并开源了多模态统一预训练模型Skywork UniPic。模型融合图像理解、文本生成图像和图像编辑三大核心能力,采用自回归路线,基于大规模高质量数据进行端到端预训练。1.5B参数规模实现轻量级与高性能的平衡,具备指令遵循、复杂指令生图和图像编辑的领先能力。来源:昆仑万维集团

无影AgentBay来了!给AI智能体装上“超级大脑”

阿里云在上海世界人工智能大会上推出首款AI Agents“超级大脑”——无影AgentBay。是一款云端电脑,具备视觉理解、自然语言控制等AI技能,可在多系统间无缝切换,调用云端算力与资源,仅需三行代码即可接入。来源:阿里云

豆包·图像编辑模型3.0上线火山方舟

豆包·图像编辑模型SeedEdit 3.0正式上线火山方舟。模型基于强大的文生图模型Seedream 3.0,支持高清图像生成与处理,可精准锁定编辑区域,实现人物姿态调整、文字修改、光影变换等功能,同时保留图像细节。来源:火山引擎

谷歌AI笔记应用NotebookLM,新增“视频概览”功能

谷歌宣布升级AI笔记应用NotebookLM,新增“视频概览”功能。功能可根据用户输入的主题自动创建带有旁白的幻灯片视频,从用户上传的图片、图表、引用和文档中提取数据以丰富内容。来源:AI工具集

7月29·周二

GLM-4.5发布:面向推理、代码与智能体的开源SOTA模型

智谱旗舰模型 GLM-4.5 重磅发布并开源,作为首款SOTA级原生智能体模型,国产综合评测第一,性能媲美全球最强旗舰模型。参数效率翻倍,API价格仅为Claude的1/10,速度最快可达100tokens/秒。率先在一个模型中实现多能力原生融合并取得重要技术突破——单个模型同时具备强大的推理、代码、智能体等能力,已上线智谱清言和Z.ai开放免费体验。来源:智谱

通义万相2.2开源!首创电影级美学控制系统

阿里正式开源通义万相Wan2.2,含文生、图生及统一视频三模型,首次在扩散模型中引入MoE架构,降耗50%,并首创电影级美学控制系统,光影色彩媲美专业片。小模型5B可在消费级显卡22G显存跑5秒720P视频,代码已上架GitHub、Hugging Face与魔搭。来源:通义万相Wan

阶跃 AI 有了一个研究小助手:阶跃深研

阶跃星辰推出了“阶跃深研”研究小助手,开启邀测。阶跃深研能在约十分钟内完成复杂问题的研究任务,生成深度、专业的研究报告,适用于金融、咨询、医疗、法律、政策与学术研究等多个领域。在红杉中国发布的xbench-DeepSearch评测中以70%的通过率位列第一,在OpenAI的BrowseComp基准测试中也达到行业领先水平。来源:阶跃星辰

微软为 Edge 浏览器引入 Copilot 模式,变为“AI 原生”浏览器

微软在 Edge 浏览器中推出实验性功能“Copilot 模式”,将其从传统网页浏览器转变为“AI 原生”浏览器。Copilot 被定位为用户的“浏览智能体”,能看懂所有打开的标签页,帮助总结、对比信息,甚至未来可预订行程、处理琐事。来源:APPSO

Runway推出多任务视频生成与编辑模型——Aleph

Runway 近日宣布推出 Runway Aleph,是多任务视频生成与编辑模型。Aleph 能对输入视频进行多种编辑操作,包括添加、移除和转换对象、生成任意角度的场景,以及修改风格和灯光等。来源:AI工具集

7月28·周一

腾讯正式发布混元3D世界模型 1.0,全面开源

腾讯在世界人工智能大会上正式发布并开源混元3D世界模型1.0。是业界首个开源的可沉浸漫游、可交互、可仿真的3D世界生成模型,融合全景视觉生成与分层3D重建技术,支持文字和图片输入,能在几分钟内生成高质量3D场景。来源:腾讯混元

快手可灵 AI 发布全新创意工作台「灵动画布」

快手可灵 AI 发布全新创意工作台「灵动画布」和升级后的「多图参考」功能。「灵动画布」支持最多 5 人协同创作,素材共享且可实时联动;「多图参考」功能则大幅提升了 AI 视频生成中角色、主体和场景的一致性,解决了以往角色形象前后不一致、画风突变等痛点。来源:AI工具集

千问推出Qwen3升级版:Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B推理模型升级版本Qwen3-235B-A22B-Thinking-2507正式发布。版本在推理性能和通用能力上取得巨大飞跃,可比肩Gemini-2.5 Pro、O4-mini等顶尖闭源模型,创下全球开源模型SOTA最佳性能表现。来源:通义千问Qwen

阶跃星辰发布新一代基模Step 3,推理效率创行业新高

阶跃星辰在上海发布新一代基础大模型Step 3。模型总参数量321B,激活参数量38B,采用MoE架构,具备强大的视觉感知和复杂推理能力,性能达到开源SOTA水平。Step 3在推理效率上实现行业领先,尤其在国产芯片上效率显著提升。来源:阶跃星辰

上海AI实验室开源发布『书生』科学多模态大模型Intern-S1

上海人工智能实验室在世界人工智能大会(WAIC 2025)上发布并开源了“书生”科学多模态大模型Intern-S1。模型是首个融合专业科学能力的开源通用模型,具备跨模态科学解析能力,可精准解读多种复杂科学模态数据,如化学分子式、蛋白质结构、地震波信号等,并在化学、材料、地球等多学科专业任务基准上超越顶尖闭源模型Grok-4。来源:书生Intern

商汤科技发布「悟能」具身智能平台,官宣入局具身智能

在世界人工智能大会(WAIC 2025)大模型论坛上,商汤科技发布「悟能」具身智能平台,正式入局具身智能领域。商汤凭借十年多模态技术积累和世界模型经验,推出日日新V6.5多模态推理大模型,其图文交错思维链显著提升了跨模态推理精度,性价比提升5倍。来源:量子位

扣子开源:扣子开发平台Coze Studio和扣子罗盘Coze Loop

Coze宣布开源两款核心产品:零代码开发平台Coze Studio和调试工具Coze Loop。扣子开发平台采用Apache 2.0开源协议,支持零代码开发,用户可通过拖拽组件快速搭建智能体工作流程。Coze Loop提供全生命周期管理工具链,涵盖开发、评测、观测和优化四大阶段,助力开发者高效调试和优化智能体。来源:AI工具集

7月25·周五

从灵感到网站,只要5分钟,扣子空间网页设计功能上线

扣子空间推出了一键生成网页设计的新功能。用户只需输入需求,即可快速生成现代、响应式的网站,支持自然语言编辑和上传设计稿复刻。功能适用于招聘网站、活动营销页面、机构主页、个人主页、生活网页和前端工具等多种场景。来源:扣子Coze

讯飞星火X1升级版正式上线!

科大讯飞宣布其深度推理大模型讯飞星火X1升级版正式上线。此次升级实现了综合能力的大幅提升,对标OpenAI等一流大模型,在翻译、推理、文本生成、数学等方面保持领先。星火X1在幻觉治理方面取得显著进步,多语言能力覆盖130多种语种,为全球提供自主可控的大模型底座。来源:科大讯飞

快手 AutoThink 大模型 KAT-V1 正式开源,40B 性能逼近 R1-0528

快手开源了KAT-V1自动思考大模型,包含40B和200B两个版本。40B版本性能追平DeepSeek-R1(6850亿参数),200B版本在多项基准测试中超越Qwen、DeepSeek和Llama等旗舰模型。KAT-V1通过长短思考混合训练范式、新型强化学习方法Step-SRPO等技术创新,实现了根据问题难度自动切换思考模式。来源:快手技术

宇树科技发布双足人形机器人新品Unitree R1,售价3.99万元起

宇树科技发布双足人形机器人新品Unitree R1,售价3.99万元起,重量仅25千克。R1具备出色的运动控制能力,可下坡、翻跟头、倒立,支持开发与定制。来源:第一财经

ChatGPT Agent 正式推送至所有 Plus、Pro 与团队用户

ChatGPT Agent 功能现已正式向所有 Plus、Pro 与团队用户 推出。Agent 能在内置“虚拟电脑”环境中自主执行多步骤任务,包括上网浏览、填写表单、运行代码、生成表格与幻灯片等,用户通过对话中的“agent mode”菜单激活,可随时中断或确认 AI 操作。当前 Pro 用户每月可用 400 次,Plus 和团队用户为 40 次。来源:AI工具集

阿里云通义千问宣布 Qwen-MT 机器翻译模型:支持 92 种语言互译

基于Qwen3模型的机器翻译模型Qwen-MT正式发布。该模型支持92种语言互译,覆盖全球95%以上人口,具备高度可控性,提供术语干预、领域提示等功能。采用轻量级MoE架构,低延迟、低成本,API调用价格低至每百万输出token 2元。来源:通义千问Qwen

Lovart 正式版上线,用 ChatCanvas 改写 AI 设计交互范式

AI 设计智能体 Lovart 正式版发布,推出全新交互系统 ChatCanvas,实现从“工具”到“设计伙伴”的升级,首次将“评论系统”用于 AI 交互,用户可直接在画布上点击、标注、对话式修改图像;支持多图联动、Frame 管理、评论追踪与复用,像用 Figma 那样精细控制设计流程。来源:AI工具集

7月24·周四

字节跳动 Seed 团队发布端到端同声传译模型 Seed LiveInterpret 2.0

字节跳动Seed团队推出了Seed LiveInterpret 2.0,是支持中英双向翻译的端到端同声传译模型。具备接近真人水平的翻译准确率和极低的延迟(仅3秒),能实时处理多人语音输入并进行“边听边说”翻译。零样本声音复刻功能可实时复刻说话人的音色,无需提前采集样本。来源:字节跳动Seed

免费不限量,通义灵码已经全面支持 Qwen3-coder 模型

阿里云宣布开源其AI编程大模型Qwen3-Coder,全面接入AI编程产品“通义灵码”,向全球开发者免费提供不限量服务。来源:通义灵码

微软发布一键生成全栈应用工具——GitHub Spark

微软发布GitHub Spark,可将自然语言描述一键生成全栈应用并部署上线。GitHub Spark遵循微应用理念,支持多种功能,如交互式预览、自动历史记录、托管运行时环境等,深度集成GitHub平台。来源:AI工具集

像素绽放PixelBloom完成B3轮融资

像素绽放PixelBloom近日宣布完成B3轮战略融资,由国内领先国有产业投资平台亦庄国投领投,国科投资、英诺天使基金、水木清华校友种子基金及探路者创始人盛发强先生参与投资。融资将支持PixelBloom加速全球化布局,确立AiPPT.com在全球AI演示软件领域的领导地位,扩展其独特的AI Venture Studio模式。来源:像素绽放PixelBloom

加速进化宣布完成超亿元A+轮融资

加速进化宣布完成超亿元A+轮融资,由北京市机器人产业发展投资基金领投,北京市人工智能产业投资基金和博华资本跟投。专注于双足人形机器人研发,其产品Booster T1在2025年RoboCup机器人世界杯上助力清华火神队获得成人组冠军。来源:智东西

7月23·周三

通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文

Qwen团队正式发布Qwen3-Coder,是迄今为止最具代理能力的代码模型。Qwen3-Coder-480B-A35B-Instruct是其最强大的版本,拥有480B参数激活35B参数,原生支持256K token上下文并可通过YaRN扩展到1M token,在Agentic Coding等任务上达到开源模型SOTA效果。来源:通义千问Qwen

昆仑万维发布最新AI音乐模型——Mureka V7

昆仑万维发布AI音乐模型Mureka V7。模型通过核心技术MusiCoT(音乐思维链)实现了先规划整体音乐结构再生成细节的功能,解决了传统AI音乐模型“走一步看一步”的问题,生成的音乐作品更具连贯性和感染力。Mureka V7支持10种语言,可创作流行、摇滚等多种风格音乐,最长单曲时长5.5分钟。来源:AI工具集

讯飞星火X1将于7月25日全新升级!

科大讯飞宣布讯飞星火X1升级版将于7月25日正式上线。此次升级的核心亮点包括综合能力大幅提升,在数学、翻译、推理、文本生成等方面保持领先;幻觉治理显著进步,慢思考模式的幻觉治理准确率大幅领先;多语言能力全面扩展,支持130+语种。来源:科大讯飞

阿里本周将发布首款自研AI眼镜,加入“百镜大战”

阿里巴巴将于本周发布首款自研AI眼镜,加入“百镜大战”。产品具备语音助手、音乐播放、电话通话、实时翻译等功能,整合了阿里巴巴生态内的地图、支付、购物等功能。硬件上,分为不带显示的AI智能眼镜和带显示的AI+AR智能眼镜,采用双芯片架构。来源:智能涌现

通用机器人模型GR-3发布!支持高泛化、长程任务、柔性物体双臂操作

字节跳动Seed团队发布通用机器人模型GR-3。模型具备高泛化能力、长程任务处理能力和柔性物体双臂操作能力,能理解抽象语言指令并快速适应新环境和新任务。GR-3采用Mixture-of-Transformers网络结构,融合了视觉、语言和动作信息,通过遥操作机器人数据、人类VR轨迹数据和大规模视觉语言数据联合训练,提升了泛化性和灵活性。来源:字节跳动Seed

零一万物发布万智企业大模型一站式平台2.0

零一万物在北京发布万智企业大模型一站式平台2.0版本,并推出企业级Agent智能体,定位为“超级员工”。该Agent具备深度思考和任务规划能力,能访问手机和Web端,连接各类企业服务。来源:零一万物 01AI

7月22·周二

字节跳动TRAE推出SOLO模式,从需求到交付“一站式完成”

字节跳动发布AI编程助手TRAE SOLO模式,主打全流程自动化开发体验。从需求输入到部署交付“一站式完成”,支持自然语言或语音输入需求,AI自动完成PRD撰写、代码生成、调试验证并直接上线。引入“实时跟随”功能,动态展示AI操作阶段,用户可随时切换AI主导与手动主导模式。来源:AI工具集

首款本地大模型办公本来了!讯飞智能办公本X5正式发布

科大讯飞发布全新旗舰级智能办公本X5。作为首款本地大模型办公本,具备离线AI能力,支持离线语音转写、多人识别、中英互译及会议纪要等功能,构建“全链路安全”体系。配备10.65英寸墨水屏,仅重355克,薄至4.6毫米,搭载6nm AI芯片和8核CPU,支持300PPI高清显示与GPU快刷技术,书写体验接近真实纸笔。来源:科大讯飞

Qwen3深夜升级,全面告别混合思维模式

阿里通义千问推出Qwen3-235B-A22B-Instruct-2507-FP8版本,通用能力显著增强,涵盖指令遵循、逻辑推理、文本理解等多领域。在多项测评中超越Kimi-K2、DeepSeek-V3等顶级模型。新版本在多语言长尾知识、主观任务契合能力及长文本处理方面进步显著,上下文理解能力提升至256K。来源:新智元

腾讯推出全栈开发AI IDE——CodeBuddy IDE

腾讯推出CodeBuddy IDE的AI助手,专为零基础用户设计,助力无经验者轻松开发互联网产品。用户只需输入简单指令,工具可完成产品构想、设计、开发及调试等全流程操作。CodeBuddy IDE支持多种AI模型,内嵌Figma设计工具,可一键将设计稿转为代码,现已开启内测。来源:腾讯

专为开发者设计的AI源码解读工具——Zread

Zread是帮助开发者快速掌握项目核心知识的AI工具,能一键生成清晰易懂的仓库Guide,快速梳理复杂代码,生成API文档和用户手册。支持多仓库对比学习,解读GitHub Trending热门项目,提供深度研究功能,助力开发者提升技能。来源:AI工具集

7月21·周一

千寻智能完成近6亿元PreA+轮融资,京东领投

具身智能领域头部企业千寻智能宣布完成近6亿元PreA+轮融资,由京东领投,中网投、浙江省科创母基金等知名机构跟投,老股东P7、顺为资本等超额追加投资。本轮融资由高鹄资本担任独家财务顾问。来源:千寻智能 Spirit AI

Le Chat再一次升级,全方面对标ChatGPT

Mistral AI推出升级版Le Chat,全方位对标ChatGPT。Le Chat新增深度研究模式,可生成结构化研究报告;语音模式借助新发布的Voxtral模型实现语音输入;原生多语言推理功能提供更精准回答;项目管理功能可组织对话内容;高级图像编辑功能支持复杂图像修改。来源:机器之心

宇树科技,开启上市辅导

中国证监会官网显示,宇树科技已正式开启上市辅导,中信证券担任辅导机构。辅导备案报告披露,宇树科技控股股东及实际控制人为王兴兴,直接持有公司23.8216%股权,通过上海宇翼企业管理咨询合伙企业(有限合伙)控制10.9414%股权,合计控制公司34.7630%股权。来源:财联社

「众擎机器人」连续完成Pre-A++与A1轮融资,京东领投

众擎机器人连续完成两轮融资,Pre-A++轮由星航资本投资,A1轮由京东领投,宁德时代旗下溥泉资本、银泰集团等参投,老股东中东资本等也参与增资。来源:众擎机器人

逐际动力获京东战略领投,以IDS生态协同加速具身智能技术落地

具身智能机器人公司逐际动力LimX Dynamics宣布完成新一轮融资,由京东战略领投。逐际动力将推进全尺寸人形机器人量产与销售,深化具身大模型技术研发及IDS生态平台建设。其全尺寸人形机器人将于下半年公开销售,双足机器人TRON 1持续升级。来源:逐际动力

7月18·周五

OpenAI正式发布ChatGPT Agent!

OpenAI正式发布ChatGPT Agent功能。功能整合了Operator、Deep Research和ChatGPT本体,用户只需描述任务,Agent能自主调用工具,完成网页访问、信息提取、代码运行、PPT生成等操作,支持任务中断与修改。ChatGPT Agent支持手机端使用,可连接Gmail、GitHub等应用,深度嵌入工作流。来源:APPSO

全球首个A股金融博弈智能体应用FinGenius开源

由00后团队创建的全球首个A股金融博弈智能体应用FinGenius在GitHub开源。项目在内测阶段吸引了4000+用户申请体验。FinGenius通过16个超级智能体分工协作,结合多智能体博弈机制,30秒内生成分析报告,解决传统金融工具信息加工过度、数据不真实、大模型局限性等问题。来源:AI工具集

Perplexity 向印度 3.6 亿用户免费赠送一年 Pro 服务

AI搜索企业Perplexity与印度第二大电信运营商Bharti Airtel达成独家合作,向其3.6亿用户免费提供原价200美元的12个月Perplexity Pro订阅服务。合作具有排他性,印度其他电信商不得提供Perplexity服务。来源:IT之家

AI初创公司DecartAI发布全球首个实时视频生成模型MirageLSD

初创公司DecartAI发布全球首个视频直播模型MirageLSD,获Andrej Karpathy天使投资。模型可实时将摄像头画面转化为其他风格和内容,支持24FPS稳定运行,延迟低于40毫秒。通过英伟达CUDA Megakernels和抗漂移训练实现效率提升,能重塑观看体验、革新游戏世界、赋能内容创作者等。来源:AI工具集

7月17·周四

Kimi Playground: 一站式体验 Kimi K2 的工具调用能力

Kimi开放平台宣布正式上线Kimi Playground,为开发者提供一站式工具调用能力体验。平台支持直观的工具调用界面和便捷的调试体验,可快速选择不同工具并实时调整参数。来源:Kimi 开放平台

普林斯顿团队领衔发布最强开源数学定理证明模型:Goedel-Prover-V2

普林斯顿大学联合清华大学、北京大学等顶尖高校及英伟达等机构,发布了新一代开源数学定理证明模型Goedel-Prover-V2。32B旗舰模型在自动数学定理证明基准测试中大幅超越前代SOTA模型DeepSeek-Prover-V2-671B,8B小尺寸模型性能也与之持平。来源:机器之心

无界方舟连续完成Pre-A & Pre-A+轮亿元级别融资

无界方舟(AutoArk)宣布连续完成Pre-A & Pre-A+轮亿元级融资。公司基于自研多模态大模型,打造AI应用的“超级感官”与“真大脑”。无界方舟的EVA多模态模型在性能上对标OpenAI的GPT-4o,具备高智商分析、真人般交互、全自动数据合成等优势,已实现商业化落地。来源:AutoArk无界方舟

Mistral首个开源语音模型Voxtral,全面碾压Whisper

Mistral AI发布首个开源语音模型Voxtral,包含24B和3B参数规模版本,基于Apache 2.0许可证开源并提供API接口。Voxtral支持8大主流语言,可处理30分钟音频转录或40分钟语义理解任务,全面超越Whisper,在多语言基准测试中表现优异,语音翻译成绩占据榜首,语音理解能力追平GPT-4o-mini。来源:智东西

MiniMax Agent全栈开发能力“靠谱”上新

MiniMax Agent发布全栈开发功能,用户仅需一句话即可生成复杂全栈应用,无需编程基础。功能支持Supabase后端托管、Stripe支付、定时任务等,可快速开发演唱会选座系统、实时金融看板、出海独立站、企业数据看板等应用。来源:MiniMax 稀宇科技

7月16·周三

观猹正式发布,打造AI产品的专业点评平台

由特工宇宙团队打造的AI产品点评社区「观猹」正式发布,用真实用户视角判断产品PMF。面向AI爱好者,观猹提供真实、可信的产品评分与交流社区。创作者可分享AI作品,获取反馈;创业者能冷启动项目,连接用户与投资人。来源:AI工具集

亚马逊推出Kiro AI编程工具,正式开放公测

亚马逊云科技宣布推出Kiro AI编程工具,正式开放公测。Kiro是Agentic IDE,提供AI编码辅助,能帮助开发者从想法到上线的全过程。Specs可将模糊需求转化为具体用户故事和边界条件,Hooks能在代码提交前自动完成测试、文档更新和安全扫描等任务。来源:亚马逊云科技

百度上线TizzyAI,主打无广告智能搜索

百度上线全新AI搜索App“Tizzy.ai”,定位为无广告的AI智能搜索助手。应用基于百度多个大模型能力开发,界面简洁,无弹窗和信息流推荐,仅设“搜索”和“资源库”两个核心入口。TizzyAI支持自动和深度搜索模式,能快速回答问题并提供深度分析。来源:AI工具集

Grok 推出交互式「数字伴侣」,基于Grok 4大模型

马斯克旗下Grok APP推出基于Grok 4大模型的“智能伴侣”功能,付费用户可优先体验。功能提供动漫头像Ani、卡通小熊猫Rudy等3D形象,支持更换背景和动作。来源:机器之心

ChatExcel·桌面版全新上线、AI提示词优化、常用提示词保存功能

ChatExcel桌面版全新上线,支持Mac和Windows平台,用户可直接在桌面处理Excel数据、生成图表等,无需浏览器。新增AI优化提示词功能,点击“魔术笔”可一键优化提示词内容,更规范、准确。上线常用提示词保存功能,方便用户在重复场景中快速使用。来源:元空AIExcel

华为携手云南交投发布“绿美通道·交通大模型”

云南省交通投资建设集团有限公司与华为、长安大学合作研发的“绿美通道·交通大模型”在昆明正式发布。模型历时两年研发,涵盖智算中心底座、高质量数据集、AI平台工具链、行业模型集及AI场景应用等成果。来源:华为

OpenAI正在开发基于Chromium的AI浏览器——“Aura”

OpenAI正在开发一款基于Chromium的AI驱动浏览器,内部代号为“Aura”。浏览器将利用生成式和代理式AI能力,彻底改变用户的网络浏览体验。来源:IT之家

百度AI助手全新功能「视频通话」上线!

百度AI助手推出全新功能「视频通话」。用户可通过百度APP进入「AI+」选择「视频通话」,开启与AI的视频互动。覆盖多种生活场景:可识别花草、解答难题;提供专业穿搭建议;解读宠物行为;倾听烦恼、提供慰藉。来源:百度搜索

LG 推出韩国首个混合推理 AI 模型 EXAONE 4.0

LG AI Research研究所推出韩国首个混合推理AI模型EXAONE 4.0。模型融合通用自然语言处理与高级推理能力,在数学、科学及编程等高难度领域表现优异,支持多语言并提供32B专业版和1.2B端侧版。来源:IT之家

7月15·周二

TRAE 自定义模型新增 Kimi-K2,国际版支持Grok-4

TRAE自定义模型服务商宣布新增Kimi-K2模型,支持通过API Key接入,满足开发者对模型多样性和专业性的需求。TRAE国际版新增超级模型Grok-4(Beta),进一步丰富了模型阵容,支持全球主流大模型一站式调用。来源:TRAE.ai

秘塔AI搜索推出“深度研究”模块,动态展示研究过程

秘塔AI搜索宣布其“深度研究”模块正式上线。秘塔通过优化数据和算法,降低了算力成本,提升了准确率,在中文搜索上表现突出。秘塔版“深度研究”免费开放,增加了“问题链”功能,可动态展示研究过程,为复杂问题提供结构化报告。来源:AI秘塔

华人团队Cognition收购Windsurf剩余团队

编程助手公司 Cognition 宣布收购编程初创公司Windsurf剩余员工和资产,获得其银行账户中超过 1 亿美元资金。此次收购后,Windsurf 将短期独立运营,继续开发其 AI 驱动的 IDE,Cognition 提供资金支持并计划将 Windsurf 的 IP 和功能集成到自身产品中。来源:机器之心

ima 网页版正式上线,随时进入知识库

ima 网页版正式上线,用户无需下载,打开浏览器即可使用。访问 ima.qq.com 并登录账号,可基于全网或知识库内容提问,能逛知识库广场、加入感兴趣的知识库。来源:ima.copilot

MiniMax已基本完成近 3 亿美元新一轮融资

大模型公司 MiniMax 近期已完成近 3 亿美元新一轮融资,估值超 40 亿美元。本轮融资新增上海国资等出资方,成为今年 AI 六小虎中仅有的两家获得融资的公司之一。来源:IT之家

智源全面开源RoboBrain 2.0与RoboOS 2.0:刷新10项评测基准

智源研究院发布 RoboBrain 2.0RoboOS 2.0,RoboBrain 2.0 是集感知、推理与规划于一体的通用具身大脑,32B 版本刷新多项权威评测基准,7B 版本适配边缘设备。RoboOS 2.0 是全球首个具身智能 SaaS 开源框架,集成 MCP 协议与无服务器架构,支持多机协作,推出单机版及技能商店。来源:智源研究院

7月14·周一

通义千问推出Qwen Chat桌面端,一键使用MCP

阿里巴巴旗下通义千问发布Qwen Chat桌面端,目前支持macOS端,支持多模型PK及MCP协议,可通过插件实时调用地图、搜索、本地文件等外部数据,实现更精准回答。来源:通义千问Qwen

美图推出专注于影像与设计的AI智能体RoboNeo

美图公司正式推出专注于影像与设计的AI智能体RoboNeo,用户可通过自然语言交互轻松完成修图、设计和视频制作等任务。RoboNeo具备智能修图、AI设计生成、视频智能处理及多模态创作等多项功能来源:美图公司

奥尔特曼宣布延期 OpenAI 首个开源权重 AI 模型

OpenAI CEO山姆·奥尔特曼7月12日宣布,再次推迟发布其首个开源权重AI模型,理由是需要更多时间进行安全测试及高风险内容审查,但未给出新的发布日期。该模型原计划下周亮相,已是年内第二次延期。来源:IT之家

「汉阳科技Yarbo」近日完成超亿元B+轮融资

消费级扫雪机器人公司「汉阳科技Yarbo」完成逾亿元B+轮融资,由国科投资、中金资本、九阳创投联合注资。本轮资金将用于技术研发、供应链优化及北美、欧洲市场拓展,借助九阳SharkNinja渠道加速全球化布局。来源:36氪

OpenAI 收购 Windsurf 计划告吹,后者 CEO 及创始人已被谷歌招入麾下

OpenAI收购AI编码助手Windsurf的交易正式取消。谷歌迅速出手,Windsurf CEO Varun Mohan、联合创始人Douglas Chen及核心团队集体加入DeepMind,谷歌以约24亿美元获其技术非独家授权。原30亿美元收购价落空,Windsurf高层换血,业务由临时CEO接手。来源:IT之家

CAMEL-AI与Gemini官宣合作,实现数据可视化和自动化

开源多智能体框架CAMEL-AI宣布与Google DeepMind合作,集成Gemini 2.5 Pro模型,推出OWL系统。用户只需一句自然语言指令,OWL即可自动完成搜索、提取、分析并生成可视化图表,支持在线数据、本地文件及浏览器操作。来源:CAMEL AI

7月11·周五

月之暗面Kimi正式发布k2模型,具备超强代码和 Agent 能力

月之暗面发布MoE架构基础模型k2,总参1T、激活32B,上下文128k tokens,支持ToolCalls、JSON/Partial/联网,无视觉。输入价¥1.00/1M tokens,输出¥4.00/1M,缓存命中¥16.00/1M,性能领先开源模型。来源:AI工具集

拍我AI(PixVerse)上线多关键帧生成功能,从“片段”迈向“故事性表达”

拍我AI(PixVerse)上线“多关键帧生成”功能,用户可上传最多7张图,在首尾帧模式下生成长达30秒的叙事视频,实现动作、场景及景别自然衔接,助力短剧、广告等高效创作。来源:爱诗科技AIsphere

欧盟公布最终版《通用人工智能行为准则》,8 月 2 日起正式实施

欧盟发布最终版《通用人工智能行为准则》,8月2日实施,涵盖安全、透明、版权三方面,由13位专家联合1000多利益方制定,企业可自愿签署以减轻负担,旧模型有2年调整期,新模型1年。来源:IT之家

墨刀AI重磅上线:原型图,现在可以自动生成了!

墨刀AI上线全新原型生成能力,从灵感到可交付界面只需30秒,面向产品经理和设计师提供零门槛体验。支持文字/草图/截图转原型,自动识别布局与组件;多轮对话优化设计,像“聊天”一样改原型;自动生成产品文档与页面逻辑,规范输出流程。来源:墨刀

微软发布 Phi-4-mini-flash-reasoning 端侧 AI 模型:10 倍吞吐量

微软发布Phi-4-mini-flash-reasoning端侧AI模型,采用SambaY架构与GMU组件,推理吞吐量提升10倍、延迟降至1/3,专注数学与逻辑推理,已上线Azure AI Foundry等平台。来源:IT之家

7月10·周四

马斯克发布 Grok 4,处理学术问题达到博士级别

马斯克旗下xAI发布新一代大模型Grok 4,推理能力较前代提升10倍,在多项基准测试中超越现有模型,达到“博士后水平”。Grok 4支持工具调用、语音交互、多模态任务,并在ARC-AGI等高难度测试中刷新纪录。来源:机器之心

办公小浣熊 · 桌面版全新上线!

商汤科技推出“办公小浣熊”桌面版,支持Windows和Mac平台,用户无需浏览器即可一键唤醒AI助手,实现任务拆解、数据分析、图表生成等办公功能。老用户可同步历史内容。来源:商汤小浣熊

智谱Z.ai推出的实验性大模型GLM-Experimental

智谱AI推出全新实验模型GLM-Experimental,主打“AI Presentation”功能,可一键生成网页版PPT,支持多种风格与互动效果。用户只需输入简单Prompt,模型可自动生成内容、设计排版,实现弹幕、动画等高级效果。来源:AI工具集

Perplexity推出 AI 浏览器——Comet

Perplexity发布AI浏览器Comet,主打“从浏览到思考”,整合网页解释、任务执行等功能,成为用户的“思考伙伴”。Comet目前仅向高价订阅用户开放。来源:AI工具集

抖音快手前高管创业,上线AI图片工具 KIRA

由抖音、TikTok、快手前核心成员创立的 AI 图片生成工具 KIRA 正式亮相。产品由 ILLA Cloud 孵化,支持一键替换/移除背景、修补、画质增强、扩图等操作,并具备 AI 生成图片能力。创始团队包括曾任抖音 & TikTok 研发、快手孵化业务大前端负责人陈龙博,及抖音、快手多项战略项目设计负责人吴晓松。来源:AI工具集

7月9·周三

谷歌Veo 3逆天升级,照片秒变活人开口讲话!

谷歌AI视频生成模型Veo 3近日升级,用户只需上传一张照片,即可生成角色一致、配有音频的视频,实现“照片开口说话”。新功能支持多种运镜和风格,适用于广告、动漫等创作场景。来源:新智元

字节旗下小荷健康推出AI医疗助手——小荷AI医生

字节跳动推出首款AI医疗助手App“小荷AI医生”,提供健康咨询、报告解读、药品查询等服务,强调“先求证、再建议”的诊疗逻辑。用户可通过拍照上传报告或病灶图片,获取个性化分析和用药建议。来源:AI工具集

昆仑万维发布并开源 Skywork-R1V 3.0,刷新开源模型性能上限

昆仑万维正式开源多模态推理模型Skywork-R1V 3.0,模型在高考数学中取得142分,在多学科多模态评测MMMU中获得76分,刷新开源模型性能上限。Skywork-R1V 3.0通过强化学习策略提升跨模态推理能力。来源:昆仑万维集团

具身智能星海图再获超 1 亿美元融资,美团龙珠、今日资本领投

具身智能公司星海图完成A4轮及A5轮融资,总额超1亿美元,由美团、美团龙珠、今日资本领投,老股东持续加码。公司专注于“整机+智能”战略,推出多款机器人平台及开发工具,服务全球开发者生态。来源:星海图

钉钉重磅发布全新“AI表格”

钉钉发布全新“AI表格”,将AI能力深度融入表格工具,支持智能数据分析、自动化流程和多模态内容生成。新增“表格即文档”功能,实现结构化数据与非结构化信息融合,提升协作效率。来源:钉钉

Vidu Q1 参考生视频全球上线:重新定义叙事

AI视频模型Vidu Q1推出“参考生”功能,用户只需上传参考图,可快速生成高质量视频素材,省去传统分镜、拍摄和特效流程,大幅降低创作门槛和成本。来源:生数ShengShu

通义开源 HumanOmniV2 比你还懂“社交潜台词”!

通义大模型推出多模态推理模型HumanOmniV2,能更好理解人类社交潜台词。模型引入强制上下文总结机制,结合视觉、听觉和语言信息,提升对复杂意图的理解能力。通过多维度奖励机制和优化训练策略,HumanOmniV2在多个基准测试中表现优异。来源:通义大模型

7月8·周二

混元3D再升级,推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen

腾讯混元3D宣布升级,推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen。模型结合自研高压缩率表征BPT技术,可生成上万面复杂几何模型,布线精度高,细节丰富,支持三边面和四边面,满足不同专业需求。来源:腾讯混元

它石智航完成1.22亿美元天使+轮融

具身智能公司它石智航(TARS)宣布完成1.22亿美元天使+轮融资,由美团战投领投,钧山投资、碧鸿投资、国汽投资、临港科创投、赛富投资基金、建发新兴投资跟投,老股东线性资本、襄禾资本持续加码。来源:蓝驰创投

强化学习新范式!元石提出“自反思生成范式”MetaStone-S1

元石科技发布新一代反思型生成式模型MetaStone-S1,采用“自反思生成范式”,融合Long-CoT强化学习与过程评分学习,实现深度推理与推理链路筛选能力统一。模型在多个基准测试中性能对标OpenAI o3-mini,具备更长思考长度与更低推理成本。来源:问小白

云深处科技完成近5亿元新融资 加速具身智能产业化布局

由浙大博导朱秋国创立的云深处科技宣布完成近5亿元融资,由达晨财智、国新基金等联合领投。本轮融资将用于四足机器人产线扩建、人形机器人技术研发及高端人才引进。来源:智东西

7月7·周一

通义网络智能体WebSailor开源,检索性能登顶开源榜单!

阿里云通义实验室开源网络智能体WebSailor。智能体具备强大的推理和检索能力,在智能体评测集BrowseComp上超越DeepSeek R1、Grok-3等模型,登顶开源网络智能体榜单。WebSailor通过创新的post-training方法和强化学习算法DUPO,大幅提升了复杂网页推理任务的表现。来源:阿里云

字节跳动开源 AI IDE 工具核心组件 Trae-Agent

字节开源TRAE Agent 在 SWE-bench Verified 排行榜上取得 75.2% 的求解率,位居第一。TRAE Agent 是基于大语言模型的智能助手,专为软件工程任务设计,能自主完成代码理解、问题复现、修复方案制定、高质量代码编写等任务。来源:TRAE.ai

星动纪元完成近5亿元A轮融资!通用具身技术突破驱动商业化落地

星动纪元宣布完成近5亿元A轮融资,由鼎晖VGC和海尔资本联合领投。公司成立于2023年,是清华大学唯一持股的具身智能企业,致力于打造通用智能体。目前,星动纪元已向全球科技巨头批量交付超200台产品,订单中50%以上来自海外客户,在工业物流、连锁零售等行业加速落地。来源:北京星动纪元科技有限公司

通义实验室开源首个音频生成模型 ThinkSound

通义实验室开源首个音频生成模型ThinkSound,专为打破“静音画面”局限而生。模型通过引入思维链(CoT)技术,让AI学会结构化推理画面与声音的关系,实现高保真、强同步的空间音频生成。基于2531.8小时高质量多模态数据训练,包含对象级和指令级样本,支持交互式编辑。来源:通义大模型

AIGC独角兽硅基智能完成D轮融资,数字人业务营收数亿

AIGC独角兽硅基智能完成数亿元D轮融资,投资方为嘉兴高新区产业基金。本轮资金将用于研发创新、技术落地及产品市场化。自2017年成立以来,硅基智能已完成10轮融资,投资方包括腾讯、红杉中国等。来源:36氪

TNG推出DeepSeek“野生版”R1T2:速度碾压官方,开源

德国AI公司TNG推出“DeepSeek R1T2”模型。基于DeepSeek R1、R1-0528和V3三大模型开发,采用专家组合(AoE)技术,速度比R1快20%,推理能力显著提升。与初代模型相比,R1T2的智力大幅提升,解决了token一致性缺陷,在无系统提示时也能提供自然对话体验。来源:AI工具集

7月4·周五

京东内测“宠TA”与“聊愈小宇宙”AI设计产品

京东APP悄然上线两款AI社交产品,“宠TA”和“聊愈小宇宙”。“宠TA”围绕宠物数字人提供陪聊、换装、问诊及一键购粮等闭环消费;“聊愈小宇宙”则通过情绪识别、回忆日历和社区交流,结合专业的心理咨询服务。来源:AI工具集

谷歌 Veo 3 AI文生视频模型正式向 Pro / Ultra 会员开放

谷歌Veo 3 AI文生视频模型正式向Pro/Ultra会员开放。Pro会员每天可生成3段视频,Ultra会员生成数量未公布。Veo 3的“照片生成视频”功能即将上线。来源:AI工具集

昆仑万维再次开源奖励模型!Skywork-Reward-V2

昆仑万维开源第二代奖励模型Skywork-Reward-V2系列,共8个模型,参数规模从6亿到80亿不等。系列在七大主流奖励模型评测榜单中全面夺魁。来源:昆仑万维集团

腾讯元宝支持一句话搜索图片、视频号内容

腾讯元宝推出新功能,支持用户通过“一句话搜索”匹配图片和视频号内容。用户开启“联网搜索”后,元宝可自动根据提问匹配图片与视频号,支持任意模型,不限“深度思考”是否开启。来源:腾讯元宝

OmniGen2重磅升级,统一图像生成再进化

智源研究院宣布 OmniGen2 图像生成模型重磅升级。OmniGen2采用分离式架构与双编码器策略,强化上下文理解与指令遵循能力,图像生成质量大幅提升。重构数据生成流程,解决开源数据集质量缺陷问题,引入图像生成反思机制,提升模型自我优化能力。来源:智源研究院

7月3·周四

智谱获上海国资10亿元战略融资

国产AI大模型企业智谱在开放平台产业生态大会上宣布获得上海国资10亿元战略投资,由浦东创投集团和张江集团完成首笔交割。同时,三方与上海仪电、浦发集团合作,共同建设AI新型基础设施。来源:钛媒体AGI

星流 Agent上线!更适合中国设计师的一站式创意设计Agent

星流Agent正式上线,是专为中国设计师打造的一站式创意设计Agent。星流Agent延续了Lovart的全栈式智能设计能力,全面适配中文语义、东方美学和本地场景。用户只需输入一句话,能自动拆解任务、匹配风格、生成整套设计物料,支持多模态内容创作,涵盖图像、视频、3D等多种格式。来源:LiblibAI

Perplexity Max 订阅上线,月费 200 美元

Perplexity推出高端订阅服务Perplexity Max,月费200美元(约合1433元人民币)。订阅用户可无限制访问电子表格和报告生成工具Labs,提前体验Comet浏览器等新功能,调用OpenAI的o3-pro和Claude Opus 4等先进AI模型。来源:AI工具集

7月2·周三

智谱发布并开源 GLM-4.1V-Thinking 系列视觉模型

智谱发布两项重要成果。一是开源新一代通用视觉语言模型GLM-4.1V-Thinking,10B级轻量版在多项权威评测中表现卓越,具备图像、视频、文档等多模态输入能力,支持复杂推理任务。二是上线MaaS“Agent应用空间”平台,启动Agent开拓者专项扶持计划,助力企业低门槛接入Agent能力,推动AI原生创业发展。来源:智谱

百度推出自研多模态大模型MuseSteamer和AI视频创作平台绘想

百度发布自研视频生成模型MuseSteamer及AI视频创作平台“绘想”。MuseSteamer是全球首个实现中文音视频一体化生成的模型,打破传统AIGC视频“先画面后配音”的流程,可实现画面、音效与人声台词协同创作。用户仅需上传一张图片即可生成专业级视频内容。来源:AI工具集

阿里云加码领投,智能体开发平台BetterYeah AI完成超亿元B轮融资

企业级AI智能体开发平台BetterYeah AI宣布完成超亿元人民币B轮融资,由阿里云领投、名川资本跟投。资金将用于新一代智能体产品研发。BetterYeah AI由钉钉创始团队成员创立,核心团队具备深厚的企业级产品基因。来源:钛媒体AGI

北京中小学生 9 月起开设 AI 通识课

北京宣布从2025年秋季学期起,全市中小学将全面普及人工智能通识教育,每学年不少于8课时。课程将涵盖人工智能的基本概念、应用与技术、实现方法及伦理与社会等方面,并将评价结果纳入学生综合素质评价体系。来源:北京市教育委员会

豆包「图像生成」超能创意2.0开启灰度测试

豆包超能创意 2.0 已在网页版和电脑版灰度测试,模型升级至豆包大模型 1.6 版本,接入 seedream 3.0、seededit 3.0 和 seedance 1.0 Pro 模型,分别提升图片生成、编辑和视频生成效果。来源:AI工具集

7月1·周二

Cursor 推出网页端和移动端 Agent,支持多任务并行

Cursor 新推出的网页端和移动端 Agent 功能,用户可以在任何设备上通过浏览器访问 Cursor Agents,连接 GitHub 后即可使用。随时分配任务,Agent 后台自动运行并通知;支持多设备访问,满足不同场景需求;可分享工作链接,方便团队协作;支持多任务并行,提供多种解决方案。来源:AI工具集

通义千问推出语音合成模型Qwen-TTS,新增三种中文方言

Qwen-TTS发布了最新版本,新增支持生成北京话、上海话和四川话三种中文方言。语音合成模型使用超过300万小时语料库训练,合成效果自然且富有表现力,能自动调整韵律、节奏和情绪。来源:通义千问Qwen

Meta宣布正式成立「超级智能实验室」11人豪华团队

Meta正式宣布成立「超级智能实验室」(Meta Superintelligence Labs,MSL)。实验室由Scale AI前CEO Alexandr Wang担任首席人工智能官并领导,同时挖角了来自OpenAI、Anthropic和谷歌DeepMind的11位顶尖人才。来源:机器之心

ima.copilot更新,支持图文并茂回答

ima.copilot更新,支持图文并茂的回答。更新覆盖首页、知识库、侧边栏和笔记AI帮写等功能。用户可上传PDF、Word或PPT,ima能提炼重点并生成图文结合的内容。来源:ima.copilot


© 版权声明

相关文章

54 条评论

  • 太缘
    太缘 游客

    这个栏目真的特别好~🌸

    回复
    • AI工具集
      AI工具集 管理员

      感谢认可,对您有帮助就行!

      回复
      • 青野大魔王
        青野大魔王 游客

        你是我的神

        回复
        • AI小集
          AI小集

          夸张了,哥

          回复
    • 东申道人
      东申道人 游客

      确实,支持

      回复
      • yoh
        yoh 游客

        支持,这是个非常好的栏目,这也是个非常棒的网站

        回复
  • 太缘
    太缘 游客

    再次感谢,真挺好的网站~~~

    回复
  • 本
    游客

    真好真好👍

    回复
  • 零号
    零号 游客

    请问能做个分页不,按日期或者按个数之类的,这一页好长~好长~

    回复
    • AI工具集
      AI工具集 管理员

      后面会考虑出个按日期来选择的功能,不过资讯类型具有较高的时效性,通常情况下只会关注最近两三天的报道。

      回复
      • 零号
        零号 游客

        多谢采纳!时效性确实,那第一页放三天,或者每页一周?推荐给好几个朋友了,非常实用👍

        回复
  • 老高项目网
    老高项目网 游客

    请问,这个栏目是ai插件生成的?还是说是手动编辑的?

    回复
    • AI工具集
      AI工具集 管理员

      人工手动编辑的

      回复
  • 麦洛
    麦洛 游客

    非常好的分享,如果支持分享就更好了

    回复
  • 桑猫眼
    桑猫眼 游客

    这个网站的工具和资讯真是帮了大忙~

    回复
  • rhythm
    rhythm 游客

    前来点赞,可惜没有怎么推广,知道的人还是太少了

    回复
    • AI小集
      AI小集 管理员

      感谢支持~后面会加强推广的!

      回复
  • Foam
    Foam 游客

    请问有 rss 吗?付费也行

    回复
    • AI小集
      AI小集 管理员

      目前正在考虑推出社群or邮件推送服务,暂无RSS

      回复
  • ai拓荒者
    ai拓荒者 游客

    请问更新策略是什么样的?比如今天周五,上午11:00只能看周四的内容吗?

    回复
    • AI小集
      AI小集 管理员

      个人不定时更新,时间不固定呢 -_-

      回复
  • patrick
    patrick 游客

    真的好!

    回复
  • Song
    Song 游客

    请问要怎么看到2024年7月之前的快讯?

    回复
    • AI小集
      AI小集

      快讯具有时效性,历史信息会定期清理~ 后续会单独整合一篇月度合集

      回复
  • Youne
    Youne 游客

    栏目确实不错,推荐给朋友了

    回复
    • AI小集
      AI小集

      感谢推荐~

      回复
  • Keiraaaa
    Keiraaaa 游客

    特别好!希望能坚持更新下去:)

    回复
    • AI小集
      AI小集

      必须的,假期愉快~

      回复
  • chuanxi
    chuanxi 游客

    很好的网站和新闻,希望持续更新

    回复
    • AI小集
      AI小集

      嗯嗯会的~

      回复
  • Dala
    Dala 游客

    真的是非常优秀的开发团队

    回复
    • AI小集
      AI小集

      谢谢你的支持~

      回复
  • piney
    piney 游客

    新闻汇总很棒~

    回复
  • 1321441
    1321441 游客

    请问还能找到以前的新闻吗,我从去年9月开始的还有一些没看,想全面再看看,谢谢了,付费也行

    回复
    • AI小集
      AI小集

      可以,稍后我整理一份历史快讯合集PDF,方便回溯和阅读

      回复
      • Steven
        Steven 游客

        赞 这个工作可以单开一个栏目

        回复
  • bx
    bx 游客

    感谢更新!!已经“追更”快一年了hhh

    回复
    • AI小集
      AI小集

      厉害了!感谢老粉!!

      回复
  • 哦哦
    哦哦 游客

    👍很好

    回复
  • 试试
    试试 游客

    不错

    回复
  • 老李
    老李 游客

    AI资讯蛮好的。

    回复
  • 太渊
    太渊 游客

    每日必看

    回复
  • 小卒子
    小卒子 游客

    这个网站是您自己开发的吗?感觉好好哦,确实不错!

    回复
    • AI小集
      AI小集

      感谢支持,继续加油啊!

      回复
  • Logic
    Logic 游客

    太棒了~!后悔没有早点发现这个宝藏网站,之前吭哧吭哧找AI相关资讯,花了好多时间QAQ

    回复
    • AI小集
      AI小集

      哈哈哈哈,感谢认可!!!

      回复
  • 成歌
    成歌 游客

    谢谢每日更新

    回复
  • 小蒙
    小蒙 游客

    挺好

    回复
    • AI小集
      AI小集

      感谢支持!

      回复
  • 5555
    5555 游客

    有邮箱推送了吗。

    回复
    • AI小集
      AI小集

      暂不支持哦。

      回复
  • 九书
    九书 游客

    请问可以接入coze工作流自动推送吗

    回复
    • AI小集
      AI小集

      目前不行呢,后面会考虑

      回复
      • 九书
        九书 游客

        好的 期待

        回复