
AI工具集每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等,让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI工具集官方社群,获取最新一手信息!
出门问问发布Agentic AI软硬结合产品TicNote,定义新一代“AI思考伙伴”
出门问问发布全球首款Agentic AI硬件产品TicNote,售价999元起。产品搭载自研AI Agent Shadow AI,具备AI转写、总结、生成思维导图等功能,支持120多种语言及24种方言转写,准确率达98%。TicNote厚度仅3mm,可磁吸于手机,续航达20天,支持10米远距收声。来源:出门问问AIGC
谷歌推出的开源终端AI编程Agent——Gemini CLI
谷歌推出Gemini CLI(命令行界面),基于Gemini 2.5 Pro AI模型。工具将AI问答、内容生成等功能集成到开发者终端界面,支持高达100万个token的上下文窗口,与Gemini Code Assist代码助手深度集成,支持谷歌搜索。来源:AI工具集
阶跃星辰与鲸鱼机器人达成战略合作,为青少年打造AI学习伙伴
阶跃星辰与鲸鱼机器人达成战略合作。鲸鱼机器人将接入阶跃星辰的Step-Audio端到端语音大模型,为其教育机器人产品引入语音交互能力,打造更贴合教育认知规律的AI学习伙伴。来源:阶跃星辰
灵宝CASBOT完成近亿元天使+轮融资,技术务实加速商业化落地
灵宝CASBOT宣布完成近亿元天使+轮融资,由蓝思科技领投,天津佳益及老股东国投创合、河南资产跟投。本轮融资将用于加速产品量产、技术研发迭代及市场拓展。灵宝CASBOT专注于通用人形机器人和具身智能产品,其VLA技术路线结合强化学习,可应对复杂工业场景。来源:灵宝CASBOT
谷歌DeepMind推出的基因变异预测AI模型 AlphaGenome
谷歌DeepMind发布AlphaGenome模型,用于预测人类DNA序列中单个变异或突变的影响。模型可处理长达100万字母的DNA序列,预测数千个分子属性,通过比较突变与未突变序列进行评分。来源:AI工具集
蚂蚁集团发布 AI 健康应用 AQ:可看病症、看医生、看报告
蚂蚁集团发布全新AI健康应用「AQ」,帮助公众看病更简单、生活更健康。AQ提供健康科普、就诊咨询、报告解读、健康档案等上百项AI功能,连接全国超5000家医院、近百万医生及200余个名医AI分身。来源:蚂蚁集团
万兴科技推出AIGC视频创作平台“万兴天幕”
万兴科技推出AIGC视频创作平台“万兴天幕”,覆盖视频、图片及音频生成三大领域,为创作者提供一站式解决方案。平台具备文生视频、图生视频、视频续写、文生音乐、文生音效及视频智能配乐等功能,支持灵感社区激发创作。来源:万兴科技
饿了么推出AI助手“小饿”已全国上线
饿了么AI助手“小饿”已在全国上线。作为国内首个骑手端智能体,“小饿”通过语音交互,可完成接单、确认到店等操作,减少手动步骤。能主动提醒取货、送达,分析订单热力图,优化接单策略。来源:饿了么蓝骑士
谷歌推出首个本地具身智能模型Gemini Robotics On-Device
谷歌DeepMind推出首个本地具身智能模型Gemini Robotics On-Device。模型可在机器人本地运行,无需依赖云端,具备强大的离线操作能力,能遵循自然语言指令完成精细任务,如拉开袋子、叠衣服等。支持多种机器人本体部署,响应延迟低,能快速适应新任务,仅需50到100个演示样本可学会新动作。来源:AI工具集
阿里云百炼X支付宝:「AI打赏」功能上线,Agent变现更灵活
阿里云百炼与支付宝联合推出业内首发的“AI打赏”功能。开发者在阿里云百炼平台上可为Agent应用配置打赏功能,用户打赏金额将直接转入开发者个人支付宝钱包。来源:阿里云
小米官宣将发布AI眼镜,正式加入“百镜大战”
小米宣布将于6月26日晚7点发布小米AI眼镜。这款产品被视为小米“人车家全生态”战略的一部分,可能与汽车、智能家居等场景联动。小米AI眼镜售价可能在999-1299元,有望凭借价格优势抢占市场份额。来源:界面新闻
Fellou Windows版本正式上线
Fellou Windows版本正式上线。Fellou是一款AI浏览器,用户只需输入自然指令,可完成跨平台复杂操作,任务成功率从31%提升至80%。支持信息填报、代码编写、招聘流程、数据分析等多种场景,本地化运行保障数据安全。来源:FellouAI
ElevenLabs推出AI语音助手——11ai,支持自定义MCP
ElevenLabs发布11ai的AI个人语音助理产品。11ai主打语音优先设计,支持多通道处理(MCP),用户可通过语音指令完成日程规划、任务管理、信息查询等操作,可与Notion、Linear等工具对接。来源:AI工具集
微软推出 Win11 设备端小型语言模型 Mu
微软发布创新小参数模型Mu。Mu仅含3.3亿参数,性能却可比肩微软Phi-3.5-mini模型,且体量小10倍左右。在配备NPU的笔记本上响应速度超每秒100 tokens,表现优异。来源:AI工具集
字节跳动旗下抖音推出AI饭搭子——探饭
字节跳动上线“探饭”AI产品,搭载豆包大模型。探饭为用户提供全方位的美食智能向导服务,包括探店推荐、菜品推荐、美食攻略、AI点菜、团购购买和外卖下单等功能。用户可通过“PK比店”功能对比店铺,能在地图上寻找美食店并导航。来源:AI工具集
墨刀AIPPT正式上线,一句话生成完整PPT
墨刀官方宣布AIPPT功能正式上线。墨刀AIPPT是AI驱动的PPT生成工具,用户仅需输入一句话,可快速生成包含封面、目录、章节标题及配套文案思路的PPT草稿,自动匹配排版、配图和配色。来源:墨刀
特斯拉Robotaxi终于上线!仅需4.2美元一口价
特斯拉在德克萨斯州奥斯汀正式上线自动驾驶出租车服务Robotaxi,首批受邀用户可支付4.2美元体验。目前服务处于试运营阶段,仅限特定区域和受邀用户使用,运营时间为早上6点至午夜12点。车内配备安全监控员,车辆在复杂路况下需远程操作员介入。来源:机器之心
文心快码发布行业首个多模态、多智能体协同AI IDE——Comate AI IDE
百度在AI开放日上发布文心快码Comate AI IDE,是行业首个多模态、多智能体协同的AI IDE。首创设计稿一键转代码功能,可将Figma设计稿精准转化为高可用代码,节省80%重复劳动。IDE具备AI辅助编码全流程、多智能体协同、多模态能力增强等核心能力,支持MCP对接外部工具,适配多种开发场景。来源:文心快码 baidu Comate
哈啰Robotaxi业务完成超30亿元融资,引入蚂蚁集团、宁德时代战略投资
哈啰宣布进军Robotaxi赛道,完成超30亿元融资,引入蚂蚁集团和宁德时代战略投资。三方共同发起成立“上海造父智能科技有限公司”,专注于L4级自动驾驶技术研发与商业化落地。此次合作将加速自动驾驶技术的突破与应用,推动智能驾驶产业迈向大规模商业化阶段。来源:哈啰
网易有道开源“子曰3数学模型”,单块消费级 GPU 即可运行
网易有道宣布开源“子曰3数学模型”(Confucius3-Math),是国内首个专注于数学教育且可在单块消费级GPU上高效运行的开源推理模型。在多项数学推理任务中表现优异,在高考数学题评测框架中得分高达98.5分,推理性能是通用大模型DeepSeek R1的15倍,服务成本低至每百万token 0.15美元。来源:网易有道
MiniMax Day 5/5:MiniMax Audio 新增Voice Design音色设计功能
MiniMax推出语音技术更新——Voice Design音色设计功能。支持用户通过自然语言描述音色,实现精准控制,生成不存在的音色,与Speech 02语音模型配合,实现“任意语言×任意口音×任意音色”的全自定义组合。打开MiniMax Audio,即刻体验。来源:MiniMax 稀宇科技
模型即 Agent,Kimi-Researcher(深度研究)开启内测
月之暗面旗下的Kimi智能助手发布其首个Agent产品——Kimi-Researcher(深度研究),开启小范围灰度测试。Kimi-Researcher基于端到端自主强化学习技术训练,专为深度研究任务设计,可自主规划任务执行流程,包括澄清问题、深入思考、主动搜索、调用工具等,最终交付深度研究报告及动态可视化报告。来源:月之暗面 Kimi
宁德时代领投,「银河通用」完成超10亿元新一轮融资
具身智能公司「银河通用」完成超10亿元新一轮融资,由宁德时代和溥泉资本领投,国开科创、北京机器人产业基金、纪源资本等跟投,创下今年具身智能赛道最大单笔融资。来源:智能涌现
Meta最强AI眼镜 Oakley Meta HSTN 登场!AI随问随答,拍照一键分享
Meta与运动品牌欧克利(Oakley)联合发布第三代AI眼镜——Oakley Meta HSTN 。这款高性能AI眼镜主打运动场景,具备拍照、录视频、语音问AI、一键分享等功能,支持透明、变色、偏光镜片,续航达8小时,配合充电盒可达48小时。来源:智东西
上海AI独角兽联影智能获10亿融资!刚发布5款大模型
上海医疗AI创企联影智能完成10亿元A轮融资,由易方达私募基金、上国投资管等机构领投。联影智能已推出100多款医疗AI产品,涵盖诊断、手术、服务、管理等多场景,数十款产品获国内外认证。今年4月,联影智能发布“元智”医疗大模型,包括文本、影像、视觉、语音、混合等5款大模型,率先应用于复杂医疗场景。来源:智东西
华为盘古大模型5.5问世!推理、智能体能力大爆发
华为在开发者大会2025上发布盘古大模型5.5,包含五大基础模型,覆盖自然语言处理(NLP)、多模态、预测、科学计算、计算机视觉(CV)等领域。盘古Ultra MoE是准万亿参数的深度思考模型,达到国内领先水平;盘古Pro MoE在SuperCLUE千亿参数模型榜单中并列国内第一。来源:机器之心
MiniMax推出Hailuo Video Agent视频创作Agent
MiniMax稀宇科技推出Hailuo Video Agent视频创作Agent的Beta版本。降低视频创作门槛,让用户通过简单输入文字或图片,即可一键生成高质量创意短片。目前处于第一阶段,提供专业视频创意Agent模板,未来将逐步开放半自定义和端到端视频Agent功能。来源:MiniMax 稀宇科技
腾讯AI Lab开源音乐生成大模型SongGeneration
腾讯AI Lab开源了音乐生成大模型SongGeneration,专注于解决音乐AIGC中的音质、音乐性与生成速度三大难题。模型基于LLM-DiT融合架构,支持文本控制、多轨合成与风格跟随等功能,生成歌曲在音质、旋律、伴奏等方面表现优异。SongGeneration采用低比特率编解码、多类别token并行预测等技术创新。来源:机器之心
昆仑万维正式开源Skywork-SWE-32B,最强仓库级代码修复能力
昆仑万维发布并开源Skywork-SWE-32B模型,是业界首个开源的32B规模、具备强大仓库级代码修复能力的软件工程自主代码智能体基座模型。模型基于超过1万个可验证的GitHub仓库任务实例构建,刷新了SWE-bench Verified基准上32B模型的最佳成绩,准确率从38.0%提升至47.0%。来源:昆仑万维集团
DeepSite V2上线,一句话建网页、做动画、改样式
DeepSeek开源生态推出DeepSite V2版本,基于DeepSeek R1‑0528模型的AI网页生成器。用户通过文字提示即可生成、预览并迭代网站页面,无需本地环境配置。V2版本升级了交互界面,支持推理式建站、细粒度编辑功能和增量差异补丁技术,可快速修改页面而不需重写代码。来源:AI工具集
xAI公司 Grok 上线“定时任务”新功能
马斯克的xAI公司旗下的Grok上线了新功能——“定时任务”。支持用户设置定时自动触发的Grok提示,实现重复性工作的自动化。用户可以自定义任务的触发时间(精确到时/分)、周期(如每天、每周、每月等),设置邮件或App提醒。定时任务支持深度搜索功能。来源:AI工具集
宇树科技完成C轮融资交割,估值超过100亿
宇树科技完成C轮融资交割。此次融资始于去年底,由移动旗下基金、腾讯、锦秋、阿里、蚂蚁、吉利资本共同领投,绝大部分老股东参与跟投。来源:第一财经
谷歌 Search Live 语音搜索功能上线:支持连续对话
谷歌在美国上线了基于Gemini模型的Search Live语音搜索功能,适用于iOS和Android版应用。用户在启用AI模式后,点击Live图标即可通过语音对话提问,谷歌会以AI语音回应,支持连续对话,无需重复操作。来源:IT之家
Midjourney正式推出首个视频生成模型V1,很快、很好、很便宜
Midjourney推出视频生成模型V1,是一款图生视频模型。用户在生成静态图像后,点击“Animate”按钮即可让画面动起来。系统提供“自动动画”和“手动动画”两种模式,以及低动态和高动态两种强度选项,分别适合不同场景需求。生成视频后,能进行延长操作,每次延长约4秒,最多可延长4次。来源:Midjourney
MiniMax Agent,能完成长程复杂任务的通用智能体
MiniMax稀宇科技发布的MiniMax Agent通用智能体。能完成长程复杂任务,具备多步规划和灵活拆解任务需求的能力,可生成讨论材料、学习教程、视频等多种内容。设计遵循“靠谱的人”标准,支持多模态输入输出,集成多种办公工具扩展能力。来源:MiniMax 稀宇科技
AI陪伴硬件公司“珞博智能”完成数千万人民币融资,上影、金沙江领投
AI陪伴硬件初创公司珞博智能近日完成数千万元人民币天使轮融资,由零一创投、上影新视野基金和金沙江创投参与投资。珞博智能成立于2024年,首款产品芙崽Fuzozo于2025年3月发布,6月正式投入市场销售。芙崽是一款AI养成系潮玩,通过多模态交互与类宠物养成玩法,为Z世代人群提供情感陪伴。来源:Robopoet珞博智能
红杉中国正式开源xbench两个评测集
红杉中国正式开源xbench评测集,包括xbench-ScienceQA和xbench-DeepSearch两个子集。xbench-ScienceQA聚焦高难度科学与工程问答,邀请博士生和专家出题,题目难度高、区分度好,平均正确率仅32%。xbench-DeepSearch针对 AgentAI的深度搜索能力,考察规划、搜索、推理和总结能力,适配中文互联网环境。来源:红杉汇
重磅!MiniMax推出全新AI视频模型——Hailuo 02,刷新排名 力压可灵和Veo 3
国内MiniMax旗下视频生成模型海螺AI推出新版本Hailuo 02,这个模型目前在图生视频、文生视频的榜单位于第二,超越快手可灵以及谷歌Veo 3,仅次于字节上周刚刚发布Seedance 1.0。来源:AI工具集
AI 编程工具 Cursor 推出月费 200 美元 Ultra 订阅
AI 编程工具 Cursor 推出月费 200 美元的 Ultra 订阅方案。方案提供比现有 20 美元 Pro 方案多 20 倍的 AI 模型额度,并优先体验新功能。来源:AI工具集
谷歌 Gemini 新增视频上传与分析功能,安卓、网页端已上线
Gemini新增视频上传与分析功能,用户可在安卓版和网页端上传视频,要求 Gemini 进行概述、查找特定部分等操作,Gemini 会显示相关视频片段。功能基于其总结 YouTube 视频的能力拓展,目前不支持直接录制视频上传。来源:IT之家
字节跳动Seed与比亚迪锂电池深化合作:将成立AI联合实验室加速电池研发
字节跳动Seed与比亚迪锂电池深化合作,将成立AI联合实验室加速电池研发。双方将通过联合实验室,进一步探索AI技术在动力电池快充、寿命和安全等问题上的应用,推动电池技术进步。来源:字节跳动Seed
OpenAI“热线电话”技能更新:发短信给 1-800-242-8478 即可生成图片
OpenAI更新其“热线电话”技能,用户可通过WhatsApp向1-800-242-8478发短信调用图像生成功能。OpenAI为WhatsApp集成ChatGPT,用户无需OpenAI账号,将1 (800) CHATGPT添加到联系人即可使用。来源:IT之家
Google发布Gemini 2.5 AI模型家族更新
Google发布Gemini 2.5 AI模型家族更新,三大亮点:Gemini 2.5 Flash-Lite上线预览版,支持多模态输入、Google搜索、代码执行等工具接入;Gemini 2.5 Flash正式上线并调整定价,输入每百万Token价格为0.3美元,输出为2.5美元;Gemini 2.5 Pro正式版上线,在多个基准测试中超越DeepSeek R1等模型,视频理解能力显著提升。来源:APPSO
腾讯元宝上线 AI 编程模式:支持边修改代码边实时预览
腾讯元宝上线AI编程模式,用户可通过“一句话写代码”实现快速编程。模式基于DeepSeek V3模型,支持双栏展示,左侧提需求,右侧实时生成代码并可在线运行,支持HTML、Python、C++等多种语言。来源:腾讯元宝
硅基流动入驻阿里云云市场,核心API服务将全面接入阿里云百炼平台
AI Infra企业硅基流动正式入驻阿里云云市场,并加入阿里云“繁花计划”。大模型推理平台SiliconCloud核心API服务将全面接入阿里云百炼平台,借助阿里云灵骏智能计算集群的算力支撑,为客户提供开箱即用的大模型服务。来源:阿里云
豆包电脑版、网页版上线“AI 播客”功能
豆包电脑版和网页版上线了“AI播客”功能。用户只需上传PDF文件或添加网页链接,可生成自然流畅的拟人化双人对话播客。语音效果逼真,模拟真人播客的口语习惯,停顿和附和细节恰到好处。用户可将行业报告、课程知识点等资料上传,快速生成通俗易懂的播客。来源:豆包
MiniMax-M1,全球首个开源大规模混合架构的推理模型
MiniMax稀宇科技发布全球首个开源大规模混合架构推理模型MiniMax-M1。在复杂生产力场景中表现卓越,接近海外领先水平,性价比极高。M1支持100万上下文输入和8万Token推理输出,基于闪电注意力机制和混合架构,算力效率显著提升。强化学习算法CISPO收敛性能优异,训练成本仅53.74万美金。来源:MiniMax 稀宇科技
Qwen3 全系适配 MLX,开源 32 款 MLX 量化模型
Qwen3模型宣布全系适配苹果芯片的MLX框架,开源32款量化模型。MLX是专为苹果芯片深度适配的开源机器学习框架,可高效训练和部署AI大模型。Qwen3此次推出的模型包括4bit、6bit、8bit和BF16四种精度的量化版本,覆盖从Mac Pro到iPhone的全场景设备。来源:通义千问Qwen
Kimi新模型Kimi-Dev拿下代码开源SOTA,仅仅72B,发布即开源
月之暗面发布了开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA,其参数量仅72B,但编程能力超越DeepSeek-R1。Kimi-Dev采用BugFixer和TestWriter两种角色,通过文件定位和代码编辑实现功能。来源:量子位
美国国防部与 OpenAI 签订 2 亿美元合同,开发 AI 工具应对国家安全挑战
美国国防部与OpenAI签订了一份价值2亿美元的合同,开发人工智能工具以应对国家安全挑战。根据合同,相关工作将在华盛顿及其周边地区开展,预计于2026年7月完成。来源:IT之家
普惠算力新标杆 九章智算云 Alaya NeW Cloud 2.0 震撼发布
九章云极DataCanvas公司在北京发布新一代全栈智能计算云平台——九章智算云Alaya NeW Cloud 2.0,启动全球首个强化学习智算服务。平台基于Serverless技术架构与强化学习技术,突破“秒级生成百万级token”的性能瓶颈,支持万卡级至十万卡级异构算力统一调度,推理优化效率提升数倍,采用创新计价模型,显著降低成本。来源:九章云极DataCanvas
打造 L3 级别的 Coding Agent——Clacky AI 来了
Clacky AI是面向开发者的云端开发环境(CDE),打造L3级别的AI编程助手。支持全栈开发,涵盖Python、Node.js、Golang、Ruby、Java等语言,具备工程化思维、多线程协作、自我排查与修复等功能,提供“时光机”功能追溯开发节点。来源:AI工具集
OpenAI Codex AI编程工具推出新功能:可一次生成多个方案
OpenAI 的 ChatGPT Codex 推出新功能,可为单一任务生成多个解决方案,用户能从中选择最佳答案。增加了键盘快捷键,优化了代码差异显示,修复了多项问题,提高了专业版、团队版和企业版用户的设置脚本时长限制至 20 分钟。来源:IT之家
脑机接口技术迎来重大突破:可使渐冻症患者重新流畅说话、唱歌
加州大学戴维斯分校研发的新型脑机接口技术取得重大突破,成功帮助一位渐冻症患者重新流畅说话甚至“哼唱”旋律。技术通过植入大脑的微电极阵列捕捉神经信号,结合低延迟处理和AI解码模型,将信号转化为语音输出,全程仅需10毫秒。系统能识别语气词、判断音高并合成旋律,使语音表达更自然。来源:IT之家
腾讯混元3D开源模型又添新成员,腾讯混元3D 2.1全链路开源
在CVPR 2025会议上,腾讯宣布混元3D 2.1大模型全链路开源。是首个开源的工业级3D生成大模型,相较于2.0版本,2.1优化了几何生成质量,引入PBR材质生成技术,提升了3D资产的质感和光影表现。来源:腾讯混元
百度地图全球首发「司机智能体」带上智能副驾,上路即⾃由
百度地图全球首发「司机智能体」功能,为用户带来智能副驾般的驾驶体验。通过先进的智能技术,为司机提供实时路况提醒、智能导航建议以及安全驾驶辅助等服务,帮助用户更轻松地应对复杂路况,提升驾驶自由度和安全性。来源:百度地图
今年“港股AGI第一股”确认了,云知声冲刺IPO五年终通过港交所聆讯
云知声智能科技股份有限公司于2025年6月12日通过港交所聆讯,即将成为“港股AGI第一股”。云知声成立于2012年,是专注于智能语音技术的AI企业,创始人黄伟曾任职于摩托罗拉等机构。公司拥有184 PFLOPS算力集群和10PB存储容量,主要业务涵盖生活、医疗等领域,客户包括中国前三大保险集团等。来源:钛媒体AGI
科大讯飞最新发布!打造下一代智能交互新范式
科大讯飞在深圳举办智能交互产品升级发布会,主题为“交互领航智启新章”。发布会上,AIUI、机器人超脑、虚拟数字人与讯飞星辰四大开发平台亮相,展示软硬件协同优化成果。科大讯飞发布十大场景化方案,涵盖办公、人力与企业数字化等刚需场景,推动AI技术从通用能力向垂直场景转化。来源:讯飞开放平台
腾讯元宝“高考志愿咨询”功能上线:可提供专属深度建议
腾讯元宝“高考志愿咨询”功能正式上线。用户在元宝手机端、电脑版或网页版升级至最新版本后,选择任意模型并开启深度思考,提问志愿填报相关问题,元宝将自动触发深度搜索并提交专属深度建议。来源:腾讯元宝
美泰公司与 OpenAI 合作,将生成式AI技术引入玩具开发
美泰公司与 OpenAI 达成合作,将生成式 AI 技术引入玩具开发和 IP 重塑业务。是 OpenAI 首次与玩具厂商合作,通过 AI 提升粉丝互动体验。美泰计划今年稍晚推出首款“AI 赋能产品”,包括实体玩具和互动体验。来源:IT之家
中国天气智能体台风频道上线,自动推送台风预警
中国天气智能体台风频道正式上线。作为国内首个天气智能体,融合气象传媒与人工智能技术,可实时推送台风预警信息,查询台风路径及图文、视频等内容。频道通过精准监测和贴心服务,为用户提供台风动态、预警推送、防御指南及科普知识。来源:中国天气网
谷歌上线 Weather Lab 气象预测网站:利用 DeepMind AI 模型判断台风路径
谷歌上线 Weather Lab 气象预测网站,引入 DeepMind AI 模型,可预测台风的生成时间、路径、强度等,模拟未来 15 天多达 50 种气象发展场景。网站提供与欧洲中期天气预报中心传统模型的对比功能,帮助用户更早获取气旋信息。来源:IT之家
Meta 推出基于视频训练的世界模型 V-JEPA 2
Meta推出基于视频训练的世界模型V-JEPA 2,由首席AI科学家Yann LeCun介绍。模型拥有12亿参数,基于联合嵌入预测架构(JEPA)构建,具备先进的环境理解与预测能力,能在新环境中完成零样本规划与机器人控制。V-JEPA 2通过自监督学习训练,无需人工注释,可用于辅助技术、混合现实指导、个性化教育等领域。来源:机器之心
Manus推出聊天模式,免费向所有用户开放
Manus 上线 chat 模式,用户可以在Manus中免费使用 chat 模式,为了解决用户在和 Agent 交互过程中需求不明确或者很多需求不需要 Agent 的问题。覆盖日常咨询、知识查询等场景,可无缝切换至代理模式。来源:AI工具集
知乎知名答主夕小瑶团队推出全球首个A2A范式Agent——Teamo
知乎知名答主夕小瑶团队推出全球首个A2A范式Agent——Teamo。产品定位为知识工作者的超级Agent,采用Agent-to-Agent(A2A)范式,由“Teamo队长”统一指挥,各领域专业Agent协同工作,模拟真实团队作业。来源:AI工具集
普林复旦打造历史研究场景的AI助手——HistAgent
普林斯顿大学与复旦大学联合推出全球首个历史领域AI评测基准HistBench及AI历史助手HistAgent。HistAgent集成文献检索、OCR识别、多语言翻译等工具,专为历史研究优化,在HistBench测试中表现远超现有模型。来源:36氪
英伟达、三星联手投资 AI 机器人公司 Skild AI,估值达 45 亿美元
英伟达和三星电子将联手投资AI机器人创业公司Skild AI,分别投资2500万美元和1000万美元。Skild AI专注于机器人软件开发,此次投资属于其B轮融资的一部分,公司估值约45亿美元,软银集团领投1亿美元。英伟达正推广“实体AI”概念,认为其将成为重要收入来源;三星则希望通过投资保持对Skild及其人才的了解。来源:IT之家
上海市委网信办指导小红书、B站、拼多多等平台清理违规 AI 产品及信息
上海市委网信办自4月下旬起开展“清朗・整治AI技术滥用”专项行动,聚焦6类突出问题。指导小红书、哔哩哔哩、拼多多等15家重点网站平台,清理“一键脱衣”、未经授权的人脸或人声克隆编辑等违规AI产品及相关信息。来源:IT之家
夸克发布行业首个高考志愿大模型
夸克APP发布行业首个高考志愿大模型,为考生提供全新高考志愿服务。模型推出全新专业的高考知识库,通过【夸克搜索】可提供专业、准确的大学、专业查询及志愿问题解答。来源:夸克APP
全球AI开源贡献榜出炉,阿里千问跻身全球前五、中国第一
全球最大的AI开源社区Hugging Face发布最新AI开源贡献榜,阿里通义千问跻身全球第五、中国第一,DeepSeek位列第九,是前十中唯二的非美国机构。榜单考察开源模型、数据集、开发者关注度、社区活跃度及全球影响力等指标。来源:网易
Tolan已在全球获得超 500 万次下载,ARR超 400 万美元
AI陪伴应用Tolan凭借独特外星人形象和情感互动模式,获得超500万下载量,ARR达400万美元。Tolan由西雅图初创公司Portola开发,主打与外星生物“交朋友”,通过语音交互、情绪回应和个性成长机制,为用户提供温暖陪伴。来源:极客公园
OpenAI 发布 o3-pro升级版推理模型,支持调用ChatGPT全套工具
OpenAI发布o3-pro模型,替代o1-pro向Pro和Team用户开放。o3-pro是推理模型o3的升级版,处理复杂问题、精准回答能力更强,支持调用ChatGPT全套工具,响应速度稍慢,适合对答案准确性要求高的场景。o3-pro在表达清晰度、答案完整性等方面优于o3。来源:APPSO
字节跳动推出豆包大模型 1.6,使用成本降至三分之一
在火山引擎Force原动力大会上,字节跳动宣布豆包大模型升级至1.6版,推理、数学、指令遵循等能力大幅提升,达到全球第一梯队水平。豆包 1.6 系列模型支持多模态理解和图形界面操作,能理解和处理真实世界问题。来源:字节跳动
Genspark公司推出创新性 Genspark AI 浏览器
Genspark公司推出创新性人工智能浏览器——Genspark AI Browser。内置智能助手,可帮助用户查找更优交易、比较产品、分析评论,辅助决策。“自动驾驶模式”能自动浏览信息源、收集资料、访问高级数据库,完成复杂网页任务。支持MCP连接700多种工具,实现工作流程自动化,具备广告拦截功能。来源:AI工具集
字节跳动 Seed 团队正式发布视频生成基础模型 Seedance 1.0
字节跳动Seed团队发布Seedance 1.0视频生成模型。模型支持文字与图片输入,可生成多镜头无缝切换的1080p高品质视频,具备原生多镜头叙事能力、更强运动生成效果、支持多种风格创作等亮点,40多秒能完成5秒1080p视频的生成任务。在第三方评测榜单Artificial Analysis中,Seedance 1.0文生视频、图生视频两个任务均位居首位。来源:字节跳动Seed
Mistral 推出推理模型 Magistral 系列,Small 版已开源
法国AI实验室Mistral推出推理模型Magistral系列,包含Magistral Small和Magistral Medium两个版本。Magistral Small拥有240亿参数,已在Hugging Face平台开源;Magistral Medium能力更强,处于预览阶段,仅在特定平台提供。来源:IT之家
3D大模型公司VAST再次完成数千万美元的Pre-A+轮融资
3D大模型公司VAST完成数千万美元Pre-A+轮融资,由北京市人工智能产业投资基金领投,靖亚资本跟投。VAST同时发布全球首个AI驱动的一站式3D工作台Tripo Studio,即将推出全新算法Tripo 3.0。融资将重点投入Tripo系列大模型研发及Tripo Studio产品及生态平台建设。来源:Tripo AI
商汤小浣熊牵手蚂蚁百宝箱,共建AI+数据分析方案
商汤科技的“小浣熊家族”与蚂蚁集团的“蚂蚁百宝箱”正式达成生态合作,联合打造“AI数据分析助手”,为用户提供大模型服务,后续将登陆支付宝平台。为数字生活平台上的商家及生态方提供轻量化、智能化的分析工具,助力AI数智化服务能力升级。“办公小浣熊”将以AI Agent形态免费为用户提供数据分析能力,构建自然的人机协作场景。来源:商汤科技SenseTime
Manus已接入 Veo3 模型,创作电影级视觉体验
Manus现已接入Veo3模型,带来更出色的视觉表现力,角色对话更自然,音画同步更准确,故事叙事更流畅可以创作出电影级别的视觉体验。面向Basic,Plus,Pro会员开放使用。来源:AI工具集
靠ChatGPT狂飙,OpenAI年化经常性收入突破百亿美元
OpenAI自推出ChatGPT不到三年,年化经常性收入(ARR)已突破100亿美元,较去年增长近80%。该收入包括消费者产品、ChatGPT商业产品及API销售收入,不包含微软授权收入等。目前OpenAI拥有300万付费商业用户。来源:财联社
AI 编程工具 Cursor 快速崛起,20 个月实现 1 亿美元年化收入
Cursor AI 编程工具,由 AnySphere 联合创始人兼 CEO Michael Truell 创立,上线 20 个月实现 1 亿美元年化收入,两年达 3 亿美元。成功源于重构软件开发流程,提升人类指令表达能力。团队曾尝试机械工程领域,后回归编程,放弃插件形式,构建完整 IDE。来源:有新Newin
智谱推出首个企业级超级助手Agent——CoCo
智谱推出首个企业级超级助手Agent——CoCo,具备交付导向、记忆机制和无缝嵌入三大企业级特性。能全流程辅助工作,根据员工职能和需求主动服务,无缝接入企业资源,提供个性化服务。来源:智谱
硅基流动完成新一轮数亿元融资,阿里云领投
硅基流动宣布完成数亿元人民币A轮融资,由阿里云领投,创新工场等老股东超额跟投,华兴资本担任独家财务顾问。硅基流动专注于AI基础设施领域,通过技术突破和产品创新,有效解决国内AI行业发展难题。来源:硅基流动
小红书hi lab团队首次开源文本大模型 :dots.llm1
小红书hi lab(人文智能实验室)首次开源文本大模型dots.llm1。模型是中等规模的Mixture of Experts(MoE)语言模型,总参数量1420亿,激活参数140亿。在训练11.2万亿token高质量数据后,性能可与Qwen2.5-72B媲美。来源:小红书技术REDtech
面壁智能推出端侧大模型 MiniCPM 4.0
面壁智能推出端侧大模型 MiniCPM 4.0,包含 8B 闪电稀疏版和 0.5B 版。8B 版采用「高效双频换挡」机制,可自动切换注意力模式,兼顾长、短文本场景。模型通过自研 CPM.cu 推理框架,在极限场景下最高提速 220 倍,常规提速 5 倍,实现 90% 模型瘦身。来源:AI工具集
Meta 正谈判投资 Scale AI,预计价值超 100 亿美元
Meta 正与 AI 初创公司 Scale AI 进行投资谈判,融资价值有望超 100 亿美元。Scale AI 由亚历山大・王于 2016 年创立,主要提供数据标签服务,客户包括微软、OpenAI 等。若交易达成,将是 Meta 最大外部 AI 投资。来源:IT之家
智平方×东风柳汽:国产具身大模型首获汽车制造全场景验证,启动数据飞轮
智平方与东风柳汽在深圳签署协议,共同探索具身大模型在汽车制造全场景的深度应用。智平方的AlphaBot 2(爱宝)机器人搭载GOVLA大模型,将在东风柳汽工厂的上下料、拖拽料车、贴标签等场景执行智能化作业。来源:智平方科技
智源发布“悟界”系列大模型,解码物理世界交互新范式
第七届北京智源大会在中关村开幕。智源研究院发布“悟界”系列大模型,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0,全原子微观生命模型OpenComplex2,推动人工智能与物理世界的深度融合,探索生命机理本质规律。来源:智源研究院
图像编辑模型SeedEdit 3.0发布!更强保持力,更高可用率
字节跳动Seed团队发布图像编辑模型SeedEdit 3.0。模型基于文生图模型Seedream 3.0,采用多样化数据融合方法与特定奖励模型,显著提升图像主体、背景和细节保持能力,在人像编辑、背景更改等场景表现出色。SeedEdit 3.0可处理4K图像,精准识别并移除无关人物及其影子,能将2D绘画转为真实模特,保持细节。来源:字节跳动Seed
阿里开源 Qwen3 新模型 Embedding 及 Reranker
Qwen家族推出新成员Qwen3 Embedding和Qwen3 Reranker。Qwen3 Embedding是基于Qwen3基础模型训练的文本嵌入模型系列,可将文字等符号转化为数字向量,挖掘语义关系,为搜索、推荐等任务提供支持。Qwen3 Reranker用于提升搜索和推荐系统相关性排序能力,可精细化打分和排序。来源:通义大模型
即梦图片3.0重磅更新,上线智能参考功能
即梦图片3.0模型更新智能参考功能,在原图一致性保持方面表现出色,精细到头发丝级。用户可通过简单提示语实现添加文字、修改文字、复杂设计等多种操作,生成高质量图片。目前功能灰度测试中。来源:AI工具集
谷歌更新 Gemini 2.5 Pro 预览版模型至 06-05 版本,多项 AI 性能提升
谷歌更新了Gemini 2.5 Pro预览版模型至06-05版本,多项AI性能基准测试评分提升。LMArena Elo评分上升24分,WebDevArena Elo评分上升35分至1443分,取得业界领先地位。谷歌对模型进行了风格与结构优化,使其更具创意、回答格式更清晰,提升了交互体验。来源:IT之家
AI视频神器PixVerse国内版“拍我AI”正式上线
PixVerse国内版“拍我AI”正式上线,网页端和移动端同步推出,支持V4.5版本。用户可通过访问拍我AI官网和各大应用商店下载体验。产品提供AI特效、首尾帧等创新功能,助力用户创作独特视频。来源:爱诗科技AIsphere
OpenAI 发布了两项 ChatGPT 新功能:「连接器」与「记录模式」
OpenAI为ChatGPT推出两项新功能:“连接器”与“记录模式”。连接器可接入GitHub、Google Drive等平台,实现数据查询与整理,助力企业知识管理。记录模式则能自动录音、记笔记、生成会议纪要,提升会议效率。新功能让ChatGPT融入企业日常,成为打工人“第二大脑”。来源:APPSO
秘塔“今天学点啥”平台上线导出PPT功能
“今天学点啥”平台上线一键导出PPT功能。用户在视频讲解页面点击“导出PPT”按钮,可下载包含图文、语音讲解及逐字稿的完整PPT。功能因算力消耗大,仅前三天(6月5日—6月7日)限时免费。来源:AI秘塔
Cursor 1.0 发布:BugBot 代码审查、Memories 记忆、一键 MCP 安装等
Cursor 1.0 正式发布,新增 BugBot 自动代码审查工具,可自动审查 PRs 精准识别潜在问题,发现问题后能在 GitHub 的 PR 上评论提供修复提示;推出测试版 Memories 功能,可按项目存储对话中的关键信息;支持一键安装 MCP 服务器并简化验证流程;聊天界面新增可视化支持,优化了设置和仪表盘界面;简化定价模式。来源:IT之家
AMD 收购 AI 软件优化初创公司 Brium
AMD 宣布收购 Brium,Brium 专注于开发可适配多种硬件架构的机器学习推理技术,能让原本为英伟达等特定硬件设计的 AI 模型在其他品牌平台上有效运行。AMD 表示此举在推动“高性能、开放的 AI 软件生态建设”,支持开发者创新。来源:IT之家
Kimi推出全新AI学术研究助手:学术搜索
Kimi推出全新AI学术研究助手“学术搜索”,通过深度推理搜索、遵循用户指令、实时互动等,帮助用户在学术研究和论文写作中提高效率和质量。用户可在官网注册登录后使用,适用于学术研究支持、技术问题解决等多种场景。来源:AI工具集
快手开源”Auto Think”大模型,根据问题自动调节思考深度
快手 Kwaipilot 团队开源 KwaiCoder-AutoThink-preview 自动思考大模型。模型针对深度思考大模型“过度思考”问题,提出自动思考模型训练范式,融合“思考”和“非思考”能力,可根据问题难度自动切换思考形态。来源:快手技术
图灵奖得主Bengio再创业:启动资金就筹集了3000万美元
图灵奖得主、深度学习三巨头之一Yoshua Bengio再次创业,成立非营利组织LawZero,已筹集3000万美元启动资金。LawZero构建“设计即安全”的AI系统,不做Agent,而是监督Agent,以理解学习世界为核心目标,提供可验证的真实答案。来源:量子位
Manus 推出“文生视频”功能,挑战 OpenAI Sora 等竞争对手
AI 初创公司 Manus 推出原生“文生视频”功能,目前仅对付费会员开放。功能可将文本命令快速转换为有序视频故事。Manus 提供 Basic、Plus、Pro 三种会员服务,Pro 会员每月收费 199 美元。来源:IT之家
阶跃星辰To C产品“冒泡鸭”将停运,重心转向终端Agent
大模型“六小虎”之一的阶跃星辰调整其C端AI应用布局,角色扮演类Agent产品“冒泡鸭”将停止大范围投入,团队合并至对话产品“阶跃AI”。2025年以来,阶跃星辰将战略重心从C端转移到模型研发和ToB/G上,加大开源力度,组织不同技术路线的团队,将ToB的Agent产品作为重点布局方向。来源:智能涌现
开源 AI 设计 Agent —— Jaaz,Lovart 的免费平替项目
开源 AI 设计 Agent —— Jaaz,Lovart 的免费平替项目。具备强大的 AI 设计能力,可智能生成设计提示,批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型,实现免费的图像生成。来源:AI工具集
OpenAI 向 ChatGPT 免费用户开放记忆功能
OpenAI宣布将ChatGPT的记忆功能向免费用户逐步开放。此前,该功能仅限于ChatGPT Plus和Pro等付费用户使用。免费用户可体验轻量版记忆功能,支持短期对话连续性,付费用户可引用更久远的对话记录。来源:IT之家
中国首个房地产垂直领域AI Agent:CRIC深度智联
克而瑞推出中国首个房地产垂直领域AI Agent “CRIC深度智联”。基于克而瑞20年行业经验与海量数据,结合多模态大模型技术,为房地产行业提供智能化解决方案。CRIC深度智联助力房地产从业者提升工作效率与决策质量,被誉为地产人的“第二大脑”。来源:AI工具集
微软Bing推出AI视频生成工具:Bing Video Creator,免费使用Sora模型
微软 Bing 团队推出 Bing Video Creator免费的 AI 视频生成工具,由 OpenAI 的 Sora 模型提供支持。用户只需在 Bing 移动应用中输入详细的文字描述,可生成5秒长的竖屏视频(9:16格式)。提供快速和标准两种生成速度,初始有10次免费快速生成机会,之后可使用积分兑换或转为标准速度。来源:AI工具集
我国水利标准AI大模型正式发布
水利部国科司组织中国水科院自主研发的“水利标准AI大模型”正式发布并应用。模型基于“SkyLIM”体系,采用“海量知识库+DeepSeek/Qwen双模型+标准服务”架构,集成1800余项水利水电标准、500余项法律法规等多源语料,具备水利标准查重比对、查询、编制、审查、评估等多维功能。来源:中国水利
银河通用发布全球首个产品级端到端具身 FSD 大模型:TrackVLA
银河通用发布全球首个产品级端到端具身FSD大模型TrackVLA。模型具备纯视觉环境感知、语言指令驱动、自主推理及零样本泛化能力,无需提前建图和遥操控制,可实现“听→看→懂→走”的闭环运动。有八大核心能力,包括自然语言理解与目标识别、复杂场景下准确跟随、目标丢失找回、陌生环境自主导航等。来源:IT之家
谷歌 DeepMind 推出手语翻译模型:SignGemma,打破手语沟通壁垒
谷歌 DeepMind 推出 SignGemma,是强大的手语翻译模型,可将手语转化为口语文本,主要针对美国手语(ASL)和英语深度优化,为开源模型,将于今年晚些时候加入 Gemma 模型家族。DeepMind 希望借此打破手语使用者的沟通障碍,助力他们在工作、学习和社交中更顺畅地参与。来源:AI工具集
小米多模态大模型 MiMo-VL 开源,多方面领先 Qwen2.5-VL-7B
小米多模态大模型 MiMo-VL 正式开源。在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,在 GUI Grounding 任务上比肩专用模型。来源:AI工具集
通义灵码AI IDE正式上线,在通义灵码官网免费下载开箱即用
阿里云宣布通义灵码AI IDE正式上线,支持最强开源模型Qwen3,自带编程智能体模式,全面支持长期记忆、行间建议预测和行间会话等能力。通义灵码深度集成魔搭MCP广场,涵盖3000+MCP服务,拓宽AI编码助手能力边界。来源:阿里云
字节跳动旗下剪映推出视频内容创作 Agent「小云雀」
字节跳动旗下剪映团队推出AI视频Agent「小云雀」,主打“灵感即所得,创作零门槛”,已接入豆包和DeepSeek,目前仅安卓可下载,iOS预计6月发布。工具让用户先选择场景,避免生成内容“跑题”,提升交互效率和结果相关性。来源:Z Finance
阿里巴巴开源自主搜索 AI 智能体 WebAgent
阿里巴巴在Github上开源自主搜索AI智能体WebAgent,具备端到端自主信息检索与多步推理能力,能像人类一样主动感知、决策和行动。WebAgent分为WebDancer和WebWalker,前者是智能体训练框架,后者是LLM基准测试。来源:IT之家
前追觅高管创立具身智能公司,半年累计融资近2亿
Lumos Robotics鹿明机器人完成天使++轮融资,投资方包括复星锐正、德马科技和吴中金控。是半年内的第三轮融资,累计融资近2亿。鹿明机器人由资深机器人专家喻超创立,拥有全栈研发能力。产品包括机器人关节模组、视触觉模组及LUS、MOS系列人形机器人。本轮资金将用于完善产品和深化产业协同,加速商业化落地。来源:Lumos Robotics鹿明机器人
DeepSeek-R1开源新版本DeepSeek-R1-0528,AI编程能力跃升
DeepSeek发布新版本DeepSeek-R1-0528。在LiveCodeBench上表现接近OpenAI o3-high,实测显示其编程能力显著提升,能解决复杂数学问题,生成高质量代码和交互式网页。新版本具备深入推理能力,改进写作任务,推理风格快速且深思熟虑,单任务最长思考时间可达30至60分钟。来源:量子位
快手可灵 AI 上线 2.1 系列模型:更快更便宜
快手发布可灵2.1系列模型。模型在高品质模式(1080p)下生成5秒视频不到1分钟,成本降低65%。动态细节、响应和幅度提升,人物动作更贴近现实,能更好理解用户意图。可灵2.1有标准(720p)和高品质(1080p)两种模式,主打高性价比和高效生成,大师版提供更卓越表现。来源:IT之家
中国石油发布 3000 亿参数昆仑大模型
中国石油推出3000亿参数昆仑大模型,涵盖语言、视觉和多模态领域,参数规模大幅提升。模型在油气勘探、炼油化工、销售、装备制造等多领域实现智能化应用,如油气勘探效率提升10倍、炼化工艺优化、AI智能体嵌入加油站管理系统等。来源:中国石油报
Opera推出首款“AI Agent”浏览器Opera Neon
Opera浏览器推出首款“AI Agent”浏览器Opera Neon。由Neon Chat、Do和Make三大功能组成,能理解用户意图并转化为行动,如生成报告、编写代码等。Neon Chat可搜索网页、提供上下文信息;Neon Do可与网站交互,执行填写表格、预订行程等任务;Neon Make利基于云技术执行复杂任务,离线编写代码。来源:AI工具集
谷歌CEO重磅访谈:通用AI不是工具,是“下一代平台本身”
谷歌CEO桑达尔·皮查伊在访谈中表示,通用AI不仅是工具,更是“下一代平台本身”,将引发互联网生态的重新洗牌。他认为AI正处于平台转型的第二阶段,从能力展示走向产品落地与平台重构。皮查伊指出,AI应用正从聊天界面向多模态转型,“Agent优先”时代已来临,通用AI正在成为新的操作系统。来源:Z Finance
腾讯混元开源语音数字人模型HunyuanVideo-Avatar
腾讯混元开源语音数字人模型HunyuanVideo-Avatar,模型由腾讯混元视频大模型及腾讯音乐天琴实验室MuseV技术联合研发。用户只需上传一张图片和一段音频,模型能生成人物自然说话或唱歌的视频,支持多种场景和风格。来源:腾讯混元
小红书与复旦哲学达成“AI+人文”合作
小红书hi lab与复旦大学哲学学院共同成立“AI人文人才训练营”,培养“AI+人文”复合型人才。合作聚焦于AI后训练阶段的人文课题,将人文关怀注入AI训练中,使AI更具人性化表达和价值对齐能力。小红书hi lab由内部大模型技术与应用产品团队升级而成,专注于人文智能研究。来源:小红书
AI初创公司SpAItial获1300万美金种子资金
欧洲顶尖AI 3D模型研究者马蒂亚斯·尼斯纳创立的初创公司SpAItial获得1300万美元种子轮融资,领投方为Earlybird Venture Capital。尼斯纳曾是Synthesia的联合创始人,团队成员来自Meta和谷歌等公司。SpAItial专注于文本生成3D在线环境的基础模型,目标是创造可交互的3D世界。来源:Z Potentials
AI编程IDE Trae.ai 海外版正式上线Pro订阅模式
字节跳动的AI编程IDE Trae海外版正式上线Pro订阅模式,结束了完全免费和无限调用的时代。Pro订阅首月3美元,次月起10美元/月或90美元/年,提供600次快速请求额度。Pro用户仍需排队,但速度更快。Trae支持9款高级模型,包括Claude Sonnet 4和GPT-4.1等。来源:AI工具集
字节再出AI新产品「剪小映」简化版视频剪辑应用
字节跳动旗下剪映团队近期推出AI简化版应用「剪小映」,应用主打一键式操作,用户上传图片和视频后,应用自动剪辑并提供滤镜模板和音乐选择,快速生成抖音风格视频,简化流程使无专业剪辑经验者也能轻松制作高质量短视频。来源:AI工具集
具身智能公司优理奇机器人完成数亿元天使轮及天使+轮融资
优理奇机器人(UniX AI)近期完成数亿元天使轮及天使+轮融资,投资方包括中关村前沿基金、赛纳资本及长安私人资本。本轮融资将用于加速研发多模态具身智能大模型与通用机器人本体的同步演进,并推动其在泛商业服务和C端场景的落地。来源:Z Potentials
阿里巴巴集团与SAP达成战略合作,探索接入通义千问大模型
阿里巴巴集团与SAP宣布达成战略合作。合作将SAP领先的企业级软件与阿里云的基础设施及AI能力相结合,加速企业客户的创新和数字化转型。阿里云将作为SAP超大规模云服务提供商,支持企业在阿里云上部署SAP ERP云及私有云版本,加入SAP IaaS认证计划。SAP将探索接入通义千问大模型,使企业客户能在SAP应用中使用本地化生成式AI功能。来源:阿里云
秘塔AI搜索推出全新“极速”模型,最高400 tokens/秒响应速度
秘塔AI搜索发布全新“极速”模型,通过GPU kernel fusion和CPU动态编译优化,单张H800 GPU响应速度达400 tokens/秒,大部分问题2秒内完成回答。新模型不仅速度快,准确率和逻辑清晰度也更高。来源:AI秘塔
百度多智能体协作应用心响APP上线iOS版
百度多智能体协作应用心响上线iOS版,苹果安卓用户均可免费使用,无需邀请码且不限量。心响APP支持旅游攻略、深度研究、法律咨询、试题讲解等10大场景、200+任务类型。来源:AI工具集
有道云笔记「文转图表」功能全新上线:AI重塑内容可视化新体验
有道云笔记推出「文转图表」功能,将文字快速转化为可视化图表。功能可智能解析文本数据结构和逻辑关系,自动生成匹配图表类型,支持海量图表样式选择和灵活编辑,满足不同场景需求。来源:有道云笔记
微分智飞连续完成两轮融资,加速空中机器人具身智能研发
微分智飞(杭州)科技有限公司在一个月内完成数千万元天使轮及天使+轮融资。融资将用于加速飞行具身智能领域创新、集群空中机器人智能进化及人才团队构建。公司由浙江大学高飞教授创立,打造通用空中机器人具身智能大脑及其集群系统,推动工业、城市与自然空间的智能化升级。来源:微分智飞科技有限公司
王兴披露美团AI业务进展,6月将推业务决策助手
美团创始人王兴在第一季度财报电话会上透露,美团计划6月推出业务决策助手,助力商家数字化转型。美团基础大模型能力已接近GPT-4o水平,上季度内部52%的代码由AI生成。美团上线的AI编程工具NoCode,定位Vibe Coding,面向非技术人群,通过对话式交互完成编码任务。来源:IT之家
飞猪AI“问一问”功能升级,新增“会员助手”
飞猪AI“问一问”更新,提升“智慧交通顾问”“酒店顾问”查询精度,可推荐如国产飞机C919机票。新增“会员助手”,查询会员等级及权益。优化搜索引擎输入提示、旅行方案一键生成长图等功能,手绘行程地图实用性增强,接入真实地图数据,生成有方位、直观距离的手绘地图。来源:AI工具集
阿联酋全民免费用 ChatGPT Plus 订阅,免除 20 美元月费
阿拉伯联合酋长国将成为全球首个为全体公民和居民免费提供ChatGPT Plus服务的国家。作为“星际之门阿联酋”项目福利,阿联酋所有公民和居民可免费获得原本月费20美元的ChatGPT Plus服务。来源:IT之家
昆仑万维天工超级智能体APP今日正式上线!全球首款Office智能体APP
昆仑万维宣布天工超级智能体APP正式上线。是全球首款基于AI Agent架构的Office智能体手机APP,标志着AI Office智能体时代从桌面端全面迈向移动端。APP以“8分钟完成8小时工作”为核心理念,包含文档、PPT、表格智能体及通用智能体,支持多模态创作与跨端协同,用户可随时随地发起任务并在PC上深入编辑。来源:昆仑万维集团
红杉中国推出全新AI基准测试工具xbench,动态更新测试内容
红杉中国推出全新AI基准测试工具xbench,发布相关论文。xbench采用双轨评估体系,分为AGI追踪与专业对齐两大方向,同时评估AI的理论能力上限与实际落地价值。首期发布科学问题解答测评集和中文互联网深度搜索测评集。来源:AI工具集
首款家庭桌面AI机器人全国首发!
中国电信陕西公司、数字生活公司与优必选科技联合研发的首款“家庭桌面AI机器人”正式全国首发。机器人依托大模型技术,具备情感计算、环境感知等能力,可实现拟人化陪伴、舞蹈娱乐、故事互动、英语口语练习、视频通话、绘本伴读、家居控制等多元化服务,为用户打造“主动式”“成长式”智慧生活体验。来源:优必选科技
OpenAI 升级 Operator 智能体,AI 模型从 4o 到 o3
OpenAI 升级 Operator 智能体,AI 模型从 4o 升级到 o3。升级后,推理能力大幅提升,在与浏览器交互时更稳定、准确,任务成功率显著提高,回复也更清晰、详尽且结构化。来源:AI工具集
豆包可以打视频电话了,支持视频聊天问答
豆包在App端上线实时视频通话功能。用户可在“打电话”界面点击视频按钮开启,支持基于真实场景的实时问答互动。背后依托豆包最新的视觉理解模型,可融合视觉与语言输入进行深度思考和创作。来源:豆包
QQ浏览器推出首个高考 Agent“AI 高考通”,量身定制志愿填报方案
QQ浏览器推出行业内首个高考Agent——“AI高考通”,为高考生提供全流程AI助力。考生可通过它快速获取全面权威的高考信息,如院校资料、专业信息等,能一键得到量身定制的志愿填报方案。高考期间,AI全程陪伴,提供“AI解题答疑”“AI作文辅导”等功能,助力考生考前提分、考中查询日程、考后个性化推荐志愿。来源:QQ浏览器
Anthropic发布新一代AI模型Claude 4,自动编码7小时刷新记录
Anthropic公司推出了新一代Claude 4模型—— Claude Opus 4 和 Claude Sonnet 4 。Claude Opus 4 是全球顶尖的编码模型,在复杂、长时间任务和代理工作流中表现出色。Claude Sonnet 4 在编码和推理方面进行了显著升级,响应指令更精准。来源:AI工具集
OpenAI 宣布“星际之门”首个国际部署项目落户阿联酋,并考虑扩张至亚太地区
OpenAI宣布“星际之门阿联酋”项目,是人工智能基础设施平台Stargate的首个国际部署。项目由OpenAI与G42、甲骨文、英伟达、软银和思科共同打造,位于阿布扎比阿联酋-美国人工智能园区。G42负责建设,OpenAI和甲骨文运营,思科提供安全连接,英伟达供应系统。来源:IT之家
京东工业发布行业首个以供应链为核心的工业大模型Joy industrial
京东工业在上海发布行业首个以供应链为核心的工业大模型——Joy industrial。模型依托京东工业在工业数智供应链领域的经验积累和数据沉淀,构建全栈产品矩阵,首批推出需求代理、运营代理、关务代理、商品专家、集成专家等AI产品,助力产业降本增效。来源:京东黑板报
OpenAI最大收购,65亿美元拿下苹果前高管Jony Ive公司io
OpenAI宣布以约65亿美元收购由CEO Sam Altman与前苹果首席设计官Jony Ive联合创办的AI设备初创公司io。是OpenAI史上最大一笔交易,预计夏季完成,需监管部门批准。收购后,OpenAI将获得约55名顶尖硬件工程师、软件开发者和制造专家,包括多位曾参与iPhone设计的前苹果设计师。来源:APPSO
Mistral 发布编程专用开源 AI 模型 Devstral
Mistral AI与All Hands AI合作推出240亿参数的开源AI模型Devstral,专为高级软件工程任务设计,处于“研究预览”阶段,以Apache 2.0许可发布,可商用。Devstral在SWE-Bench Verified基准测试中得分46.8%,超越部分闭源模型。能在单张RTX 4090显卡或32GB RAM的Mac上运行,降低硬件门槛。来源:AI工具集
OpenAI 扩展 Responses API:支持 MCP、图像生成等
OpenAI宣布扩展Responses API,新增对远程连接MCP服务器、图像生成(gpt-image-1模型)、Code Interpreter及文件搜索优化等功能的支持,全面适配GPT-4o系列、GPT-4.1系列及OpenAI o系列推理模型。开发者可通过几行代码让模型连接Cloudflare等MCP工具,访问用户数据源。来源:IT之家
昆仑万维面向全球发布天工超级智能体:基于deep research的“AI版office”
昆仑万维面向全球发布天工超级智能体(Skywork Super Agents),采用AI agent架构和deep research技术,能生成文档、PPT、表格、网页、播客和音视频等多模态内容。其deep research能力在GAIA榜单上排名全球第一,超过OpenAI Deep Research和Manus。来源:昆仑万维集团
特斯拉展示 Optimus 人形机器人做家务能力:扔垃圾、扫地、炒菜
埃隆·马斯克重申Optimus将成为特斯拉重要产品。Optimus社交媒体账号发布视频,展示机器人扔垃圾、扫地、炒菜等家务能力,成功搬运Model X零件。来源:IT之家
Google I/O 2025 开发者大会,从研究到现实,AI技术全面升级
Google I/O 2025 大会宣布多项进展。Gemini 2.5 Pro模型在LMArena排行榜首位,性能卓越。推出Google Beam视频通信平台,提供沉浸式3D体验。Gemini Live整合Project Astra功能,Agent Mode助力任务执行。个性化智能回复将推出,AI Mode重塑搜索体验。Gemini应用功能增强,Veo 3和Imagen 4模型助力创意。来源:谷歌黑板报
面壁智能获新一轮数亿元融资,引领端侧大模型高效发展与应用普及
面壁智能完成新一轮数亿元融资,由洪泰基金、国中资本、清控金信和茅台基金联合投资。面壁智能专注于打造高效大模型,端侧全模态模型面壁小钢炮MiniCPM-o 2.6多项能力达国际领先水平,系列模型全平台下载量累计破1000万。面壁智能发布了业界首个智能座舱纯端侧汽车助手cpmGO,与多家车企合作实现量产车型定点。来源:面壁智能
全球首款!北大上线新AI科研平台——Science Navigator
北京大学正式上线全球首个覆盖“读文献-做计算-做实验-多学科协同”的AI科研平台——Science Navigator。具备全维度科研知识库、个性化问题推荐、多模态搜索、批量文献问答等功能,帮助科研人员高效探索学术前沿,摆脱繁琐信息搜索,将更多精力投入科研突破。来源:北京大学
美图公司与阿里巴巴达成战略合作并获得2.5亿美元投资
美图公司宣布与阿里巴巴达成战略合作并获得2.5亿美元可转债投资。协议为期3年,年利率1%,阿里巴巴可按每股6.00港元的价格将可转债转换为美图股票。双方将在电商平台、AI技术、云计算等领域展开合作,阿里巴巴将优先推广美图AI电商工具,协助美图开发电商生图及生视频工具,提升商家营销和运营效率。来源:美图公司
火山引擎正式推出豆包·语音播客模型,低成本、高时效、强互动
火山引擎推出豆包·语音播客模型。模型基于流式模型构建,可将文本秒级转化为双人对话式播客,具有低成本、高时效、强互动特点。解决了传统AI播客内容重复、不够口语化等问题,对话自然流畅,创作高效快捷,能紧跟时事热点。用户输入主题或文档等,能生成深度播客观点和作品。来源:火山引擎
混元游戏来了,首个工业级AIGC游戏内容生产引擎正式发布
腾讯混元游戏视觉生成平台正式发布。是首个工业级AIGC游戏内容生产引擎,依托混元大模型打造,可大幅提升游戏资产生成与制作效率。平台面向游戏美术设计师提供AI美术管线、实时画布、AI 2D美术生成、专业角色多视图生成等核心功能,助力设计师快速生成高质量游戏素材与概念草案,将游戏美术设计效率提升数十倍。来源:腾讯混元
谷歌推出 NotebookLM 移动应用,可生成智能总结、音频播客
谷歌推出Google NotebookLM APP移动应用。应用基于人工智能,核心功能包括智能总结,可快速提炼文档关键信息;“音频概览”功能可生成播客内容,支持离线收听。用户可创建和管理笔记本,将浏览内容添加为资料来源。来源:AI工具集
谷歌 AI 编程助手 Jules 全球公测,挑战 GitHub Copilot 和 OpenAI 的 Codex
Google Labs 推出实验性 AI 编程助手 Jules,能根据任务描述自动生成代码,将复杂任务分解为多个步骤,逐步推进解决方案。可以理解并导航代码库,自动运行单元测试以确保代码更新的正确性,根据开发者反馈自适应调整方案。来源:AI工具集
美团开放AI编程能力,推出零代码AI应用开发平台NoCode
美团推出零代码AI应用开发平台NoCode,无需编程经验,通过自然语言描述即可快速生成网站页面、实用工具、小游戏等应用。平台具备自然语言编程、实时预览、局部修改及一键部署分享等功能,支持版本管理,可实时渲染页面。来源:AI工具集
微软 GitHub 推出 AI 编程智能体,可自动修复漏洞和优化代码
在微软Build大会上,GitHub推出AI编程智能体,集成于GitHub Copilot中,可自动修复漏洞、添加功能和优化代码。智能体通过启动虚拟机克隆代码仓库并分析整个代码库来完成任务,实时保存更改并在会话日志中记录决策过程。任务完成后,会提醒开发者审核,开发者可留下评论,AI会自动处理反馈。来源:IT之家
微软研究院推出 Magentic-UI,以人为中心的AI智能体开源研究原型
微软研究院发布Magentic-UI开源研究原型,是以人为中心的AI智能体,通过网页浏览器实时协助用户完成复杂网络任务。基于Magentic-One多智能体系统,由AutoGen框架驱动,具备协同规划、协同任务、行为防护和计划学习四大核心功能。来源:AI工具集
Flowith推出Agent Neo,能持续不断地工作
Flowith推出Agent Neo,具备无限步骤、无限上下文、无限工具的核心能力,可执行复杂任务、处理海量信息并调用多种大模型与工具。结合知识库功能,能快速构建数字分身或生成高质量内容。来源:AI工具集
清华系具身大脑公司「千诀科技」累计融资数亿规模,已在行业头部厂商落地
清华系具身智能技术公司「千诀科技」完成新一轮Pre-A+轮融资,累计融资数亿元,投资方包括钧山投资、祥峰投资和石溪资本等。本轮融资将用于核心技术演进、产品标准化及产业化交付能力提升。公司由清华大学自动化系及相关人工智能研究机构的核心成员创立,是国内唯一可对标美国Physical Intelligence公司的企业。来源:36氪
腾讯QQ浏览器正式推出 QBot AI浏览器,全新升级
腾讯正式推出AI浏览器QBot。浏览器融合了先进的人工智能技术,为用户提供更智能、便捷的上网体验。具备智能搜索、内容推荐、语言翻译等多种功能,能根据用户的浏览习惯和偏好提供个性化的服务。腾讯AI浏览器注重隐私保护和数据安全,为用户打造安全可靠的网络环境。来源:腾讯
B站团队开源动漫视频生成模型 AniSora,一键创建不同风格片段
B站团队开源动漫视频生成模型AniSora。模型可一键创建多种动漫风格视频片段,涵盖系列剧集、中国原创动画、漫画改编等。AniSora拥有超1000万高质量数据,引入时空掩码模块,支持图生视频、帧插值等关键功能。评测数据集包含948段多样化动画视频,人物与运动一致性均达SOTA。来源:AI工具集
OpenAI最强编程智能体Codex上线ChatGPT
OpenAI在ChatGPT中引入了Codex研究预览版。Codex是云端软件工程智能体,能并行处理多项任务,如编写功能、解答代码库问题、修复bug等,每个任务在专属云沙盒环境中运行。背后的模型codex-1是OpenAI o3的优化版本,可生成符合人类风格的代码。来源:机器之心
魔法原子再获数亿元融资,将解锁千个落地场景
具身智能机器人公司魔法原子完成新一轮数亿元战略融资,投资方包括禾创致远、芯联资本等产业资本及华映资本等财务投资人。新资金将用于核心技术研发、VLA模型搭建及加速机器人在工业、商业场景落地。魔法原子旗下人形机器人“小麦”已进驻工厂产线实训,在商场门店、会展服务、新闻传媒等场景展开实践。来源:智东西
大模型“国家队”中科紫东太初宣布完成首轮数亿元融资
中科紫东太初(北京)科技有限公司完成首轮数亿元融资,由中科创星领投,粤民投等多家机构跟投。公司由中国科学院自动化研究所孵化,董事长王金桥和首席科学家徐波均为业内权威。中科紫东太初打造了紫东太初多模态大模型,1.0为全球首个千亿参数多模态大模型,3.0能力全面对标GPT-4o。来源:智东西
腾讯混元图像2.0发布,体验“毫秒级”AI图像生成
腾讯正式发布混元图像2.0模型。模型具有实时生图、超写实画质两大特点,参数量大幅提升,借助超高压缩倍率的图像编解码器和全新扩散架构,生图速度达毫秒级,远超行业领先模型,改变了传统交互方式。图像生成质量高,避免了AIGC图像的“AI味”,真实感强、细节丰富。来源:腾讯混元
MiniMax悄悄推出manus产品,通用 AI 智能体平台MiniMax Agent
MiniMax推出通用 AI 智能体平台MiniMax Agent,能高效便捷地处理多种任务,如生成音频、市场研究、文档验证、旅行规划、社交媒体分析、专利识别、投资策略分析以及创意内容创作等。用户仅需输入任务描述,平台会根据任务类型提供相应解决方案。来源:AI工具集
问小白学术搜索来了,可检索海量权威文献
问小白推出“学术搜索”功能,基于谷歌学术数据库,可检索海量权威文献。功能搭载DeepSeek R1/V3、Qwen3等模型,具备智能检索能力,能将用户问题转化为中英检索词,提高检索质量。来源:问小白
Manus推出图像生成Agent功能,可调用多种工具协同工作
Manus推出图像生成Agent功能。用户上传家中照片后,Manus可理解家居风格并自动在宜家网站找到匹配家具进行搭配。上传产品照片,Manus能依据市场趋势设计新茶饮品牌,创建上市计划,制作吸引人的在线销售列表和网站。可调用多种工具协同工作。来源:AI工具集
Windsurf推出专为软件工程设计的AI模型系列:SWE-1
Windsurf发布专为软件工程设计的AI模型系列:SWE-1、SWE-1-lite和SWE-1-mini。突破现有大模型在软件工程实际需求上的局限,强调对开发流程中多种状态和上下文的感知能力(flow awareness)。SWE-1是其中最大、能力最强的模型,在“对话式SWE任务基准”和“端到端SWE任务基准”两项核心指标上接近行业前沿模型。来源:AI工具集
OpenAI 升级 ChatGPT AI 聊天机器人,GPT-4.1 编程专家模型登场
OpenAI在ChatGPT中引入GPT-4.1模型,Pro、Plus和Team用户可通过“More models”菜单立即使用,Enterprise和Edu用户将在未来几周内获得权限。GPT-4.1擅长编程任务,能精确遵循指令,避免冗长输出,相比GPT-4o效率更高、输出更稳定,整体性能更优。来源:IT之家
MiniMax发布TTS系统 MiniMax Speech 02,AI语音的Her Moment
稀宇科技旗下MiniMax团队发布基于AR Transformer模型的高质量TTS系统——MiniMax Speech 02。系统具有强大的泛化能力,可驾驭32语种、不同口音、情绪的人声,核心创新在于内在的Zero-Shot能力,通过“会学习的音色提取器”与AR Transformer协同,实现任意语言、口音、音色的无限组合。来源:MiniMax 稀宇科技
谷歌发布AlphaEvolve:能发明新算法、改进芯片设计、解疑难数学题
DeepMind宣布推出AlphaEvolve,是基于Gemini驱动的进化编码智能体,用于发现和优化通用算法。AlphaEvolve结合了大型语言模型的创造性与自动化评估器的验证能力,通过进化框架改进最有潜力的想法。已优化了谷歌数据中心、芯片设计和AI训练流程,包括训练自身底层的大型语言模型。来源:AI工具集
通义万相VACE开源!一款模型搞定多种视频编辑任务
通义万相VACE开源。VACE支持480P和720P分辨率,可一站式完成文生视频、图像参考生成、局部编辑与视频扩展等任务,无需频繁切换工具。核心技术是多模态输入机制,集文本、图像、视频、Mask和控制信号于一体,支持多种单任务能力自由组合。来源:通义大模型
多模态上新,阶跃星辰开源 3D 大模型 Step1X-3D
阶跃星辰正式发布并开源3D大模型Step1X-3D,总参数量达4.8B,由几何模块1.3B和纹理模块3.5B组成。模型基于超500万原始数据筛选出200万高质量样本训练,采用3D原生两阶段架构,解耦几何与纹理表征,生成高保真、可控的3D内容。来源:阶跃星辰
Notion推出AI会议笔记AI Meeting Notes,转录+搜索+研究模式
Notion推出AI会议笔记工具AI Meeting Notes,正式进入会议转录领域。功能可转录会议内容并提供讨论要点摘要,用户还能在转录时做笔记。Notion发布了企业搜索功能和研究模式,支持跨平台搜索及借助AI模型研究主题。来源:AI工具集
具身智能「星际光年」获数千万天使+轮融资,加速公司场景落地
具身智能公司「星际光年」宣布完成数千万天使轮和天使+轮融资,由峰瑞资本、嘉程资本,云时资本、水木清华校友种子基金领投和跟投。本轮融资将用于加速产品研发升级、扩大团队规模和加速场景落地。来源:Z Potentials
美国商务部废除拜登签署的《AI扩散规则》,并要求全球不准使用华为AI芯片
美国商务部废除拜登签署的《AI扩散规则》,并加强对全球芯片出口管制。规则原定于2025年5月15日生效,但被认为会扼杀美国创新并损害外交关系。与此同时,美国商务部发布新规,禁止全球使用华为昇腾AI芯片,并警告使用美国AI芯片训练和干扰中国人工智能模型的潜在后果。来源:钛媒体AGI
通义千问上新Deep Research!让Qwen帮你「深入研究」一下吧
Qwen团队推出智能助理系统Deep Research(深入研究),已在QwenChat免费开放体验。系统可规划复杂研究任务,结合互联网海量信息,多步骤搜索分析总结,十几分钟生成详尽报告,附清晰引用来源。基于Qwen模型,融合多种能力,实现研究闭环。来源:通义千问Qwen
Manus 宣布全面开放注册,用户每天可免费执行一项任务
AI智能体平台Manus宣布全面开放注册。即日起,用户无需等待即可注册,每天可免费执行一项任务,获得300积分,新用户还有1000积分一次性奖励。Manus推出每月19美元、39美元或199美元的付费订阅计划,提供额外权限、功能及优先服务。来源:AI工具集
全球首个专业设计Agent——Lovart,一句话完成全链路设计和执行
全球首个专业设计Agent——Lovart正式发布。具备全链路设计和执行,仅需一句话即可完成从创意拆解到专业交付的整个视觉流程,单次可执行上百步,最多产出40张设计成品图;图像、视频、音乐自由调度,集成多种前沿AI模型。Lovart的出现标志着AI在设计领域从“图像生成器”向“设计执行官”的转变。来源:AI工具集
昆仑万维正式开源Matrix-Game:从图像出发构建可控交互世界
昆仑万维开源Matrix-Game大模型,是工业界首个开源的10B+空间智能大模型,专为游戏世界建模的交互式世界基础模型。由Matrix-Game-MC数据集、主模型和GameWorld Score评测体系构成,具备细粒度用户交互控制、高保真视觉与物理一致性、多场景泛化能力等优势,在Minecraft世界生成任务上全面超越现有开源基线模型。来源:昆仑万维集团
「傲意科技」完成近亿元B++轮融资,第二代灵巧手即将上市
傲意科技近期完成近亿元B++轮融资,投资方包括英飞尼迪资本等。本轮资金将用于灵巧手技术研发、新产品上市、产能建设和市场拓展。傲意科技成立于2015年,专注于机器人与脑科学,搭建了“机器人-AI算法-神经接口”平台。核心产品包括ROhand系列灵巧手、OHand™智能仿生手及手指关节外骨骼产品。来源:36氪
QwenChat上线 Web Dev,一句话生成精美网页
QwenChat正式上线网页开发功能,用户只需输入一句自然语言指令,可生成结构清晰、风格美观的网站页面代码,支持直接预览。新功能已在QwenChat(chat.qwen.ai)上线,用户点击对话框下方的WebDev/网页开发即可体验。来源:通义千问Qwen
Kimi 与小红书达成最新合作,可一键生成笔记
月之暗面旗下的Kimi智能助手与小红书达成合作,用户可通过小红书官方账号进入Kimi对话,并一键生成笔记。此次合作是Kimi拓展流量的尝试,也是小红书利用AI提升体验的探索。来源:36氪
维基百科公布新 AI 战略:利用 AI 提升志愿者时间利用效率,而非取代人工
维基媒体基金会公布新AI战略,强调利用AI辅助百科编辑工作,提升志愿者时间利用效率,而非取代人工。该战略通过AI自动化繁琐任务,如为版主和巡查员提供辅助工作流支持,提高信息可发现性,自动翻译和改编内容,以及扩大新志愿者入职培训规模。来源:IT之家
快手推出AI作图工具Poify,赋能电商领域创意与转化
快手推出电商领域的AI作图工具Poify,帮助商家和创意工作者快速生成高质量图片内容。Poify具备AI模特试衣、换背景影棚风格、局部重绘等功能,支持文生图和图生图,能生成奇幻场景。商家可上传衣服原图并设置尺寸,快速生成模特试衣图。来源:AI工具集
清言新功能!智能体社区上线、支持微信文件一键导入
智谱清言推出新功能,智能体社区上线,支持微信文件一键导入。用户可以在清言App内直接上传微信文件,享受便捷的文件管理和溯源功能。智能体社区为用户打造了一个交流平台,可以轻松发帖,与创作者直接对话,分享使用心得。来源:智谱清言
ChatGPT 深度研究新增导出为 PDF 功能,可保留报告格式
ChatGPT 推出深度研究报告导出为 PDF 功能,解决了此前报告格式无法保留的问题。用户输入提示词后,ChatGPT 可独立完成多步骤研究任务并生成报告,新功能可完美保留报告原始布局,目前处于网页端测试阶段。来源:IT之家
美团独投A轮,自变量机器人「具身智能」公司已融资超10亿
自变量机器人近日完成数亿元A轮融资,由美团领投,累计融资超10亿元。公司专注于通用具身大模型研发,致力于构建统一感知、规划与控制的系统架构。本轮融资将用于加速模型与机器人本体迭代及智慧化方案落地。来源:智能涌现
具身智能新锐「灵御智能」完成千万级种子轮融资,英诺天使基金领投
灵御智能专注于具身智能技术的初创公司,宣布完成千万级种子轮融资。本轮融资由英诺天使基金领投,水木校友种子基金和远镜创投跟投。灵御智能由清华大学自动化系团队创立,推动机器人在工业制造与家庭服务等领域的广泛应用。来源:Z Potentials
字节跳动开源8B代码模型Seed-Coder,助力高效编程
字节跳动开源的8B规模代码模型系列Seed-Coder,包含Base、Instruct和Reasoning三个版本,分别适用于代码补全、指令遵循和复杂推理任务。模型采用“模型中心”数据处理方式,通过自身生成和筛选高质量数据,减少人工预处理工作量,上下文长度达32K,性能在同等规模开源模型中领先。来源:AI工具集
无需邀请码,扣子空间开放测试
扣子空间宣布正式开放测试,无需邀请码,用户登录官网(space.coze.cn)即可使用。此次开放测试让更多人体验产品。目前,扣子空间已上线三个专家Agent:用户研究专家、华泰A股观察助手和舆情分析专家,可分别提供调研问卷深度分析、股票早报定制及舆情日报等服务。来源:扣子Coze
腾讯混元开源全新的多模态定制化视频生成工具 HunyuanCustom
腾讯开源多模态定制化视频生成工具 HunyuanCustom。工具基于混元视频生成大模型打造,融合文本、图像、音频、视频等多模态输入,具备单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等能力,生成视频与用户输入的参考主体高度一致。来源:腾讯混元
以色列创业团队 Enigma Labs 推出首个 AI 生成的多人游戏 Multiverse
以色列Enigma Labs团队宣布推出全球首款AI生成的多人游戏Multiverse。是一款多人赛车游戏,玩家可在游戏中超车、漂移、加速,每次行动会重塑游戏世界。开发者Jonathan Jacobi表示,多人游戏一直是AI生成世界中缺失的拼图,Multiverse成功补齐了这一空白。Multiverse的训练和研发成本加起来不到1500美元,可以在个人电脑上运行。来源:机器之心
Vidu Q1 系列 API 正式开放
Vidu Q1 系列 API 正式开放,全球开发者与企业用户可通过调用 API 体验 Vidu Q1 模型的图生视频、首尾帧与文生视频能力。系列模型支持更高清画质、更流畅镜头、更稳定风格,同时上线文生音频模型,支持时段自定义与音效叠加。来源:Vidu AI
字节跳动开源深度研究项目 DeerFlow,助力科研全流程
字节跳动开源 Deep Research 项目 DeerFlow,助力科研全流程。DeerFlow 采用分布式系统设计,可高效处理大规模数据,其底层数据存储系统经过优化,具备强大的数据容错能力。来源:AI工具集
阿里开源创新大模型搜索引擎 ZeroSearch,成本直降 80%
阿里巴巴开源 ZeroSearch 大模型搜索引擎,是无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。基于大模型预训练知识,将其转化为检索模块,可动态控制生成内容质量。在 7 大问答数据集综合评测中,搜索能力超谷歌。来源:AI工具集
专注轻办公场景,AR+AI眼镜品牌INAIR完成数千万元融资
AR+AI眼镜品牌INAIR完成数千万元A轮融资,由威海创投领投,真知创投等老股东继续支持。INAIR成立于2022年,聚焦轻办公场景,以AR眼镜为核心入口,构建一体化便携式计算终端,自主研发的INAIR OS支持多屏协同、3D内容显示及跨终端数据流转,兼容Android应用生态,内建智能代理INAIR AI Agent,提升多任务处理效率。来源:智能涌现
ChatGPT推出的深度研究功能,可以直接连接GitHub
ChatGPT推出“深度研究”功能,可连接GitHub。用户提出与GitHub代码库相关问题时,ChatGPT能直接连接并分析代码、文档等,生成答案。功能目前处于测试阶段,全球Team用户可用,后续将向Plus、Pro用户开放。来源:量子位
Figma大更新,推出网站生成器与营销素材批量生产线
设计公司Figma推出多项新功能,包括基于AI的网站创建工具Figma Sites、创意构思和原型设计工具Figma Make、面向营销人员的Figma Buzz以及矢量编辑与插图工具Figma Draw。推动设计师和营销人员更高效地进行创意工作。来源:AI工具集
HeyGen 推出 Avatar IV 数字人模型,只需一张照片和一段脚本
HeyGen 推出 Avatar IV 数字人模型,可快速创建逼真视频。用户只需上传一张照片和一段脚本或音频,模型基于音频驱动的表情引擎,分析语音的语调、节奏和情感,生成逼真的面部动作和微表情,让视频更具真实感。来源:AI工具集
Mistral 发布 Medium 3 大模型:兼具高性价比与易部署性
Mistral AI推出Mistral Medium 3语言模型,兼具高性价比与易部署性。模型在性能上与大型模型相当,成本却低8倍,输入每百万token仅需0.4美元,输出2美元。在编码和多模态理解等专业领域表现出色,支持混合或本地部署、定制后训练及与企业系统集成。来源:Mistral AI
阶跃星辰与灿星文化战略合作,开展AI+娱乐的深度融合
灿星文化与阶跃星辰达成战略合作,共同推动人工智能与娱乐行业的深度融合。双方将整合技术与资源优势,探索AI为娱乐项目赋能,推动创意项目落地,开创多元化、互动性强的娱乐体验。来源:阶跃星辰
腾讯元宝文生图功能升级:混元和 DeepSeek 都支持生图
腾讯元宝宣布文生图功能升级,混元和DeepSeek模型均可实现生图功能。用户只需输入一句话,元宝能生成高质量、复杂且有想象力的图像。功能结合腾讯混元最新文生图模型,已全端上线。来源:腾讯元宝
阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step
阶跃星辰与ACE Studio联合开源音乐大模型ACE-Step(音跃)。模型参数量3.5B,具备快速生成、强可控性、易于拓展等特点,支持19种语言歌曲创作,涵盖多种音乐风格。采用一阶段DiT架构与REPA技术,提升音频质量与生成效率;结合DCAE和线性Transformer,加速音频生成,处理更长音频数据。来源:阶跃星辰
机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型VPP
清华大学叉院ISRLab与星动纪元联合开源的AIGC生成式机器人大模型VPP入选ICML2025 Spotlight。VPP利用预训练视频生成大模型,通过大量互联网视频数据训练,学习人类动作,减轻对高质量机器人真机数据依赖,能跨人形机器人本体切换,加速商业化落地。来源:北京星动纪元科技有限公司
Gemini 2.5 Pro升级版本:Gemini 2.5 Pro (I/O edition),成编程模型新王
Google DeepMind发布了Gemini 2.5 Pro (I/O edition)。该版本编程能力大幅提升,在LMArena编程排行榜和WebDev Arena排行榜中均名列前茅,超越了Claude 3.7 Sonnet。用户仅需提供手绘草图和功能描述,可生成功能完备的Web应用、游戏等。来源:机器之心
Amazon Nova家族最强成员——Nova Premier正式可用
亚马逊云科技宣布其Nova家族最强成员——Nova Premier正式上线。Nova Premier集成于Amazon Bedrock,支持文本、图像与视频输入,具备百万级别上下文处理能力,擅长复杂任务处理与多智能体协作。可作为教师模型,通过模型蒸馏优化Nova Pro、Lite和Micro等模型性能,提升API调用准确率20%。来源:亚马逊云科技
Kimi 长思考模型 API 正式发布,擅长解决复杂问题
月之暗面推出 kimi-thinking-preview 模型,具有多模态推理能力和通用推理能力的多模态思考模型,擅长深度推理,可帮助解决复杂问题。模型通过 HTTP 接口或 openai SDK 使用,响应中包含 reasoning_content 字段展示思考过程。来源:Kimi开放平台
Recraft 完成 3000 万美元 B 轮融资,其图像生成模型曾击败 DALL-E 和 Midjourney
图像生成初创公司 Recraft 完成 3000 万美元 B 轮融资,由 Accel 领投,Khosla Ventures 和 Madrona 等参投。Recraft 总部位于美国旧金山,在 2024 年获得 1200 万美元 A 轮融资。其图像生成模型“red_panda”在去年的基准测试中超越 DALL-E 和 Midjourney。来源:IT之家
最火AI编程独角兽 Cursor 母公司又融资!估值超650亿
AI编程工具Cursor母公司Anysphere完成9亿美元融资,估值增长两倍多至90亿美元。本轮融资由Thrive Capital领投,a16z、Accel等参投。Cursor可帮助开发者用自然语言生成代码、查错修复等,客户包括OpenAI、Midjourney等知名企业。来源:智东西
OpenAI 深夜官宣大调整!奥特曼全员信:放弃营利转型,开源强大模型
OpenAI宣布重大调整,其营利业务将转型为“公共利益公司”(PBC),由非营利组织继续掌控并成为重要股东。此举确保通用人工智能(AGI)造福全人类,同时放弃复杂的“利润上限结构”,采用常规股权结构。OpenAI将继续秉持民主化AI的理念,开源强大模型,让用户自由使用工具,推动AI在健康、教育、公共服务等领域产生积极影响。来源:APPSO
OpenAI史上最大收购敲定!同意以约30亿美元收购WindSurf
据彭博社消息,OpenAI已同意以约30亿美元收购AI编程创企WindSurf(前身为Codeium),是OpenAI迄今最大规模收购案。WindSurf成立于2021年,由麻省理工学院工程师团队创立,专注于AI编程工具开发。来源:智东西
Midjourney推出Omni-Reference全能参考功能,AI绘图实现精准控制
Midjourney推出Omni-Reference全能参考功能,AI绘图进入精准控制新时代。Omni-Reference可将指定元素加入图像,支持风格化及个性化定制等功能。用户通过网页端拖拽图片或Discord端输入参数即可使用,可调节权重系数控制参考图的严格程度。来源:AI工具集
微软发布 Phi-4 系列小语言 AI 推理模型Phi-4-reasoning
微软推出Phi-4推理模型系列,包括Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。模型参数最多仅14B,能在本地高性能笔记本上流畅运行。其中,3.8B参数的Phi-4-mini-reasoning在数学推理上超越8B的DeepSeek-R1蒸馏模型,展现了小模型的强大推理能力。来源:新智元
基于科学基础大模型的智能科研平台ScienceOne正式发布,为科研打造AI底座
中国科学院自动化研究所在第八届数字中国建设峰会上发布了基于科学基础大模型的智能科研平台ScienceOne。由自动化所联合多个中科院单位及产业化平台共同研发,推动多学科协同的智能科研新范式。ScienceOne首发了S1-Literature文献助手和S1-ToolChain科学工具调度台两个产品,分别用于文献综述生成与科研任务的工具调度。来源:中国科学院自动化研究所
通义千问Qwen推出Qwen2.5-Omni-3B模型,尺寸更小,性能依旧
Qwen2.5-Omni-3B模型正式发布。是Qwen2.5-Omni-7B的轻量级版本,3B版本在长上下文序列处理(约25k tokens)中显存消耗减少超50%,可在普通24GB消费级GPU上支持长达30秒的音视频交互。尺寸更小,3B版本保留了7B模型90%以上的多模态理解能力,语音输出的自然度与稳定性与7B版本一致。来源:通义千问Qwen
DeepSeek开源Prover-V2强推理模型,奥数解题不再难
DeepSeek开源Prover-V2强推理模型,专注于数学定理证明。模型分为7B和671B两个版本,其中671B版本基于DeepSeek-V3-Base训练而成,7B版本支持最长32K tokens的上下文长度扩展。Prover-V2通过递归定理证明流程生成冷启动数据,结合强化学习提升性能,在MiniF2F测试中达到88.9%的通过率。来源:机器之心
快手旗下轻雀科技推出“喵记多”AI笔记工具
快手旗下轻雀科技推出“喵记多”AI笔记工具,用户可将碎片化的文字、图片、文件发送给内置AI“喵仔”,将其转为笔记,支持二次编辑和删除。若发送网页超链接,喵仔会自动爬取内容生成笔记。App具备“提醒待办”功能,用户可通过特定指令创建和查看待办事项。来源:AI工具集
智谱清言多项新功能上线,新增AutoGLM沉思网页版
智谱清言宣布推出多项新功能,包括视频通话形象升级、定时提醒与邮件订阅功能、清影新版操作界面、AutoGLM沉思网页版上线。视频通话新增数字形象和自然动作表情,定时提醒功能可自动生成内容并通过App或邮件发送。AutoGLM沉思网页版新增Edge浏览器支持,优化多端体验。来源:智谱清言
小米首个推理大模型开源 Xiaomi MiMo:为“Reasoning”而生!
小米开源首个推理大模型「Xiaomi MiMo」。模型专注于提升推理能力,通过联动预训练和后训练,在数学推理和代码竞赛公开测评集中,仅用7B参数规模就超越了OpenAI的o1-mini和阿里的QwQ-32B-Preview。MiMo在强化学习潜力上显著领先,采用三阶段预训练和创新的后训练算法,设计了Seamless Rollout系统加速训练。来源:Xiaomi MiMo
Meta 推出独立 AI 助手应用,融合社交元素挑战 ChatGPT
Meta发布独立AI助手应用“Meta AI”,挑战ChatGPT。应用具备文字输入、语音对话、图像生成和实时搜索功能,最大创新是“发现”信息流,用户可查看并互动其他用户分享的AI交互内容。语音模式基于“全双工”AI模型,更具对话性,目前已在美国、加拿大、澳大利亚和新西兰上线。来源:IT之家
阿里通义发布国内首个“混合推理模型” Qwen3 :支持两种思考模式
Qwen团队发布最新大型语言模型Qwen3。开源8款混合推理模型,包括两款MoE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)和六个Dense模型(Qwen3-32B至Qwen3-0.6B)。旗舰模型Qwen3-235B-A22B在代码、数学和通用能力测试中表现优异,与顶级模型DeepSeek-R1等相当。Qwen3支持119种语言和方言,具备思考模式和非思考模式,可灵活切换推理深度和响应速度。来源:通义千问Qwen
豆包视频功能升级:语义理解与画质等显著提升
豆包视频生成功能升级,在语义理解、影调画质、风格类型及动作连贯性等方面均有显著提升。支持更多样化的风格,包括彩铅、积木、黑白素描、像素和3D动画风格。可通过豆包App的“照片动起来”功能或在电脑版及网页版选择“视频生成”,输入文字或上传参考图免费体验。来源:豆包
中国气象局首次推介全链式空间天气大模型“风宇”
中国气象局在第八届数字中国建设峰会·数字气象分论坛上首次推介全球首个全链式空间天气大模型“风宇”。模型由国家卫星气象中心牵头,联合南昌大学和华为研发,已完成太阳风、磁层和电离层全链式耦合训练,突破传统模型的技术瓶颈,实现智能化技术突破。来源:中国气象局
通义灵码正式上线 Qwen3,编程智能体马上来了
通义灵码宣布正式上线Qwen3模型,Qwen3在代码、数学、通用能力等基准测试中表现出色,支持思考模式和非思考模式,适配复杂与简单问题。目前,Qwen3已可在VSCode、Visual Studio、JetBrains IDEs等主流IDE的灵码插件中体验。来源:通义灵码
马斯克称下周推出 Grok 3.5:首个能准确回答有关火箭发动机问题的 AI
马斯克在社交平台上宣布,下周将向SuperGrok订阅者发布Grok 3.5早期测试版。马斯克称,Grok 3.5是首个能准确回答有关火箭发动机或电化学技术问题的人工智能,能基于第一原理进行推理,得出互联网上不存在的答案。来源:IT之家
OpenAI 升级 ChatGPT搜索功能,增加购物功能
OpenAI 发布 ChatGPT 多项功能更新,新增购物功能优化用户体验。用户可在 ChatGPT 中获得优化的产品推荐,查看产品介绍、实时价格和用户评价,直接点击链接完成购买。官方强调商品搜索结果保持独立客观,非广告植入。ChatGPT 的引用功能也得到改进,可引用多个来源并高亮显示。来源:APPSO
讯飞星辰焕新发布!Agent规模化应用的通关密码
讯飞星火智能体中心正式升级为讯飞星辰Agent开发平台。通过全开放的模型与工具架构,提供全生态模型兼容、16000+MCP插件“开箱即用”及行业模板秒级复用等功能,极大简化Agent应用构建。平台支持全链路效果深度定制,助力开发者实现Agent应用的可靠落地。来源:讯飞开放平台
Kimi 与财新传媒达成合作,为你提供更专业、可信的财经内容
月之暗面科技旗下的人工智能助手Kimi与财新传媒正式达成内容合作。为用户提供更专业、可信的财经信息。Kimi将结合财新传媒的优质报道,生成高质量的财经内容。Kimi上线了专业信源蓝V徽章,帮助用户识别和访问权威信源。双方的合作提升了AI搜索的新闻质量,也推动了优质内容的进一步传播。来源:月之暗面 Kimi
清华大学成立人工智能医院,培养“AI协同型医生”
清华大学成立人工智能医院,举行2025年医学院全体教职工大会。校长李路明强调,该校将利用人工智能领域的技术优势,推动医学学科建设。人工智能医院将依托北京清华长庚医院试运行,以全科医学科和多个专科为试点,构建“AI+医疗+教育+科研”生态闭环,旨在提高医疗服务效率和患者满意度,降低运营成本,培养“AI协同型医生”。来源:清华大学
传xAI计划融资200亿美元 估值将超1200亿美元
马斯克旗下的xAI控股公司正在洽谈新一轮200亿美元融资,若成功,将成为史上第二大创企融资轮,公司估值将超1200亿美元。xAI控股由xAI与社交媒体平台X(前身为推特)合并而成,合并后估值达1130亿美元。此次融资在减轻X平台的债务负担,同时推动xAI生态建设。来源:智东西
清华系智谱×生数达成战略合作,专注大模型联合创新
清华系智谱(Z.ai)与生数科技宣布达成战略合作,聚焦大模型联合创新。智谱在大语言模型领域技术领先;生数专注于多模态通用大模型。双方将在联合研发、产品联动、解决方案整合及行业协同等多方面合作,重点聚焦政企服务、泛互联网、文化旅游等垂直领域,推动国产大模型技术创新与产业落地,助力行业生态发展。来源:智谱
夸克AI超级框发布全新AI相机,拍照问夸克,啥都能答
夸克AI超级框发布全新AI相机功能。通过拍照即可解决多种问题,涵盖旅行、生活、健康、工作学习等多个场景。旅行时可识别景点、翻译菜单;生活中能解决电脑蓝屏、电器故障等问题;工作学习中可补全合同信息、分析图表数据。夸克AI相机将相机功能与智能助手结合,为用户提供便捷高效的解决方案。来源:阿里巴巴
阶跃星辰开源图像编辑模型 Step1X-Edit:人人都能用的“改图大师”
阶跃星辰正式开源图像编辑大模型Step1X-Edit,总参数量达19B,融合了7B多模态大语言模型(MLLM)和12B扩散模型(DiT)。模型具备语义精准解析、身份一致性保持和高精度区域级控制三大核心能力,支持11类高频图像编辑任务,如文字替换、风格迁移、材质变换等。来源:阶跃星辰
Devin 团队推出 DeepWiki ,GitHub 代码仓库的智能阅读助手
Devin团队Cognition Labs 推出 DeepWiki AI工具,为 GitHub 项目提供了 AI 生成的高质量文档。只需将 GitHub 链接中的“github.com”替换为“deepwiki.com”,可访问自动生成的项目文档。DeepWiki 能深入分析代码库的全局结构,生成清晰的架构图和接口文档来源:AI工具集
Kimi开源音频基础模型Kimi-Audio,多项基准测试夺冠
Kimi团队发布Kimi-Audio的开源音频基础模型。模型在语音识别、音频理解、音频转文本、语音对话等多任务上表现出色,横扫十多项基准测试,总体性能排名第一。在LibriSpeech ASR测试中,Kimi-Audio的词错误率仅为1.28%,显著优于其他模型。来源:AI工具集
文心快码Coding智能体Zulu正式发布:国内首个多模态AI程序员正式上岗
百度在 Create AI 开发者大会上发布文心快码 Coding 智能体 Zulu,是国内首个多模态 AI 程序员。Zulu 支持多模态交互,可上传图片一键生成代码,具备自动搭建开发环境、启动服务等功能,适配主流 IDE,能实现代码效果实时预览。来源:文心快码 Baidu Comate
Manus 母公司蝴蝶效应融资 7500 万美元,估值暴涨 5 倍
Manus AI 完成了一轮 7500 万美元(约合 5.46 亿人民币)的融资,由硅谷风投公司 Benchmark 领投,估值飙升至近 5 亿美元(约合 36.44 亿人民币),较之前增长约五倍。此轮融资将助力 Manus 拓展美国、日本和中东等海外市场。来源:APPSO
Create2025百度AI开发者大会发布文心4.5Turbo、X1Turbo和多款AI应用
百度在Create 2025开发者大会上发布文心大模型4.5 Turbo和X1 Turbo,以及多款AI应用,包括高说服力数字人、通用多智能体协作APP“心响”等。文心4.5 Turbo速度更快,成本降低80%;X1 Turbo性能提升,成本再降50%。推出内容操作系统“沧舟OS”和AI笔记功能,助力内容创作与学习。来源:百度
OpenAI推出「轻量级」Deep Research,免费用户也能薅羊毛
OpenAI推出轻量级Deep Research版本,免费用户也可使用。基于o4-mini模型支持,响应更简短但维持深度与质量。免费版每月提供5个轻量任务额度,Plus & Team版每月提供10个原始版和15个轻量版额度,Pro版每月提供125个原始版和125个轻量版额度。用户达到查询限制后,系统自动切换至轻量级版本。来源:机器之心
长桥发布行业首个券商 MCP,让 AI 直接执行投资分析及证券交易
长桥集团发布证券行业首个券商MCP(Model Context Protocol)服务——LongPort MCP。服务通过标准化协议,使AI Agent能快速调用证券行情数据、执行股票交易和管理资产组合等核心金融服务。LongPort MCP具备智能投资顾问、账户管理助手和实时风险监控三大核心能力,支持开箱即用,显著降低专业投资者使用券商API的门槛。来源:Longbridge长桥
智谱BigModel开放平台进入亿时代
智谱BigModel开放平台宣布进入“亿”时代,推出多款高性价比模型。GLM-4-FlashX每亿tokens仅10元;GLM-Z1-Air每亿tokens仅50元,GLM-Z1-AirX每亿tokens仅500元,GLM-4-Plus降价90%,每亿tokens仅500元,较行业价格低92%。智谱希望通过此次调价,以低成本的高精度模型赋能更多企业和开发者。来源:智谱
OpenAI 推出最新图像生成模型 GPT-image-1
OpenAI发布全新图像模型GPT-image-1,通过API向全球开发者开放。模型支持高级定制功能,包括控制生成图像的敏感度、效率、背景、输出格式、渲染质量和压缩质量等,支持吉卜力模式。Adobe、Figma、HeyGen、Wix等知名企业已将其集成到产品中。来源:AI工具集
阶跃星辰与原力灵机达成战略合作,机器人朋友圈再添新伙伴
阶跃星辰与原力灵机正式签署战略合作协议,推动通用人工智能(AGI)在物理世界的落地应用。双方将围绕具身大模型算法研发、多模态数据闭环与机器人场景应用展开深度协同,计划共建联合实验室,加速技术迭代与商业化验证。为机器人赋予更接近人类的认知与行动能力,推动具身智能产业发展。来源:阶跃星辰
Kortix 正式发布全球首个开源的通用型 AI Agent :Suna
全球首个开源的通用型 AI Agent Suna 正式发布。Suna能像人类一样学习、推理和适应,通过自然对话帮助用户完成多种现实任务。具备浏览器自动化、文件管理、网络爬虫、命令行执行、网站部署及API集成等强大功能,可支持20个用户场景,如竞争对手分析、风投清单生成、保险政策查询、候选人搜索、报告撰写等。来源:AI工具集
腾讯推出的 AI 阅读助手“企鹅读伴” 正式上线,科技与趣味并存
腾讯推出AI阅读助手“企鹅读伴”,由腾讯混元大模型和腾讯元器平台提供技术支持,腾讯SSV数字支教实验室主导研发,为中小学生打造科技感与趣味性并存的阅读体验。通过AI技术实现精准推荐、数字人互动、角色扮演等功能,激发学生阅读兴趣,培养深度阅读能力。来源:腾讯混元
混元3D生成模型全新升级:建模精细度大幅提升,免费生成额度翻倍
腾讯混元3D生成模型发布混元3D 2.5版本,建模精细度大幅提升,几何细节更丰富,有效几何分辨率从标清升级到高清。模型架构全面升级,参数量从1B提升至10B,面片数增加超10倍。免费生成额度每天20次,混元3D生成API也正式上线腾讯云。来源:腾讯混元
Character.AI 推出 AvatarFX 视频生成模型:让图片角色开口说话
Character.AI公司推出AvatarFX模型,可让静态图片中的人物“开口说话”。用户上传图片并选择声音后,能生成具有情感表达的会说话、会移动的形象。模型基于“SOTA DiT-based diffusion video generation model”技术,具备高保真、时间一致性,在多角色、长序列对话中也能保持稳定。来源:IT之家
字节 AI 产品调整:猫箱负责人离职,星绘并入豆包
字节跳动AI产品部门Flow近期进行产品调整,社交陪伴类AI产品猫箱原负责人梁琛奇离职,由星绘产品负责人西原接任。同时,星绘团队计划并入豆包,由豆包App端负责人陆游管理。字节跳动希望通过这些调整,在大模型时代继续追求高速增长。来源:晚点LatePost
智能无限,协作无间|你的专属AI工程师 Trae 全新登场!
Trae发布全新版本The Real AI Engineer,Trae通过革新协作模式,将AI与开发者的互动从30%的辅助提升至更高水平,开发者仅需在对话框中@召唤agent并提供上下文,AI可快速响应,让复杂任务变得像聊天一样简单。Trae打造开放的智能体生态,用户可自由配置智能体体系,灵活定义工具、技能和任务逻辑,构建专属AI团队。来源:The Real AI Engineer
登榜!Vidu Q1全球文生视频第一、图生视频榜单双专项第一
Vidu Q1在海外权威视频生成评测榜单VBench Leaderboard中,分别以87.41%和60.98%的成绩登顶VBench-1.0和VBench-2.0文生视频榜首,超越Runway、Sora、LumaAI等模型。在VBench-2.0的常识推理与物理规律理解维度中,均获第一。在国内SuperCLUE图生视频专项榜单中,以动漫风格63.52、写实风格67.78的高分拿下双榜单第一。来源:Vidu AI
百度发布移动端通用 Agent 产品「心响」
百度开发者大会发布移动端通用Agent产品「心响」,产品以“AI任务完成引擎”为核心,通过自然语言交互帮助用户实现复杂任务拆解、动态执行与可视化结果交付。支持用户提出任何问题并获取答案。具备定时触发任务、基于百度地图优化旅游规划以及智能图表可视化交互等亮点功能。来源:AI工具集
天翼 AI 开放平台上线,支持中国电信自研星辰大模型
中国电信宣布天翼AI开放平台正式上线。面向公众开放,个人用户可使用中国电信自研星辰大模型的问答助手、超大表格分析、星辰慧笔、多方言识别、文生图等功能。政府和企业用户则可体验大模型开发、AI中台、数据中台等开发平台能力,以及智能应用、大数据等近30款核心产品,满足政务、金融、工业等场景需求。来源:AI工具集
行业首款!智元发布具身智能一站式开发平台Genie Studio
智元机器人发布行业首款具身智能一站式开发平台Genie Studio。平台具备数据采集、模型训练、仿真评测、模型推理的全链路能力,可高效采集海量数据,单机单日产能达1000条,支持多本体、多末端设备管理与数据采集。提供“一键真机部署”能力,推理性能提升2-3倍,助力具身智能规模化落地。来源:智元机器人
具身智能资本盛宴:3个月37笔融资,北上深争锋BAT下场,人形机器人最火
2025年第一季度,国内人形机器人赛道迎来资本热潮,共完成37笔融资,涉及33家企业,总金额约35亿元。11家企业获得过亿元融资,它石智航以1.2亿美元天使轮融资位居榜首。融资企业多集中于北京、深圳、长三角地区,以2023年和2024年成立的初创企业为主,融资轮次多为天使轮和Pre-A轮。投资方包括腾讯、百度、阿里巴巴等。来源:智东西
“未来智能” 获数千万元融资,启明创投与上海国投孚腾资本领投
AI耳机公司未来智能完成数千万元人民币Pre A+轮融资,由启明创投与上海国投孚腾资本联合领投。未来智能成立于2021年,孵化自科大讯飞AI耳机业务,主要产品为服务办公、会议场景的AI耳机,具备录音转写、同传听译等功能。公司计划将本轮融资用于拓展海外市场及研发新产品形态,今年将进入北美、日本、欧洲等市场。来源:晚点LatePost
扣子空间正式上线开启内测,字节跳动首个通用型AI Agent
扣子空间(Coze Space)字节跳动首个通用型AI Agent平台正式开启内测。与AI Agent协同办公,用户可选择精通多技能的通用实习生或各行业的“领域专家”来完成任务。自动分析需求并拆解任务、自主调用工具输出完整报告、专家Agent生态提供专业服务、探索/规划双模式协作完成高难度任务以及MCP扩展集成拓展Agent能力边界。来源:AI工具集
生数科技正式上线Vidu Q1高可控视频大模型,四大核心能力全面升级
生数科技正式上线Vidu Q1,四大核心能力全面升级,画质细节全面提升,出片更清晰、更具质感;首尾帧衔接更顺滑,镜头语言更具电影感;一句话生专属音效,支持时段自定义和音效叠加;动漫风格再度升级,稳定流畅、更具表现力。来源:AI工具集
深圳大学人工智能学院正式揭牌成立,打造本硕博一体化 AI 人才培养体系
深圳大学人工智能学院正式揭牌成立。学院致力于构建本硕博一体化的人工智能专业体系,学科方向涵盖人工智能基础理论、具身智能等前沿领域。学院拥有强大的教研团队,包括2位中国科学院院士、1位日本工程院院士、5位国家级人才等约80人。秉持“厚基础、重交叉、国际化”的理念,着重提升学生的“四维能力”。来源:IT之家
星火X1全新升级!首个全国产通用深度推理大模型
讯飞星火X1深度推理大模型迎来全新升级。在数学、代码、逻辑推理、文本生成、语言理解等通用任务上效果显著提升,整体性能对标OpenAI o1和DeepSeek R1。此次升级融入更多复杂类型数据,增强了模型泛化性,在教育、医疗、司法等行业任务中表现领先。同时开放API服务与模型微调服务,助力开发者快速集成。来源:讯飞开放平台
SkyReels-V2开源:突破视频生成技术边界,开启无限时长电影生成新时代
昆仑万维SkyReels团队发布并开源SkyReels-V2,是全球首个使用扩散强迫框架的无限时长电影生成模型。模型结合多模态大语言模型、多阶段预训练、强化学习和扩散强迫框架,实现了高运动质量、高一致性和高保真视频的生成,支持30秒以上视频输出。来源:昆仑万维集团
飞猪推出“AI问一问”:一站式多智能体旅行助手上线
飞猪旅行推出“AI问一问”功能,是多智能体驱动的AI旅行助手。用户通过文字、语音或方言输入旅行需求,如时间、目的地、预算等,“问一问”能快速生成包含机票、酒店、景点路线的完整方案,实时同步价格与房态信息,方便用户直接预订。支持预算调节、实时位置推荐及多模态交互,能为用户提供个性化旅行建议。来源:飞猪
智谱完成北京市人工智能产业投资基金追加投资,Z基金出资3亿支持全球开源社区
北京市人工智能产业投资基金宣布追加投资智谱(Z.ai)2亿元人民币,支持其开源模型研发与开源社区生态建设。智谱是该基金投资的第一家AI大模型企业,在文本、推理、语音、图像、视频、代码等多领域有深厚积累。智谱Z基金出资3亿元支持全球AI开源社区发展,推动AI普惠,助力北京打造“全球开源之都”。来源:智谱
腾讯混元开源定制化图像生成插件InstantCharacter,“一张图一句话”搞定角色生成
腾讯混元宣布开源定制化图像生成插件InstantCharacter,与开源文生图模型Flux实现兼容。插件通过一张图加一句话即可让角色以特定姿势出现在不同场景,解决了角色一致性难题,具有高画质、高精度和灵活文本编辑性,适用于连环画、影片创作等场景。来源:腾讯混元
通义万相2.1首尾帧模型开源!细节真实生动,丝滑流畅
阿里通义万相宣布开源业界首个百亿参数规模的“首尾帧生视频模型”,参数量达14B。模型可根据用户指定的开始和结束图片生成衔接首尾画面的720p高清视频,满足更可控、定制化的视频生成需求。来源:通义大模型
智平方发布全新一代智能机器人AlphaBot 2,开启AGI终端新时代
智平方科技在深圳发布新一代通用智能机器人AlphaBot 2,标志着AGI终端新时代的到来。AlphaBot 2搭载全栈自研的全域全身VLA大模型Alpha Brain,具备卓越的空间智能和学习能力,无需训练即可完成多种任务。硬件架构支持360°全空间探测感知和全身自由度操作,续航能力强。来源:智平方科技
OpenAI 推出最强推理模型 o3 和 o4-mini,支持“图像思考”与多模态推理
OpenAI 推出了最新的满血版o3 和 o4-mini 模型,是目前最智能的版本,具备全面的工具访问能力。o3 是功能最强大的推理模型,擅长多领域任务,如编程、数学、科学和视觉感知等,在视觉任务上表现出色,能分析图像、图表等,在复杂查询中提供精准答案。o4-mini 以快速、高效的推理能力著称,适合高吞吐量任务。来源:AI工具集
字节跳动正式发布豆包1.5深度思考模型,文生图模型升级至3.0
字节跳动在火山引擎AI创新巡展杭州站发布豆包1.5深度思考模型。模型采用MoE架构,总参数200B,激活参数20B,推理成本优势显著。在数学、编程、科学推理及创意写作等领域表现出色,结合视觉理解技术可实现地貌分析、辅助点餐等功能。来源:AI工具集
再创开源多模态大模型性能标杆,书生·万象3.0升级发布,创新预训练方法
上海人工智能实验室开源升级了通用多模态大模型书生·万象3.0(InternVL3)。模型采用创新的多模态预训练方法,将语言和多模态学习整合于同一预训练阶段,显著提升了多模态基础能力。在10亿至780亿参数的全量级版本中,InternVL3在开源模型性能上位列第一,接近闭源模型Gemini-2.5-Pro。来源:上海人工智能实验室
消息称 OpenAI 考虑以 30 亿美元收购人工智能编程工具 Windsurf
OpenAI 正在考虑以约 30 亿美元收购人工智能编程工具 Windsurf(原名 Codeium)。如果收购成功,将是 OpenAI 有史以来最大的一笔交易,增强其在 AI 编程助手市场的竞争力。Windsurf 专注于根据自然语言提示编写代码,此前曾计划按 30 亿美元估值融资。来源:IT之家
Anthropic官方推出了两个重磅新功能:Research 与 Google Workspace 集成
Anthropic公司旗下的Claude推出两大新功能:Research和与Google Workspace集成。Research功能可快速检索网络与内部文件,精准回答复杂问题;Google Workspace集成则让用户能无缝调用Gmail、日历和文档信息,轻松完成任务。来源:新智元
微信上线首个AI助手“元宝”,聊天答题与文件解析功能齐备
微信首个AI助手“元宝”正式上线。用户可通过微信搜索或扫描二维码添加为联系人。“元宝”搭载腾讯混元大模型和DeepSeek双模引擎,支持聊天、答题、文件解析(100M以内)、公众号文章解读及图片识别等功能,暂不支持语音/视频通话、群聊、修改昵称、红包转账等。来源:APPSO
国际版 Trae IDE 正式支持 Gemini 2.5 Pro 和 GPT-4.1
Trae IDE宣布正式支持Gemini 2.5 Pro和GPT-4.1模型,增强了内置模型功能。用户现在可以在国际版Trae IDE中直接使用,提升开发效率和创新能力。来源:AI工具集
谷歌 Veo 2 视频生成模型入驻 Gemini,可创建 8 秒 720p 视频
谷歌宣布将旗下 Veo 2 视频生成 AI 模型引入 Gemini Advanced,用户可创建 8 秒、720p 分辨率、16:9 宽高比的视频片段,通过 Gemini 将视频上传至 TikTok、YouTube 等平台。Veo 2 生成的视频可下载为带有谷歌 SynthID 水印的 MP4 文件。Veo 2 整合至 Google Labs 的 Whisk 功能中,可将图片转化为 8 秒视频。来源:IT之家
xAI 旗下Grok 推出 Grok Studio 功能:可 AI 编辑创建文档、代码、报告等
xAI旗下Grok宣布推出Grok Studio功能,支持用户编辑和创建文档、代码、报告,简单浏览器游戏。Grok Studio可在独立窗口中打开内容,用户可与Grok实时协作完善项目。免费和付费用户均可使用,支持预览HTML片段并运行Python、C++和JavaScript等代码。来源:AI工具集
OpenAI ChatGPT 上线图库功能,更轻松管理 AI 生成图片
OpenAI 宣布 ChatGPT 上线 Image Library 图库功能,帮助用户更便捷地管理和查看 AI 生成的图像。功能已向所有 Free、Plus 和 Pro 用户开放,覆盖移动端和网页端。来源:IT之家
AI 音乐商用创作平台Mureka火爆海外,正式开放国内登陆入口和API
昆仑万维集团旗下的 AI 音乐商用创作平台 Mureka 正式开放国内登录入口和 API。Mureka 自 2024 年上线以来,在全球范围内收获极高人气,支持纯音乐及 10 种语言的音乐创作。其 Mureka V6 是基座模型,Mureka O1 是推理优化版本,可提升音乐品质和创作效率。来源:昆仑万维集团
中国第一家启动IPO的“大模型六虎”来袭!智谱融资超160亿,美国OpenAI也将IPO
智谱 AI 启动 IPO 上市流程,成为中国第一家进入 IPO 阶段的“大模型六虎”公司。智谱 AI 成立于 2019 年,由清华大学计算机系技术转化而来,目前累计融资超 160 亿元,投后估值超 200 亿元。来源:钛媒体AGI
快手发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型,国产AI视频新突破
快手可灵AI正式发布可灵2.0视频生成模型,可灵AI 2.0在模型层面迎来重大更新,画面美学、语义响应和动态质量大幅提升。新增“多模态编辑”功能,支持在视频基础上输入图片/文字进行精准修改和再创作;可图2.0新增“图片编辑”及“风格转绘”功能。具备AI音效生成功能,可根据影像内容和文字prompt生成适配音效。来源:AI工具集
OpenAI发布GPT-4.1系列模型:编码、指令遵循和长文本处理能力大幅提升
OpenAI推出新一代GPT模型GPT-4.1系列,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。模型在编码、指令遵循和长文本处理方面大幅领先于GPT-4o,支持高达100万tokens的上下文窗口,知识截止日期更新至2024年6月。GPT-4.1 mini在性能和成本上均优于GPT-4o,GPT-4.1 nano是最快最便宜的模型,适合分类和自动补全任务。来源:AI工具集
魔搭上线最大MCP中文社区,独家首发支付宝、MiniMax等MCP
阿里云旗下的AI开源社区魔搭(ModelScope)推出全新MCP广场,上架千余款热门MCP服务,独家首发支付宝、MiniMax等全新MCP服务。支付宝MCP服务是国内首款聚焦AI智能体支付场景的服务,可实现交易创建、查询、退款等功能;MiniMax MCP服务器封装了语音生成、语音克隆、图片生成及视频生成等多模态能力。来源:阿里云
智谱启用全新全球域名“z.ai”,开源高性能GLM模型系列
智谱启用全新域名“z.ai”,整合32B基座、推理、沉思三类模型,作为最新模型的交互体验入口。基座模型和推理模型已上线智谱MaaS平台,提供API服务,部分版本免费。宣布开源32B/9B系列GLM模型,涵盖基座、推理、沉思模型,均采用MIT许可协议,可免费用于商业用途。来源:智谱
MiniMax MCP Server 上线:多模态能力,一键触达
MiniMax 稀宇科技宣布其 MiniMax MCP Server 正式上线。服务器通过简单文本输入即可调用视频、图像、语音生成及声音克隆等多项多模态能力,兼容 Claude Desktop、Cursor、Windsurf 和 OpenAI Agents 等主流 MCP 客户端。来源:MiniMax 稀宇科技
Hugging Face 收购 Pollen Robotics,进军人形机器人市场
人工智能开发平台Hugging Face收购法国人形机器人初创公司Pollen Robotics,此次收购标志着Hugging Face在机器人领域的拓展,双方此前已合作打造开源家务机器人“Le Robot”。Hugging Face成立了由曾在特斯拉Optimus项目任职的雷米・卡德内领导的机器人团队,计划销售Pollen的人形机器人Reachy 2并开放代码供开发者改进。来源:IT之家
字节跳动最新思考模型,Seed-Thinking-v1.5技术细节公开
字节跳动Seed团队发布Seed-Thinking-v1.5智能推理模型技术报告。模型采用200B参数、20B激活参数的MoE架构,推理成本低。在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,接近业界第一梯队水平。4月17日,模型将通过火山引擎开放接口供用户体验。来源:豆包大模型团队
重新认识阿里:大踏步迈向 AI
《晚点LatePost》发文称阿里巴巴在AI领域投入坚决、布局全面且率先盈利。过去几年,阿里历经低谷,2025年凭借AI技术股价涨幅超75%。阿里云与宝马、中移动等达成合作,云谷园区接待爆满。阿里明确AI战略,未来三年投入3800亿元建设云和AI基础设施,通义大模型位列全球第一梯队,夸克升级为“AI超级框”,钉钉回归助力AI应用。来源:晚点LatePost
云鲸再获1亿美金融资,腾讯、北京机器人基金领投,重押具身智能,迈向Pre-IPO
家庭清洁服务机器人公司云鲸智能近日完成1亿美金融资,由腾讯投资、北京机器人产业发展投资基金联合领投,科幻基金与明势创投跟投。资金将用于具身智能产品研发、全球市场扩张及多品类战略布局。云鲸已启动Pre-IPO轮融资,进入上市冲刺阶段。来源:36氪
昆仑万维推出Skywork-OR1系列模型,同规模下性能超越阿里QwQ-32B,对齐DeepSeek-R1
昆仑万维天工团队推出全新升级的Skywork-OR1系列模型,包括7B和32B版本,聚焦数学和代码推理能力。系列模型在同等参数规模下性能超越阿里QwQ-32B,接近DeepSeek-R1。Skywork-OR1系列全面开源,涵盖模型权重、训练数据集和完整代码,团队采用多阶段GRPO训练,优化数据过滤和训练流程,显著提升模型推理性能。来源:昆仑万维集团
OPPO 推出的小布助手网页版上线,登录 OPPO 账号可同步手机端历史对话记录
OPPO小布助手网页版正式上线,网页版接入满血版DeepSeek,支持联网搜索和结果导出功能。登录OPPO账号后,可同步手机端历史对话记录。来源:AI工具集
OpenAI 宣布 ChatGPT 自 4 月 30 日起停用 GPT-4 模型,全面升级至 4o 版本
OpenAI 宣布于2025年4月30日起,将让GPT-4在ChatGPT中退役,全面启用GPT-4o。GPT-4o在能力、一致性和创造力上更胜一筹。GPT-4退出ChatGPT,开发者仍可通过API调用。来源:APPSO
OpenAI宣布ChatGPT新功能,新增长期记忆功能,可以记住过去所有的聊天记录
OpenAI宣布ChatGPT推出新功能,能引用过去所有聊天记录,为用户提供更加私人订制的体验。标志着LLM交互范式从偶发性互动向持续性互动转变,使ChatGPT更像私人助理。新功能已向Plus和Pro用户开放,用户可以与ChatGPT进行更深入的互动。来源:量子位
傅利叶发布首款开源人形机器人 Fourier N1,加速行业生态共建
通用机器人公司傅利叶在上海发布首款开源人形机器人Fourier N1。机器人身高1.3米,体重38公斤,拥有23个自由度,采用铝合金与工程塑料复合结构,续航可达2小时以上,最高奔跑速度3.5米/秒。作为傅利叶“Nexus开源生态矩阵”的首个项目,N1同步开放了涵盖物料清单、设计图纸、装配指南、基础操作软件等完整本体资源包。来源:傅利叶
商汤发布「日日新SenseNova V6」大模型,助力机器人具身智能升级
商汤发布新一代多模态大模型「日日新SenseNova V6」,参数达6000亿,采用混合专家架构,实现多模态长思维链、强化学习与全局记忆融合,推理能力显著提升,多项测试超国际领先模型。模型助力人形机器人具身智能发展,使其具备视觉、语言等多模态交互能力,可应用于导览、社交互动等场景。来源:智东西
谷歌发布 Gemini 2.5 Flash AI 模型:专为省钱高效而生
谷歌推出Gemini 2.5 Flash AI模型,专为高效能和成本优化设计。模型即将登陆谷歌Vertex AI平台,具备动态且可控的计算能力,开发者可根据查询复杂度灵活调整处理时间,平衡速度、准确性和成本。来源:AI工具集
Anthropic 推出 Claude Max 订阅计划,月费最高 200 美元
Anthropic推出Claude Max订阅计划,月费最高200美元,与OpenAI的ChatGPT Pro竞争。Max计划分为两个层级:每月100美元的Max速率限制是Claude Pro的5倍,每月200美元的Max速率限制是Claude Pro的20倍。计划提供更宽松的使用限制和优先获取最新AI模型的功能。来源:IT之家
谷歌Deep Research迎来重大升级,搭载Gemini 2.5 Pro模型,性能超OpenAI
谷歌Deep Research迎来重大升级,搭载全球顶尖的Gemini 2.5 Pro模型。新版本在分析推理、信息整合和报告洞察力方面显著提升,5分钟可生成46页学术论文,能将复杂报告转为10分钟播客。性能较OpenAI DR提升超40%,价格仅为1/10。来源:新智元
继 OpenAI 后,谷歌 Gemini 模型将支持 Anthropic 的 MCP 协议
谷歌DeepMind宣布为Gemini模型和SDK添加对Anthropic的模型上下文协议(MCP)的支持。谷歌DeepMind首席执行官德米斯·哈萨比斯表示,MCP正在迅速成为AI代理时代的开放标准,谷歌期待与其他行业伙伴共同开发这一协议。来源:IT之家
悠船宣布MidJourney V7模型正式上线:图像生成质量大幅提升
悠船团队宣布悠船V7模型正式上线。V7版本在图像生成质量上显著提升,包括人物肤色、面部细节、材质纹理和光影效果等方面。能更好地解析复杂场景,实现背景与主体的自然融合。V7在视角表现和风格还原度上也更加专业,显著提升了身体、手部及物体细节的一致性。来源:悠船助手
谷歌推出 Agent2Agent(A2A)协议,实现 AI 智能体之间的互操作性
谷歌推出 Agent2Agent(A2A)协议,实现 AI 智能体之间的互操作性。A2A 是开放协议,支持超过 50 个技术合作伙伴,支持不同供应商的智能体在跨平台环境中安全协作,完成复杂任务。协议基于 HTTP、SSE、JSON-RPC 等标准,支持长时任务和多种数据格式(如音频、视频)。来源:AI工具集
谷歌推出AI编程工具 Firebase Studio,一站式完成全栈应用的构建、修改和部署
谷歌推出 Firebase Studio,用户可以一站式完成全栈应用的构建、修改和部署。只需输入提示词,AI 可快速生成完整应用程序,支持 React、Next.js、Angular、Vue.js、Flutter、Android、Node.js、Java 和 Python Flask 等多种编程语言和框架。来源:AI工具集
连续完成A及A+轮融资,星尘智能获锦秋基金、蚂蚁集团等领投
星尘智能宣布连续完成A轮及A+轮融资数亿元,由锦秋基金、蚂蚁集团领投,云启资本、道彤资本等老股东跟投,华兴资本担任独家财务顾问。星尘智能于2022年底在深圳成立,首创面向AI的软硬件一体化系统架构,全栈自研的Astribot S1高度仿人,关键操作参数媲美甚至超越成年男性。来源:Z Potentials
alphaXiv推出「Deep Research for arXiv」功能,让文献检索秒速完成
alphaXiv推出「Deep Research for arXiv」功能,可协助研究人员在arXiv平台上快速检索与阅读学术论文,提升文献检索及研究效率。用户输入相关问题,系统能迅速生成文献综述或热门论文回答,将数小时的搜索过程缩短至几秒。来源:机器之心
阿里云百炼上线业界首个全生命周期MCP服务,5分钟搭建专属AI智能体
阿里云在AI势能大会上宣布上线业界首个全生命周期MCP服务,加速AI落地。服务集成阿里云函数计算、200多款大模型和50多款主流MCP服务,用户无需代码,仅需简单配置,5分钟即可搭建专属Agent。来源:量子位
火山引擎推出AI数据专家“Data Agent”,企业数据全场景智能体
火山引擎迎来首位AI数据专家「Data Agent」。作为企业数据全场景智能体,Data Agent在数据分析和智能营销领域表现出色。可融合企业内部结构化与非结构化数据,理解业务需求,生成深度研究报告,无缝制定并执行营销策略,为每位用户精准配置触达时机和营销文案,活动结束后自动复盘并持续学习进化。来源:火山引擎
「AI硬件」闯出一匹黑马“小智AI”,2个月接入设备增长10万台
「小智AI」作为一款开源AI硬件项目,在过去两个月内接入设备数增长10万台,增速达300%。语音助手以台湾腔、反应迅速、声音拟人化等特点在短视频平台引发病毒式传播,点赞量达数十万甚至百万。小智AI团队不生产硬件,设备多由爱好者、开发者DIY完成,通过电商平台售卖。来源:极客公园
亚马逊推出全新 AI 语音模型 Nova Sonic,低价高质冲击 AI 语音市场
亚马逊推出新一代生成式 AI 模型 Nova Sonic,模型可原生处理语音并生成自然流畅语音。Nova Sonic 通过 Bedrock 平台提供,价格比 OpenAI 的 GPT-4o 便宜约 80%。在语音识别错误率、多语言支持、对话质量和响应速度等方面表现出色,平均单词错误率仅为 4.2%,响应时间 1.09 秒,比 GPT-4o 模型更快。来源:AI工具集
英伟达开源Llama Nemotron-253B推理模型,吞吐量较DeepSeek R1提升4倍
英伟达宣布开源Llama Nemotron-253B推理模型,模型基于Llama-3.1-405B微调而来。在多项基准测试中,Llama Nemotron击败了Llama 4,以一半参数量达到与DeepSeek R1相近的性能。在复杂数学推理、科学问答和编码任务中表现出色,吞吐量较DeepSeek R1提升4倍。来源:新智元
美图WHEE推出全新图像生成模型Miracle F1,告别AI作品“塑料感”
美图WHEE平台上线全新AI图像生成模型Miracle F1。模型能像摄影师、建筑师和画家一样,精准处理光影、空间和材质效果,生成的图像真实感强,细节逼真,告别了传统AI作品的“塑料感”。能精准理解复杂语义概念,如“纯色背景”“夜景灯光”等,支持多种风格,包括3D特效、二次元插画等。来源:美图小WHEE
斯坦福李飞飞团队发布《2025年人工智能指数报告》:揭示12大趋势,AI变革加速
斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2025年人工智能指数报告》。长达456页的报告追踪了2024年全球人工智能行业的发展趋势,揭示了12大趋势,包括AI在苛刻基准上的表现持续提升、AI正越来越多地融入到日常生活中、企业全力投入AI推动投资和使用创历史新高、在创造顶级AI模型方面中国正在缩小与美国的差距、负责任的AI生态系统不断发展但不均衡等。来源:AI工具集
阶跃星辰发布多模态推理模型Step-R1-V-Mini,高精度感知图像完成复杂推理任务
阶跃星辰发布了全新的多模态推理模型Step-R1-V-Mini。模型支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像并完成复杂推理任务。Step-R1-V-Mini在训练方法上采用多模态联合强化学习和多模态合成数据,有效提升了多模态协同场景下的推理表现。来源:阶跃星辰
亚马逊升级 AI 视频模型 Nova Reel,最长可生成两分钟多镜头视频
亚马逊升级 AI 视频模型 Nova Reel 至 1.1 版本,现可生成最长两分钟的多镜头视频。用户输入最多 4000 个字符的提示词,模型能生成由六秒镜头组成的视频。新增“多镜头手动”模式,结合图片和提示词,最多生成 20 个镜头的视频。来源:IT之家
超越特斯拉,全球自由度最高的北京灵巧手创企,灵心巧手拿下超亿融资
北京灵心巧手科技公司近日完成超亿元种子轮融资,由红杉种子基金等多家机构领投。公司成立于2019年,自主研发的Linker Hand系列灵巧手,工业版自由度达25-30个,科研版最高自由度达42个,是全球自由度最高的商用灵巧手,性能和价格优势明显。公司构建了全球最大的灵巧操作数据集DexSkill-Net,助力灵巧手快速学习复杂任务。来源:智东西
英伟达斥资数亿美元收购 Lepton AI ,联创贾扬清和白俊杰均已入职英伟达
英伟达已完成对AI大牛、阿里前副总裁贾扬清创立的Lepton AI的收购,交易价值数亿美元。Lepton成立于2023年,主要业务是出租英伟达GPU服务器,帮助创企在云中构建和管理AI应用。目前Lepton约有20名员工,联合创始人贾扬清和白俊杰已加入英伟达。来源:智东西
DeepSeek 联合清华大学发布 DeepSeek-GRM 模型,推理时可扩展性显著提升
DeepSeek 联合清华大学发布 DeepSeek-GRM 模型,模型采用点式生成奖励建模(GRM)方法,通过“自我原则批评调整”(SPCT)学习方法,使模型在推理时具有可扩展性。实验表明,DeepSeek-GRM-27B 在推理时扩展到 32 个样本时,性能可与 671B 参数模型相当,展现出推理时可扩展性的巨大优势。来源:AI工具集
Meta 开源的多模态系列 AI 模型— —Llama 4,重夺开源王座
Meta 发布 Llama 4 系列 AI 模型,包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。模型采用“混合专家架构”,将数据处理任务分解给专门的“专家”模型,提升训练和回答效率。Maverick 有 4000 亿参数,128 个“专家”模型中 170 亿参数活跃;Scout 有 170 亿活跃参数、16 个“专家”模型,总参数 1090 亿。来源:AI工具集
Midjourney 发布 AI 图片生成模型 V7,新增“草图模式”支持语音生图
Midjourney 发布 AI 图片生成模型 Midjourney V7 版本并开启 alpha 测试。V7 版本在常规更新方面增强了文本理解能力,升级了细节纹理质感,提升了人物肢体、手部、物体结构等连贯性,默认启用“个性化模型”功能,可学习用户偏好。全新的“草图模式”,支持对话式交互界面、实时编辑、语音识别生成功能。来源:AI工具集
全球风投交易量暴降32%!一季度AI赛道融资额占58%,亚洲不足10%
2025年第一季度,全球风险投资交易数量达7551件,同比下降32%,但交易总价值达1263亿美元,同比上涨53.46%。AI和机器学习领域投融资最为活跃,交易数量2101件,交易额731亿美元,占全球风投总额的57.87%。美国OpenAI完成400亿美元融资,占美国风投资金50%以上。来源:钛媒体AGI
OpenRouter 推出 Quasar Alpha:百万 Token 上下文的 AI 模型免费开放
OpenRouter 推出了预发布版 AI 模型 Quasar Alpha,模型具有 100 万 token 的超大上下文窗口,能处理超长文本和复杂文档。在代码生成方面表现出色,支持多种编程语言,生成速度快,延迟低,平均每秒生成 136 个 token,延迟仅为 0.5 秒。Quasar Alpha 支持联网功能和多模态功能,安全性增强。来源:AI工具集
微软 Copilot 增加记忆、操控网页、创建播客等海量功能,打造独一无二 AI 伴侣
微软为庆祝成立 50 周年,更新了 Copilot 的多项新功能,更接近 ChatGPT 或 Claude 等替代品。Copilot 现在支持记忆、个性化、基于 Web 的操作、播客创建、摄像头和屏幕分析、深度研究等功能。能跟踪用户偏好和详细信息以定制回复,用户可选择让 Copilot 记住的信息。能使用网络浏览器执行任务,如预订演出门票和餐厅。来源:IT之家
微软 Bing 重大革新:Copilot Search 上线,AI 与传统搜索结合
微软宣布 Bing 搜索引擎上线 Copilot Search 功能。工具将传统网络搜索与生成式搜索结果相结合,通过 Bing 检查多个网站信息,显示更详细准确的响应内容,提供引用和建议。来源:IT之家
即梦 3.0 绘图模型上线,中文 AI 绘图能力迎来最强表现
即梦 3.0 绘图模型灰度内测上线。模型在中文直出方面取得重大突破,提升了大字的准确性、设计感和丰富度,大幅解决了小字稳定性问题。即梦 3.0 能直出 2K 图像,支持多种风格,如写实、卡通等,可生成复杂场景和艺术字体。来源:AI工具集
商汤科技2025技术交流日:AI 2.0新生态与“强推理”全新日日新 6.0 AI 模型
商汤科技将于4月10日下午14:00举办2025年技术交流日活动。本次交流日聚焦生成式AI为代表的AI 2.0发展,探讨其带来的生产力变革与多模态融合催生的“万物有灵”新生态。届时将推出主打“强推理”的全新日日新 6.0 AI 模型。为公众解答关于未来的诸多想象。来源:商汤科技 SenseTime
前百度高管创立的 Genspark 推出通用智能体,免费开放使用,无需邀请码
由前百度高管景鲲和朱凯华创立的Genspark推出通用智能体,在GAIA基准测试中超越Manus和OpenAI的Deep Research。智能体可完成旅游规划、视频生成、PPT制作等任务,支持实时交互和低错误率。目前免费开放,用户无需邀请码即可使用。来源:AI工具集
谷歌 AI 笔记应用 NotebookLM 新增“发现资料”功能,可自动检索相关网络资源
谷歌旗下人工智能笔记应用NotebookLM推出“发现资料”功能,基于Gemini技术,用户可在应用中输入主题,快速检索网络资源,获取最多10个相关资料及摘要,并导入笔记本。功能支持生成音频概览、思维导图等,提升资料收集效率。新增“好奇心驱动”按钮,可随机生成主题资料。来源:AI工具集
元鼎智能完成近10亿元融资,携手Fluidra加速全球市场布局
元鼎智能近日完成近10亿元人民币的战略融资,由全球泳池巨头Fluidra战略投资,云启资本加入,XVC、复星锐正、蜂巧资本等老股东增持。此次融资助力元鼎智能打通全球泳池专业渠道,实现从“线上领先”到“全渠道突破”的转型。来源:元鼎智能Aiper
Augment Code 发布 AI 编程助手 Augment Agent,可处理数百万行代码项目
Augment Code推出AI编程助手Augment Agent。专为大型代码库设计,拥有20万token的上下文窗口,可处理数百万行代码项目。“记忆”功能可适应个人编码风格,实时同步代码变更,支持多模态输入、终端命令等实用功能。Augment Agent已上线VS Code,JetBrains开发工具。来源:AI工具集
OpenAI 推出免费 AI 学习平台 OpenAI Academy,覆盖普通小白到技术的各层次人群
OpenAI 推出了免费的 AI 学习平台 OpenAI Academy,帮助从普通小白到技术人员的各层次人群掌握 AI 技能。平台提供丰富的视频课程,如《ChatGPT Edu 学术助手指南》《提示词大师课》等,内容短小精悍,适合碎片化学习。每周举办多场线上活动,邀请专家讲解和互动,如《老年人 AI 入门》等课程。来源:AI工具集
Sam Altman宣布,ChatGPT 的文生图功能现已面向所有免费用户开放
OpenAI宣布ChatGPT的文生图功能向所有免费用户开放。最初仅限付费用户使用,因访问量过大导致服务器拥挤。文生图功能基于GPT-4o模型,可实现精准文本渲染、遵循指令提示、深度调用知识库及对话上下文,支持对上传图像进行二次创作或转化为视觉灵感。来源:AI工具集
智元机器人与国际顶尖 Physical Intelligence(Pi)携手,引领具身智能全球创新
智元机器人宣布与国际顶尖具身智能公司Physical Intelligence(Pi)达成深度技术合作,聚焦动态环境下长周期复杂任务。智元机器人在具身智能领域拥有本体-数据-模型三位一体全栈布局,量产超1000台通用具身机器人。近期加入智元的罗剑岚博士将领导具身智能研究中心,推进合作。来源:智元机器人
阿里通义千问登顶全球开源模型榜首
阿里通义千问的端到端全模态大模型Qwen2.5-Omni登上Hugging Face全球开源模型总榜榜首。该模型可同时处理文本、图像、音频和视频等多模态输入,实时生成文本与自然语音合成输出。阿里至今已开源200多款模型,千问衍生模型数量突破10万,成为全球最大开源模型族群。来源:界面新闻
MiniMax Audio推出Speech-02系列语音模型,一次性可以输入20万字符
MiniMax Audio正式发布Speech-02系列语音模型。模型支持30多种语言,一次性可输入20万字符,人声相似度高达99%,合成语音自然流畅,解决了音频播放中的卡顿和节奏不稳问题。MiniMax Audio推出“Read Anything”功能,用户可上传本地文件或粘贴网络URL,将文档、电子书、网页文章等转化为喜欢的音色聆听。来源:AI工具集
Krea AI 宣布推出 Gemini 图像编辑功能,可通过自然语言编辑图片
Krea AI宣布推出接入谷歌Gemini的图像编辑功能,功能已在Krea Chat上线。用户可上传图片,通过自然语言直接编辑,如改变背景、调整元素光线和颜色等,操作便捷高效,为图像编辑带来全新体验。来源:AI工具集
国家天文台基于通义千问打造国际首个太阳大模型——“金乌”
国家天文台联合阿里云发布国际首个太阳大模型“金乌”,基于阿里通义千问系列开源模型打造。“金乌”在M5级太阳耀斑预报上准确率超91%,为该级别最高水平。模型以超90万张太阳卫星图像为样本训练,可预测未来24小时耀斑爆发情况及生成太阳模拟图像。解决了传统太阳预报难以处理海量观测数据的难题。来源:阿里云
Runway发布AI视频生成模型Gen-4,一张照片生成连贯全片,首次实现“世界一致性”
Runway发布新一代AI视频生成模型Gen-4,全球首款实现“世界一致性”的模型。Gen-4可在多个场景中保持人物、场景和物体的一致性,无需额外精调,能凭借一张参考图在不同光线和场景中生成一致的角色或物体,从任意角度重建和捕捉场景。来源:AI工具集
亚马逊推出 Nova Act:可操控网页浏览器的 AI 智能体
亚马逊推出通用人工智能智能体Nova Act及其配套SDK。Nova Act由亚马逊旧金山AGI实验室研发,能操控网页浏览器并自主执行简单网络任务,如自动订购沙拉、预订餐厅等。未来将为生成式AI增强版语音助手Alexa +提供关键功能支持。目前开放的是“研究预览版”,功能尚待完善。来源:AI工具集
OpenAI宣布将开源推理模型,首次计划发布开放权重语言模型
OpenAI宣布将在未来几个月内推出一款具备推理能力的开放权重语言模型。是自GPT-2以来,OpenAI首次计划发布此类模型。OpenAI CEO Sam Altman表示,模型将遵循严格的准备框架进行评估,确保安全性与可靠性。OpenAI计划举办一系列开发者活动,收集反馈并展示早期原型,首场活动将在旧金山启动。来源:APPSO
OpenAI完成400亿美元融资,估值3000亿美元,资金用于AI研究及扩大计算基础设施
OpenAI宣布完成400亿美元融资,投后估值达3000亿美元。本轮融资由日本软银领投300亿美元,微软及其他投资者参与。资金将用于推动AI研究及扩大计算基础设施。来源:腾讯科技
智谱推出首个免费、具备深度研究和操作能力的AI Agent:AutoGLM沉思
智谱推出AI Agent产品AutoGLM沉思,免费的本地Agent,能探究开放式问题,根据结果执行操作的自主智能体(AI Agent)。能模拟人类的思维过程,完成从数据检索、分析到生成报告。实测中,AutoGLM沉思版成功完成了包括购物对比、知识调研、学习指导和旅行规划等任务,展现了强大的执行能力和思考能力。来源:AI工具集
千寻智能完成5.28亿元Pre-A轮融资,领先VLA模型加速具身智能落地
千寻智能完成5.28亿元人民币Pre-A轮融资,由阿美风险投资旗下Prosperity7 Ventures领投,多家资本参与。本轮融资将加速其具身大模型迭代、机器人进化及人才团队建设。千寻智能成立于2024年,团队来自顶尖高校和知名企业,致力于打造通用人形机器人和下一代具身大模型。来源:千寻智能 Spirit AI
面壁发布首个纯端侧智能助手cpmGO,构建汽车超性能端侧大脑
面壁智能发布首个纯端侧智能助手——小钢炮超级助手cpmGO,赋能汽车智能座舱,提供纯端侧、超性能、全场景服务。助手具备视觉、语音、多模态等丰富能力,可实现端到端智能化应用,突破弱网断网限制,保护车内信息安全,支持9大类26款应用,提升使用便捷性。来源:面壁智能
AI Agent 产品 Manus 公布收费方案:提供 39 美元和 199 美元两种套餐
AI Agent产品Manus公布收费方案,从免费测试阶段转向商业化运营。收费方案包括两种套餐:Manus Starter每月39美元(约合283元人民币),获3900积分,可同时运行2个任务;Manus Pro每月199美元(约合1446元人民币),获19900积分,可同时运行5个任务并支持高投入模式和其他测试功能。来源:IT之家
擎朗智能发布首款人形具身服务机器人“XMAN-R1”,可完成“点单-配餐-送餐-收餐”等长任务闭环
上海擎朗智能科技有限公司正式发布首款人形具身服务机器人“XMAN-R1”。机器人以“岗位化、亲和力、安全性”为设计理念,模拟服务人员动作逻辑,适配服务场景需求,可完成“点单-配餐-送餐-收餐”等长任务闭环。搭载11项多模态传感器,结合自研三维重建技术,实现360度高精度感知与智能避障。来源:擎朗智能
智源发布首个跨本体具身大小脑协作框架与开源具身大脑RoboBrain
智源研究院在中关村论坛上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain。RoboBrain融合任务规划、可操作区域感知、轨迹预测能力,通过多阶段训练,增强长程操作任务能力,可在多评测任务中超越多个领先模型。RoboOS基于“大脑-小脑”分层架构,实现多机器人协作,支持多类型具身本体,具备动态任务管理与优化能力。来源:智源研究院
国产视频大模型的全球引领,生数科技在中关村论坛重磅发布Vidu Q1模型
生数科技发布高可控视频大模型Vidu Q1。模型由清华大学人工智能研究院副院长朱军教授团队研发,实现了多主体细节、音效同步和画质增强的高可控性。Vidu Q1支持精准调整主体动作、布局,能根据画面转场生成相应音效,画质更清晰逼真。来源:生数ShengShu
百度文小言官宣支持多模型调度,升级端到端语音大模型、图片问答能力
百度文小言在百度AI DAY上宣布完成品牌焕新与功能升级,支持多模型融合调度,整合百度自研及第三方优质模型,用户可一键调用最优组合或灵活选择单一模型。全新语音大模型支持方言对话、复杂问答等,调用成本低、响应速度快,实现多情感语音合成。图片问答功能可深度解析图片,新增“图个冷知识”功能,从多角度解读图片,提升交互趣味性。来源:IT之家
马斯克xAI收购X,总估值8000亿,开启AI与社交融合新纪元
马斯克宣布其AI创企xAI与社交平台X(前身为推特)正式合并。xAI以全股票交易收购X,xAI估值800亿美元,X实际估值330亿美元,合并后总估值1130亿美元(约8208亿元人民币)。马斯克称,xAI和X的未来交织在一起,此次整合将数据、模型、计算、分发和人才相结合,释放巨大潜力。来源:智东西
阿里通义千问推出视觉推理模型 QVQ-Max:可分析、推理图片和视频内容
阿里通义千问团队发布新一代视觉推理模型 QVQ-Max。模型具备细致观察、深入推理和灵活应用三大核心能力,能快速解析图片和视频内容,识别关键元素并结合背景知识进行推理。能协助完成数据分析、编程等职场任务,帮助学生解答难题、推荐穿搭方案等。来源:IT之家
GPT-4o「吉卜力风」一夜爆火,奥特曼连夜换头像!宫崎骏痛批AI侮辱生命
OpenAI 更新的 GPT-4o 原生图像生成功能因「吉卜力风格」图片生成一夜爆火。用户可将任何图像上传并请求 AI 转换为吉卜力风格,效果出色且操作便捷。功能引发了社交媒体热潮,奥特曼也换上了吉卜力风格的头像。宫崎骏曾批评 AI 作画是对生命的侮辱。来源:新智元
华为ModelEngine全流程AI开发工具链正式开源!
华为在2025中国合作伙伴大会上宣布ModelEngine AI全流程工具链正式开源。工具链围绕数据使能、模型使能和应用使能打造,解决AI行业化落地中的关键问题,如数据工程耗时长、模型训练和应用落地难等。来源:华为开源
豆包新版深度思考开启测试,支持边想边搜
字节跳动旗下的 AI 智能助手豆包推出新版深度思考功能。将推理过程与搜索深度结合,支持“边想边搜”,可在思考过程中多次调用工具、搜索信息,提供更全面、准确的结果。来源:豆包
Ideogram 3.0 发布:AI 绘图领域的新突破
Ideogram.ai 推出最新的 AI 绘图模型 Ideogram 3.0。模型在图像生成领域取得了重大进展,在图像与文本提示的对齐、逼真度和文本渲染质量方面表现出色。能生成具有高度一致性和创意的设计作品,支持复杂排版和艺术化文本创作。来源:AI工具集
可灵AI平台全面升级,新增AI音效与资产管理功能
快手科技旗下的可灵AI平台宣布全面升级。对视觉体系和交互体验进行了优化。新版本采用极简主义设计,自然排版和黑白配色,减少视觉干扰,突出创意。平台新增“AI音效”和“资产管理”功能,分别用于提升作品表达力和优化文件管理效率。来源:可灵AI
阿里开源全模态模型Qwen2.5-Omni,7B尺寸实现全球最强性能
阿里通义千问Qwen2.5-Omni-7B正式开源。作为首个端到端全模态大模型,Qwen2.5-Omni可同时处理文本、图像、音频和视频输入,实时生成文本与自然语音输出。在OmniBench等多模态任务中刷新纪录,性能远超Google的Gemini-1.5-Pro等同类模型。来源:阿里云
腾讯ima知识号正式上线,助力知识创作与管理
腾讯旗下的AI智能工作台ima宣布正式推出知识号。知识号为知识库创作者提供了一个全新的平台,创作者可以通过ima知识号入口申请创建账号,在ima知识广场发布知识库。平台提供数据分析工具,创作者可以直观地查看知识库的相关数据,包括知识库的数量、参与人数等。来源:ima.copilot
DeepSeek全新版本API上线讯飞星辰MaaS平台
DeepSeek全新版本DeepSeek-V3-0324上线讯飞星辰MaaS平台。新版本在推理任务表现、前端开发能力、中文写作水平以及中文搜索能力等方面实现显著提升,在数学、代码类评测集上得分超GPT-4.5。平台提供与DeepSeek官方API一致的效果,支持联网搜索,拓展应用场景。来源:讯飞开放平台
OpenAI宣布Agent SDK 正式支持 MCP 服务,解锁无限工具扩展
OpenAI宣布Agent SDK重大更新,正式支持Model Context Protocol(MCP)服务。MCP如同AI模型的“USB接口”,提供统一标准,使AI智能体能“即插即用”地接入各种第三方工具,如网络搜索、数据库查询等,极大简化多任务开发流程,提升复杂自动化应用开发效率。来源:IT之家
微信 AI 搜索新增“快速思考”,采用混元 T1 模型
微信AI搜索在“快速回答”和“深度思考”之外,新增“快速思考”选项,由腾讯混元T1模型提供支持。可快速生成回答,引用消息源包括公众号推文和网页信息,结果页面支持继续提问和社交分享,历史问答会保存在“最近”列表中。来源:IT之家
谷歌发布Gemini 2.5 Pro,多项测试夺冠,推理能力全面超越OpenAI
谷歌发布Gemini 2.5 Pro,是Gemini 2.5思考模型家族的首个成员。模型在多项基准测试中表现卓越,以1443分在大模型竞技场获断层第一,领先优势达39分,全面超越OpenAI o3-mini等多款知名模型。在“人类最后考试”中,得分较OpenAI o3-mini提升近5%,提升比例达34%。Gemini 2.5 Pro支持100万tokens上下文窗口。来源:智东西
昆仑万维发布全球首款音乐推理大模型Mureka O1,中国AI音乐革命领跑全球
昆仑万维正式发布全球首款音乐推理大模型Mureka O1。模型基于Mureka V6升级,首次引入思维链(CoT)技术,显著提升音乐创作效率与品质。涵盖多种风格与情感表达,具备歌曲参考和音色克隆等特色功能。性能超越Suno V4,登顶SOTA。来源:昆仑万维集团
瑞典AI初创公司Lovable,3个月收入达1.2亿,AI编程市场新奇迹
由Anton Osika和Fabian Hedin创立的瑞典AI公司 Lovable,凭借AI驱动的Web应用开发平台,仅用3个月就实现了从0到1700万美元的年化收入增长。平台支持用户通过自然语言描述功能,AI自动生成可生产代码。是面向非技术人员的AI编程工具。用户留存率超85%,网站月访问量达1000万次。来源:AI工具集
OpenAI发布GPT-4o图像生成功能,免费向用户开放
OpenAI宣布在GPT-4o模型中集成先进图像生成功能,用户可通过自然语言指令生成和编辑图像。新功能支持多轮对话优化图像,保持内容一致性,能处理10至20个物体的复杂指令,远超其他模型。支持文本渲染、风格转换和上下文关联生成。来源:IT之家
它石智航官宣天使轮融资1.2亿美元,开启具身智能创业新征程
具身智能初创公司它石智航(TARS)宣布完成1.2亿美元天使轮融资,创下中国具身智能行业天使轮最大融资额纪录。本轮融资由蓝驰创投、启明创投领投,线性资本等多家知名机构跟投。融资将用于产品研发、模型训练和场景拓展。来源:它石智航
谷歌Gemini Live推出实时AI视频新功能,实时交互能力再升级
谷歌在MWC上承诺的Project Astra与Gemini Live集成功能正式上线。Gemini Live新增屏幕共享功能,用户可通过“Share screen with Live”按钮让AI读取手机屏幕信息并回答问题。实时视频功能可让Gemini通过手机摄像头解读画面并即时回答相关问题。来源:机器之心
DeepSeek V3模型已完成小版本升级,可在官方网页、APP、小程序试用体验
DeepSeek V3发布模型更新。此次更新属于小版本升级,模型参数量达6850亿,新版V3在编程能力上大幅提升,特别在前端编码方面,已接近Claude 3.7水平。用户测试显示,多轮对话的上下文理解能力也显著增强。开源版本已上架HuggingFace。来源:AI工具集
阿里开源Qwen2.5-VL-32B多模态模型,视觉语言与数学推理能力显著增强
阿里开源了最新多模态模型 Qwen2.5-VL-32B-Instruct,参数量 32B,主打视觉语言,兼顾性能与尺寸,适合本地部署。模型经强化学习优化,在数学推理、图像解析等任务中表现出色,超越更大规模的 72B 模型。在多模态任务及纯文本能力上均达同规模最优表现。来源:AI工具集
Trae 支持配置 DeepSeek V3 最新版
Trae宣布支持配置DeepSeek V3最新版(DeepSeek-V3–0324)。Trae是国内首个AI原生IDE,专注于中文开发场景,支持自定义模型接入。DeepSeek-V3–0324拥有6850亿参数,是基于DeepSeek V3的小版本升级。开发者可通过简单配置接入该模型,提升编程体验。来源:Trae&MarsCode
美团已开发内部大模型 LongCat,AI 策略是主动进攻
美团CEO王兴在财报电话会议中表示,美团在人工智能领域采取“主动进攻”策略,定位为连接数字世界与物理世界的桥梁。美团已开发内部大语言模型LongCat,用于日常工作,推出AI编码、智能会议与文档助手等工具,将集成其他主流模型助力产品研发。来源:IT之家
百度“秒哒”正式全量上线,国内首个对话式应用开发平台
百度宣布国内首个“对话式”应用开发平台“秒哒”正式全量上线。平台采用“无代码编程 + 多智能体协作 + 多工具调用”技术组合,用户仅需通过自然语言描述需求,可自动生成完整功能代码,实现“3分钟生成+1小时迭代”的开发体验。来源:AI工具集
OpenAI推出三大音频模型,语音交互技术迈向新高度
OpenAI推出新一代音频模型,包括语音转文本和文本转语音功能。gpt-4o-transcribe显著降低单词错误率,优于现有Whisper模型;gpt-4o-mini-transcribe是精简版本,速度更快、效率更高;gpt-4o-mini-tts首次支持“可引导性”,开发者可控制语音风格。来源:APPSO
腾讯混元自研深度思考模型「T1」正式发布
腾讯正式发布自研深度思考模型混元T1正式版。擅长超长文处理和快速推理,混元T1采用Hybrid-Mamba-Transformer融合架构,降低计算复杂度和内存占用,减少训练和推理成本,在长文本推理领域表现出色,解码速度提升2倍。来源:腾讯混元
生数科技用AI赋能国内动漫短剧市场,7部千万级网文IP改编概念短片
生数科技旗下的AI视频生成平台Vidu宣布获得7部千万级网文IP概念短片改编授权,包括《修罗武神》《九星霸体决》等热门作品。这些IP将通过AI技术改编为动漫短片,标志着网络文学AI影视化改编的新里程碑。来源:Vidu AI
全球客服AI先锋Shulex完成亿元级融资,加速AI数字员工开发与全球化布局
全球化客户服务 AI Agent 企业 Shulex(VOC.AI)近日完成亿元级融资,由 盛大资本领投,北极光创投、Starting Gate Fund 跟投,非凡资本担任独家财务顾问。本轮融资将用于加速大模型驱动的 AI 数字员工开发,扩大全球业务版图。来源:AI工具集
Anthropic AI 聊天机器人 Claude 新增联网搜索功能
Anthropic宣布大语言聊天机器人Claude新增联网搜索功能。用户可在个人设置中开启网页浏览功能,Claude会在需要时自动联网提取信息,在反馈结果中提供直接引用来源方便核实。来源:IT之家
百川智能携手北京儿童医院发布全球首个儿科大模型“福棠·百川”,双医模式助力基层医疗
百川智能携手北京儿童医院发布全球首个儿科大模型“福棠·百川”,推出两款AI儿科医生应用(基层版和专家版)。模型覆盖儿童常见病与疑难病症知识体系,首创儿科“循证模式”,整合医学证据为患儿制定个性化诊疗方案。来源:百川大模型
OpenAI 推出最贵 o1-pro API,定价远超 DeepSeek
OpenAI 推出了最昂贵的API——o1-pro。是o1的升级版,使用更多计算资源以提供更优质响应,仅对特定开发者开放(Tier 1–5)。定价极高:每百万输入token收费150美元,输出token收费600美元。来源:机器之心
飞书字段捷径 —— Kimi 招聘助手上线,助力企业高效招聘
北京月之暗面推出飞书字段捷径 Kimi 招聘助手,为 HR 提供高效招聘支持。工具通过强大的文本分析能力,实现简历信息提取、候选人匹配评估和面试建议生成的一站式服务。用户只需输入简历和职位需求,系统可快速生成关键信息和匹配度分析。来源:Kimi 开发平台
阶跃星辰开源图生视频模型 Step-Video-TI2V,运动可控,动漫效果尤佳!
上海阶跃星辰宣布开源图生视频模型 Step-Video-TI2V。模型基于30B参数,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,在动漫风格视频生成方面表现出色。来源:阶跃星辰
黄仁勋甩出三代核弹AI芯片!个人超算每秒运算1000万亿次,DeepSeek成最大赢家
英伟达GTC大会上,黄仁勋发布了新一代核弹级AI芯片Blackwell Ultra(GB300),性能大幅提升,推理速度可达每秒1000万亿次。芯片配备20TB HBM3内存和40TB快速内存,支持14.4TB/s的CX8带宽。还推出了基于Blackwell Ultra的AI PC,包括DGX Station和DGX Spark,适用于AI推理、机器人训练及自动驾驶等领域。来源:APPSO
豆包编程能力再升级,3分钟做出专属小游戏
字节跳动旗下的AI智能助手豆包宣布AI编程能力升级,新增HTML预览、Python运行和完整项目生成三项功能。用户可通过豆包快速制作小游戏等互动网页。豆包支持HTML代码实时预览和交互,Python代码直接运行并提供一键报错修复,能生成完整项目代码,无需分别编写前后端逻辑。来源:豆包
谷歌 Gemini 更新:新增音频播客、Canvas 画布与 Deep Research 扩容
谷歌 Gemini 最新推出了 Canvas 功能,可用于创建、改进和分享写作与编码项目,实时预览代码效果。新增“文本转音频”功能(Audio Overviews),可将文本对话生成音频播客。免费用户的 Deep Research 使用次数增加至每月 10 次,帮助用户更高效地完成复杂的研究任务。来源:Google
马斯克xAI公司收购视频生成初创公司Hotshot,加速布局AI视频领域
马斯克的xAI公司收购了 Hotshot 视频生成初创公司。Hotshot由4人组成,在13个月内开发出3款视频生成模型,包括Hotshot-XL、Hotshot Act-One和Hotshot。Hotshot模型可生成最长10秒的720p视频。公司由Aakash Sastry和John Mullan于2017年创立,曾获Reddit联合创始人Alexis Ohanian等投资。来源:量子位
谷歌达成迄今最大一笔收购交易,320 亿美元现金买下云安全公司 Wiz
谷歌宣布以320亿美元全现金收购云安全初创公司Wiz,是其迄今最大一笔收购交易。Wiz是一家总部位于纽约的云安全公司,提供连接到所有主要云服务和代码环境的安全平台。此次收购旨在提升谷歌云的安全能力,支持多云环境,推动云安全创新。交易完成后,Wiz将继续在所有主要云平台上运行,包括AWS、Azure和甲骨文云。来源:IT之家
腾讯 Hunyuan3D 2.0 开源:几何与纹理分离,一键生成高精度3D模型
腾讯推出 Hunyuan3D 2.0,开源的高质量 3D 模型生成系统。采用几何与纹理分离的生成架构,通过大规模扩散模型实现高精度几何形状和高分辨率纹理的生成。系统支持文本和图像到 3D 模型的快速转换,具备纹理更换功能。来源:AI工具集
Cursor 推出 Claude 3.7 Max:更强大的代码编辑与项目管理
Cursor 推出 Claude 3.7 Max,提供了更大的200k上下文窗口,支持最多 200 次工具调用,能处理更复杂的代码编辑和项目。专为需要深度理解和大规模修改的复杂任务设计。来源:AI工具集
昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代
昆仑万维开源首款工业级多模态思维链推理模型Skywork R1V。模型具备强大的视觉理解和推理能力,能处理复杂的视觉逻辑推理、数学问题和科学现象分析等任务。在权威基准测试中表现卓越,推理能力领先于行业内众多主流模型。来源:昆仑万维集团
秘塔AI搜索升级:文字秒变可视化网页
秘塔AI搜索升级模型,推出“生成互动网页”功能。用户可在研究模式下将文字内容秒变互动网页,或通过粘贴文章链接快速生成,核心观点一目了然。支持上下滑动查看更多内容,登录后署名分享。来源:AI秘塔
苏姿丰北京激情演讲!点赞DeepSeek,AMD全面拥抱中国
AMD董事会主席兼CEO苏姿丰在北京AMD AI PC创新峰会上发表演讲,强调中国市场对AMD的重要性。会上,AMD展示了锐龙AI Max系列、锐龙AI 300系列等新品,强调AI PC的定制化、自动化和进阶推理趋势。AMD现场演示了DeepSeek模型在AI PC上的本地部署效果,包括生成吃豆人游戏等应用。来源:智东西
Mistral Small 3.1 上线,多模态理解与文本性能双重升级
Mistral AI 推出 Mistral Small 3.1开源多模态人工智能模型。模型在文本性能、多模态理解以及长上下文窗口(128k tokens)方面进行了改进,推理速度可达每秒 150 个 token。在多项基准测试中表现优异,超越了 Gemma 3 和 GPT-4o Mini 等同类模型。来源:AI工具集
QwQ-32B登陆!超算互联网MaaS服务再上新
超算互联网平台推出 QwQ-32B 推理大模型服务。QwQ-32B 已集成至平台的 Chatbot 可视化对话服务和 API 在线调用服务。用户可通过平台一级栏目直接体验其多轮交互和长文本解析能力,满足学术研究、代码生成、日常咨询等需求。来源:超算互联网
蝴蝶效应备案manus.cn顶级域名,此前曾称尽快将创新体验带给中文用户
北京蝴蝶效应科技有限公司的manus.cn域名备案审核通过。此前公司官网域名是manus.im。3月11日,manus官博曾发文表示“尽快将Manus的创新体验带给广大中文用户,敬请期待”。来源:财联社
ima智能工作台升级:五大新功能助力高效办公与创作
腾讯旗下的ima智能工作台在电脑端和移动端(安卓版)迎来更新,更新内容包括:支持使用混元T1模型,适用于复杂任务;新增Markdown文件导入与解读功能;支持修改最新一条问答消息;笔记的AI写作支持多轮对话;笔记中可调用知识库辅助创作。来源:ima.copilot
新浪财经APP喜娜AI助手赋能财经资讯:AI摘要与公告解读新突破
新浪财经APP的喜娜AI助手通过北京市生成式人工智能服务登记,推出“喜娜AI摘要”和“个股公告AI解读”两项创新功能。喜娜AI摘要可快速提炼财经新闻和文章的核心要点,帮助用户高效获取信息;个股公告AI解读基于深度学习模型,深度解析上市公司公告,生成专业解读报告。来源:AI工具集
谷歌 Gemini 2.0 Flash 模型拥有强大图片去水印功能,或触犯版权红线
谷歌推出的Gemini 2.0 Flash模型因强大的图片去水印功能引发争议。模型可去除包括盖蒂图片社等知名图库图片的水印,会填补因水印删除产生的空白区域,目前免费提供给用户使用。来源:IT之家
百度发布文心大模型4.5及X1,两款模型免费上线
百度发布文心大模型4.5和文心大模型X1,在文心一言官网免费开放。文心大模型4.5是新一代原生多模态基础大模型,具备优秀的多模态理解能力和精进的语言能力,通过关键技术如FlashMask动态注意力掩码等实现能力提升。文心大模型X1是能力更全面的深度思考模型,能自主运用工具,在多种场景表现出色。来源:百度
零一万物推出万智,打通企业大模型“最后一公里”,确认不再做超大基模迭代
李开复创立的AI独角兽零一万物宣布推出万智企业大模型一站式平台,为企业级DeepSeek部署提供定制解决方案。平台预装高性能GPU,内置DeepSeek全系列模型,支持多种前沿模型架构,具备灵活扩展性,AI搜索产品准确性高达88%。来源:钛媒体AGI
清华团队开源“赤兔”推理引擎,FP8模型部署成本减半、速度翻番
清华系科创企业清程极智与清华大学翟季冬教授团队联合开源大模型推理引擎“赤兔”(Chitu)。率先实现非H卡设备运行原生FP8模型的突破,在A800集群上部署DeepSeek-671B满血版推理服务时,相比vLLM方案,GPU数量减少50%,速度提升3.15倍。来源:AI工具集
对话姜哲源:3.99万元背后,我们想成为人形机器人赛道的小米和苹果
国内机器人创业公司NOETIX Robotics松延动力发布人形机器人N2和升级版机器人E1,其中E1最低价格为3.99万元起,N2预售价达5.99万元起。N2身高1.2米,具备后空翻、奔跑等多种运动能力,预售量已超500台。创始人姜哲源表示,要让人形机器人不再只是少数人的产品,未来希望成为人形机器人领域的“苹果”。来源:钛媒体AGI
谷歌免费开放Deep Research功能:人人皆可深度探索信息
谷歌近日向所有用户免费开放了Deep Research功能,此前该功能仅限Gemini Advanced付费用户使用。用户可登录Gemini官网体验。来源:AI工具集
谷歌Gemini 2.0 Flash全模态图像生成上线,动嘴就能P图
谷歌Gemini 2.0 Flash全模态图像生成功能正式上线,用户可通过自然语言对话生成和编辑图像,支持文本与图像结合、对话式编辑、世界知识理解和文本渲染等亮点。开发者可通过Gemini API或Google AI Studio使用。来源:AI工具集
潞晨科技重磅开源 Open-Sora 2.0,视频大模型降本提速
潞晨科技推出开源视频生成模型Open-Sora 2.0,仅用20万美元(224张GPU)成功训练11B参数商业级模型,性能媲美百万美元成本的主流闭源模型。模型在VBench评测中表现优异,与OpenAI Sora的性能差距大幅缩小至0.69%。来源:潞晨科技
谷歌推出新一代开源模型 Gemma 3,单卡最强多模态模型
谷歌推出新一代开源模型 Gemma 3,是 Gemma 模型家族的最新版本。Gemma 3 支持多模态输入,包括视觉语言输入和文本输出,能处理长达 128k 令牌 的上下文窗口,涵盖超过 140 种语言。在数学、推理和对话能力上都有显著提升,提供结构化输出和函数调用功能。来源:AI工具集
阿里巴巴推出AI旗舰应用——新夸克,发布“AI超级框”
阿里巴巴推出全新AI旗舰应用“新夸克”。新夸克基于阿里通义领先的推理及多模态大模型,全面升级为无边界的“AI超级框”,为2亿用户带来全新AI体验。与对话式AI不同,夸克将AI对话、深度思考、深度搜索、深度研究、深度执行整合到一个极简“AI超级框”内,一站式满足用户需求。来源:阿里巴巴
理想汽车推出“理想同学网页版”,集成DeepSeek R1与MindGPT双模型
理想汽车推出“理想同学网页版”,集成DeepSeek R1与MindGPT双模型,提供高效智能服务。用户可通过网页版进行深度思考和联网搜索,实现复杂任务的简化处理。MindGPT支持图文问答,提升交互体验。来源:AI理想同学
智元机器人与阶跃星辰达成战略合作,共同探索AI+具身智能场景
智元机器人与阶跃星辰正式签署战略合作协议。双方将利用各自优势,在具身智能与大模型领域展开全方位合作,聚焦新零售等场景解决方案开发、具身智能数据合作及世界模型技术探索。来源:智元机器人
Trae功能上新:支持 Remote-SSH 和自定义模型配置
Trae发布新功能,更新支持Remote-SSH远程开发,开发者可在本地通过Trae访问和操作远程主机文件夹,享受代码补全、调试等AI辅助功能。Trae新增自定义模型配置,用户可接入火山引擎、DeepSeek、硅基流动、阿里云、腾讯云等服务商的模型资源,满足个性化需求。来源:Trae&MarsCode
OpenAI 发布 Agent 工具包,助力开发者构建智能体
OpenAI发布了专为构建AI Agents设计的新工具包,包括Responses API、Web搜索工具、文件搜索工具、计算机使用工具以及开源的Agents SDK。简化开发者创建自动完成任务的AI Agents的过程。来源:APPSO
豆包文生图技术报告发布!数据处理、预训练、RLHF全流程公开
字节跳动豆包大模型团队发布文生图技术报告,首次公开 Seedream 2.0 图像生成模型技术细节。模型覆盖数据构建、预训练框架及后训练 RLHF 全流程,具备原生中英双语理解、文字渲染、高美感等特性。Seedream 2.0 已在豆包 APP 和即梦上线。来源:豆包大模型团队
李飞飞团队新成果 BEHAVIOR Robot Suite:500美元打造全能家务机器人
李飞飞团队推出具身智能新成果——BEHAVIOR Robot Suite(BRS),解决机器人在家庭环境中完成家务任务的全身操作问题。BRS的核心组件成本不到500美元,具备三项关键能力:双臂协同、稳定导航和末端执行器的广泛操作范围。团队通过JoyLo低成本遥操作接口和WB-VIMA学习算法,实现了高效的数据采集和全身动作协调。来源:量子位
Manus将与阿里通义千问团队正式达成战略合作
Manus平台宣布与阿里通义千问团队达成战略合作。双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能,为中国用户打造更具创造力的通用智能体产品。来源:财联社
DeepSeek-R1 & V3 API 再升级,支持批量推理,R1 价格直降 75%
硅基流动SiliconCloud平台宣布DeepSeek-R1 & V3 API升级,新增批量推理功能。用户通过批量API发送请求,不受实时推理速率限制,24小时内完成任务。3月11日至18日,DeepSeek-R1批量推理价格直降75%,输入1元/百万Tokens,输出4元/百万Tokens。来源:硅基流动
智元机器人发布灵犀X2:双足人形机器人解锁情感交互与灵活运动新技能
智元机器人发布灵犀X2,具备高自由度运动、情感计算和通用任务执行能力的双足人形机器人。灵犀X2全身28个自由度,未采用并联结构,运动灵活,能骑自行车、踩滑板车。搭载情感计算引擎,可感知情绪并回应,交互反应达毫秒级。来源:AI工具集
字节推出音效生成模型 SeedFoley,一键生成大片感音效!
字节跳动豆包大模型语音团队推出 SeedFoley 模型,通过端到端架构实现视频音效智能生成,将 AI 视频创作带入“有声时代”。“AI 音效”已上线即梦,用户可一键生成 3 个专业级音效方案。来源:AI工具集
阿里开源 R1-Omni:DeepSeek 同款 RLVR 技术赋能全模态情感识别
阿里通义实验室薄列峰团队开源 R1-Omni 模型,首次将 DeepSeek 同款 RLVR 技术应用于全模态情感识别。模型结合视觉和音频模态,通过 RLVR 和 GRPO 方法优化,在情感识别的推理能力、理解能力和泛化能力上显著提升。来源:AI工具集
豆包大模型团队 COMET 系统开源,万卡集群部署节省数百万 GPU 小时
字节跳动豆包大模型团队推出通信优化系统 COMET,针对 MoE 模型分布式训练中的通信瓶颈,通过细粒度计算-通信重叠技术,实现单层 1.96 倍加速,端到端平均 1.71 倍效率提升。COMET 已在万卡级生产集群落地,节省数百万 GPU 小时资源,获 MLSys 2025 高分评审,核心代码已开源。来源:豆包大模型团队
百度文心快码推出Zulu:从需求到代码的端到端生成
百度文心快码推出AI自动编程智能体Zulu,为开发者提供从需求到代码的端到端生成服务。Zulu能自主理解编码需求,精准拆解任务,突破单文件限制,实现跨模块、跨目录的系统级代码生成。支持多种编程语言和框架,具备多文件编辑与管理、一键采纳变更代码、工具调用、实时预览和多模态交互等功能。来源:AI工具集
科大讯飞联合华为率先实现国产算力大规模跨节点专家并行集群推理
科大讯飞与华为联合团队在国产算力领域取得重大进展,率先突破了国产算力集群上MoE模型的大规模跨节点专家并行集群推理。通过软硬件深度协同创新,团队在昇腾集群上完成了验证和部署,实现了显著的性能提升。来源:科大讯飞研究院
百度上线“月匣”App,第4次冲击AI社交
百度推出情感陪伴类App“月匣”,主打高自由度AI对话与沉浸式剧本互动。App搭载文心一言大模型,整合DeepSeek、豆包、MiniMax abab三大外部模型,构建“四核驱动”的AI社交引擎。通过多模型协同和沉浸式剧本交互,重新定义情感陪伴类应用边界,填补情绪刚需空白。来源:AI工具集
OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为
OpenAI公布最新研究,通过CoT(思维链)监控方式监控推理模型的“想法”,阻止AI大模型恶意行为,如胡说八道、隐藏真实意图等。测试中,以o3-mini为被监控对象,GPT-4o为监控器,在编码任务环境下,CoT监控器检测系统性“奖励黑客”行为召回率达95%,远超仅监控行为的60%。来源:IT之家
鸿海首个大语言模型 FoxBrain 发布:具备推理能力
鸿海推出首个大语言模型“FoxBrain”,基于 Meta 的 Llama 3.1 架构,由 120 块英伟达 H100 GPU 训练完成,训练周期约四周。模型具备推理能力,适配繁体中文及本土语言风格,主要用于内部数据分析、决策辅助、文档协作等场景。来源:AI工具集
Manus 沙盒代码被获取,基座模型为:Claude Sonnet 及阿里 Qwen 微调模型
网友通过查找 /opt/.manus/ 下的文件获取了 Manus 沙盒运行代码,发现 Manus 使用了 Claude Sonnet 模型及基于该模型的 29 个工具,未使用 Claude 多智能体,还使用了 Browser Use 的开源代码作为 Computer use 能力底座。Manus 联合创始人季逸超回应称,沙盒代码的“泄露”是设计的一部分,每个对话都有独立沙盒环境。来源:第一财经
MetaGPT 团队推出 OpenManus :开源版 Manus
MetaGPT的5人小团队仅用3小时成功复刻了开源版Manus——OpenManus,在GitHub上获得了8k+的star。OpenManus无需邀请码,可以自由使用。用户可通过创建conda环境、克隆存储库、安装依赖项并配置API密钥等步骤快速上手使用。来源:AI工具集
智元发布首个通用具身基座大模型GO-1
智元机器人发布首个通用具身基座大模型Genie Operator-1(GO-1)。模型基于创新的Vision-Language-Latent-Action(ViLLA)架构,融合多模态大模型(VLM)和混合专家系统(MoE),通过预测隐式动作标记,弥合图像-文本输入与机器人动作执行之间的差距。来源:智元机器人
超算互联网QwQ-32B API接口服务上线,免费100万Tokens
超算互联网平台上线阿里巴巴开源推理模型QwQ-32B的API接口服务,提供免费100万Tokens。QwQ-32B基于Qwen2.5-32B+强化学习构建,在数学和代码能力上表现优异。用户可通过超算互联网平台快速开发或私有化部署该模型,平台提供保姆级教程,支持多种访问形式。来源:超算互联网
北京大学联合华为发布全栈开源DeepSeek推理方案
北京大学联合华为发布DeepSeek全栈开源推理方案。方案基于北大自研的SCOW算力平台系统、鹤思调度系统,整合了DeepSeek、openEuler、MindSpore与vLLM/RAY等开源组件,实现了华为昇腾上的高效推理,支持大规模算力集群的训推一体化部署。来源:北京大学高性能计算校级公共平台
CAMEL-AI推出OWL项目:0天复刻Manus,开源且性能卓越
CAMEL-AI开源社区推出OWL项目,成功0天复刻Manus通用智能体完全开源,性能在GAIA Benchmark上达到57.7%,超越Huggingface的Open Deep Research(55.15%)。OWL项目免费,支持GitHub一键克隆,提供云端和本地两种执行环境。来源:CAMEL-AI
Mistral AI 推出 Mistral OCR API:最快最准光学字符识别,千页 1 美元
Mistral AI推出Mistral OCR,先进的光学字符识别(OCR)API。能精准识别文档中的文本、图像、表格、公式等复杂元素,支持多语言和多模态输入,处理速度可达每分钟2000页。在基准测试中,Mistral OCR的准确率高达94.89%,全面领先其他OCR模型。来源:AI工具集
OpenAI 更新 macOS 版 ChatGPT,可在 Xcode 等 IDE 中直接编辑代码
OpenAI更新macOS版ChatGPT应用,新增在Xcode、VS Code等IDE中直接编辑代码的功能。用户通过“与应用程序协作”功能,可让ChatGPT自动检测当前活跃编辑器并交互,能在编辑过程中对话ChatGPT。来源:IT之家
全球首款通用 AI Agent 产品 Manus 发布,刷新 AI 基准测试纪录
Monica.im团队推出全球首款真正自主的AI Agent产品Manus,引发AI圈关注。Manus采用多代理架构,能独立思考、规划并执行复杂任务,直接交付完整成果。在 GAIA 基准测试中创下新纪录,远超 OpenAI 同类产品。来源:AI工具集
腾讯混元开源图生视频模型,上线音频与动作驱动能力,助力创意视频创作
腾讯正式发布并开源混元图生视频模型。模型支持用户通过上传一张图片输入简短描述,可生成5秒的短视频,同时具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种场景,包括写实、动漫和CGI角色制作,总参数量为130亿。来源:AI工具集
通义千问QwQ-32B,更小尺寸,性能比肩全球最强开源推理模型
阿里云通义千问团队推出320亿参数的推理模型QwQ-32B,性能媲美6710亿参数的DeepSeek-R1。模型通过大规模强化学习提升推理能力,在数学推理、编程能力等多领域表现卓越,超越多个领先模型。QwQ-32B集成Agent能力,支持批判性思考与动态调整。来源:通义千问Qwen
逐际动力半年完成5亿元融资,阿里、蔚来、联想等巨头加持
具身智能机器人公司「逐际动力」近期完成A+轮融资,半年内累计融资5亿元人民币。此次融资由阿里巴巴、蔚来资本、联想创投等多家知名机构参与,将用于加速人形机器人研发与商业化落地。专注于全尺寸通用人形机器人及双足机器人开发。来源:36氪
智源开源多模态向量模型BGE-VL:多模态检索新突破
智源研究院联合多所高校开发了多模态向量模型 BGE-VL,推动多模态检索技术的突破。模型基于大规模合成数据集 MegaPairs 训练,具备优异的可扩展性和数据质量。MegaPairs 通过自动化挖掘和标注多模态数据,仅需传统数据量的 1/70 即可实现更优效果。来源:智源研究院
Cohere 推出 Aya Vision,突破多语言多模态 AI 新纪元
Cohere For AI 推出领先的多模态、多语言视觉模型 Aya Vision,支持 23 种语言,覆盖全球超半数人口。Aya Vision 在多语言图像理解和文本生成任务中表现出色, 8B 和 32B 版本在性能上超越了包括 Llama-3.2 90B Vision 在内的更大规模模型。来源:AI工具集
Vidu API 开放平台全面开放,开启智能化内容生产范式
全球领先的专业级视频生成服务Vidu API开放平台全面开放,面向企业级用户与个人开发者。具备多模态语义理解能力,支持文字、图片等多模态指令输入,精准匹配创作意图。动漫风格稳定,画面流畅,帧间一致性高,首创多主体一致性技术,突破模型上下文理解限制。来源:Vidu AI
OpenAI宣布提供3.6亿,联合15个大学和机构建立NextGenAI教育联盟
OpenAI宣布成立NextGenAI教育联盟,联合15家顶尖大学和机构,包括加州理工学院、哈佛大学、麻省理工学院、牛津大学等。OpenAI将提供5000万美元(约合人民币3.6亿元)的研究补助金、计算资源和API访问权限,支持学生、教育工作者和研究人员推进AI研究与教育创新。来源:钛媒体AGI
智谱发布开源图像生成模型CogView4,首个支持中英双语,图像生成迎来新突破
智谱正式发布并开源最新的图像生成模型CogView4。模型具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,可生成任意分辨率的图像。CogView4在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的最先进技术(SOTA)。来源:GLM大模型
通义灵码上新Qwen2.5-Max模型,体验数学和编程双冠王能力
阿里云和通义实验室联合推出的AI编码助手“通义灵码”上线了Qwen2.5-Max模型。模型使用超过20万亿token的预训练数据及优化的后训练方案,在Arena-Hard、LiveBench等基准测试中,Qwen2.5-Max领先业界,在数学和编程能力上排名第一。来源:通义灵码
Anthropic完成35亿美元E轮融资,估值飙升至615亿美元
Anthropic完成35亿美元E轮融资,估值达615亿美元。本轮融资由Lightspeed Venture Partners领投,Bessemer Venture Partners、Cisco Investments等多家机构参与。资金将用于推进下一代AI系统开发、扩大计算能力、加速国际扩张。Anthropic推出的Claude 3.7 Sonnet和Claude Code,在代码能力上取得突破。来源:Anthropic
秘塔AI搜索推出视频搜索功能,高效学习娱乐新体验
秘塔AI搜索推出新功能,新增“视频”搜索模块。功能基于对上亿条视频内容的分析,覆盖多模态数据,用户可通过关键词快速找到学习或娱乐视频。来源:AI秘塔
百川智能调整业务布局,聚焦医疗领域
百川智能近期对To B业务进行重大调整。2025年3月3日,金融行业To B团队被裁撤,此前,团队曾负责金融领域的大模型商业化,推出Baichuan4-Finance等产品。此次调整是为聚焦医疗领域,百川已在该领域布局,如投资医疗数据服务商“小儿方”并计划落地AI医生助理。来源:智能涌现
智谱AI完成超10亿元新轮战略融资,杭州城投产业基金参与投资
智谱AI完成超10亿元战略融资,投资方包括杭州城投产业基金等。两轮融资期间近三个月DeepSeek的RL训练模式引发行业变革,促使OpenAI等公司调整战略,降低GPT-4 Turbo价格考虑开源。智谱AI在开源生态和基座模型上持续投入,计划发布并开源全新大模型产品,同时调整B端与C端业务,强化行业定制化与多模态交互体验。来源:智谱
中国首款AI IDE:Trae国内版发布,配置豆包1.5pro,支持切换满血版DeepSeek模型
中国首个AI原生集成开发环境(AI IDE)Trae国内版正式上线。Trae配置了Doubao-1.5-pro,支持切换满血版DeepSeek R1、V3模型,专为中国开发者设计,支持代码补全、理解、Bug修复及自然语言生成代码等功能,通过Builder模式实现“思想到代码”的快速转化,提升开发效率。来源:豆包MarsCode
MiniMax Video-01系列收官,海螺视频App全球上线
MiniMax宣布Video-01系列收官,推出海螺视频App全球上线。海螺视频App集成了图生视频模型I2V-01-Director和文生图视频模型T2V-01-Director,组成01-Director系列,为用户提供15种可自由组合的运镜效果,支持多运镜镜头组合和自然语言控制镜头运动。来源:MiniMax 稀宇科技
科大讯飞星火X1升级,推出星火一体机及多款新品
科大讯飞宣布星火X1大模型升级,并发布多款新品。星火X1在数学能力上显著提升,首发星火医疗大模型X1,已应用于“讯飞晓医”,在医疗推理任务上超越GPT-4o和DeepSeek R1。科大讯飞联合华为升级星火一体机,推出医疗、政务、高教、法律、警务五大场景一体机,发布首款“星火X1+DeepSeek”双引擎AI学习机,推动AI在多领域的深度应用。来源:科大讯飞
亚马逊推出Alexa+:五大技术突破 AI 助手新体验
亚马逊云科技宣布推出Alexa+,下一代AI助手。Alexa+采用全新架构,连接大语言模型、智能体能力、服务和设备,实现更智能、更具个性化的用户体验。五大技术突破包括:全新架构连接数以万计的服务和设备;精准系统提供准确实时信息;极致优化降低延迟;个性化响应定制专属体验;新增智能体能力突破API限制。来源:亚马逊云科技
“腾讯元宝电脑版”正式发布:混元大模型 / DeepSeek 双模切换
腾讯元宝电脑版正式上线。具备便捷的文件管理、在线协作编辑、实时沟通等功能,提升团队协作效率。用户可以在电脑端享受与移动端一致的流畅体验,支持多平台无缝切换,满足远程办公、团队协作等多样化需求。来源:AI工具集
飞书推出个人 AI 知识库“飞书知识问答”,支持调用 DeepSeek R1
字节跳动旗下的飞书推出“飞书知识问答”的个人AI知识库产品。通过自然语言对话形式,为用户提供资料整合与搜索问答服务。用户可以将飞书内的文件、文档等资料同步至知识库,或手动上传本地文件,系统会自动解析整合。来源:AI工具集
夸克AI搜索上线深度思考,新亮点,新体验!
夸克AI搜索上线了“深度思考”功能,升级AI搜索体验。更新聚焦于提升搜索结果的深度和精准度。通过深度思考技术,结合AI搜索,能快速从多个权威来源整理答案,提供更精准、简洁的搜索体验。夸克集成了AI写作、生图、PPT制作、翻译等功能,一站式解决用户在工作和生活中的多样化需求。来源:夸克APP
Trae已全量支持Claude 3.7!免费!
Trae v1.0.8版本正式发布,新增对Claude 3.7 Sonnet模型的全量支持,为用户提供更强大的AI生成能力。资源有限,响应可能延迟,服务目前免费,用户可体验更高效、智能的AI功能。来源:AI工具集
OpenAI发布GPT-4.5:更智能、更具情商的聊天模型
OpenAI推出GPT-4.5,作为最强聊天模型的研究预览版本,目前仅对Pro用户和开发者开放。GPT-4.5通过扩大无监督学习,提升了模式识别、知识广度和创造力,减少了幻觉现象,对话更自然。在写作、编程和解决问题上表现出色,具备更高情商,能更好地理解人类意图。来源:AI工具集
DeepSeek开源高性能并行文件系统 3FS 实现聚合吞吐 6.6 TiB/s
DeepSeek在开源周最后一天发布了Fire-Flyer File System(3FS)和Smallpond数据处理框架。3FS是一种高性能并行文件系统,专为AI训练和推理设计,支持大规模集群的高吞吐量数据访问,峰值读取吞吐量达6.6 TiB/s。Smallpond基于3FS和DuckDB构建,支持高效数据处理,可扩展至PB级数据集。来源:AI工具集
百度文心大模型4.5,3月16日正式上线
百度宣布文心大模型4.5将于3月16日正式上线。两年前的同一天,百度发布了全球首个生成式AI产品——文心一言。此次升级后的文心大模型4.5在基础模型能力上大幅提升,新增原生多模态和深度思考能力。来源:百度
荣耀、阿里在 AI 领域达成合作:千问、万相等多个模型已接入 YOYO 智能体
百荣耀宣布与阿里在AI领域达成合作,千问(Qwen)和万相(Wan)等多款语言、视觉理解及图像生成模型已接入荣耀YOYO智能体。用户可通过Magic7系列手机体验相关AI功能。YOYO助理已上线DeepSeek-R1满血版,支持深度思考模式,答案更精准、及时。来源:IT之家
腾讯混元新一代快思考模型 Turbo S 发布,实现秒级响应
腾讯发布新一代快思考模型混元Turbo S,模型在知识、数理、创作等方面表现出色,实现“秒回”功能,吐字速度提升一倍,首字时延降低44%。混元Turbo S采用Hybrid-Mamba-Transformer融合架构,有效降低计算复杂度和部署成本。来源:腾讯混元
DeepSeek开源新动作:三大并行计算优化技术,助力大模型训练效率飞跃
DeepSeek开源三项并行计算优化技术,DualPipe 是一种双向流水线并行算法,通过计算与通信的完全重叠,显著减少流水线气泡,优化 GPU 资源利用率。EPLB(专家并行负载均衡器)通过冗余专家策略和负载均衡技术,解决专家并行中 GPU 负载不均的问题。profile-data 提供详细的性能分析数据,帮助开发者深入理解并行策略优化。来源:AI工具集
Anthropic 全面开放 Claude AI 的 GitHub 集成,赋能所有开发者
Anthropic宣布全面开放Claude AI的GitHub集成,面向免费、Pro和Teams用户。集成后,用户可将GitHub代码库同步至Claude,使其理解代码上下文,辅助测试、调试和优化代码。来源:IT之家
微软开源Phi4多模态与Phi4-Mini:端侧AI迎来最强小模型
微软开源两款小模型Phi-4-Multimodal和Phi-4-Mini。Phi-4-Multimodal是多模态模型,集成了文本、视觉和语音输入,采用“混合LoRA”技术,表现出色。Phi-4-Mini是3.8亿参数的语言模型,擅长数学和编码任务,性能优于同尺寸模型。来源:AI工具集
DeepSeek API 错峰优惠,R1 价格降至1/4
DeepSeek推出API错峰优惠,2025年2月26日起,DeepSeek开放平台在北京时间每日00:30至08:30的夜间空闲时段,DeepSeek-V3 API调用价格降至原价的50%,DeepSeek-R1价格低至原价的25%。鼓励用户在夜间利用平台资源,享受更经济、更流畅的服务体验。来源:DeepSeek
阿里云开源视频生成大模型“Wan2.1”,全模态、全尺寸助力全球开发者
阿里云开源视频生成大模型“万相2.1”,采用Apache 2.0协议,提供14B和1.3B两个参数版本,支持文生视频和图生视频任务。14B版本在复杂运动生成和物理建模方面表现卓越,1.3B版本能在消费级显卡上运行,仅需8.2GB显存可生成480P视频。万相2.1在权威评测集Vbench中以86.22%的总分超越国内外众多模型。来源:AI工具集
DeepSeek开源FP8 GEMM库:极致优化Hopper GPU性能,助力AI训练与推理
DeepSeek开源周第三弹发布——DeepGEMM,是专为Hopper GPU设计的FP8 GEMM库,支持密集和MoE GEMM,性能高达1350+ TFLOPS。采用JIT即时编译,无需预编译,核心代码仅约300行,支持多种矩阵布局,矩阵运算提速显著。来源:AI工具集
谷歌推出 Gemini Code Assist 个人版编程工具,免费可用
谷歌推出面向个人开发者的免费编程工具 Gemini Code Assist,帮助学生、爱好者和初创公司更便捷地获取AI编程支持。工具基于谷歌Gemini 2.0模型驱动,支持38种语言,提供每月最多18万次代码补全服务,远超其他同类产品。来源:AI工具集
Claude 3.7 Sonnet发布:AI推理与编码能力的双重突破
Anthropic发布全球首个混合推理模型——Claude 3.7 Sonnet。模型结合了标准和扩展思考模式,可在快速响应与深度思考间切换,用户可通过API细粒度控制思考时间。Anthropic推出命令行工具Claude Code,支持代码搜索、编辑、测试、提交及复杂应用开发,显著提升开发效率。来源:AI工具集
DeepSeek 开源通信库 DeepEP,大幅提升 MoE 模型训练与推理效率
DeepSeek 开源周第二天,发布开源项目 DeepEP,专为混合专家模型(MoE)训练和推理设计的高效通信库。DeepEP 提供高吞吐量和低延迟的全对全 GPU 内核,支持 NVLink 和 RDMA 通信,优化训练和推理效率。来源:AI工具集
ChatGPT 变身苹果 Safari 浏览器默认搜索引擎
OpenAI更新ChatGPT应用,新增Safari扩展功能,用户可将ChatGPT设为Safari地址栏的默认搜索引擎。更新后,用户在“设置”中启用“ChatGPT搜索扩展”,输入搜索查询时,结果将直接由ChatGPT提供,非传统的谷歌等搜索引擎。来源:IT之家
阿里Qwen团队发布推理模型QwQ,会展示完整的思维链
阿里通义千问团队推出QwQ-Max-Preview深度思考模型,支持联网搜索,具备强大的通用能力,可完成创意写作、代码生成、数学题解答等任务。模型基于Qwen2.5-Max构建,未来将以Apache 2.0许可协议开源。目前已上线官网,用户可通过点击“深度思考(QwQ)”按钮体验。来源:AI工具集
Perplexity 官宣“Comet”浏览器,主打“AI 智能体搜索”
Perplexity AI 宣布进军浏览器市场,推出名为“Comet”的浏览器。浏览器以“AI 智能体搜索”为核心概念,提供更贴近用户需求的搜索体验。Comet 已开启注册,具体上线时间和功能细节尚未公布。Perplexity AI 称 AI 技术将优于谷歌 Chrome 和微软 Edge 等现有浏览器的搜索体验。来源:IT之家
字节AI加速调整,豆包正测试深度思考模型,暂未接入DeepSeek
字节跳动旗下AI助手“豆包”正在小范围测试深度思考模型,但未接入DeepSeek,是采用自研技术。目前,豆包的深度思考功能尚未开放,部分测试用户已能体验到思维链的呈现。自DeepSeek开源后,字节AI部门面临重大调整。来源:Z Finance
DeepSeek 开源周首日推出 FlashMLA,为 Hopper GPU 优化的高效 MLA 解码内核
DeepSeek启动“开源周”,首个开源项目为FlashMLA,是针对NVIDIA Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列设计。灵感来源于FlashAttention 2&3和Cutlass项目。FlashMLA支持CUDA 12.3及以上版本、PyTorch 2.0及以上版本。来源:AI工具集
LiblibAI一年内完成四轮融资,再次斩获数亿元资金
LiblibAI宣布在过去一年内连续完成四轮融资,创下国内AI应用赛道融资速度新纪录。最新两轮融资由渶策资本、顺为资本领投,明势创投等跟投,巨人网络参与产业投资。LiblibAI致力于AI内容创作与分享,已拥有超2000万创作者和5亿张生成图片。本轮融资将重点投入创作者生态建设和技术研发,推动平台全球化发展。来源:LiblibAI
爱诗科技推出PixVerse V4:5秒生成AI视频,音画同步
爱诗科技发布PixVerse V4,带来AI视频创作新突破。新增“音效”功能,可自动生成与视频内容匹配的音效;“人声”功能可为视频角色生成口型一致的配音;“重绘”功能支持一键切换视频风格,提供赛博、芭比等多种风格。生成速度可达5秒。来源:爱诗科技 AIsphere
LiblibAI 作为独家 AIGC 创作合作平台接入阶跃开源视频生成大模型
上海阶跃星辰智能科技有限公司开源的视频生成大模型“Step-Video-T2V”正式接入LiblibAI平台,LiblibAI成为其独家AIGC创作合作平台。此次合作推动AI技术的普及与创新,为全球开发者和创作者提供更优质的服务。来源:阶跃星辰
马斯克宣布 Grok 3 语音模式早期测试版已上线
马斯克在社交平台X宣布,Grok 3语音模式早期测试版已在Grok应用程序上线。支持用户通过自然语言与AI对话,提供两种声音(Ara和Grok)及不同个性,支持添加自定义说明和分享对话。来源:IT之家
月之暗面 Kimi 开源“Moonlight”混合专家模型
月之暗面Kimi发布“Moonlight”混合专家模型(MoE),包含30亿和160亿参数版本。模型在Muon技术基础上训练,使用了5.7万亿个token,以更低的浮点运算次数(FLOPs)实现更优性能,提升了帕累托效率边界。团队通过添加权重衰减等技术优化Muon优化器,无需超参数调优可用于大规模训练,计算效率是AdamW的2倍。来源:AI工具集
小红书将接入DeepSeek,AI搜索“点点”iOS版下载量总计约20万
小红书即将接入DeepSeek-R1开源模型,在AI搜索产品“点点”App中推出“深度思考”功能,目前处于内测阶段。“点点”App自上线以来,iOS版下载量总计约20万次。“点点”,定位为生活搜索助手,覆盖多种生活场景。来源:钛媒体AGI
DeepSeek 官宣下周陆续开源 5 个代码库,每日解锁新内容
DeepSeek宣布将在下周陆续开源5个代码库,每日解锁新内容。公司表示,这些经过测试和部署完备的代码库可投入生产环境,将“毫无保留地分享进展”。DeepSeek自称为“小小的团队”,强调该领域没有“象牙塔”。来源:IT之家
Figure推出Helix:凭单神经网络实现上身控制与自然语言交互
人形机器人公司Figure推出通用控制模型Helix,是与OpenAI断交后的首个成果。Helix通过单一神经网络控制机器人整个上身,包括手腕、躯干和手指,能理解自然语言指令,完成拿起物品、打开冰箱等任务,可协作完成复杂操作。来源:AI工具集
Spotify 启动 AI 配音有声书服务,29 种语言可供选择
Spotify宣布与ElevenLabs合作推出AI配音有声书服务。支持29种语言,为作者提供多种合成语音选项。免费版每月提供10分钟文本转语音服务,付费套餐起价99美元,可生成500分钟配音。Spotify认为,AI配音能让小型作者更低成本地制作有声书,便于旧书有声化。来源:IT之家
腾讯元宝升级:DeepSeek图生文功能上线
腾讯元宝上线图生文功能,结合混元和DeepSeek技术,可理解图片内容提供分析。结合混元的多模态理解技术后,在关闭联网搜索的情况下,用户发送任意图片并提问,元宝都能给出自己的理解和分析。来源:腾讯
英伟达推出 Signs AI 平台,助力美式手语学习与无障碍沟通
英伟达携手美国聋童协会(ASDC)和 Hello Monday 推出 Signs AI 平台,帮助更多人学习美式手语(ASL)。平台通过摄像头捕捉手势提供实时反馈,使用 3D 虚拟人物演示正确动作,方便用户对比学习。Signs 平台通过用户贡献的视频不断优化模型,数据集包含 40 万个视频片段,涵盖 1000 个手语单词。来源:AI工具集
「捏 Ta」X「清影」达成战略合作,多模态模型商业化持续发力
AI角色创作平台“捏Ta”与智谱旗下的多模态模型“清影”达成战略合作,共同探索从AI角色设计到动画创作的完整路径。此次合作基于智谱最新升级的视频生成大模型CogVideoX-2,显著提升了模型的图像生成和指令遵从能力,支持高质量视频创作。上线首日,“捏Ta”平台完成4万+次视频生成,调用上亿次Tokens。来源:智谱
ima App安卓端正式上线 云存储空间扩容至2GB
腾讯旗下的AI智能工作台ima App正式上线。ima App安卓版可通过官网或腾讯应用宝下载,iOS版也将随后推出。ima App延续了简洁设计风格,整合了电脑端和小程序的核心功能,ima云存储空间扩容至2GB,满足用户多场景需求。来源:ima.copilot
xAI 公司宣布 Grok 3 限时免费开放,直到服务器不堪重负为止
马斯克旗下人工智能公司xAI宣布,Grok 3现向公众免费开放,直至服务器不堪重负。所有用户均可免费使用Grok 3的推理和深度搜索功能。X Premium+和SuperGrok订阅用户将享有优先访问权及语音模式等高级功能。来源:IT之家
Codeium 获新一轮融资,估值推至 28.5 亿美元
AI编程初创公司Codeium完成新一轮融资,估值达28.5亿美元。此次融资距C轮融资仅6个月,当时估值为12.5亿美元。Codeium专注于为企业提供服务,去年推出Windsurf Editor工具,可自动编写部分代码。来源:IT之家
「灵境AI」完成数百万元种子轮融资,打造AI时代文创IP“造梦新基建”
灵境AI完成数百万元种子轮融资,打造AI时代文创IP“造梦新基建”。专注于文创内容生成的AI科技公司,核心业务涵盖网文大数据平台、AI短篇小说工厂、AI动漫创作引擎和内容出海计划。通过“创意洞察+AI提效”模式,在小说、动漫、微短剧等领域实现智能化生产,大幅提升创作效率和分发效率。来源:灵境AI创作
「灵宝CASBOT」完成超亿元天使轮融资,加速推进人形机器人量产进程
北京中科慧灵机器人技术有限公司(灵宝CASBOT)近日完成超亿元天使轮融资,投资方包括联想创投、国投创合、河南资产基金等。本轮融资将加速人形机器人量产及核心技术研发。2024年11月,公司发布首款双足人形机器人CASBOT 01,拥有52个自由度,算力达550T,续航超4小时。来源:36氪
OpenAI 推出大模型测试基准 SWE-Lancer
OpenAI 官方宣布,推出全新的大模型测试基准SWE-Lancer,用于评估大语言模型(LLMs)在自由职业软件工程任务中表现的基准测试。基准包含来自 Upwork 的 1400 多个真实任务,总价值达 100 万美元,涵盖从简单修复到复杂功能开发的全栈工程任务。来源:AI工具集
硅基流动完成新一轮亿元人民币融资
硅基流动于2024年底完成亿元人民币Pre-A轮融资,由华创资本领投,普华资本跟投,耀途资本超额跟投,华兴资本担任财务顾问。此前,硅基流动已引入美团作为战略股东。大模型云服务平台SiliconCloud上线不到一年,用户数超300万,日均调用上千亿Token,支持上百款主流模型。来源:硅基流动
xAI 发布 Grok 3 聊天机器人,性能较前代提升十倍
马斯克旗下xAI公司发布新一代大模型Grok 3,Grok 3在数学推理、科学逻辑和代码写作等能力上表现卓越,超越DeepSeek-v3、GPT-4o和Gemini-2 Pro等模型。开发依托10万块英伟达H100 GPU的Colossus超级计算机,训练时长2亿GPU小时,性能较前代提升十倍。Grok 3引入推理模式和“DeepSearch”功能,支持复杂问题的深度思考。来源:AI工具集
月之暗面推出最新模型:Kimi Latest,开放平台同步上线
月之暗面科技宣布推出Kimi智能助手最新模型——Kimi Latest。模型对标Kimi智能助手当前使用的最新大模型,支持128k上下文长度,具备图片理解能力,支持自动上下文缓存。Kimi Latest适用于大模型聊天应用,如ChatWise、ChatBox等,可提供与Kimi智能助手相似的聊天体验。来源:Kimi 开放平台
阶跃星辰联合吉利首次开源,为开源世界贡献多模态力量
阶跃星辰与吉利汽车集团联合开源两款多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音交互模型。Step-Video-T2V参数量达300亿,可生成高质量视频,性能领先全球开源视频模型。Step-Audio是业内首款产品级开源语音交互模型,支持多语种、方言、情感表达及音色克隆,性能在多项评测中名列前茅。来源:阶跃星辰
秘塔AI搜索推出“浅度研究”功能,2-3分钟完成数百网页分析
秘塔AI搜索推出 Shallow Research「浅度研究」功能,快速收集信息并完成初步分析。功能采用“小模型+大模型”协同架构,结合秘塔自研模型与DeepSeek R1推理模型,可在2-3分钟内完成数百个网页的搜索与分析。来源:AI秘塔
昆仑万维开源中国首个面向AI短剧创作的视频生成模型,重塑AI短剧行业格局
昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1及表情动作可控算法SkyReels-A1。SkyReels-V1是开源视频生成模型中参数最大且支持图生视频的模型,可实现影视级人物微表情表演和电影级光影美学,支持33种细腻表情与400+自然动作组合。SkyReels-A1支持高保真微表情还原和更大幅度的人物表情驱动。来源:昆仑万维集团
Mistral 推出首个专业区域语言模型:专精阿拉伯语和印度起源语言
Mistral AI 推出首个专业区域语言模型 Mistral Saba,满足中东和南亚地区对本地化语言和文化的需求。模型拥有 240 亿参数,经过精心策划的数据集训练,支持阿拉伯语及多种印度起源语言,擅长泰米尔语。来源:AI工具集
字节Trae Win+Mac版全量上线,免费无限量使用Claude
字节跳动推出的AI编程IDE Trae Win+Mac版于正式全量上线。Trae支持免费无限量使用Claude Sonnet编程大模型,具备全自动开发模式“Builder模式”,可实现需求理解、代码生成、文件操作及错误修复一体化。Trae支持多模态开发,可直接通过上传原型或截图生成代码。来源:AI工具集
浙江大学推出DeepSeek系列专题线上公开课
浙江大学人工智能教育教学研究中心于2025年2月17日起推出DeepSeek系列专题线上公开课,每周一晚上19:30面向全校师生及社会公众直播。解析DeepSeek的技术革新与伦理影响,探讨在人工智能领域的突破与应用。首期课程由吴飞教授和陈文智教授主讲。来源:AI工具集
xAI即将发布Grok 3,马斯克称之为“地球上最聪明的人工智能”
埃隆·马斯克的xAI公司将于2月17日发布Grok 3聊天机器人,马斯克称其为“地球上最聪明的人工智能”。Grok 3引入“思维链”推理能力,显著提升推理、编程及多模态功能。训练使用合成数据,可反思错误。Grok 3接入X平台,供用户使用。发布时间较马斯克原计划延迟来源:第一财经
腾讯元宝再更新:DeepSeek R1+腾讯混元T1「双核」驱动
腾讯元宝发布重大更新,接入腾讯混元T1和DeepSeek-R1两大模型,均支持深度思考功能。用户可免费切换使用,解决复杂问题更高效。混元T1为腾讯自研的最新「深度思考模型」,专为多维度分析设计,思维方式贴近人类认知。更新后,腾讯元宝支持联网搜索,结合腾讯生态内容及权威信源,答案更精准。来源:AI工具集
AI搜索新突破:Perplexity推出Deep Research免费深度研究功能
AI公司Perplexity宣布推出Deep Research(深度研究)功能,向所有用户免费开放。非订阅用户每天可免费体验5次,Pro用户每天可体验500次。Deep Research通过多次搜索和推理,挖掘上百个信息源,提供深度研究报告,与普通AI搜索相比,搜索深度、广度和推理能力更强。来源:AI工具集
腾讯多款产品接入DeepSeek-R1模型,全面升级AI体验
腾讯宣布旗下多款产品接入DeepSeek-R1模型,包括腾讯元宝、微信、ima、腾讯文档、QQ浏览器、QQ音乐等。腾讯元宝支持免费使用DeepSeek-R1满血版和混元T1深度思考模型,提供复杂问题解答能力。微信“AI搜索”功能在灰度测试中。ima、腾讯文档、QQ浏览器、QQ音乐等产品结合DeepSeek-R1优化功能,提升用户体验。来源:腾讯
中国AI变局:腾讯、百度接入DeepSeek模型,字节反思,“大模型六虎”加速分化
腾讯微信上线“AI搜索”功能灰度测试DeepSeek-R1模型,百度搜索宣布全面接入DeepSeek和文心大模型的深度搜索功能。字节跳动反思DeepSeek技术跟进,“大模型六小虎”加速分化,部分企业选择拥抱DeepSeek,另一些则继续深耕自身模型研发。来源:钛媒体AGI
问小白上线DeepSeek-R1满血版,实测为官网最佳平替!
问小白平台上线DeepSeek-R1满血版,提供免费流畅的使用体验。支持联网搜索、上传文件、多模态分析等功能,具备深度思考、时效性回答、生成深度话题等亮点。问小白的客户端支持语音输入和语音播放,适合多群体使用。用户可在PC端和移动端通过问小白免费体验DeepSeek-R1,解决官网服务器繁忙的问题。来源:AI工具集
通义灵码全新上线模型选择功能,新增支持 DeepSeek-V3 和 DeepSeek-R1 模型
通义灵码上线模型选择功能,支持DeepSeek-V3和DeepSeek-R1满血版671B模型。通义灵码是阿里云和通义实验室联合出品的AI编码助手,提供代码智能生成和研发智能问答能力。升级后,用户可在VS Code和JetBrains IDEs中切换不同模型,满足复杂算法和简单逻辑处理需求,进一步降低AI编程门槛。来源:通义灵码
昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代
昆仑万维推出Matrix-Zero世界模型,包含3D场景生成和可交互视频生成两大子模型。3D场景生成模型可将图片转化为全局一致、可自由探索的3D场景,支持不同风格输入和动态效果生成;可交互视频生成模型以用户输入为核心,支持实时交互和精准视角控制。来源:昆仑万维集团
谷歌 Gemini 宣布上线“全局记忆”功能,订阅用户可令 AI 回忆曾经所有对话
谷歌Gemini AI上线“全局记忆”功能,订阅Gemini Advanced服务的用户可在App和网页端体验。AI能记住用户所有对话,提供更个性化的回复。用户无需跳转历史记录即可延续对话,可要求Gemini总结对话内容。目前仅支持英语,未来几周扩展至其他语言。来源:IT之家
OpenAI 将在未来几个月内推出 GPT-5:整合 o3 等多项技术,可免费无限使用
OpenAI创始人Sam Altman在社交媒体上透露公司产品路线图的重大更新。OpenAI将发布GPT-4.5(代号Orion),是最后一个非思维链(CoT)模型。未来几个月,OpenAI将推出GPT-5,模型将整合OpenAI的多项技术,包括o3,不再将o3作为独立模型发布。GPT-5将集成到ChatGPT和API中,提供更统一的智能体验。来源:机器之心
文心一言 4 月起全面免费,上线深度搜索功能
百度AI宣布:自2025年4月1日零时起,文心一言将全面免费开放,PC端和APP端用户均可体验文心系列最新模型。同时,文心一言上线深度搜索功能,同样于4月1日起免费开放。深度搜索功能具备更强大的思考规划和外部工具使用能力,为用户提供专家级内容回复,支持多场景任务处理以及多模态输入与输出。APP端也将同步上线。来源:百度AI
Adobe Firefly 开放 AI 视频生成,一键搞定 5 秒 1080P 视频
Adobe宣布向公众免费开放AI视频生成器Firefly。用户仅需输入文本描述或上传图像,可一键生成5秒的1080p高清视频。Firefly在动态景观、动物行为、天气模式和粒子效果等元素上表现出色,支持高级相机设置和多种宽高比选择。来源:AI工具集
腾讯元宝接入 DeepSeek R1 模型,支持深度思考 + 联网搜索
腾讯元宝发布更新,正式接入DeepSeek R1模型,支持深度思考与联网搜索。模型基于腾讯混元架构,具备强大的自然语言理解能力,可提供详细且权威的回答。QQ音乐此前也已完成对DeepSeek R1的部署,成为首个应用该模型的音乐平台。来源:AI工具集
华为小艺助手网页端上线人人可用:支持 R1 深度思考
华为小艺助手网页端正式上线,适配手机和PC,用户可通过浏览器直接访问。更新接入DeepSeek-R1智能体,支持联网搜索功能,可实时获取最新信息。网页版小艺提供AI问答、AI写作、编程助手和AI翻译等功能,支持R1深度思考模式,用户可根据需要自定义自动或强制使用。来源:AI工具集
Agentic GLM全面登陆三星最新款手机Galaxy S25
智谱与三星合作,将Agentic GLM技术全面应用于三星Galaxy S25系列手机。技术基于多模态数据处理能力,支持AI音视频通话、视觉理解、系统功能调用、AI搜索、文案写作等功能。Galaxy S25的“语聊视界”功能可实现智能互动视频通话,同时支持社交媒体文案生成和系统级功能调用。来源:智谱
苹果抛弃DeepSeek,选择与阿里合作开发中国iPhone AI 功能
苹果公司已与阿里巴巴集团达成合作,共同开发面向中国市场的AI功能。双方联合开发的AI功能已提交审批,预计3月25日公布国行AI开发者教程。苹果曾尝试与百度合作,但未达预期,后放弃DeepSeek,因其缺乏支持大客户的经验。来源:钛媒体AGI
七家国产芯片鼎力支持!无问芯穹异构云打通DeepSeek-R1多芯片适配优化
无问芯穹异构云大模型服务平台正式上线DeepSeek-R1和DeepSeek-V3,完成了在壁仞、海光、摩尔线程、沐曦、昇腾、燧原、天数智芯等七家国产芯片上的适配优化。平台支持通过Infini-AI异构云平台一键获取DeepSeek系列模型与多元异构自主算力服务,为开发者提供高效、省心、划算的AI开发体验。来源:无问芯穹
字节跳动推出UltraMem架构,推理成本较MoE最高降83%
字节跳动豆包大模型团队发布全新稀疏模型架构UltraMem,有效解决传统MoE架构在推理时的高额访存问题。UltraMem通过优化内存访问和计算效率,推理速度较MoE提升2-6倍,推理成本最高降低83%。来源:豆包大模型团队
港大与字节跳动发布Goku+,AI视频生成技术颠覆广告创作
香港大学与字节跳动联合发布最新视频生成模型 Goku 和广告视频生成版本Goku+。Goku支持文生视频、图生视频和文生图等多种生成任务,能生成高质量的图像和视频内容。Goku+专注于广告视频生成,可将产品图片转化为吸引人的视频,支持虚拟数字人与产品互动,显著降低广告制作成本。来源:AI工具集
OpenAI、谷歌、Roblox 等联手,成立新组织以保障 AI 时代儿童安全
Roblox、Discord、OpenAI和谷歌联合成立非营利组织ROOST(强大开放在线安全工具),为AI时代构建可扩展且互联互通的安全基础设施。ROOST将向公共和私人机构免费提供开源安全工具,初期重点关注儿童安全,特别是提供检测、审核和报告儿童性虐待材料(CSAM)的相关工具。来源:IT之家
庖丁科技宣布完成新一轮融资,金山办公及顺为联合领投
北京庖丁科技宣布完成新一轮融资,金额达到15亿元人民币,由金山办公和顺为资本联合领投。此次融资将用于文档智能技术研发、市场拓展及核心人才引进,推动非结构化数据智能处理技术的创新与落地。庖丁科技专注于文档智能领域,已为超过100家大型机构客户提供服务,客户续费率超过90%。来源:36氪
沙特将向 AI 芯片创企 Groq 投资 15 亿美元,支持后者在沙 AI 基础设施扩建
AI推理芯片初创公司Groq宣布获得沙特阿拉伯15亿美元(约合109.62亿元人民币)的投资,用于扩建位于沙特达曼的AI推理基础设施。Groq与沙特阿美旗下子公司合作建设的达曼数据中心已拥有19000个语言处理单元(LPU),能为41个国家的40亿用户提供服务。来源:IT之家
OpenAI CEO 深夜发文:AI 成本每年暴跌 10倍,2035 年人人都有超级大脑
OpenAI CEO Sam Altman发文称,AI成本每年暴跌10倍,到2035年,人人都将拥有超级大脑。他认为AGI(通用人工智能)将成为人类进步的强大工具,带来前所未有的繁荣和生活质量提升。随着AI智能水平的线性增长,社会经济价值呈超指数增长,未来AI Agents将成为知识工作中的“虚拟同事”,广泛应用于各领域。来源:APPSO
晚点对话王小川丨不是文本创作、不是物理模型,AGI 的尽头是生命科学
百川智能创始人王小川在接受《晚点》采访时表示,AGI(通用人工智能)的尽头是生命科学,医疗不是垂直场景,是大模型皇冠上的明珠。百川智能专注于医疗领域,致力于打造AI医生,认为“造医生等价于AGI”。百川已发布全场景推理大模型Baichuan-M1-preview,计划在2025年第一季度推出AI医生助手,服务北京海淀区居民。来源:晚点对话LateTalk
VideoWorld开源:多方合作打造仅靠视觉认知世界的视频生成模型
字节跳动豆包大模型团队联合北京交通大学、中国科学技术大学发布的“VideoWorld”视频生成模型,现已开源。模型首次实现仅通过视觉信息认知世界,无需依赖语言模型即可学习和执行复杂任务,如围棋对战和机器人操控。VideoWorld采用潜在动态模型(LDM)压缩视频帧间变化信息,显著提升学习效率。来源:豆包大模型团队
美国网约车巨头 Lyft 同 Anthropic 达成合作:Claude 将为百万司机提供服务
美国网约车巨头Lyft与AI创企Anthropic达成合作,将推出AI驱动的产品,为Lyft每年超4000万乘客和100万司机提供更好的拼车体验。目前,由Anthropic的Claude模型支持的Lyft AI客服助手已投入使用,每天处理数千个客户请求,平均客服解决时间缩短87%。来源:IT之家
吴恩达团队发布AI新成果:零样本标记助力图片目标检测
吴恩达宣布创业公司推出新成果——Agentic Object Detection(Agent目标检测)。无需标注训练数据,仅通过推理即可在图片中定位指定物体。例如在一张草莓图片中,提示“未成熟的草莓”,模型可在短时间内准确识别。。来源:AI工具集
昆仑万维旗下天工AI正式上线DeepSeek R1+联网搜索
昆仑万维旗下「天工AI」正式上线DeepSeek R1+联网搜索功能。此次更新解决了此前DeepSeek联网功能无法使用及偶尔崩溃的问题,为用户带来更稳定、高效的AI体验。用户可在「天工AI」PC端勾选“深度思考 R1”按钮,实现联网搜索,获取最新信息。来源:昆仑万维集团
Pika新功能Pikadditions上线,用AI为视频“加料”
Pika推出新功能Pikadditions,用户仅需上传一张图片和一段视频,可将图片内容自然地添加到视频中,实现如“老虎扑人”“冰箱里的北极熊”等创意效果。基于AI技术,可根据原始视频动作智能生成引人入胜的合成画面。Pika官方提供15次免费体验机会。来源:AI工具集
Github重磅发布Agent模式和Copilot Edits,主动修复错误代码
微软宣布GitHub Copilot全面支持代理功能,推出首个自主SWE智能体。可自主迭代代码、修复错误、建议并执行终端命令。同时GitHub Copilot Edits上线,支持多文件编辑与代码更改意见。微软计划将在今年内融入GitHub用户体验。来源:AI工具集
软银即将完成对 OpenAI 的 400 亿美元投资,超越微软成为最大金主
软银即将完成对OpenAI的400亿美元投资,投前估值为2600亿美元,投后估值达3000亿美元。资金将在未来12至24个月内支付,第一笔款项最快于春季到账。投资完成后,软银将超越微软,成为OpenAI的最大投资方。部分资金将用于OpenAI与软银、甲骨文合资的“星际之门”项目。来源:IT之家
OpenAI 更新 o3-mini 模型思维链展示方式,提高 AI 推理透明度
OpenAI宣布公开o3-mini模型的推理思维链,免费和付费用户可查看其思维过程。部分人质疑公开的思维链是否为原始数据,因为展示速度较慢且字符数量与原始版本存在差异。OpenAI发言人确认公开的思维链经过后处理,消除不安全内容、简化复杂想法,为非英语用户提供更好的体验。来源:量子位
欧洲的 OpenAI,Mistral AI 推出 iOS 和 安卓APP
Mistral AI发布客户端Le Chat,推出iOS和Android版本。支持实时网络搜索、文档分析、图像生成等功能,提供企业级解决方案,包括代码解释器、OCR和文档处理等。来源:AI工具集
《麻省理工科技评论》点评中国AI“四剑客”,每家都媲美DeepSeek
DeepSeek凭借低训练成本和高性能的开源模型引发全球关注。《麻省理工科技评论》指出,除DeepSeek外,中国还有四家AI初创公司展现出强大的技术实力,包括阶跃星辰、面壁智能、智谱AI和无问芯穹。分别在基础模型、端侧模型、多模态AI以及AI基础设施领域取得了显著成就,展现了与DeepSeek媲美的竞争力。来源:机器之心
谷歌 Magic Editor 集成 SynthID,“火眼金睛”识别 AI 造假
为应对 AI 生成内容带来的虚假信息风险,谷歌将 SynthID 水印技术集成到图像编辑工具 Magic Editor 中。本周使用 Magic Editor 的 AI 生成编辑图像将在 Google Photos 中被 SynthID 标记,部分细微编辑可能无法被检测到。技术通过嵌入数字水印标记内容,不影响视觉质量。来源:IT之家
OpenAI 与加州州立大学达成迄今最大的AI教育合作
OpenAI宣布将在加州州立大学23个校区推出ChatGPT,覆盖46万名学生和6.3万名教职员工。是OpenAI在美国高等教育领域的最大规模部署,为学生提供个性化辅导和学习指南,同时帮助教师完成行政工作。来源:36氪
DeepSeek声明:社交平台仅三个账号,一切声称与官方群组有关收费行为均系假冒
DeepSeek官方发布声明:近期,DeepSeek发现部分仿冒账号和不实信息误导公众,DeepSeek的官方账号仅包括微信公众号“DeepSeek”、小红书“@DeepSeek(deepseek_ai)”和X(Twitter)“DeepSeek (@deepseek_ai)”。除这些账号外,其他任何声称与DeepSeek相关的信息均为假冒。来源:DeepSeek
OpenAI 放大招:ChatGPT 搜索功能无需注册人人可用,分钟级别解析全网信息
OpenAI 宣布 ChatGPT 搜索功能无需登录账户即可使用,用户可直接获取基于实时网络信息生成的答案,查看信息来源清单。与传统搜索引擎相比,ChatGPT 搜索可实现分钟级解析网络信息,能查看地图和本地景点图片,结果更具可信度和实用性。来源:IT之家
谷歌发布Gemini 2.0 Pro,全型号刷榜,原生多模态,编程、物理模拟能力炸裂
谷歌发布 Gemini 2.0 系列模型,包括 Gemini 2.0 Pro、2.0 Flash 和 2.0 Flash-Lite。2.0 Pro 是谷歌最强的编码和复杂提示处理模型,配备 200 万 token 上下文窗口,支持谷歌搜索和代码执行工具。2.0 Flash 是高效主力模型,支持 100 万 token 上下文和多模态输入,适合高容量任务。2.0 Flash-Lite 是最具性价比的模型,性能优于前代 1.5 Flash,成本更低。来源:Founder Park
前追觅中国区执行总裁郭人杰创业,「乐享科技」宣布完成近2亿元天使轮融资
前追觅中国区执行总裁郭人杰创立的「乐享科技」宣布完成近 2 亿元人民币的天使轮融资,由 IDG 资本领投,Monolith、经纬创投、真格基金等跟投,投后估值约 6 亿元。乐享科技成立于 2024 年,定位为全球科技公司,专注于 AI + 消费硬件市场,首款面向家庭场景的产品正在研发中。来源:36氪
字节跳动推出 OmniHuman 多模态框架:图片+音频 = 逼真动画
字节跳动提出OmniHuman,基于扩散变换器的高保真人类视频生成框架。模型通过单阶段的音频和姿态驱动,能生成高质量的人类视频内容。支持文本、音频、姿态等多种输入信号,可生成从面部特写到全身的各种视频,适应不同风格。来源:AI工具集
训练成本不到 50 美元,研究人员打造出媲美 OpenAI o1 的推理模型
斯坦福大学和华盛顿大学的研究人员仅花费不到50美元的云计算费用,训练出s1人工智能推理模型。模型在数学和编程能力测试中表现与OpenAI的o1和DeepSeek的r1等顶尖模型相当。s1通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推理能力,使用监督微调方法,耗时不到30分钟。来源:AI工具集
一场关于DeepSeek的高质量闭门会:比技术更重要的是愿景
拾象创始人李广密组织了一场关于DeepSeek的闭门讨论会,数十位顶尖AI研究员、投资人与从业者参与。会议探讨了DeepSeek的技术细节、组织文化及其影响。DeepSeek凭借高效的资源利用和对智能的专注,展现出强大的技术实力。创始人梁文锋注重技术与智能的推进,而非商业化。来源:腾讯科技
5人创业国产AI搜索火了,小红书Reddit都在推!比Perplexity留存更高
国产AI搜索工具 Hika AI 仅5人团队打造,上线不到1个月,在获取用户注意力方面已超越Perplexity等竞争对手。Hika AI 提供免费的知识获取引擎,核心特点是按段落分割回答,支持用户对感兴趣的部分深入提问,提供图表化的总结表和思维导图。来源:AI工具集
Adobe Acrobat AI 助手新增合同理解与比对功能,月费 5 美元
Adobe Acrobat AI 助手新增合同理解与比对功能,月费 5 美元(约 36.4 元人民币)。可帮助用户理解复杂合同条款,自动发现不同合同之间的差异,例如新旧合同的变化。Acrobat 应用能自动识别合同文档,提取关键条款,生成摘要,推荐可能的问题。可同时比较多达 10 份合同。来源:AI工具集
SB OpenAI Japan成立!2025年首个最火AI赛道开打
OpenAI在日本宣布成立合资公司 SB OpenAI Japan,与软银合作,专注于开发和销售新型高级企业AI——“水晶智能(Cristal intelligence)”。合作为日本企业提供定制化的AI解决方案,推动企业工作流程自动化和效率提升。来源:智东西
华为小艺助手接入 DeepSeek,升级纯血鸿蒙 HarmonyOS NEXT 即可体验
华为小艺助手接入 DeepSeek,升级至 HarmonyOS NEXT 后即可体验。小艺助手的智能体广场已上线 DeepSeek-R1 Beta 版,升级小艺助手至 11.2.10.310 版本及以上,可在“发现”栏找到智能体广场,与 DeepSeek 进行对话。来源:IT之家
Figure AI与OpenAI“分手”,人形机器人公司与大模型公司重新划定边界
人形机器人公司Figure AI与OpenAI终止合作。Figure AI创始人Brett Adcock表示,公司自主研发的端到端机器人AI取得重大突破,未来30天内将展示新成果。Figure AI与OpenAI合作始于去年初,曾发布多条展示机器人视觉、对话及灵活操作能力的视频。来源:第一财经
Ai2推出开源模型Tülu 3 405B,性能超越DeepSeek V3与GPT-4o
美国艾伦人工智能研究所(Ai2)推出新一代开源模型Tülu 3 405B,基于强化学习技术,在多项基准测试中超越了DeepSeek v3和GPT-4o。Tülu 3系列模型基于Llama 3 Base,通过四阶段后训练方法优化,包括精心策划的提示词、监督微调、偏好微调和强化学习。训练数据、代码和方法完全开源。来源:AI工具集
OpenAI 推出 Deep Research 深度研究功能,助力复杂任务高效解决
OpenAI发布ChatGPT的Deep Research功能。通过多步骤推理和互联网信息综合,可在数十分钟内完成复杂的研究任务。Deep Research基于o3模型,针对网页浏览和数据分析进行了优化。能生成专家级的研究报告,适用于金融、科学、政策和工程等领域的知识密集型工作。来源:AI工具集
秘塔AI接入满血版DeepSeek R1推理模型
秘塔AI宣布接入DeepSeek R1推理模型的满血版。模型结合了秘塔数十亿的全网数据和数千万学术文献,能处理复杂的推理问题,在结合知识和学术文献的推理任务中表现出色。秘塔AI的测试结果显示,R1模型在回答复杂问题时表现突出。来源:AI秘塔
OpenAI 更新 ChatGPT Canvas 工具:上线 o1 模型、支持渲染 HTML / React 代码
OpenAI更新ChatGPT Canvas写作工具,新增了o1模型支持,扩展了代码渲染功能,支持HTML和React代码。Canvas是ChatGPT中的写作与编码工具,用户可以在右侧输入文本,左侧基于模型调整文本长度或联想上下文。订阅了ChatGPT Pro、Plus、Team会员的用户可以使用o1模型,HTML和React代码渲染功能对所有用户开放。来源:IT之家
OpenAI发布新的推理模型o3-mini,性能提升 24%
OpenAI发布新的推理模型o3-mini,是推理系列中最具成本效益的模型。o3-mini在科学、数学和编程等STEM领域表现出色,保持低延迟和低成本。支持函数调用、结构化输出和开发者消息等高级功能,提供低、中、高三档推理强度供开发者选择。与搜索功能集成,为用户提供最新答案及链接。来源:AI工具集
阿里云通义千问旗舰版模型Qwen2.5-Max全新升级发布
阿里云通义千问推出旗舰版模型Qwen2.5-Max。是MoE模型的最新探索成果,预训练数据超20万亿tokens,在知识、编程、综合能力等主流权威基准测试中表现卓越,全面超越全球领先的开源MoE模型及最大开源稠密模型。来源:AI工具集
DeepSeek推出人人可用的开源视觉多模态AI模型Janus-Pro
DeepSeek发布开源多模态AI模型Janus-Pro,包含10亿和70亿参数规模。模型在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。Janus-Pro基于DeepSeek-LLM构建,使用SigLIP-L作为视觉编码器,支持多模态理解和生成。来源:AI工具集
通义开源两大AI模型:支持理解长视频和捕捉事件等能力
通义开源两大AI模型:Qwen2.5-VL和Qwen2.5-1M。Qwen2.5-VL推出3B、7B和72B三个版本,全面超越GPT-4o与Claude3.5。模型支持超1小时的视频理解,无需微调即可操作手机和电脑完成复杂任务。Qwen2.5-1M推出7B和14B版本,处理长文本任务性能卓越,推理速度提升近7倍,首次将上下文扩展到1M长度。来源:通义
开源全模态模型Baichuan-Omni-1.5上线,多项能力跑赢GPT-4o mini
百川智能上线开源全模态模型Baichuan-Omni-1.5。模型支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5的表现均优于GPT-4o mini,在多模态医疗应用领域优势突出。来源:百川大模型
可灵AI创意特效上线啦!好玩儿到停不下来!
可灵AI 上线创意特效功能,支持“快乐惹毛我”“捏捏乐”“万物膨胀”等特效,已上线可灵AI APP和Web端,一起创意发挥,尽情体验,好玩儿到停不下来。来源:AI工具集
中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目
中国电信人工智能研究院发布“复杂推理大模型”TeleAI-t1-preview,即将上线天翼AI开放平台。模型采用强化学习训练方法,引入探索、反思等思考范式,提升逻辑推理和数学推导的准确性。在AIME 2024和MATH500评测中,分别以60分和93.8分的成绩大幅超越OpenAI o1-preview和GPT-4o等标杆模型。模型具备将形象思维与抽象思维结合的能力,能严谨地进行古今单位换算,有效解决复杂问题。来源:AI工具集
GLM-4V-Plus 大模型能理解长达2小时视频
GLM技术团队推出了GLM-4V-Plus-0111 beta版本,版本引入了原生可变分辨率等技术,显著提升模型对不同视频长度和分辨率的适应能力。新模型支持短视频的精细理解,能处理长达2小时的长视频,自动调整分辨率以平衡时间与空间信息捕捉。来源:AI工具集
扎克伯格持续建设“AI 帝国”:Meta 今年将投入最多 650 亿美元
Meta首席执行官马克・扎克伯格表示,公司今年计划投入最多650亿美元用于扩展AI基础设施,巩固其在与OpenAI和谷歌竞争中的地位。Meta将增加AI岗位的招聘,建设一座超过2吉瓦的数据中心。作为英伟达的主要客户之一,Meta计划在年底前拥有超过130万块图形处理器,在2025年实现约1吉瓦的计算能力。来源:IT之家
OpenAI正式发布智能体Operator!能推理、联网自主执行任务
OpenAI推出“Operator”AI代理,Operator依托Computer-Using Agent(CUA)模型,结合GPT-4o的视觉能力和强化学习推理能力,能自动完成多种在线任务,如预订餐厅、旅行规划、购物等。通过屏幕截图“感知”界面,通过虚拟键盘和鼠标操作网页。具备自我纠错能力,遇到敏感信息或复杂任务时会交由用户接管。来源:AI工具集
百川智能发布深度思考模型,同时具备语言、视觉和搜索三大领域推理能力
百川智能推出两款新模型:Baichuan-M1-preview是国内首个全场景深度思考模型,具备语言、视觉和搜索三大领域推理能力,在医疗循证模式下,能快速精准回答医疗问题,提供深度推理和个性化建议。小尺寸版本Baichuan-M1-14B是行业首个开源医疗增强大模型,医疗能力超越Qwen2.5-72B。来源:百川大模型
跃问App上新「创意板」功能,零代码实现应用与游戏创作
跃问App上线国内首个「创意板」功能,用户可通过简单指令生成应用、游戏等创意内容,无需代码知识。基于自研多模态大模型Step-1o系列。创意板支持生成海报、游戏、互动网页等,可分享至任意平台。来源:AI工具集
JetBrains发布AI编程Agent,助力开发者提升代码效率与质量
JetBrains推出全新的AI编程Agent——Junie,以插件形式支持IntelliJ IDEA Ultimate和PyCharm Professional,未来将扩展至WebStorm。Junie在SWE-Bench Verified基准测试中完成53.6%的任务,表现中等偏上。能与JetBrains IDE深度整合,生成代码、运行检查、编写测试并验证结果,显著提升开发效率和代码质量。来源:AI工具集
智谱GLM-PC开放体验:自主操作电脑的多模态Agent再升级
智谱推出电脑智能体GLM-PC,基于智谱CogAgent模型构建,能像人类一样“观察”和“操作”电脑,协助完成各类任务。新增“深度思考”模式、逻辑推理和代码生成功能,支持Windows系统。GLM-PC通过模拟人类左右脑分工,结合代码生成和图形界面理解,实现了逻辑推理与感知认知的深度结合。来源:AI工具集
字节跳动推出的开源原生 GUI 代理模型
字节跳动发布并开源了UI-TARS大模型,是专门用于操控电脑界面的视觉语言模型,具备感知、推理和操作能力。UI-TARS提供2B、7B和72B三种参数规模版本,支持跨平台操作,能通过自然语言指令完成鼠标点击、键盘输入等任务。在多个基准测试中,UI-TARS表现优于GPT-4和Claude。来源:AI工具集
Step-Video 开年震撼升级:更强大的真实世界模拟器来了
阶跃星辰推出视频生成模型 Step-Video V2版本。新版本在参数量、语义理解、指令遵循能力等方面大幅提升,支持复杂运动、人物美感、基础文字生成和多语言输入等功能。用户可通过跃问网页端申请试用。来源:阶跃星辰
Perplexity发布Sonar API,提供实时信息搜索功能
Perplexity发布Sonar API,提供实时信息搜索功能。Sonar API分为基础版和Pro版,基础版支持轻量级实时搜索和简单查询引用,Pro版则支持复杂多步骤任务、更大的上下文窗口和更丰富的引用。来源:AI工具集
谷歌 Gemini 2.0 Flash Thinking 强化版发布,登上 Chatbot Arena 榜首
谷歌发布Gemini 2.0 Flash Thinking推理模型的加强版,再次登顶Chatbot Arena排行榜。更新引入了1M长上下文处理能力,可对长篇文本进行更深入分析,减少模型思想与答案之间的矛盾。支持长上下文、多模态输入以及推理过程可视化,推理速度极快,在数学和科学能力测试中表现突出,数学成绩较前代提升54%。来源:AI工具集
字节启动 Seed Edge,加码 AGI 研究
字节跳动正式设立代号为“Seed Edge”的研究项目,专注于通用人工智能(AGI)的前沿研究。项目拟定五大研究方向,包括下一代推理、感知、软硬一体模型设计、新范式探索和Scaling方向研究。Seed Edge旨在探索AI的原创性创新,而非仅追随现有技术。字节跳动创始人张一鸣高度重视AI研究,鼓励团队探索基础课题。来源:晚点LatePost
豆包大模型1.5正式发布,全面上线火山方舟
字节跳动旗下火山引擎正式发布豆包大模型1.5 Pro。模型在知识、代码、推理、中文等多个权威测评基准上表现优异,综合得分超越GPT-4o、Claude 3.5 Sonnet等业界一流模型。此次更新还推出了豆包·视觉理解模型和实时语音模型,支持多模态数据合成、低时延语音对话等功能。来源:火山引擎
可灵AI重磅升级,「多图参考」功能上新
可灵 AI 重磅升级,「多图参考」功能全新上线,支持参考单个角色生成视频,不同角色之间的互动,支持上传4张参考图,可以是人物、物品、道具和场景。确保多个镜头中的人物或主体保持一致。与可灵一起制作富有创意的视频。来源:AI工具集
特朗普联合OpenAI启动5000亿美元“星际之门”AI项目,用于建设AI基础设施
特朗普与OpenAI CEO Sam Altman、软银CEO孙正义等在白宫宣布启动名为“星际之门”的人工智能项目。项目计划未来四年投资5000亿美元,在美国建设新的人工智能基础设施,首期投入1000亿美元。技术合作伙伴包括Arm、微软、英伟达等。推动通用人工智能(AGI)发展,创造数十万就业岗位。来源:机器之心
有道子曰-o1推理模型正式发布!消费级显卡即可部署
网易有道正式发布并开源国内首个输出分步式讲解的推理模型“子曰-o1”。作为14B轻量级单模型,子曰-o1支持在消费级显卡上部署,采用思维链技术,能提供细致的解题过程,具备强逻辑推理能力。子曰-o1已应用于“有道小P”,支持“先解析思路、再提供答案”的答疑模式,助力学生自主思考。来源:网易有道
清影2.0重磅更新,模型能力大幅提升
清影2.0重磅更新,AI视频生成能力大幅提升。新版本在模型结构、训练方法和数据工程上全面升级,图生视频基础模型能力提升38%,支持画面主体进行大幅度运动并保持稳定。指令遵从能力行业领先,可精准实现复杂提示词,涵盖写实、三维动画、二维动画及特殊艺术风格。已上线智谱清言,普通用户可免费用。来源:智谱
k1.5 新模型登场:Kimi 如何做到满血版多模态o1水平
月之暗面推出全新k1.5多模态思考模型。模型在多模态推理和通用推理能力上达到SOTA水平,在short-CoT模式下,数学、代码、视觉多模态能力大幅超越全球短思考SOTA模型,领先550%;在long-CoT模式下,达到OpenAI o1正式版水平,成为全球首个实现该性能的非OpenAI模型。来源:月之暗面 Kimi
DeepSeek-R1 发布,性能对标 OpenAI o1 正式版
深度求索发布DeepSeek-R1模型,并开源模型权重。DeepSeek-R1通过强化学习技术大幅提升推理能力,在数学、代码和自然语言推理等任务上性能对标OpenAI o1正式版。DeepSeek还开源了基于R1蒸馏的6个小模型,其中32B和70B模型性能比肩OpenAI o1-mini。DeepSeek-R1已上线API,可通过官网或App调用。来源:DeepSeek
小红书AI翻译功能上线,网友玩转Prompt,背后大模型引关注
小红书上线AI翻译功能,引发了网友的广泛关注和讨论。功能支持多种语言的翻译,能处理颜文字、网络热梗、化学式、摩斯电码等特殊内容。用户还可以通过Prompt提出翻译需求或生成特定内容。来源:量子位
阶跃星辰Step-1o重大升级,多模态视觉双榜夺冠,国内第一
阶跃星辰宣布 Step 系列模型上新第三弹。推出新成员 Step-1o Vision 多模态理解大模型,Step-1o Audio 语音模型能力升级。Step-1o Vision 在视觉识别、推理等任务中表现卓越,位居国内外权威榜单首位。升级后的 Step-1o Audio 情商更高,声音更自然,支持多语种及方言理解,实现更低时延。来源:阶跃星辰
书生·浦像超高动态成像算法:AIGC叠加HDR,捕捉细节,平衡曝光
上海人工智能实验室联合香港中文大学、浙江大学团队推出“书生·浦像”超高动态成像算法(浦像HDR,UltraFusion HDR)”,通过AIGC与HDR技术结合,实现超高动态范围成像。算法可在9档曝光差异的极端条件下修复图片细节,生成色彩鲜艳、细节丰富的高质量图像。解决了传统HDR技术在动态场景中的运动伪影问题。来源:上海人工智能实验室
秘塔AI搜索上线“阅读模式”,PDF阅读体验全面升级
秘塔AI搜索推出了全新的“阅读模式”功能。旨在解决PDF文档在移动设备上阅读不便的问题,支持复杂公式识别、智能渲染排版以及全文翻译,可轻松处理多列文字和图表混排的PDF文件。阅读模式支持多端同步,用户可在电脑端添加或上传PDF至书架,通过手机App查看。来源:AI秘塔
字节跳动推出全新AI IDE:Trae,基于Claude模型免费使用
字节跳动正式发布全新AI编程IDE——Trae,对标Cursor!支持原生中文,集成Claude 3.5、GPT-4o等顶级AI模型,免费开放使用。具备智能代码生成与优化、AI驱动的Chat和Builder交互模式、便捷的项目预览与调试等功能。来源:AI工具集
豆包实时语音大模型上线即开放!情商智商双高
字节跳动旗下的豆包大模型团队宣布推出豆包实时语音大模型,在豆包APP全量开放。模型是语音理解和生成一体化的端到端语音系统,主要面向中文语境,支持英语对话但暂不支持多语种。在语音表现力、情绪承接和控制力方面表现出色,整体满意度高于GPT-4o。具备低时延、可随时打断等特性,支持实时联网回答时效性问题。来源:豆包大模型团队
阶跃星辰语言模型上新:既有文学大师,又有性价比之王
上海阶跃星辰推出Step系列语言模型的两位新成员:Step-2 mini和Step-2文学大师版。Step-2 mini是轻量级模型,仅用3%的参数量保留了Step-2模型80%以上的性能,生成速度快,性价比高。Step-2文学大师版则专注于创作,能生成富有深度和风格的文学作品,已在跃问App上线。来源:IT之家
商汤「日日新融合大模型交互版」开放商用,限时免费
商汤科技推出“日日新融合大模型交互版”(SenseNova-5o),正式对外开放实时音视频对话服务,限时免费使用。模型具备强大的实时交互、视觉识别、记忆思考和复杂推理能力,支持超长多模态交互记忆(不少于5分钟),交互延迟低至2秒以内。用户还可根据偏好设置交流风格和音色。来源:商汤科技SenseTime
全球首个亿级参数量地震波大模型今年对外开放
全球首个亿级参数量地震波大模型“谛听”在国家超级计算机成都中心发布第三阶段测试版本,已成功应用于西藏定日6.8级地震数据处理。模型由中国地震局地球物理研究所、国家超级计算成都中心和清华大学联合开发,可自动识别震前、震后事件并生成AI地震序列目录。来源:IT之家
香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题
香港大学与快手科技联合推出GameFactory框架,旨在解决游戏视频生成中的场景泛化难题。框架基于在开放域视频数据上预训练的视频扩散模型,可生成多样化游戏场景。通过独特的三阶段训练策略,GameFactory突破了现有方法对特定游戏数据集的依赖,支持自回归动作控制,可生成无限长度的交互式游戏视频。来源:AI工具集
如何识别AI生成图片?腾讯上线「鉴别工具」
腾讯上线由腾讯混元安全团队朱雀实验室研发的朱雀大模型检测工具,旨在帮助用户识别AI生成的图像和AI生成文本检测系统。通过检测图片中的纹理、语义及隐层特征,快速判断图片是否由AI生成。系统使用140万份正负样本进行训练,涵盖多种场景,测试检出率超过95%。来源:腾讯
晚点对话 MiniMax 闫俊杰:创业没有天选之子
《晚点》对话MiniMax创始人闫俊杰,探讨AI创业与技术发展。闫俊杰认为,AI创业不应套用移动互联网逻辑,模型能力提升并非依赖用户规模,而是技术进化。MiniMax最新开源的MiniMax-01模型采用线性注意力机制,首次在大规模模型中实现高效处理400万token的长上下文,助力AI记忆与交互能力提升。来源:晚点对话LateTalk
智谱清言APP推出“2025克穷暴富”春节活动,赢现金红包庆新年
智谱清言推出2025年春节活动,时间为1月17日至2月5日。用户可通过智谱清言APP参与多种互动活动赢取现金红包。活动包括AI生成视频金币爆爆爆、新春纪念照生成、视频通话互动以及AI帮助群发拜年短信等。用户上传照片可生成新春主题纪念照,与小智视频通话可获得拜年红包,AI助手AutoGLM可自动群发新年祝福。来源:智谱清言
Luma AI推出Ray2视频生成模型,算力扩大10倍
Luma AI推出最新视频生成模型Luma Ray2,基于新的多模态架构训练,计算能力是前代Ray1的10倍,能在10秒内根据文本提示生成高质量视频,最长时长从5秒延长至1分钟。生成视频动作生动流畅,未来还将推出图像转视频、视频转视频和编辑功能。来源:AI工具集
马斯克 xAI 再放大招:网页版 Grok 上线,无需 X 账户
埃隆·马斯克旗下xAI公司推出网页版Grok AI聊天机器人,无需X账户即可体验。访问grok.com,提供出生年份即可使用,能实时收集信息、获取答案、生成图像等。输入框下方菜单支持切换不同模式,更好控制响应。登录后可开启“临时模式”,聊天不记录不用于训练模型。来源:IT之家
阿里再投具身智能,清华大学孵化的星动纪元完成最新一轮融资
清华大学孵化的人形机器人企业北京星动纪元,近日完成最新一轮融资,新增阿里巴巴旗下公司等为股东,注册资本增至约1095.9万人民币。星动纪元专注于研发高智能通用人形机器人,产品已迭代至第六代——星动STAR 1,具备55个自由度,能在复杂环境中执行多种任务。来源:财联社
豆包电脑版和网页版全新上线AI编程新功能,帮你高效解决编程难题
字节跳动豆包电脑版和网页版全新上线新功能AI编程,帮助用户解决编程难题。提供更便捷的导入流程,一键上传多个本地代码文件和实时引入GitHub开源仓库。通过全新的代码编辑器支持沉浸式阅读和精准圈选代码,随时解答疑问,帮助用户生成、解释、修复和优化代码。来源:AI工具集
智谱Realtime、4V、Air新模型发布,上线bigmodel.cn
智谱发布多款新模型,包括GLM-Realtime、GLM-4V-Plus和GLM-4-Air,这些模型在bigmodel.cn上线。GLM-Realtime模型支持低延迟视频理解和语音交互,具有清唱功能和长达2分钟的记忆能力。GLM-4-Air和GLM-4V-Plus模型提供高性价比的语言和视觉理解解决方案。来源:智谱
阶跃星辰推理模型 Step R-mini 全量上线跃问网页版
2025年1月16日,阶跃星辰推出自研推理模型Step Reasoner mini(简称“Step R-mini”)。模型上线跃问网页端,擅长规划、尝试和反思,通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。Step R-mini在数学、代码、逻辑推理等复杂问题解决上表现出色,同时兼顾文学创作等通用领域。来源:AI工具集
腾讯会议全新升级,上线AI小助手Pro
腾讯会议推出全新升级功能。用户可从组织通讯录直接拉人入会,日程自动呈现并多渠道提醒,确保参会人准时上会等。上线AI小助手Pro全程监听会议,可回答问题、提供方案建议,支持联网搜索与文件上传提问,提升会议效率。来源:腾讯会议
MiniMax-01开源:新架构开启Agent时代
MiniMax于2025年1月15日宣布开源MiniMax-01系列模型,包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型参数量达4560亿,单次激活459亿,性能比肩GPT-4o,能高效处理长达400万token的上下文,是GPT-4o的32倍。来源:MiniMax 稀宇科技
OpenAI 推出新功能「Tasks」ChatGPT 变身 AI 私人助理
2025年1月15日,OpenAI推出ChatGPT的新功能「Tasks」,能根据用户的指示自动完成各种任务,包括一次性提醒和重复执行的动作。用户可以在ChatGPT的聊天界面中选择「4o与计划任务」模式,创建最多10个任务,通过网页、桌面和移动设备接收通知。该功能已向Plus、Pro和Teams用户开放Beta测试。来源:AI工具集
科大讯飞发布星火深度推理模型X1,率先落地真实应用场景
科大讯飞于2025年1月15日发布讯飞星火X1,国内首个基于全国产算力平台训练的深度推理大模型。模型解题方式接近人类“慢思考”,以较少算力达成业界领先效果,中文数学能力国内第一。已在教育、医疗领域落地,提升AI学习机精准度,助力教师助手部署,辅助医生诊断,推动行业发展。来源:AI工具集
Kimi 多模态图片理解模型 API 发布,1M tokens 定价 12 元起
2025年1月15日月之暗面发布全新多模态图片理解模型moonshot-v1-vision-preview,模型具备强大的图像识别和文字识别理解能力,能精准区分复杂图像细节,准确识别潦草手写内容及图表信息。价格根据选择的模型不同而有所区分。来源:AI工具集
书生·浦语大模型升级,突破思维密度,4T数据训出高性能模型
上海人工智能实验室宣布书生大模型升级至3.0版本,书生·浦语3.0(InternLM3)。版本通过精炼数据框架,仅用4T训练数据,使InternLM3-8B-Instruct综合性能超同量级开源模型,训练成本降低75%以上。书生·浦语3.0首次在通用模型中融合常规对话与深度思考能力,可应对更多真实场景。来源:上海人工智能实验室
Vidu 2.0全新升级,更快、更强、更稳定
Vidu 2.0正式上线,带来生成速度与画质的双重突破,10秒即可出片。效果升级,视频风格、主体更一致,首尾帧更自然。推出超值套餐,成本低至4分/秒。新增错峰模式,低峰时段不限量、不扣积分,保障创作不停歇。来源:Vidu AI
腾讯推出一站式3D内容生产AI创作平台:腾讯混元3D,用AI给游戏装上创作引擎
腾讯旗下混元模型将《王者荣耀》游戏设计迁移到3D生成模型中,推出混元3D AI创作引擎。引擎为普通UGC和游戏等专业场景提供一站式3D内容生产的AI创作平台,支持文生3D和图生3D模式生成3D资产,结合3D风格化、渲染打光、骨骼绑定和动作驱动等编辑工具调整模型效果,支持多种输出格式。来源:AI工具集
抖音创始成员任利锋的GenAI创意社区:Hitems,完成数千万美元Pre-A轮融资
抖音早期产品负责人任利锋创立的“数美万物”公司旗下创意电商社区Hitems,近日完成数千万美元Pre-A轮融资,美团龙珠领投,锦秋基金跟投,红杉中国、IDG资本继续跟投,公司估值约1.5亿美元。Hitems是集创作者创意生成、生产、销售于一体的跨境电商平台,基于GenAI技术,可通过关键词、图片或手绘稿生成高保真物品图。来源:智能涌现
加速AI和机器人融入生活空间,「一目科技」完成数亿元D轮融资
“一目科技”近期完成数亿元D轮融资,由赛富投资基金领投,南京市创新投资集团、松霖科技跟投。公司专注于多模态感知+AI计算解决方案,产品已应用于智慧水务、智慧家居、生命科学等领域,并打入TCL、惠而浦等头部白电厂商供应链。在CES 2025上,一目科技的AI洗护机器人首秀亮相并获媒体好评。来源:智能涌现
英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC
英伟达推出名为Nemotron-CC的大型英文AI训练数据库,包含6.3万亿个Token,其中1.9万亿为合成数据。该数据库基于Common Crawl网站数据构建,经过严格处理形成高质量子集Nemotron-CC-HQ。与业界领先的DCLM数据库相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中分数提高5.6分。来源:IT之家
打造AI时代的超级应用平台,「环界云计算」获阿里云战略投资
珠海环界云计算有限公司完成3750万元Pre-A融资,由阿里云独家投资。核心产品Sealos是基于kubernetes的云操作系统,聚焦已开发应用托管和新应用诞生,助力开发者和B端企业降低成本、提升效率。开源项目Sealos和FastGPT在社区受关注。来源:36氪
DeepSeek正式推出手机APP,苹果安卓都支持!
2025年1月11日,DeepSeek正式推出Deepseek APP,支持iOS和安卓系统。此前,DeepSeek仅有网页端和API调用两种使用方式。此次推出的手机app功能与网页端一致,底层默认使用DeepSeek V3模型,开启深度搜索后调用DeepSeek-R1-Lite推理模型。来源:AI工具集
百川智能落地宁波!注册资本 1.5 亿美元,与高新区共建产业基金
2025年1月13日,百川智能创始人王小川与宁波高新区管委会签订合作协议,百川智能大模型项目落地宁波高新区。王小川表示将立足宁波特色,推进 AI 赋能千行万业。百川智能目前员工约280人,已完成A+轮融资,总融资额约50亿人民币,估值200亿人民币。来源:有新Newin
阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用
阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用。工具基于自研大模型,海量电商数据和设计经验,具备更懂商品展示手法、更强多语种语义遵循能力、合理物理动作规律、稳定元素保持等优势。用户输入静态图片或文本描述,即可一键生成高质量5秒视频。工具已对淘宝天猫商家开放。来源:AI工具集
方大特钢与华为开展全面合作,打造钢铁行业大模型
方大特钢与华为签署全面合作协议。双方将在企业数据治理体系与应用、钢铁行业大模型应用、信息安全、数字化人才培养等方面展开合作。方大特钢表示,此次合作有助于推动数字技术与钢铁主业深度融合,加快数字化转型,提升信息化应用水平和市场竞争力。来源:IT之家
3D 生成大模型公司影眸科技完成数千万美元 A 轮融资,美团龙珠、字节跳动领投
影眸科技完成数千万美元A轮融资,美团龙珠、字节跳动领投,红杉中国种子基金及奇绩创坛跟投。融资将用于推进3D大模型前沿探索及Hyper3D系列产品商业化。其3D生成大模型Rodin上线45天实现100万美金年经常性收入,已与Amazon等知名客户深度合作,获数百万元B端订单,覆盖多行业。来源:IT之家
月之暗面海外产品负责人的AI Coding项目被投资人抢爆了,新一轮估值8000万美元
前月之暗面海外产品Noisee创始人明超平发起的AI Coding项目“新言意码”已完成两轮融资,目前公司估值达8000万美元。该项目吸引了五源资本、高榕资本、真格基金、高瓴创投和IDG资本等多家顶级投资机构。新言意码定位为AI coding应用,瞄准类似美国智能代码生成产品Cursor的市场。来源:Z Finance
京东健康发布业内首个医疗健康全场景应用大模型产品体系
2025年1月11日,京东健康在年度医生盛典和数智医疗大会上发布了“AI京医”大模型产品体系及业内首个面向医院全场景应用的大模型产品“京东卓医”。“AI京医”包括AI诊疗助手2.0、AI科研助手和AI医生智能体等产品,旨在提升患者就医体验、医生临床科研效率和医院运营效能。来源:京东黑板报
YY直播首个 AI 伴唱服务数字人“灵儿”发布,平均每天服务超100万用户
YY直播近日发布首个AI伴播数字人“灵儿”,在12日YY 2024年度巅峰盛典上首次亮相。依托自研技术,“灵儿”已覆盖6000多个直播间,平均每天服务超100万用户,目前处于公测阶段。上线半年来,互动、发言量提升超30%,部分直播间互动设备数增长670%,付费用户数增长80%。来源:钛媒体AGI
中文互联网语料 AI 资源平台发布:27 个数据集、总量 2.7T
中国网络空间安全协会发布中文互联网语料资源平台,含27个数据集、总量2.7T。该平台在中央网信办指导下,由协会与国家互联网应急中心等共建,经严格数据处理后,推出中文互联网基础语料2.0,规模120GB,数据3800万条。来源:IT之家
通义万相2.1模型能力重磅升级,轻松实现文生组图
阿里通义万相2.1模型重磅升级,视频生成能力显著增强。通过自研的高效 VAE 和 DiT 架构,首次实现了中文文字视频生成功能,支持无限长 1080P 视频的高效编解码。在 VBench 视频生成模型评测体系中荣登榜首。还支持文生组图,采用 IC-LoRA 图像生成训练方法,增强文本到图像的上下文能力,轻松实现关联图像间的组合生成。来源:通义
海螺AI推出全新 S2V-01 主体参考模型,AI视频创作再上新台阶
海螺AI推出全新S2V-01主体参考模型,支持用户通过上传一张参考图片,生成与原图高度一致的角色视频。显著提升AI视频创作的效率和质量,使得每一帧画面都能完美还原参考形象。只需简单三步:上传图片、选择模型、生成视频,即可体验。来源:AI工具集
商汤推出“日日新”融合大模型,勇夺“双冠王”
2025年1月10日,商汤科技推出“日日新”融合大模型,实现原生融合模态,深度推理与多模态信息处理能力大幅提升。模型在SuperCLUE《中文大模型基准测评2024年度报告》与OpenCompass多模态评测中均获第一,成“双冠王”。来源:商汤科技SenseTime
雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 + 赛后复盘
在 CES 2025 上,雷蛇发布全新概念产品 Project AVA, AI游戏伴侣,旨在提升玩家的游戏水平。Project AVA 在训练过程中汲取顶尖电竞职业玩家和教练的游戏理解,能为 MOBA 和 FPS 类型游戏提供实时指导,并在赛后给出个性化总结分析,指出操作高光和需改进之处。Project AVA 还能对电脑硬件进行性能调优,提升帧数和优化画面效果。来源:AI工具集
国家网信办:截至 2024 年末共 302 款生成式人工智能服务完成备案
截至2024年12月31日,国家网信办共完成302款生成式人工智能服务的备案,其中2024年新增238款。2024年还有105款通过API接口或其他方式直接调用已备案模型能力的生成式人工智能应用或功能在地方网信办完成登记。这些备案和登记工作旨在促进生成式人工智能服务的创新发展和规范应用。来源:IT之家
开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕 / 翻译功能
开源媒体播放器 VLC 在 CES 2025 上庆祝累计下载次数突破 60 亿次。VideoLAN 总裁 Jean-Baptiste Kempf 表示,尽管流媒体服务盛行,VLC 的活跃用户数量仍在增长。VideoLAN 在 CES 现场预览了 VLC 即将推出的新功能:基于本地开源 AI 模型的离线字幕生成和翻译功能。功能现已支持多种语言,包括法语、德语、日语和希伯来文。来源:IT之家
巨量引擎旗下创意生产平台 AIGC工具“即创”正式版上线
巨量引擎旗下创意生产平台 AIGC工具“即创”正式版已上线,具备AI脚本生成、智能成片、数字人、商品卡等多体裁内容生成能力,新增“爆款裂变”“一键过审”等功能。来源:AI工具集
官宣!通义灵码 AI 程序员全面上线,仅需10分钟完成整个开发过程
阿里云和通义实验室联合推出的通义灵码AI程序员全面上线,成为全球首个同时支持VS Code和JetBrains IDEs的AI编程工具。通义灵码具备代码智能生成、研发问答等功能,通过对话协作方式,能够高效完成业务开发、问题修复和单元测试等任务。累计生成代码达15亿行。来源:通义灵码
微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GPT-4o Mini
微软2025年1月8日在Hugging Face平台开源了小语言AI模型Phi-4,其参数量为140亿。Phi-4在多个基准测试中表现优异,超越了参数量更大的Llama 3.3 70B和OpenAI的GPT-4o Mini。出色性能主要得益于高质量数据集的训练。来源:IT之家
CES 2025首日观察:AI硬件不再画饼,中国厂商大杀四方
CES 2025首日,AI硬件成为焦点,中国厂商表现亮眼。涂鸦智能展示AI与IoT深度融合的创新应用,如智慧能源管理、AI灯光创作等,AR/AI眼镜大热,雷神、Rokid等厂商推出多款新品,电视领域,海信、TCL、长虹等国产厂商凭借RGB三维控色、Mini LED技术等突破。智能清洁设备也迎来创新,追觅、MOVA、云鲸等品牌带来机械臂、履带式拖布等新技术。来源:36氪
晚点对话李开复丨零一万物部分团队并入阿里,“灵魂拷问来得太快了”
零一万物CEO李开复在晚点对话中透露,公司与阿里云成立产业大模型联合实验室,部分团队将加入该实验室。零一万物将不再追求训练超级大模型,转而专注于训练更快、更便宜的模型,并基于此打造可盈利的应用。来源:晚点LatePost
联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”
联通数据智能宣布开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”。模型通过在SDXL架构中融合复合语言编码模块,实现了对中文长文本和特色词汇的精确语义理解,提升图像生成效果。元景模型替换了英文CLIP模型,增强了中文短文本输入的理解能力,支持长文本输入。来源:AI工具集
智元机器人推出首个机器人4D世界模型
智元机器人团队推出了首个机器人4D世界模型EnerVerse,通过自回归扩散模型结合稀疏记忆机制和自由锚定视角(FAV),在生成未来具身空间的同时,显著提升了机器人动作规划能力。EnerVerse在复杂任务中表现出卓越的未来空间生成能力和动作规划性能,解决了模态对齐和数据稀缺等挑战。来源:智元机器人
英伟达推出生成式世界基础模型平台 Cosmos 构建高保真物理模拟世界
英伟达推出了生成式世界基础模型平台Cosmos,旨在加速自动驾驶和机器人领域的发展。Cosmos能根据文本、图像或视频生成高度仿真的虚拟世界状态,为AI应用提供独特的视频输出。平台集成了生成式模型、高级标记器和加速视频处理管道,帮助开发者生成大量基于物理的合成数据,减少对真实世界数据的依赖。来源:AI工具集
可灵AI V1.6模型现已开放API,生成质量更稳定
北京快手宣布,自研的视觉生成大模型可灵AI V1.6已开放API。新版本在生成质量、内容效果等方面有显著提升,尤其在广告视频素材生成方面表现出色,能更好地响应运动、时序类动作和运镜等文字描述,提高素材生成成功率。来源:可灵AI
HeyGen推全新数字人技术,与 Sora 实现集成
HeyGen近日宣布推出全新数字人技术,并与Sora实现集成。此次合作产生的虚拟形象视频在许多情况下表现优于真人演员,且没有长度限制。HeyGen的虚拟形象完全由人工智能生成,非基于真实人物模型,具有更强的可塑性和创造性,可满足不同视频需求。来源:品玩
Anthropic正以600亿美元估值筹集20亿美元,将成为第五大最有价值的美国初创公司
Anthropic 正在与 Lightspeed Venture Partners 谈判,计划以 600 亿美元的估值筹集 20 亿美元。这轮融资将使 Anthropic 的估值达到 600 亿美元,成为继 SpaceX、OpenAI、Stripe 和 Databricks 之后第五大最有价值的美国初创公司。来源:有新Newin
科大讯飞2025年「首场发布会」,打造每个人的办公新范式
科大讯飞于2025年1月7日在北京中关村国际会议中心举办办公智能体产品升级发布会,推出多款升级产品。此次升级围绕智慧办公新范式,首次联合发布“知识中台、AI搜索、星火人设、虚拟数字人、星辰MaaS与多模交互”六大通用能力,旨在为每个人打造量身定制的AI助手。来源:讯飞开放平台
阅文旗下AI男友应用筑梦岛获千万美元融资,开启独立运营
阅文集团旗下的“筑梦岛”已开启独立运营,完成新一轮融资,金额超1,000万美元,由商汤国香基金、阅文集团等战略投资方共同投资。筑梦岛定位为“新一代AI虚拟互动娱乐平台”,用户可创造并互动“梦中人”,通过多模态互动建立情感连接。目前,筑梦岛App拥有近五百万注册用户,其中近80%为年轻女性用户,人均日对话轮次超120轮。来源:36氪
年终复盘 2024 AI搜索江湖,三大门派围攻光明顶
2024年,AI搜索赛道竞争激烈,互联网巨头、内容平台和AI创业公司纷纷入局。腾讯、百度、字节跳动等推出多款AI搜索产品,如搜狗输入法的AI搜索、360的纳米搜索、字节跳动的豆包电脑版等,覆盖学习、办公、电商等多个场景。AI搜索产品形态不断进化,多模态大模型的应用使其具备更强大的搜索和创作能力。来源:钛媒体
用AI大模型重塑服装设计制版,「深服科技」获数千万元Pre-A轮融资
浙江深服人工智能近日完成数千万元Pre-A轮融资,由上海厚毅资本领投。资金将用于模型开发、技术人才引进和市场拓展。深服科技成立于2023年,专注于为服装行业提供AI解决方案,通过AI大模型技术解决设计和制版难题,降低研发成本。产品“画衣衣AI制版”即将发布,可让设计师自主生成CAD制版图。来源:36氪
英伟达发布新一代消费级显卡RTX50系列,售价为549美元起
在2025年1月7日的 CES 展会上,英伟达 CEO 黄仁勋发布了 RTX 5090 显卡。显卡采用 Blackwell 架构,拥有 920 亿晶体管,AI 性能达 3352 TOPS,显存为 32 GB GDDR7,功耗为 575W。能通过 AI 提升帧率和图像质量。英伟达还推出了 Cosmos 世界模型平台,旨在推动物理 AI 的发展。来源:机器之心
中国信通院发布 MaaS 六大标准,解决 AI 模型落地“最后一公里”难题
中国信通院于2025年1月6日发布MaaS(模型即服务)系列标准,旨在解决大模型落地应用中的质量问题和选型难题。系列标准涵盖模型服务协议、评估方法、平台能力、模型管理及应用开发等方面,为大模型服务商和平台供应商提供能力建设参考,助力MaaS行业健康发展。来源:IT之家
腾讯研究院发布《AI图景解码50关键词》浓缩AI领域的基本图景和趋势
腾讯研究院发布《AI图景解码50关键词》,将2024年AI领域的关键信息和趋势浓缩为50个关键词。研究团队基于大量数据和专题研究,筛选出涵盖基础模型、图像处理、视频生成等八大方向的关键词,通过AI生成卡片进行可视化表达。帮助普通人快速了解AI领域的基本图景和未来趋势。来源:AI工具集
传音控股与阿里云达成合作,通义千问大模型搭载于前者旗下 AI 手机
传音控股与阿里云达成合作,将通义千问大模型搭载于旗下 TECNO 品牌的 AI 手机 PHANTOM V Fold2 中。手机通过特定的 AI 按键,用户可以在离线环境中流畅运行多轮 AI 对话,实现文档及通话摘要等功能。来源:IT之家
罗永浩 Jarvis 初创项目“J1 Assistant 助理”上线,支持语音与大模型互动
罗永浩旗下的AI初创项目Jarvis在海外上线 J1 Assistant AI智能助手,目前仅提供安卓版本,官网对国内IP进行了限制。J1 Assistant 的特色在于音频输入功能,用户可以通过语音输入,将语音消息发送至谷歌搜索引擎、自家AI模型或ChatGPT进行查询,还可以用于创建备忘录。来源:AI工具集
「天工大模型4.0」o1版和4o版正式上线天工APP和网页,免费使用
昆仑万维集团宣布,「天工大模型4.0」o1版和4o版于2025年1月6日正式上线天工网页和APP,供用户免费使用。o1版专注于中文逻辑推理,具备强大的数学、代码、逻辑、常识和伦理决策能力,通过多智能体体系和强化学习等技术提升推理性能。4o版为多模态模型,语音对话助手Skyo具有情感表达和多语言切换能力,提供流畅的实时对话体验。来源:昆仑万维集团
微软计划本财年砸下 800 亿美元,建设符合 AI 工作需求的数据中心
微软计划在2025财年投资800亿美元建设支持人工智能运算的数据中心,其中超过一半的资金将投向美国市场。微软副董事长布拉德·史密斯表示,美国在全球AI竞赛中处于领先地位,得益于私人资本投入和技术创新。微软已向OpenAI投资超过130亿美元,将其AI模型整合到Windows、Teams等产品中。来源:IT之家
马斯克称 Grok 3 即将推出:已完成预训练,计算量比 Grok 2 高十倍
马斯克宣布 Grok 3 即将推出,预训练已完成,计算量比 Grok 2 高出十倍。去年 7 月,Grok 3 使用了 10 万块英伟达 H100 芯片进行训练,但未能如期发布。去年 12 月,xAI 向所有 𝕏 平台用户免费推出了 Grok-2 模型,Premium 用户将优先访问新功能。来源:IT之家
阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员
阿里通义千问 Qwen 推出了 CodeElo 基准测试,利用 Elo 评级系统评估大语言模型(LLM)的编程能力。CodeElo 通过 CodeForces 平台的题目进行测试,确保评估的准确性和全面性。在测试中,OpenAI 的 o1-mini 模型表现最佳,Elo 评分为 1578,超过了 90% 的人类程序员。来源:AI工具集
上海发布“天工人工智能工业平台”和“工业语料库 1.0 版”
上海市在“人工智能+”行动推进大会上发布了“天工人工智能工业平台”和“工业语料库 1.0 版”。天工平台采用开放架构,兼容主流大模型,提供从底层算力到顶层应用的全面支持,旨在降低工业企业使用 AI 的门槛,提高应用开发效率,助力企业智能化转型。工业语料库则为企业提供精准的决策支持和解决方案。来源:IT之家
谷歌 DeepMind 推 CAT4D:普通视频变 3D 大片,单视角视频也能转换多视角了
谷歌 DeepMind 联合哥伦比亚大学和加州大学圣地亚哥分校开发了 CAT4D AI 系统,能够将普通视频转化为动态 3D 场景。系统基于扩散模型,将单视角视频转换为多视角视图,用户可以从不同角度观看视频中的主体。来源:AI工具集
阿里入局 AI 眼镜:与雷鸟达成战略合作,产品将接入通义大模型
雷鸟创新与阿里云达成AI眼镜领域的独家战略合作,阿里云通义大模型将为雷鸟AI眼镜提供技术支持。是国内首次大模型与AI眼镜硬件厂商深度定制合作。双方将共同投入研发资源,围绕云计算、大模型、AI硬件等领域合作。雷鸟计划于1月7日发布雷鸟V3 AI拍摄眼镜。来源:IT之家
微软发布新模型 LAM ,可以自己操作Windows程序
微软推出 LAM(Large Action Model)“大型动作模型” ,能够独立操作Windows程序,将用户请求转化为实际行动。是首个专门训练与微软Office产品一起工作的模型。在Word测试中,LAM的成功率达到71%,速度超过GPT-4o。来源:AI工具集
百度增设搜索产品:上线“AI 搜”,通过 @与不同智能体交互
百度近日上线“AI 搜”,基于百度文心大模型的桌面端AI搜索引擎。整合了百度搜索引擎、健康、律临、文库、教育等内容生态,提供话题探索、问题解决等功能。用户可通过@方式与不同智能体交互。来源:AI工具集
阿里前端第一人AI创业首秀,要做全球内容创作者的GitHub!5k人排队内测
前阿里前端技术专家玉伯,离开蚂蚁集团后创办AI公司思维天空,推出AI工具YouMind,旨在服务全球创作者。YouMind 集成多模态内容,提供网页总结、翻译、ChatBot对话等功能,支持用户将内容分类收藏。目前处于内测阶段,已有近5000人申请,公司估值过亿。来源:量子位
智象未来多模态大模型3.0全球首发
智象未来发布智象多模态生成大模型3.0和智象多模态理解大模型1.0,旨在提升视觉多模态基础模型服务,激发创造力。创始人梅涛院士强调了AI技术在推动科学发展和具身智能方面的重要性,提出了大模型通往AGI的两条路径。来源:HiDream智象未来
阿里云与零一万物达成战略合作,成立“产业大模型联合实验室”
阿里云与零一万物达成战略合作,共建“产业大模型联合实验室”,旨在加速大模型技术应用落地和产业生态整合。双方将结合研发实力,通过阿里云百炼大模型平台提供服务。进一步深化双方在AI大模型领域的合作。来源:IT之家
英伟达新一代显卡领衔,一波AIPC芯片产品有望亮相CES展
英伟达CEO黄仁勋将在CES 2025发表开幕演讲,可能发布新一代GeForce RTX50系列显卡。英特尔和AMD也预计在会上发布AIPC相关产品,推动AI芯片技术迭代。行业已进入用户体验探索阶段,AIPC芯片具备自然语言交互等特点,有望快速渗透PC市场,带动产业链升级。来源:财联社
谷歌前CEO施密特预测:AI 将在今年获得“永久记忆”,2028 美国会耗尽能源储备
谷歌前CEO埃里克·施密特预测,2025年AI将实现三大突破:获得“永久记忆”、智能体从对话到行动的飞跃、文本到行动的编程革命。他强调AI变革将“一切,无处不在,同时发生”,警告美国可能在2028年耗尽能源储备,因数据中心耗电量巨大。来源:36Kr
智谱正式发布深度推理模型:GLM-Zero 的初代版本 GLM-Zero-Preview
智谱AI在2024年尾发布 GLM-Zero 推理模型,初代版本GLM-Zero-Preview已上线,基于扩展强化学习技术,提升数理逻辑、代码处理和深度推理能力。模型在AIME 2024、MATH500和LiveCodeBench评测中表现优异,与OpenAI-o1-Preview相当。用户可在智谱清言-“Zero推理模型”智能体免费使用,开发者可通过API调用体验。来源:AI工具集
趣丸科技「天谱乐」开创AI音乐新纪元:全球首个多模态配乐大模型
趣丸科技推出的全球首个多模态配乐大模型“天谱乐”,支持文本、图片和视频生曲,能生成高度匹配的BGM和MV效果。该技术在中文人声唱词上达到专业级效果,减少了电音感,接近音乐发行级别。“天谱乐”已接入唱鸭App,累计创作近1000万首AI歌曲。来源:AI工具集
可灵AI API新增【虚拟试穿V1.5】和【对口型】
快手可灵AI(Kling)宣布API能力升级,推出虚拟试穿V1.5模型,支持单件及组合服装输入,能生成试衣视频。同时,新增对口型功能,可实现视频中人物口型与配音同步,提升视频真实感。这些升级将为电商、广告营销和泛娱乐行业带来新机遇,推动业务增长。来源:可灵AI
OpenAI公布2025年将发布的技术产品:AGI、Agents、GPT-4o升级版
OpenAI首席执行官Sam Altman宣布,到2025年将发布包括AGI(通用人工智能)、智能体Agents、GPT-4o升级版在内的多项技术产品,以及其他改进,如更好的记忆存储、上下文窗口、成人模式、深度研究特色功能、Sora和个性化定制。来源:第一财经
大模型的2024年:我们对AI的发展脱敏了
2024年AI领域发展迅速,大模型更实用但不再惊艳,端侧模型和混合专家技术(MoE)降低成本,多模态研究成新方向。AI搜索、语音交互、视频技术商业化挑战中前行,AI Agent开发门槛降低。AI硬件百花齐放,AI眼镜异军突起。AI游戏从辅助工具成为游戏一部分。中国AI人才梯队规模质量仅次于美国,期待在AI浪潮中领先。来源:新硅NewGeek
黑芝麻智能发布华山A2000家族芯片平台,打造全场景通识智驾标杆
黑芝麻智能发布华山A2000家族芯片平台,针对下一代AI模型设计,提供高算力、高性能,支持全场景通识智驾。A2000家族包括A2000 Lite、A2000和A2000 Pro,满足不同自动驾驶需求。集成领先CPU、DSP、GPU等,算力是主流旗舰芯片的4倍,原生支持Transformer模型,推动智能驾驶技术发展。来源:黑芝麻智能
讯飞医疗成功上市,成为医疗大模型第一股!
讯飞医疗科技股份有限公司(股票代码:02506.HK)于2024年12月30日在香港联交所主板成功上市,标志着医疗大模型领域的第一股诞生。作为中国医疗人工智能行业的领导者,讯飞医疗在基层医疗服务、医院服务、患者服务和智慧影像等方面均取得显著成就,致力于让医疗服务更便捷,为人类健康未来奋斗。来源:科大讯飞
支付宝「探一下」新一代AI视觉搜索产品,满足你的好奇心
支付宝推出新功能“探一下”,基于自研的多模态大模型技术,能够“用AI之眼探索万物”,提供快速、有用、趣味的生成式搜索服务。“探一下”提供三种核心服务:探知识、探灵感、探文本。可以根据自己的需求选择相应的服务,满足用户的好奇心。通过支付宝“扫一扫”界面或支小宝App中访问。来源:支付宝
智元机器人开源 AgiBot World 百万真机数据集,大幅超越谷歌 Open X-Embodiment
智元机器人宣布开源全球首个百万真机数据集AgiBot World,超越谷歌Open X-Embodiment。该数据集基于全域真实场景、全能硬件平台、全程质量把控,覆盖家居、餐饮、工业等五大核心场景,包含80多种技能视频。来源:AI工具集
PixVerse V3.5 正式上线,模型全面升级,10秒极速生成
爱诗科技宣布PixVerse V3.5版本正式上线,新版本在Turbo模式下10秒内即可生成高质量视频,保持行业领先的语义理解和细节表现力。动漫生成效果显著提升,支持通过文生视频描述特定风格或上传图片生成动漫效果。新增首尾帧功能,激发创作灵感。来源:爱诗科技 AIsphere
拓元智慧完成近亿元Pre-A轮融资,将聚焦多模态大模型与具身智能技术
拓元智慧(X-Era AI)宣布完成近亿元人民币的Pre-A轮融资,由粤科金融集团、鹏城愿景基金等投资。资金将用于加速多模态大模型和具身智能技术的研发。公司成立三年,累计营收近亿元,核心团队来自国内外高校和知名企业,已在无人零售、文教创作等领域实现技术深度应用。来源:钛媒体
OpenAI裂变成了两块:一块营利,一块非营利
OpenAI近日宣布公司重组,分为营利和非营利两部分,确保通用人工智能(AGI)造福全人类。重组旨在选择最适合长期成功的组织结构,使非营利组织可持续发展,让各部分有效运作。OpenAI计划将营利性公司转变为特拉华州公共利益公司(PBC),并发行普通股。PBC的公共利益将是OpenAI的使命。来源:机器之心
“理想同学”上架苹果 App Store:支持知识问答、看世界等功能
理想汽车推出的人工智能应用“理想同学”已上架苹果App Store,版本1.0.0。应用依托自研大模型,具备知识问答、视觉感知能力,能解答汽车、财经、科技等领域问题,支持英文翻译、文本生成。界面简洁,语音输入精准,输出自然流畅。来源:AI工具集
可图 1.5 图像模型来啦!全新「AI模特」功能上线
快手可灵AI(Kling)团队发布可图1.5图像模型,模型在画面质量和美感上大幅提升。AI试衣新增“AI模特”功能,借助可灵1.6图生视频能力,用户只需输入文本描述即可生成模特动态展示服装。可灵1.5模型支持尾帧生成。对口型功能新增10款高品质音色,支持选择音色情感,增强视频内容的情感表达。来源:可灵AI
首个重症医疗大模型来了,腾讯 X 迈瑞发布“启元重症大模型”,已在ICU病房上班
腾讯与迈瑞医疗合作开发的全球首个重症医疗大模型“启元重症大模型”已在ICU病房投入使用。模型能实时监测患者生命体征,5秒内总结病情,提供诊疗建议,准确率高达95%。能自动生成规范病历,将医生病历编写时间从半小时缩短至一分钟。来源:腾讯
火山引擎×联想,为 AI 桌面助手“如意”植入豆包大模型,“智” 敬PC新时代
联想与火山引擎合作,推出全新升级的AI桌面助手“如意”(AI Stick),植入豆包大模型,提供AI搜索、AI写作、AI聊天三大功能,全面提升PC用户体验。如意能精准理解用户需求,提供多领域知识解答,实现智能对话式交互,增强PC智能体验。来源:火山引擎
联想新一代智能体系统“天禧 AS”发布,明年 Q2 落地 AI PC、AI 手机、AI 平板等
联想在2024天禧生态伙伴大会上发布了新一代智能体系统“天禧个人智能体系统(天禧 AS)”,计划于2025年第二季度应用于AI PC、AI手机、AI平板等终端。天禧AS运行在传统操作系统之上,具备跨端运行能力,能实现端侧和个人云混合部署,提供个性化AI助理服务。来源:IT之家
国货之光 DeepSeek V3 横空出世,多语言编程能力全面超越 Claude
幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版AI模型 DeepSeek V3,拥有685B参数和256个专家的MoE架构,在aider多语言编程测评中超越Claude 3.5 Sonnet,夺得第二名。成功率从V2.5的17%提升至48%,编辑格式正确率高达98.7%。DeepSeek V3现已开源,提供代码编写、Bug修复等多种编程能力。来源:AI工具集
智谱AI 开源 GLM-PC 基座模型 CogAgent-9B,推动GUI交互自动化技术
智谱AI宣布开源GLM-PC基座模型 CogAgent-9B,是基于GLM-4V-9B训练的专用Agent任务模型,能仅通过屏幕截图预测GUI操作。CogAgent-9B在GUI感知、推理预测准确性等方面显著提升,支持中英文双语交互。来源:GLM大模型
阶跃星辰图像生成模型全新升级:支持「图生图」,一键风格迁移!
阶跃星辰宣布其图像生成模型Step-1X系列的全新升级版本Step-1X-Medium,性能提升30%,增强了理解能力和图文一致性,支持“图生图”功能,实现细节增强、风格迁移和小范围局部修改。特别强化了“中国风”内容创作能力,能捕捉东方面孔神韵,支持英文文案生成。来源:阶跃星辰
腾讯推出 DRT-o1 系列 AI 模型:长链思考推理实现文学翻译“信达雅”
腾讯研究院推出DRT-o1系列AI模型,通过长链思考推理技术,提升文学作品翻译质量,尤其是在理解比喻和隐喻方面。模型采用多智能体框架,包括翻译员、顾问和评估员角色,通过迭代优化翻译结果。实验显示,DRT-o1在BLEU和CometScore等指标上超越其他模型。来源:AI工具集
通义从阿里云分拆,并入阿里智能信息事业群,与“夸克”平级
阿里巴巴旗下的AI应用通义从阿里云分拆,加入智能信息事业群,正式转向C端市场。通义系列由达摩院研发,是阿里AI领域的拳头产品。此次调整意味着通义将与Kimi、豆包等AI助手竞争,面临缩小与第一梯队差距的挑战。来源:光子星球
小米正搭建GPU万卡集群,将对AI大模型大力投入
小米正在搭建GPU万卡集群,对AI大模型进行大力投入。该计划已实施数月,小米大模型团队成立时已拥有6500张GPU资源。DeepSeek-V2的关键开发者之一罗福莉,将加入小米。小米大模型技术主攻轻量化和本地部署,已在手机端实现13亿参数级别的大模型,效果接近云端60亿参数模型。来源:财联社
科大讯飞连续中标7大AI项目,两个月内狂揽11亿大单
科大讯飞旗下讯飞智元中标山东泰安市肥城人工智能行业大模型应用基地项目,投标金额约1.59亿元。项目内容包括智算中心基础设施建设,涉及基建、硬件平台和基础配套软件等。科大讯飞近期已连续中标7大项目,总金额近11亿元。来源:智东西
Qwen开源视觉推理模型QVQ,像物理学家一样更睿智地看世界!
Qwen团队发布开源多模态推理模型QVQ,基于Qwen2-VL-72B构建,提升AI的视觉理解和复杂问题解决能力。QVQ在MMMU评测中得分70.3,显著优于Qwen2-VL-72B-Instruct,在数学相关基准测试中表现突出。模型虽有语言混合、递归推理等局限性,但已在视觉推理任务中展现增强能力。来源:魔搭ModelScope社区
IBM 发布新语言模型 Granite 3.1,性能、上下文能力增强
IBM发布大语言模型新版本 Granite 3.1,相较于3.0版本,Granite 3.1采用了更密集的架构,能处理多达128,000个令牌,显著提升了处理复杂文本的能力。版本包含8B和2B两种规模模型,均能检测工作流程中的幻觉,提供与RAG相同的责任和信任。IBM计划在未来几个月继续推出Granite 3系列的更新,预计在2025年第一季度加入多模式功能。来源:AI工具集
“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法
OpenAI研究人员提出“深思熟虑的对齐”新方法,旨在提升AI模型安全性。该方法通过直接教授模型安全规范,并训练其在生成响应前推理这些准则,将安全原则融入推理过程中。分为监督微调和强化学习两个阶段,使用模型生成的数据和思维链推理,降低资源需求。o1模型部署此技术后,在StrongREJECT基准测试中得分0.88,显著高于GPT-4o的0.37,同时减少了误拒,准确率高达93%。来源:IT之家
2025 AI Agent剑指何方?两份前沿报告描绘全景地图
2024年,AI Agent成为热门概念,被视为大模型应用落地的最佳形式。LangChain和Langbase的报告显示,51%的受访者已在生产中采用AI Agent,78%计划近期引入。中型企业最积极,非科技公司与科技公司部署AI Agent的比例相当。OpenAI和谷歌是最受欢迎的大模型提供商。准确性是选择AI Agent的首要因素,其次是安全性和可定制性。AI Agent在研究总结、个人生产力工具和客户服务等领域被广泛采用。性能质量是生产中采用AI Agent的主要顾虑。来源:钛媒体
做出AI科学家的Sakana AI又放大招,大模型自动搜索人工生命系统
Sakana AI公司开发了搜索人工生命的系统 ASAL,通过基础模型自动化搜索人工生命模拟,探索可能存在的“生命”。ASAL展示了在多种人工生命基质中发现新生命形式的能力,为人工生命研究提供了新范式,加速了对涌现、进化和智能的理解,有望启发下一代AI系统的发展。来源:机器之心
杭州CPU黑马宣布数亿元融资,在研服务器AI CPU芯片
国产CPU创企进迭时空完成数亿元人民币A+轮融资,由香港Brizan III期基金领投,资金将用于高性能RISC-V AI CPU和服务器AI CPU产品的研发及市场拓展。公司总部位于杭州,专注于构建面向大模型时代的原生计算平台,助力AI计算机和机器人等新应用发展。进迭时空已布局全栈计算技术,形成软硬全栈计算系统解决方案,推动RISC-V高性能计算芯片规模化进入行业市场,应用于电力、电信、工业等领域。来源:芯东西
AI视频创企智象未来又拿新融资,数亿元!
AI视频生成公司智象未来(HiDream.ai)完成数亿元人民币A轮融资,由合肥产投领投,安徽省人工智能母基金和湖北省长江电影集团等参与。智象未来由加拿大工程院外籍院士梅涛博士创立,专注于视觉多模态基础模型及创新应用。公司自研的“智象大模型”支持文本、图像、视频、3D互生,提供分钟级营销视频生成服务,累计AIGC内容生成量破千万,服务超3万家企业。来源:智东西
星火浏览器插件新升级!能读会答、能翻译会总结
讯飞星火浏览器插件新升级,集成了讯飞星火V4.0底层能力,支持Chrome、Edge等主流浏览器。新增功能包括“继续提问”以深入讨论获取答案、网页全局对照翻译、一键朗读以及句子段落总结,提升阅读效率。插件以6M+极小内存运行,提供AI搜索、网页总结、划词收藏等功能,旨在让网页阅读与信息搜索更轻松高效。来源:讯飞开放平台
Freed AI,AI病历助手,创立1年多,1万付费医生,1000万美金ARR
Freed AI 是一家成立一年多的AI病历助手公司,已获得1万付费医生用户,实现1000万美金年度经常性收入(ARR)。公司的AI转录系统通过记录患者就诊讨论内容,识别关键术语并创建结构化的病历记录,帮助医生减少73%的文档工作时间。Freed AI的愿景是打造全球顶尖的AI医疗助手。来源:Z Potentials
马斯克xAI获60亿美元新融资,和特斯拉和SpaceX大搞AI生态
马斯克的xAI公司宣布完成60亿美元C轮融资,主要投资方包括A16Z、Blackrock、富达管理研究公司等。英伟达和AMD作为战略投资者继续支持xAI基础设施扩展。资金将用于加速基础设施建设、推出数十亿人使用的突破性产品和技术研发,实现公司使命。xAI的新一代旗舰模型Grok 3正在训练中,将推出利用Grok、Colossus和X改变人类生活、工作和娱乐方式的新产品。来源:X.ai
「像素绽放PixelBloom」完成国家队B2轮融资,打造全球AI办公软件超级工场
AIGC科技企业“像素绽放PixelBloom”完成B2轮融资,由北京市人工智能产业投资基金领投。融资将用于产品研发和市场拓展,旨在打造全球AI办公软件超级工场。旗下AiPPT.com等产品,通过AI辅助PPT制作,已在全球积累超1000万用户。公司从单一产品向平台化战略转变,构建AI办公软件生态,推动行业发展。来源:36氪Pro
Hume AI 宣布推出新一代语音语言模型 OCTAVE,能检测微妙的情绪线索
Hume AI 推出新一代语音语言模型OCTAVE,模型融合了语言准确性和情感理解。OCTAVE结合了Hume AI的EVI 2语音语言模型、OpenAI的语音引擎、ElevenLab的TTS语音设计和Google DeepMind的NotebookLM等功能,旨在提升AI交互的真实性和丰富性。模型采用多模态神经架构,经过超过一百万个情感语音样本的训练,能够识别微妙情绪线索。来源:AI工具集
上海国资和腾讯联手投资,“大模型六虎”阶跃星辰获数亿美元B轮融资
AI大模型独角兽阶跃星辰完成数亿美元B轮融资,投资方包括上海国有资本投资有限公司、腾讯投资等。本轮融资将用于基础模型研发,强化多模态和复杂推理能力,扩大C端应用场景。公司由微软前全球副总裁姜大昕博士领导,致力于实现AGI,已发布多款自研基座模型,并与多家企业达成合作。来源:钛媒体AGI
OpenAI最强推理模型o3发布!AGI测试能力暴涨,最难数学测试分数碾压同行
OpenAI在第12天发布会直播上推出最强推理模型o3,宣称接近通用人工智能(AGI)。o3在ARC-AGI测试中得分87.5%,远超GPT-3和GPT-4o。o3有完整版和mini版,mini版将于1月底推出。o3在编程竞赛Codeforces中得分2727,数学基准测试AIME 2024中准确率达96.7%。OpenAI将与ARC-AGI基金会合作构建下一个基准测试。来源:AI工具集
小红书推出AI搜索产品:点点,主打生活服务场景
小红书近期推出一款名为“点点”的AI搜索产品,主打生活场景搜索,已在各大应用商店上线。核心功能包括自动定位推送旅游攻略、美食景点问题,AI总结全网信息,以及提供视频回复。小红书还在搜索栏中测试“问点点”功能,进一步整合AI搜索能力。来源:AI工具集
谷歌通用推理模型登场:思考速度比所有模型快5倍,能解摩斯代码,数学物理秒解决
谷歌发布“Gemini 2.0 Flash Thinking”AI推理模型,模型以极快的速度解决复杂问题并展示思考过程。在数学、代码、指令跟随等多个领域表现卓越,排名第一。模型目前支持32k上下文窗口,不联网,未来将提供更长token和更多工具支持。模型已在谷歌AI Studio免费提供试用。来源:AI工具集
AI编程助手 Cursor 再获融资1亿美元,估值飙升至26亿美元
AI编程助手Cursor背后的公司Anysphere完成1亿美元B轮融资,估值达26亿美元。公司收入从4月的年化经常性收入400万美元增长至10月的每月400万美元。Cursor 0.44版本发布,主要更新包括代理性能改进、Yolo模式和光标标签更新,提升代码变更审查直观性和用户体验。来源:AI工具集
ElevenLabs推出Flash语音对话模型:仅75毫秒延迟,支持32种语言
ElevenLabs推出最新的人声合成模型Flash,宣称是目前最快的文本转语音解决方案,延迟仅为75毫秒,非常适合低延迟的对话式语音助手。Flash模型有两个版本,Flash v2仅支持英语,Flash v2.5支持32种语言。在音质和情感深度略逊于Turbo模型,在速度上Flash盲测中表现出色。来源:AI工具集
快手可灵 1.6 模型发布:文本响应度、画面美感及运动合理性均有“明显提升”
可灵近日推出了1.6版本,实现了图生视频的巨大飞跃。更新重点包括物理规律真实感、人物运动表演和语义理解的大幅提升。新版本在切食物、倒茶、跳舞等动作的物理反馈上表现出色,人物表情和动作的细节也更加丰富自然。文本响应度、画面美感及运动合理性均有明显提升。来源:IT之家
苹果Mac用户狂喜!ChatGPT深度集成应用,支持 Xcode、Notion 等30+应用
OpenAI在第11天的直播中宣布ChatGPT与Mac应用的深度集成,特别在编程和写作方面进行了更新。现在,用户可以通过简单的复制粘贴操作,与Warp、XCode等应用协同工作,无需详细交流即可执行任务。ChatGPT支持在语音模式下与Notion、Apple Notes等应用协同工作。新功能已在Mac最新版ChatGPT应用中推出,Windows用户还需等待。来源:量子位
国家电网发布国内首个千亿级多模态电力行业大模型
国家电网发布了国内首个千亿级多模态电力行业大模型“光明电力大模型”,模型参数规模达到千亿级别,具备电力知识记忆理解、多模态融合分析等能力,被誉为能源电力领域的人工智能“专家”。模型已在中国信通院、电子标准院通过权威检测,专业能力达到“卓越级”,在电网规划、运维、运行、客户服务等多个领域得到应用,提升了电网安全稳定运行和新能源消纳能力。来源:IT之家
华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物
CMU联合20多所研究实验室开源发布Genesis生成式物理引擎,旨在模拟世界万物。引擎能生成4D动态世界,基于通用机器人和物理AI应用的物理模拟平台。Genesis支持并行模拟,速度比现有GPU加速的机器人模拟器快10到80倍,具备物理求解器的统一框架,支持照片级真实感渲染和可微分性。还支持生成式模拟,允许通过语言提示生成多种模态数据。来源:AI工具集
人人可享 AI 编程:免费版 GitHub Copilot 上线,VS Code 每月补全 2000 次代码
微软旗下GitHub推出免费版GitHub Copilot,支持开发者在Visual Studio Code中免费使用AI辅助编程服务。全球1.5亿开发者现可在VS Code体验AI编程。免费订阅包括每月2000次代码生成和补全,以及50次编程问题解答。用户可选择Anthropic的Claude 3.5 Sonnet或OpenAI的GPT-4o模型,支持第三方智能体。来源:IT之家
蚂蚁团队自研的「智能开发神器」,让你秒变 “代码大师”!
蚂蚁团队自研的面向前端智能研发AI工具WeaveFox,能根据设计图直接生成前端源代码。WeaveFox基于蚂蚁百灵多模态大模型打造,支持多端和多技术栈,包括控制台、移动端H5、小程序等,以及React、Vue等框架。支持二次调整,追求设计稿的一比一还原,旨在为前端开发带来高质、高效、高产的研发体验。该产品预计将于明年正式开放。来源:AI工具集
OpenAI 加速普及 ChatGPT,开通免费热线电话,老人机也能用ChatGPT了
OpenAI直播第10天,在美国推出ChatGPT热线电话服务,号码是:1-800-ChatGPT,也可以打1-800-242-8478,每月可免费通话15分钟,支持智能手机、老人机和座机各种电话设备与ChatGPT语音对话。OpenAI还集成了ChatGPT到WhatsApp,给这个号码发消息来获取回复,负责回答问题的是4o mini。来源:量子位
影石发布AI双摄视频会议一体机Connect,让开会更简单
影石Insta360发布了智能双摄视频会议一体机Insta360 Connect,集成4K双摄、14阵列麦克风和扬声器,搭载AI算法,为6-14人中小型会议和教育场景提供解决方案。设备支持发言人自动切换和单人追踪,提供多种会议模式,兼容主流会议平台,内置智能白板功能。来源:AI工具集
微信公众号新增“作者朗读音色”功能:可生成作者音色全文音频
微信近日推出了“作者朗读音色”新功能,支持用户在阅读公众号文章时通过点击“听全文”来收听作者音色朗读的文章。作者需在“公众号助手”App中录制例句以复刻语气和情感,创建个性化语音。功能目前处于灰度测试阶段,将逐步向用户开放。来源:微信派
小猿学练机发布:墨水屏+AI教育大模型,突破20毫秒手写延迟
猿辅导发布小猿学练机,集成AI教育大模型,提供个性化学习支持。设备整合296个教材版本、15亿题库和3亿精讲视频,升级六维能力图谱,提升AI数据处理效率。K12阶段采用EPD墨水屏,低龄儿童使用10.3英寸Kaleido3 KHS彩色墨水屏。手写延迟19毫秒,搭载高通8核处理器,支持27天续航,售价4899元。来源:小猿智能设备
豆包大模型家族全面升级,重磅发布视觉理解模型
字节跳动旗下火山引擎发布豆包大模型家族全面升级,包括视觉理解模型,能同时处理文本和图像问题,提供准确回答,大幅降低开发流程复杂度。模型在教育、旅游、电商等领域有广泛应用,价格为每千tokens 0.003元,比行业平均价格低85%。豆包通用模型pro新版本在多个任务处理能力上提升显著。火山引擎还推出全域AI搜索和大模型记忆方案,助力企业智能化转型。来源:AI工具集
AI数据分析公司Databricks一口气融728亿!AI融资新纪录
AI数据分析公司Databricks宣布J轮融资目标为100亿美元(约合人民币728亿元),目前已完成86亿美元,超越OpenAI的65亿美元融资,创下全球AI创企融资新纪录。本轮融资后,Databricks估值达到620亿美元,预计2025年自由现金流将首次为正。公司计划将资金用于开发AI产品、战略性收购及扩展国际市场,满足不断增长的市场需求。来源:智东西
Meta 推出 Apollo 开源模型,让 AI “看懂”视频
Meta与斯坦福大学合作推出 Apollo 系列AI模型,提升机器对视频的理解能力。Apollo模型包含两个组件,分别处理视频帧和跟踪对象及场景变化,在视频片段间添加时间戳以保持时间感知。模型采用分阶段训练方法,强调训练方法的重要性。Meta优化数据组合,发现10-14%的文本数据与视频内容的平衡能提升语言理解和视频处理能力。来源:AI工具集
AI 视频生成工具 PixVerse 上线视频生视频功能,体验视频延长乐趣
爱诗科技推出的AI视频生成工具 PixVerse 上线 Video to Video(视频生视频)功能,可基于实拍视频或影视片段进行延长生成,进一步拓宽AI视频创作的可能性。登录PixVerse,上传视频,选择特效或直接输入提示词,体验无限延长的创作乐趣!来源:AI工具集
OpenAI o1 推理模型 API 满血开放,成本暴降60%,定制升级
OpenAI在第9天直播中发布o1模型API全面开放,成本降低60%,具有更高可定制性,新增函数调用、开发者消息和图像分析等功能。GPT-4o音频成本降低60%,mini版本价格降低10倍。OpenAI推出了偏好微调方法,通过成对样本比较学习使模型适应特定应用场景。实时API支持WebRTC,简化开发流程,降低价格,提供Python SDK支持。旨在提高开发效率和模型性能。来源:IT之家
智谱完成30亿元新一轮融资,2024年商业化收入翻倍
AI独角兽“智谱”完成30亿元新一轮融资,投资方包括战投及国资,老股东君联资本跟投。资金将用于大模型研发,提升复杂多模态任务处理能力。2024年智谱商业化收入翻倍,API年收入增长超30倍,智谱清言预计年收入超千万,用户超2500万。来源:智能涌现
图森未来发布图生视频开源大模型“Ruyi”,RTX 4090就能运行
图森未来发布“Ruyi”图生视频大模型,开源Ruyi-Mini-7B版本。Ruyi基于DiT架构,包含Casual VAE模块和Diffusion Transformer,参数量约7.1B,支持在RTX 4090等消费级显卡上运行。模型支持多分辨率、多时长视频生成,以及首帧、首尾帧控制生成和运动幅度控制。Ruyi旨在降低动漫和游戏内容的开发周期和成本。来源:AI工具集
Meta Ray-Ban 智能眼镜大更新:“实时 AI”可持续分析用户所见内容
Meta Ray-Ban智能眼镜v11版本更新,引入“实时AI”功能,能持续观察用户所见并进行自然对话,无需唤醒词即可互动,AI能记住用户提问并主动提供建议。更新还包括实时翻译功能,支持英语与西班牙语、法语、意大利语的交流,以及Shazam音乐识别集成。来源:IT之家
谷歌发布AI图像生成新工具 Whisk,支持上传多张图片以图生图
谷歌发布AI图像生成工具Whisk,支持通过上传图像来生成新图像,无需复杂的文本提示。可以为图像的主题、场景和风格提供多张图像作为提示,或者使用谷歌自动填充的AI生成图像。Whisk基于谷歌最新的Imagen 3图像生成模型,旨在提供快速的视觉探索,支持用户编辑和优化生成的图像。来源:AI工具集
全球最大的仓储机器人公司赴港上市,蚂蚁英特尔是股东
极智嘉作为全球最大的仓储履约AMR解决方案提供商,已向港交所提交招股书,计划在主板上市。极智嘉已连续五年保持领先地位,服务全球约770家终端客户,包括60家财富500强企业。公司三年半累计营收达59亿人民币,其中超70%收入来自中国大陆以外市场。极智嘉专注于AMR解决方案,旨在提高供应链效率,减少人工依赖,计划将IPO募集资金用于研发、市场扩张和供应链发展。来源:机器人前瞻
谷歌版Sora迎来 Veo 2,升级4K高清!一句话控制镜头运动,Imagen 3 再进化
谷歌版Sora升级至Veo 2.0,能根据文本或图像生成4K高清视频,理解镜头控制指令。在模拟现实物理和人类表情方面有显著提升,能精确遵循复杂的指令Prompt。在Meta基准数据集MovieGenBench上,Veo 2.0在整体偏好和指令遵循方面优于其他视频生成模型。同时,图像生成模型Imagen 3也得到增强,能生成多样化的艺术风格图像.来源:AI工具集
OpenAI直播发布第8天:ChatGPT Search全面升级,免费开放,与Her打通了!
OpenAI直播第8天,ChatGPT推出Search搜索功能升级,包括移动端优化和多模态信息搜索,结合Her功能实现实时通话中的语音搜索。基于微调后的GPT-4o模型,使用合成数据生成技术。将逐步向所有用户免费开放。来源:AI工具集
Kimi 发布 k1 视觉思考模型,多项理科测试行业领先
月之暗面 Kimi 今日发布 k1 视觉思考模型,模型基于强化学习技术,支持端到端图像理解和思维链技术,覆盖数学、物理、化学等基础科学领域。k1模型在多项基准能力测试中表现超越全球标杆模型,现已上线Kimi智能助手APP及网页版,可通过拍照或传图体验模型推理思维链。来源:AI工具集
腾讯微信正式发布多模态大模型 POINTS 1.5,10B参数下开源模型排名第一
腾讯发布多模态大模型POINTS 1.5,继承了POINTS 1.0的LLaVA架构,包含视觉编码器、投影器和大语言模型。模型在效率和性能上均有显著提升,特别是在复杂场景OCR、推理能力、关键信息提取等方面表现出色。POINTS 1.5-7B在全球10B以下开源模型中排名第一,超越了Qwen2-VL、InternVL2等领先模型。来源:AI工具集
PixVerse最新AI特效上线,心情不好,“爆炸”一下!
爱诗科技PixVerse AI视频生成工具,在社交平台引发特效热潮,共上线12种变身特效,有火爆出圈的“毒液变身”,“压扁”,“爆炸”等,短短几天便迅速火遍抖音,备受好评。让用户创作解压又魔幻的视频内容,成为短视频创作者的”流量密码”。心情不好,“爆炸”一下!进入PixVerse,选择特效【万物皆可羊毛卷】,上传照片,卷起!来源:AI工具集
OpenAI 推出 Projects,功能全家桶打造 ChatGPT 新交互方式,迈向“万能应用”
OpenAI在“OpenAI 12天”活动第7天推出了ChatGPT的新功能Projects,功能支持用户上传文件、自定义指令、分组聊天和数据管理,整合Canvas和ChatGPT Search,提升用户体验。通过Projects,用户可以更便捷地执行写作、研究、编程和网络搜索等任务,为多步骤任务执行奠定基础。目前,已向ChatGPT Plus、Pro和Teams用户开放,企业版和教育版用户将在新年初获得访问权限。来源:AI工具集
久等了,DeepSeek开源 DeepSeek-VL2 MoE视觉模型:支持动态分辨率、解析梗图等
DeepSeek推出DeepSeek-VL2 AI视觉模型,模型采用DeepSeek-MoE架构结合动态切图技术,提升视觉能力。模型在视觉定位、梗图解析、OCR和故事生成等方面展现出新能力。DeepSeek-VL2在多项评测中取得优异成绩,支持动态分辨率图像和长宽比,能更好地理解和生成视觉内容。来源:AI工具集
上新!阶跃星辰 Step-1o 千亿参数端到端语音大模型来啦!
阶跃星辰发布国内首个千亿参数端到端语音大模型Step-1o。模型支持语音和文本混合输入输出,具备高智商和情商,能理解语音背后的情绪信息,提供专业建议和情绪陪伴。Step-1o能创作生动的故事,适用于新闻播报、聊天陪伴等多个场景。近期将接入跃问App,提供实时语音通话服务。来源:AI工具集
360 自研 AI 大模型 360gpt2-o1 正式上线,数学与逻辑推理新标杆
360推出新一代AI大模型360gpt2-o1,模型结合多模态和新推理范式,具备自我反思与纠错能力。在数学和逻辑推理任务中,360gpt2-o1超越了前代模型及GPT4o等竞争对手。模型通过合成数据优化、后训练和“慢思考”技术,显著提升推理能力。现已在360智脑API平台上线,供用户和开发者使用。来源:AI工具集
Meta 发布 Motivo AI 模型,打造更逼真元宇宙体验
Meta发布 Meta Motivo AI模型,通过控制类人数字智能体的动作来提升元宇宙体验。模型基于行为训练,在Mujoco模拟器中使用AMASS动作捕捉数据集和3000万在线交互样本,通过无监督强化学习算法预训练,展现出更接近人类的行为。来源:AI工具集
快手开源全球首个”多视角视频生成”工具,解锁无限视角!
快手开源全球首个”多视角视频生成”工具SynCamMaster,能从任意视点生成开放世界视频,解决了多视点间动态一致性问题。SynCamMaster通过即插即用模块增强预训练的文生视频模型,实现多摄像机视频生成,确保不同视点的内容一致性。实现出色的视点间同步,可扩展到新视图合成任务中。来源:AI工具集
巨人网络发布”千影”有声游戏大模型,加码”游戏+AI”赛道
巨人网络在2024年度中国游戏产业年会上发布”千影 QianYing“有声游戏生成大模型,包括游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame支持开放世界游戏角色动作交互控制和物理仿真特性,YingSound能为视频添加逼真音效。巨人网络AI实验室将推进模型升级,推动游戏创作平权时代的到来。来源:AI工具集
微软推出14B参数小语言模型 Phi-4:专攻数学等领域复杂推理
微软近日推出14B参数的小型语言模型Phi-4,模型在传统语言处理能力之外,特别擅长数学等领域的复杂推理。Phi-4在数学竞赛问题上的表现超越了多个更大规模的模型(如70B的Llama 3.3和72B的Qwen 2.5)。已将Phi-4在Azure AI Foundry上开放使用。来源:AI工具集
OpenAI 数据中心提供商Crusoe融资6亿美元,估值28亿美元
OpenAI的数据中心提供商Crusoe在最新一轮融资中筹集了6亿美元,由Founders Fund主导,Nvidia、Fidelity等参与,公司估值达到28亿美元。Crusoe开发AI数据中心,出租Nvidia GPU的云服务。公司正在德克萨斯州阿比林建设大型数据中心园区,将为Oracle和OpenAI提供服务,已筹集34亿美元债务以资助配备Nvidia下一代旗舰芯片Blackwell的项目。来源:Z Potentials
Google 发布了「虚拟现实」版 Android XR,想让你把熟悉的应用「戴在头上」
Google发布了全新的Android XR操作系统,专为下一代计算构建,兼容各种XR设备,从VR头显到AI眼镜。系统以Android为底层,集成AI能力,提供沉浸式体验,如实时信息查询和多窗口功能。Google提供开发工具包,帮助开发者将2D Android应用快速适配到XR平台。首批搭载Android XR的设备包括三星的Project Moohan VR头显,与高通合作的AR眼镜。来源:极客公园
千寻智能一年三轮融资数亿元,构建下一代智慧劳动力
千寻智能由产业老兵和清华教授联合创立的具身智能初创企业,已完成三轮融资数亿元。公司采用”数据金字塔”模式,结合互联网视频数据、仿真数据、遥操数据和强化学习,构建能控制各类机器人执行任务的具身模型,目标是打造下一代智慧劳动力。来源:Z Potentials
OpenAI版《Her》全量来袭:实时视频对话,你每个动作AI都看得见
OpenAI直播第六天,推出”Santa Mode”(圣诞模式),实现《Her》式视频通话功能。可通过点击”雪花”与AI进行圣诞老人风格对话,开启摄像头让AI”看见”你。新功能包括实时视频通话、屏幕共享和图片上传,即日将在ChatGPT移动应用中推出。一周内,将向所有团队用户以及大多数Plus和Pro用户开放。来源:量子位
谷歌深夜炸场:Gemini 2.0 正式发布,主打Agent+多模态
谷歌发布新一代AI模型Gemini 2.0,性能是前代1.5 Pro的两倍,支持多模态输入输出,包括图像、视频、音频等,可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。新模型集成了深度研究功能,能生成复杂主题的研究报告,目前仅对Gemini Advanced用户使用。Gemini 2.0 Flash实验版已开放网页端试用,移动版即将推出,将扩展到旗下更多产品中。来源:AI工具集
造梦次元完成近亿元人民币融资,多家顶级风投和大厂共同投资
造梦次元完成近亿元人民币A轮融资,由锦秋基金领投,高榕创投、明势创投、商汤科技等参投。公司专注于多模态AI驱动的内容平台,提供虚拟角色互动体验,日均活跃互动时间超100分钟。融资将加速技术研发和市场拓展,优化创作者工具,拓展海外市场,重视内容安全与合规。来源:Z Potentials
百度文库AI再升级,「专业PPT生成」功能上线!打工人终于有救了
百度文库推出「专业PPT生成」功能,通过AI技术帮助用户一键生成高质量PPT。只需输入关键词或主题,可快速获得内容明确、主题突出的专业演示文稿。新功能采用商务化PPT版式,提供清晰的结构和视觉冲击力,支持个性化编辑,包括字体、颜色和动画效果,助力职场汇报和晋升。来源:百度文库服务号
OpenAI直播第五天,OpenAI正式成为苹果AI的”贤内助”
OpenAI与苹果达成合作,将ChatGPT集成进iOS、iPadOS和macOS系统。此次整合包括Siri协同、写作工具增强和iPhone相机控制功能。用户可通过Siri启用ChatGPT处理复杂任务,撰写和总结文档,基于视觉智能分析拍摄对象。合作使OpenAI成为苹果AI的“贤内助”,直接触达数十亿苹果设备用户,可能改变科技行业格局。来源:腾讯科技
谷歌发布智能体原型 Mariner,能帮用户操作表格、在线购物
谷歌发布名为 Mariner 的智能体原型,基于Gemini 2.0 AI模型,能自主浏览网站执行电子表格、在线购物等操作。Mariner旨在与用户协作,如在购物时可将商品加入购物车,但购买需用户完成。目前仅对少数测试者开放,处于实验阶段。来源:AI工具集
全球首个”AI 程序员”Devin 全面开放:可独立开发/修复bug,月费500美元
全球首个AI程序员Devin已全面开放,支持个人开发者和团队以每月500美元订阅服务,包括Slack集成、IDE扩展和技术支持。Devin能熟练使用多种编程语言,独立完成网站和应用构建、部署,能发现修复代码缺陷。Devin采用沙盒计算环境,内置代码编辑器和浏览器,能快速学习和适应新技术,理解复杂的编程上下文。来源:IT之家
MidJourney 上线 Patchwork:用户化身“造物主”,AI 构造故事宇宙
Midjourney推出 Patchwork 叙事工具,打造AI驱动的沉浸式故事世界。适用于小说作者、游戏开发者和艺术家等,用户在无限画布上构建角色、风格和背景故事。可以通过Midjourney账户登录,创建和保存包含所有图像链接的JSON文件,支持多达100名用户实时协作构建故事。来源:AI工具集
字节内部判断AI对话类产品天花板可能不高,提升剪映即梦优先级
字节跳动反思AI对话产品如豆包的局限性,认为可能仅为AI产品的“中间态”。豆包用户活跃度不高,日均使用时长和频次增长有限,商业化前景不明。字节计划资源转移至多模态产品,提升即梦产品优先级,探索更视觉化、低门槛的AI产品,打造AI时代的“抖音”。剪映月活高达1.7亿,全球排名第二。来源:智能涌现
面壁智能完成新一轮数亿元融资,CEO称大模型正进入“真刀真枪”阶段
面壁智能完成数亿元新一轮融资,由龙芯创投等联合领投,北京市人工智能产业投资基金跟投。面壁智能将加速端侧AI大模型商业化,以高性能、低能耗技术服务行业。CEO李大海表示,大模型技术进入实战阶段,面壁智能在端侧智能领域保持竞争力,致力于将高效AI技术带入各行各业。来源:钛媒体AGI
OpenAI直播第四弹:Canvas全量开放,人+AI协作模式启动
OpenAI宣布ChatGPT的Canvas功能全量开放,从聊天工具升级为生产力工具。Canvas整合进ChatGPT,支持用户与AI共同完成写作和编码项目。在Canvas上直接运行Python代码和Customgpt调用能力。OpenAI展示了Canvas的文字编辑、审稿、编程和图片识别功能,这一变革使ChatGPT更像一个拥有超强智能的Google Docs。来源:机器之心
文小言电脑版正式发布,支持Windows和Mac免费下载,双端协同
文小言电脑版正式发布,支持Windows和macOS系统免费下载,实现与APP的双端协同和消息互通。可以一键拖拽解析多种格式文件,针对原文提问,获得有据可依的回答。提升文本创作的效率,支持边搜索边编辑功能。来源:AI工具集
DeepSeek V2 系列 AI 模型收官,推出 DeepSeek-V2.5-1210,联网搜索上线
DeepSeek官方推出V2系列AI模型 DeepSeek-V2.5-1210 上线,支持联网搜索功能。模型在数学、代码、写作等方面取得进步,优化了文件上传。可在网页端体验搜索功能,API暂不支持。模型能分析网页信息,提供全面、准确答案。DeepSeek宣布V2系列模型收官,将告一段落,正在打造更强大的下一代基座模型 DeepSeek V3,敬请期待。来源:AI工具集
ChatGPT语音负责人创业AI语音,a16z首轮重注4000万美金
前ChatGPT语音负责人Conneau,创立 WaveForms AI 专注于音频LLM的新公司,旨在2025年前推出与OpenAI和Google竞争的AI音频产品。已获得a16z领投的4000万美元种子资金,开发能“用耳朵感受AGI”的技术,强调人机互动应与人际互动互补,而非取代。来源:Z Potentials
字节视频生成模型PixelDance上线豆包,每日免费生成10个视频
字节跳动的PixelDance视频生成模型在豆包电脑版开启内测,用户每日可免费生成10个视频。模型于9月底首次发布。内测反馈,10秒视频切换3-5次镜头效果最佳,场景和角色保持一致性。豆包将持续优化,助力用户创作。来源:IT之家
智源研究院开源3D生成模型See3D,看3.2亿帧视频学会3D生成
智源研究院推出无标注视频学习的3D生成模型See3D,采用新型视觉条件技术,能从大规模互联网视频中生成几何一致的多视角图像。See3D支持零样本和开放世界的3D生成,无需昂贵的相机标注,具备高效的3D编辑和表面重建能力。模型、代码、Demo均已开源。来源:AI工具集
OpenAI 正式推出视频生成王者 Sora ,网页挤爆了!
OpenAI 正式发布视频生成大模型 Sora 及其新版本 Sora Turbo,提供1080p分辨率、最长20秒的视频生成能力,支持宽屏、竖屏和方形比例。Sora Turbo版本提升了生成速度。所有视频带有C2PA元数据以验证来源。ChatGPT Plus用户每月可免费生成50个480P视频,Pro用户(月费200美元)享有更高分辨率和更长时长。来源:机器之心
北京国资独家投资,小米投资首家工业大模型公司小雨智再造获亿元A轮融资
北京小雨智造科技有限公司宣布完成亿元A轮融资,由北京信息产业发展投资基金独家投资。公司专注于工业领域大模型机器人技术,为机器人打造“通用大脑”。小雨智造已与松下等企业合作,推进智能焊接机器人市场,在航空航天、船舶制造等领域布局。来源:钛媒体AGI
谷歌发布最强量子芯片 Willow,5分钟颠覆138亿年计算极限
谷歌宣布最新量子芯片Willow取得重大突破,在基准测试中5分钟内完成一项标准计算,而最快的超级计算机需超过10^25年。Willow芯片破解了近30年的量子纠错挑战,能在更多量子比特下成倍减少错误。来源:AI工具集
商汤办公小浣熊2.0,上新!AI原生一站式创作空间来了
商汤科技推出升级版的办公小浣熊2.0,集成多项AI功能,包括信息检索、方案输出、文档创建和智能规划,用户通过“规划、分析、写作”三步法高效完成工作任务。升级版增强了数据分析和文档解析能力,可以通过对话生成文档,实时进行数据可视化和分析。来源:AI工具集
马斯克新文生图模型Aurora闪现!网友抢时间疯狂实测:人物生成超逼真
马斯克的xAI公司短暂上线新文生图模型Aurora,生成的人物图像逼真又高清。Aurora能理解简单的提示生成高质量的图像,能生成受版权保护角色和公众人物图像。模型上线数小时,网友已抢先进行实测,在人物写实生成方面表现出色。马斯克表示只是测试版,将很快改进。来源:AI工具集
英伟达发布大模型NVILA,专注于优化准确性和效率
英伟达发布新型开放式视觉语言模型NVILA,专注于提高准确性和效率。与LLaVa OneVision模型相比,NVILA的训练成本降低了4.5倍,微调内存减少了3.4倍,预填充和解码延迟降低了近2倍。在视频基准测试中表现优于GPT 4o Mini。来源:AI工具集
智谱AI再放大招!全新多模态模型 GLM-4V-Flash 免费开放!
智谱AI推出首个免费多模态模型 GLM-4V-Flash ,该模型基于4V系列,提升图像处理精确度,降低开发门槛。模型支持26种语言,具备图像描述生成、分类等高级功能,适用于信息提取、内容创作等多个场景。来源:AI工具集
Meta今年压轴开源 AI 大模型Llama 3.3,700亿参数,性能比肩4050亿
Meta发布AI大模型Llama 3.3,拥有700亿参数,性能媲美4050亿参数的Llama 3.1。模型效率更高、成本更低,支持8种语言,可在标准工作站上运行。采用优化的transformer架构,通过SFT和RLHF微调,确保与人类偏好一致。上下文长度为128K,支持与外部工具集成。来源:AI工具集
OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜
OpenAI的第2天直播推出新功能“强化微调”,仅需几十个例子可创建特定领域的专家模型。CEO奥特曼称为2024年最大惊喜。微调后的o1-mini模型得分提高80%,超过o1正式版。OpenAI已开启研究计划,支持开发者申请强化微调API的alpha版本。来源:量子位
马斯克 xAI 公司 Grok AI 聊天机器人向免费用户开放,不再是会员专属
马斯克的AI聊天机器人Grok已向X的免费用户开放,每两小时可最多发送10条消息。Grok定位为幽默型AI助手,今年增加了文生图功能,用的是Flux模型。来源:钛媒体AGI
LiblibAI x 星流:正式推出新一代自研图像大模型Star-3 Alpha
LiblibAI今日宣布推出新一代自研图像大模型Star-3 Alpha。模型基于F.1基础算法架构,提升图像精准度、色彩表现力和美学捕捉能力,提供高级感和真实感。可通过星流官网、Lib官网在线生图功能及API开放平台体验。来源:AI工具集
通义实验室开源 ClearerVoice-Studio,高效去除背景噪声
阿里通义实验室语音团队开源ClearerVoice-Studio技术框架,集成语音增强、分离和音视频说话人提取功能。通过复数域深度学习算法,有效消除背景噪声,保留语音清晰度,保持语音失真最小化。可在Github和HuggingFace Space上查看和试用。来源:AI工具集
谷歌DeepMind推出AI气象预测模型GenCast,8分钟预测15日天气
DeepMind气象预测大模型GenCast在Nature发表,能在8分钟内完成15天的天气预报,准确度超过全球顶尖中期天气预报系统ENS。GenCast基于扩散模型和Transformer技术,分辨率为0.25度经度/纬度。在1320种实验条件下,GenCast在97.2%的任务中比ENS更准确,在36小时后的预测中表现突出。来源:AI工具集
豆包大模型团队开源FullStack Bench代码全新基准,覆盖超11类真实编程场景
字节跳动豆包大模型团队开源全栈编程代码评估数据集FullStack Bench。FullStack Bench覆盖超11类真实编程场景和16种编程语言,包含3374个问题,有效评估大模型代码开发能力。为AI在真实编程场景中的表现提供快速评估参考。来源:AI工具集
OpenAI第一场直播就炸场!o1满血版上线,ChatGPT Pro订阅费:200美元/月
OpenAI发布最强推理模型o1满血版及其Pro版本,ChatGPT Pro订阅计划定价为200美金/月,成为全球最贵的大模型订阅服务。满血版o1在数学、代码能力上显著提升,推理速度比预览版快60%,支持多模态输入。Pro版本为订阅用户提供o1满血版的不限量访问权限,展示在高难度科学问答上的卓越表现。来源:量子位
海螺AI推出图生视频模型I2V-01-Live,让静态二维图像动起来
海螺AI推出图生视频模型I2V-01-Live,能将静态图像转成动态视频。模型基于深度学习,增强动作流畅度和真实性,支持多风格适配。上传2D插图,选择I2V-01-Live模型即可生成动态视频。来源:AI工具集
DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体
谷歌DeepMind发布第二代基础世界模型Genie 2,能从单图生成长达1分钟的3D游戏世界。支持键盘鼠标操作,模拟复杂交互和物理效果,为具身智能体提供无限训练数据。Genie 2的涌现能力包括物体交互、角色动画、物理效果等,为AI研究和游戏开发带来新可能。来源:新智元
谷歌领跑AI视频生成赛道:抢先 OpenAI Sora推出Veo模型,可生成1080P高清视频
谷歌宣布在Vertex AI平台上推出Veo模型的私测预览版,面向企业开放。Veo模型能根据文本或图像提示生成1080p高清视频,提供多种视觉风格。Veo生成的视频逼真度极高,如狗狗的毛皮和项圈在运动中保持一致,难以区分是否由AI生成。来源:IT之家
OpenAI官宣12天12场新品发布会
OpenAI宣布将举行为期12天的系列活动,期间每天发布一个新产品或样品。活动将包括备受期待的文字转视频工具Sora和新的推理模型。OpenAI CEO透露,周活跃用户数已超3亿,目标是到2025年增至10亿。来源:财联社
红杉美国最新洞察:2025 年将是 Agent 元年!AI 智能体进入“群体协作”时代
红杉美国合伙人Konstantine Buhler预测,2025年AI智能体将进入“群体协作”时代,多个智能体网络将协作完成复杂任务。他强调,AI技术将在医疗和教育领域发挥重要作用,降低成本、提高效率,推动社会进步。来源:有新Newin
文心一言上线“深度写作”专业版功能:会自己搜素材的AI写作
百度AI推出文心一言“深度写作”专业版,能自动搜索素材并创作个性化文章。可通过上传资料或网盘素材,使内容更具体。适用于多种文档创作,模板将持续更新。来源:百度AI
刚刚!字节跳动豆包上线图片理解,大模型走向多模态
字节跳动豆包APP和PC端新增图片理解功能,能识别图片内容并回答相关问题,如景点位置和动漫人物身份。标志着AI大模型向多模态发展,更加实用。豆包已成为中国日活用户最高的AI大模型产品,AI应用行业月活跃用户规模同比增长373%。来源:钛媒体
亚马逊年末甩王炸!6款大模型、3nm AI芯片、全球最大AI计算集群,苹果罕见站台
亚马逊在AWS re:Invent大会上宣布将推出6款大模型和3nm第三代AI训练芯片Trainum3,以及最强AI服务器Trn2 UltraServer。Amazon Nova系列模型涵盖文本、图像和视频,Reel模型支持生成6秒视频。AWS与Anthropic合作构建全球最大AI计算集群,Bedrock服务更新包括自动推理检查、多Agent协作和模型蒸馏功能.来源:智东西
即梦2.1模型上线,一键生成图文融合设计图
字节即梦AI发布全新绘图模型v2.1,10秒内一键生成中文海报。解决了中文嵌入问题,支持直接在图片上绘制中英文字体,具有高审美和泛化能力。可通过简单描述生成个性化海报,但需注意避免抄袭。来源:AI工具集
The Browser Company计划推出新型AI网络浏览器Dia
The Browser Company计划于2025年推出新款AI网络浏览器Dia。Dia具备人工智能功能,如从互联网获取事实、提供写作灵感、总结网页内容,能从打开的标签中复制信息,如亚马逊链接,插入电子邮件。来源:AI工具集
WPS Office推出 WPS AI 语音速记功能
WPS Office推出了WPS AI语音速记功能,通过WPS AI技术得到增强,与WPS云文档深度整合。支持实时录音和音频导入转文字,实现中英等多种语言互译,确保录音文件的完整性。声纹识别和AI自动总结功能提高转写准确率和速度,提供无缝衔接,确保高安全性能。来源:AI工具集
腾讯正式发布AI视频产品:腾讯混元文生视频,预计下月推出图生视频模型
腾讯今日正式推出了“腾讯混元文生视频”AI视频生成工具,该模型在指令遵循、动态表现、画面稳定性等方面表现出色,尤其在科幻、魔幻风格上给人惊喜。用户可以在腾讯元宝免费体验,每天免费3次。同时,腾讯混元文生视频已在Hugging Face和Github上开源,提供130亿参数的模型、权重和推理代码,供开发者免费使用。来源:AI工具集
全面对决Suno,国产AI音乐三巨头的突围之战
国内AI音乐领域三巨头——字节跳动的海绵音乐、昆仑万维的天工SkyMusic和趣丸科技的天谱乐,正与全球顶级产品Suno展开激烈竞争。通过提供个性化音乐生成、多模态配乐等创新功能,降低音乐创作门槛。来源:钛媒体
快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线:联合李少红、贾樟柯、叶锦添、薛晓路等
快手宣布“可灵AI”导演共创计划作品将于12月6日上线,计划自9月9日启动,由9位导演联合发起,涵盖多种题材。9部短片全部由可灵AI进行视频生成。可灵AI服务用户已超500万,累计生成5100万个视频和1.5亿张图片,商业化单月流水超千万人民币。来源:IT之家
全网热评的李飞飞世界生成模型,真的能构建物理世界吗?
李飞飞的空间智能World Labs发布了世界生成模型,一个能从单张图片生成3D物理世界的AI系统,引起AI界热议。该技术突破在于直接生成三维场景,遵循物理规则,具有深度感和空间感,能实现场景控制和动态效果。来源:腾讯科技
OpenAI考虑在AI产品中引入广告
OpenAI首席财务官Sarah Friar透露,公司正在考虑将广告引入AI产品中,寻求新的收入来源。目前没有积极推进广告业务的计划,公司对探索其他收入渠道持开放态度。广告经验团队包括曾在Instagram和谷歌搜索广告团队任职的成员。目前,OpenAI主要通过出售AI模型API访问权限、ChatGPT会员收入和与微软合作获得收益。来源:第1财经
360推出的自研360智脑7B参数大模型升级版
360公司推出了自研AI大模型360智脑7B参数的升级版——360Zhinao2-7B。在中英文通用能力、数学逻辑推理能力方面有显著提升,在国内外同尺寸开源模型中多项能力排名第一。模型基于Transformer架构,采用自注意力机制和优化策略,已在GitHub和HuggingFace模型库上线。来源:AI工具集
微信公众号后台新增“AI 配图”功能,支持文章配图和封面配图
微信公众号后台最近推出了“AI 配图”功能,支持创作者通过简单的文字描述在十几秒内生成四张风格和比例可调的候选图片,用于文章配图。极大提高了内容创作的效率,还有效规避了图片版权问题,增强了内容生产的安全性。同时,文章封面图也支持AI配图。来源:IT之家
ChatGPT两岁,OpenAI 10亿用户计划曝光!
ChatGPT 已经2岁了!OpenAI下一个目标瞄准十亿用户,预计明年放出AI智能体产品。就在生日这天,马斯克还送上了大礼:阻止OpenAI全面盈利的一份诉状书。来源:新智元
实测腾讯元宝2.0:图文视频啥都能搜,论文绘画全搞定
腾讯元宝2.0全新升级,集成AI搜索、阅读、生图等功能,打通公众号、视频号等资源,提供深度研究、脑图整理服务。新增创意绘画、灵感图库、AI美照等图片功能,以及应用广场。同时整合腾讯文档、电脑管家、搜狗输入法,提升工作效率和用户体验。来源:量子位
可灵AI新增「AI换衣」功能!1.5 模型支持「首尾帧」
可灵AI 推出新功能“AI试衣”,用户只需2张图即可解锁新造型。1.5模型支持高品质视频制作,新增“首尾帧”功能,5s/10s均支持使用首尾帧。可灵AI 上线「灵感学院」!新手入门免费课程,帮你快速上手可灵AI。来源:可灵AI
对话智谱CEO张鹏:大家对大模型期待过高,Scaling Law还有很大增长空间
CEO张鹏认为,大家对大模型期待过高,但Scaling Law仍有增长空间。智谱AI定位“开放平台”,聚焦基座模型研发,已获九轮融资近60亿元,致力于AI智能体应用,推动人机交互变革。来源:钛媒体
这个栏目真的特别好~🌸
感谢认可,对您有帮助就行!
你是我的神
夸张了,哥
确实,支持
支持,这是个非常好的栏目,这也是个非常棒的网站
再次感谢,真挺好的网站~~~
真好真好👍
请问能做个分页不,按日期或者按个数之类的,这一页好长~好长~
后面会考虑出个按日期来选择的功能,不过资讯类型具有较高的时效性,通常情况下只会关注最近两三天的报道。
多谢采纳!时效性确实,那第一页放三天,或者每页一周?推荐给好几个朋友了,非常实用👍
请问,这个栏目是ai插件生成的?还是说是手动编辑的?
人工手动编辑的
非常好的分享,如果支持分享就更好了
这个网站的工具和资讯真是帮了大忙~
前来点赞,可惜没有怎么推广,知道的人还是太少了
感谢支持~后面会加强推广的!
请问有 rss 吗?付费也行
目前正在考虑推出社群or邮件推送服务,暂无RSS
请问更新策略是什么样的?比如今天周五,上午11:00只能看周四的内容吗?
个人不定时更新,时间不固定呢 -_-
真的好!
请问要怎么看到2024年7月之前的快讯?
快讯具有时效性,历史信息会定期清理~ 后续会单独整合一篇月度合集
栏目确实不错,推荐给朋友了
感谢推荐~
特别好!希望能坚持更新下去:)
必须的,假期愉快~
很好的网站和新闻,希望持续更新
嗯嗯会的~
真的是非常优秀的开发团队
谢谢你的支持~
新闻汇总很棒~
请问还能找到以前的新闻吗,我从去年9月开始的还有一些没看,想全面再看看,谢谢了,付费也行
可以,稍后我整理一份历史快讯合集PDF,方便回溯和阅读
赞 这个工作可以单开一个栏目
感谢更新!!已经“追更”快一年了hhh
厉害了!感谢老粉!!
👍很好
不错
AI资讯蛮好的。
每日必看
这个网站是您自己开发的吗?感觉好好哦,确实不错!
感谢支持,继续加油啊!
太棒了~!后悔没有早点发现这个宝藏网站,之前吭哧吭哧找AI相关资讯,花了好多时间QAQ
哈哈哈哈,感谢认可!!!
谢谢每日更新
挺好
感谢支持!
有邮箱推送了吗。
暂不支持哦。
请问可以接入coze工作流自动推送吗
目前不行呢,后面会考虑
好的 期待