大数据AI产品月刊-2025年6月

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 大数据& AI 产品技术月刊【2025年6月】,涵盖6月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。


一、产品功能发布

【人工智能平台 PAI】新功能/规格 - ArtLab 支持基于 ComfyUI 构建并分享 AIGC 应用

帮助客户基于强大但复杂的 ComfyUI 创作工具,实现低门槛、自动化的构建专属 AIGC 应用的产品能力。

【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发支持人工智能平台 PAI Flow

统一大数据开发与 AI 统一产品入口,提升 PAI Flow 与大数据引擎深度联动,实现大数据 AI 一体化开发。

【大数据开发治理平台 DataWorks】新功能/规格 - 安全中心数据访问控制权限申请和审批覆盖三层模型项目

可以通过 DataWorks 安全中心发起数据访问控制申请覆盖 MaxCompute 三层模型项目对应的权限。

【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发数据目录支持 Paimon 建表

支持 Paimon 可视化建表及代码建表,满足不同类型用户多样化元数据创建及管理的需求。

【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发 Workflow 产品体验提升

Workflow 性能优化,内部节点数量翻倍,状态更新。

【大数据开发治理平台 DataWorks】新功能/规格 - 安全中心支持批量配置用户可访问的数据源

管理员可将多个数据源批量授权给工作空间角色、工作空间成员使用,管理效率提升。

【大数据开发治理平台 DataWorks】新功能/规格 - 运维中心支持对手动业务流程打标签

可通过标签管理业务流程实例,有效提升管理效率。

【大数据开发治理平台 DataWorks】新功能/规格 - 调度支持事件触发

可根据事件自动触发工作流的运行。

【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 支持创建包年包月工作空间

Serverless Spark 支持直接创建包年包月类型的工作空间。

【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 支持混合计费工作空间

Serverless Spark 支持混合计费类型工作空间。

【开源大数据平台 E-MapReduce】新地域/新可用区 - 全托管 Spark 在西南1(成都)正式开服

EMR Serverless Spark 新增开通西南1(成都)地域,可以在控制台上按需求开通集群。

【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 支持配置文件管理

Serverless Spark 支持保存配置信息和配置文件。

【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 支持配置模板

Serverless Spark 支持支持创建多个配置模板,提交任务时可以指定配置模板。

【开源大数据平台 E-MapReduce】新功能/规格 - 全托管 Spark 提供域名管理功能

Serverless Spark 提供域名管理功能。

【检索分析服务 Elasticsearch 版】新功能/规格 - ES Serverless 通用优惠预付抵扣包发布

ES Serverless 推出优惠抵扣包,所有 Serverless 应用、计费项均可参与抵扣。

二、产品活动


云原生大数据计算服务 MaxCompute - 推出3000度计算抵扣包,首次购买5折

通用包每1度计算包可以抵扣 SQL、MaxFrame、Spark 等外表不同用量,用户首次购买可享受5折折扣,请参考具体抵扣规则。

三、产品快讯

ES Serverless 8.17王牌发布:向量检索「火力全开」,智能扩缩「秒级响应」

阿里云 Elasticsearch Serverless 8.17 版重磅升级!向量检索性能飞跃、智能弹性调度实现秒级扩容、成本优化显著。该服务已开放华东/华北/华南多地公测,提供全托管、免运维的搜索解决方案,助力企业应对 AI 时代的海量数据检索需求。

一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进

基于 EMR Serverless Spark 构建云原生数据平台。通过 DataWorks 实时入湖、构建数仓分层,利用 StarRocks 加速 BI 查询、Spark 支撑 AI 应用。迁移后技术上提升处理能力与效率、简化运维,业务上响应提速、成本降低,为 AI 融合奠定数字化基础。

从 MaxCompute 到 Milvus:通过 DataWorks 进行数据同步,实现海量数据高效相似性检索

通过 DataWorks 数据集成服务,实现将存储在 MaxCompute 中的大规模结构化数据导入 Milvus。充分整合了 MaxCompute 的复杂逻辑计算能力和 Milvus 的高维向量检索优势,适用于电商用户行为分析、医疗知识库构建及游戏内容推荐等多种场景应用,实现多模态数据的融合分析,助力企业实现智能化数据转型。

PAI 推理重磅发布模型权重服务,大幅降低冷启动与扩容时长

阿里云人工智能平台 PAI 平台推出模型权重服务,通过分布式缓存架构、RDMA 高速传输、智能分片等技术,显著提升大语言模型部署效率,解决模型加载耗时过长的业界难题。实测显示,Qwen3-32B 冷启动时间从953秒降至82秒,扩容时间缩短98.2%。

新模型速递:PAI-Model Gallery 云上一键部署 MiniMax-M1 模型

MiniMax 公司6月17日推出4560亿参数大模型 M1,采用混合专家架构和闪电注意力机制,支持百万级上下文处理,高效的计算特性使其特别适合需要处理长输入和广泛思考的复杂任务。阿里云 PAI-ModelGallery 现已接入该模型,提供一键部署、API 调用等企业级解决方案,简化 AI 开发流程。

PAI-TurboX:面向自动驾驶的训练推理加速框架

PAI-TurboX 针对自动驾驶领域的训练与推理难题,提出系统性加速解决方案。通过系统级优化(CPU 亲和性、内存管理等)、数据侧加速(高效 DataLoader、智能样本分组)和模型侧优化(算子融合、设备重映射等),显著提升 BEVFusion、MapTR 等主流模型的训练效率。

四、最佳实践

DistilQwen-ThoughtX 蒸馏模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践

阿里云 PAI 团队开发的 OmniThought 数据集,其中包含了200万思维链。基于此数据集,我们还推出了 DistilQwen-ThoughtX 系列模型,可以通过 RV 和 CD分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。

Post-Training on PAI (1):一文览尽开源强化学习框架在 PAI 平台的应用

阿里云人工智能平台 PAI 训练服务 PAI-DLC 支持主流强化学习开源框架的快速高效应用:Cosmos-RL:NVIDIA 推出的 LLM 强化学习训练框架,支持基于 Custom 一键提交 Cosmos-RL 框架任务。Ray:支持已有 Ray 训练脚本通过 PAI-DLC 直接提交。VeRL:字节跳动开源的强化学习与大模型对齐训练框架,PAI-DLC 支持用户提交 Ray/PyTorch 框架任务,结合 VeRL 能力一键提交大规模强化学习任务。

云上 AI 推理平台全掌握 (1):PAI-EAS LLM 服务一键压测

阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供专业的压测方案:丰富模式:支持固定并发测试、固定请求速率测试(每秒请求数)、极限吞吐测试等多种模式。操作便捷:按需模拟测试数据,零代码快速创建压测任务并一键执行。全面评估:自动生成 TTFT、TPOT、TPS、ITL、E2EL 等核心指标的平均值、中位数及P99数据。

云上玩转 Qwen3 系列之四:构建 AI Search RAG 全栈应用

使用 PAI-LangStudio 和 Qwen3,构建基于 AI 搜索开放平台 × Elasticsearch 的 AI Search RAG 智能检索应用。在 PAI- LangStudio 中, 使用 AI 搜索开放平台提供原子化 Embeding/Rerank 模型能力和 Elasticsearch 向量数据库,高效地处理大规模数据,结合大模型 LLM 分析能力,以快速构建一站式 AI Search RAG 增强搜索/混合检索的全栈应用能力。将 AI 智能信息检索与智能问答效率与准确率大大提升。

DistillQwen-ThoughtY:通过变长思维链蒸馏,全面提升模型推理能力!

阿里云 PAI 团队基于 EasyDistill 框架,创新性地采用推理冗余度(RV)和认知难度(CD)双指标筛选机制,实现思维链与模型能力的精准匹配,发布新一代推理模型 DistillQwen-ThoughtY。相关模型和数据集已在 hugging face/ModelScope 等开源社区开放,配套 EasyDistill 框架支持高效知识蒸馏。近期内将推出 DistillQwen-ThoughtY 模型在 PAI-ModelGallery 的一键部署、训练和评测实践。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 运维 开发工具
警惕日志采集失败的 6 大经典雷区:从本地管理反模式到 LoongCollector 标准实践
本文探讨了日志管理中的常见反模式及其潜在问题,强调科学的日志管理策略对系统可观测性的重要性。文中分析了6种反模式:copy truncate轮转导致的日志丢失或重复、NAS/OSS存储引发的采集不一致、多进程写入造成的日志混乱、创建文件空洞释放空间的风险、频繁覆盖写带来的数据完整性问题,以及使用vim编辑日志文件导致的重复采集。针对这些问题,文章提供了最佳实践建议,如使用create模式轮转日志、本地磁盘存储、单线程追加写入等方法,以降低日志采集风险,提升系统可靠性。最后总结指出,遵循这些实践可显著提高故障排查效率和系统性能。
193 20
|
16天前
|
安全 druid Nacos
0 代码改造实现应用运行时数据库密码无损轮转
本文探讨了敏感数据的安全风险及降低账密泄漏风险的策略。国家颁布的《网络安全二级等保2.0标准》强调了企业数据安全的重要性。文章介绍了Nacos作为配置中心在提升数据库访问安全性方面的应用,并结合阿里云KMS、Druid连接池和Spring Cloud Alibaba社区推出的数据源动态轮转方案。该方案实现了加密配置统一托管、帐密全托管、双层权限管控等功能,将帐密切换时间从数小时优化到一秒,显著提升了安全性和效率。未来,MSE Nacos和KMS将扩展至更多组件如NoSQL、MQ等,提供一站式安全服务,助力AI时代的应用安全。
118 14
|
14天前
|
人工智能 JSON 自然语言处理
Function AI 工作流发布:以 AI 重塑企业流程自动化
本文介绍了基于函数计算 FC 打造的全新 Function AI 工作流服务,该服务结合 AI 技术与流程自动化,实现从传统流程自动化到智能流程自动化的跨越。文章通过内容营销素材生成、内容安全审核和泛企业 VOC 挖掘三个具体场景,展示了 Function AI 工作流的设计、配置及调试过程,并对比了其与传统流程的优势。Function AI 工作流具备可视化、智能性和可扩展性,成为企业智能化转型的重要基础设施,助力企业提升效率、降低成本并增强敏捷响应能力。
325 28
|
17天前
|
SQL 人工智能 Java
阿里云百炼开源面向 Java 开发者的 NL2SQL 智能体框架
Spring-ai-alibaba-nl2sql 是析言 GBI 产品在数据问答领域的一次重要开源尝试,专注于 NL2SQL 场景下的核心能力开放。
350 48
|
1天前
|
运维 监控 算法
小白也能做OS运维:阿里云操作系统控制台助你轻松解决三大运维难题
阿里云推出了一站式运维管理平台操作系统控制台,提出了异常告警和诊断联动的一套解决方案,对异常指标进行智能检测
|
消息中间件 数据采集 SQL
【行业应用】阿里云实时计算 Flink 版金融行业解决方案
基于实时计算 Flink 版的解决方案可帮助金融机构从容应对上述挑战,通过 Flink 构建实时数仓、实时反欺诈系统,助力金融机构快速构建实时风控体系。
【行业应用】阿里云实时计算 Flink 版金融行业解决方案
|
1天前
|
边缘计算 Kubernetes Cloud Native
OpenYurt 成为 CNCF 孵化项⽬:加速扩展云原⽣的边界
经 CNCF 技术监督委员会投票一致同意,OpenYurt 正式成为 CNCF 孵化项目
|
人工智能 运维 持续交付
AI大模型运维开发探索第五篇:GitOps 智能体
本文探讨了 Manus 智能体的设计及其与传统智能体的差异,重点分析了 CodeAct 机制对智能体执行效率的提升。作者通过《基于LLM的数据仓库》实验反思了交互接口选择的重要性,并提出操作系统和文件系统作为良好的自反馈交互系统。文章进一步结合 GitOps 和持续集成(CICD)理念,设计了一种低成本、可观测性强的智能体运行方案,包括计划智能体(Planner)和执行智能体(Executor)的协作流程。通过实际案例对比,展示了 GitOps 智能体与 Manus 的相似效果,并总结了其在记忆增强、推理可观测性、低成本部署及跨环境适配等方面的优势。最后提供了相关代码路径和参考材料。
191 17
|
2月前
|
人工智能 自然语言处理 算法
DistilQwen-ThoughtX:变长思维链推理模型,能力超越DeepSeek蒸馏模型
阿里云PAI团队开发的 OmniThought 数据集,其中包含200万思维链,并标注了推理冗余度(RV)和认知难度(CD)分数。基于此数据集,我们还推出了 DistilQwen-ThoughtX 系列模型,可以通过RV和CD分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。