活动简介
我们诚挚邀请您参加即将在上海举办的 Ray 高效集群编程研讨会。本次研讨会将汇聚来自业界与学界的 Ray 开发者、研究人员和技术爱好者,共同探讨 Ray 在集群计算中的前沿应用与实践。
地点
上海金桥红枫万豪酒店
时间
2024年10月19日
请扫码加入微信交流群
演讲嘉宾
活动日程
Ray 是一个开源的分布式计算框架,专为高效处理大规模分布式应用而设计。自其发布以来,Ray 以其灵活性、可扩展性以及对分布式任务的卓越支持,迅速成为在人工智能、数据处理、强化学习等领域中的重要工具。Ray 通过简化并行计算,使开发者能够更轻松地编写分布式应用,从而加速项目开发进程,提升计算效率。
开场致辞 陈泊远,Ray Connect 组委会
Session A 主持人:刘晓双
结合昇腾与 Ray:提升自动驾驶数据闭环效率 柴勋 - 华为智能汽车解决方案 BU
智能驾驶已进入"下半场",高阶智驾正逐步实现规模化量产,在海量数据中高效挖掘和处理出足够多的有效数据供AI模型训练是拔高智驾能力的重中之重,数据闭环由此而生。数据闭环任务复杂:涉及到多种类数据(图像、激光、雷达、轨迹、多时序)处理、多种异构计算资源(CPU、NPU)使用;且时效要求高:整个闭环周期需 <X 天。如何在有限时间和计算资源内高效生产出足够的数据是我们要解决的问题。本次演讲主要介绍我们以智驾数据闭环为落地点应用,首次打造出以昇腾 NPU 硬件和 Ray 分布式软件能力相结合的生产系统,并规模化落地到数千卡生产集群。
Data+AI 融合场景下的分布式引擎探索与实践 李志方 - 腾讯
以 Spark/Flink 为代表的基于 JVM 的经典引擎在 BigData 领域获得了巨大成功,随着大模型等 AI 技术的崛起,经典引擎在 Data+AI 融合场景下的支持仍然稍显不足,存在开发难度大和资源利用率低等诸多问题。腾讯大数据团队围绕 Python 生态和 Ray 引擎,进行了一系列探索与实践。最初一版是基于 PyIceberg 与湖仓底座进行单机多卡的模型推理与训练。随着项目迭代,借助 Ray 灵活而强大的分布式异构编程能力,进而拓展实现了高性能的数据科学链路,包括分布式 Pandas-like 数据分析,隐私计算,加速因果推断等多个业务场景。
茶歇
从 PyFlink 到 Klein:当我们决定做流批统一的推理计算引擎 唐云 - 小红书
小红书的数据引擎团队在23年底帮助算法团队在易驱逐的混部 CPU 资源上,利用 PyFlink 完成了大规模的笔记图片全量回溯推理之后,就在一直思考如何选取更合适的分布式计算框架,来统一多个业务线的大规模离线和近在线推理工作。本次演讲回顾我们如何从 PyFlink 出发,基于 Ray core API,参考 Flink 流批一体以及实时计算的设计理念,自主研发设计了流批一体的推理计算引擎 Ray Klein,可以用同一套 API,同时满足大规模的离线和近在线推理需求,并且在多个业务线上落地。
Llumnix: LLM 推理的动态调度 赵汉宇 - 阿里巴巴
大语言模型(LLM)由于其广泛的应用和巨大的资源需求,已经发展成为一个云规模的工作负载。因此,其系统优化也不仅仅需要考虑单个 GPU、模型实例,也需要进化到集群资源和服务的整体视角。Llumnix 是阿里云人工智能平台 PAI 团队基于 Ray 研发的一个集群级别的 LLM 推理服务系统。首先,我们将介绍 Llumnix 的核心请求调度机制,即跨模型实例的请求迁移,并展示这一基本功能如何促进一系列调度优化,例如细粒度负载均衡、内存去碎片化以及预填充解码分离。之后我们将介绍 Llumnix 如何通过基于 Ray 的分布式系统架构与动态调度策略,高效地实现上述一系列调度特性。最后,我们还将描述其他实现细节,如容错性、性能优化以及与推理引擎和 K8s 集群的集成。
圆桌讨论 Panel A:Ray 的大规模异构集群计算的性能挑战
圆桌主持人:陈泊远,参与嘉宾:柴勋,李志方,唐云,赵汉宇
在大规模异构集群计算中,Ray 提供了强大的分布式计算框架,但随着任务规模的增加和硬件多样性的提升,性能优化面临着严峻的挑战。此次圆桌讨论将围绕如何在异构硬件架构(如 CPU、GPU、NPU 集群)上充分利用 Ray 的调度和资源管理能力,提升计算效率和性能展开讨论。我们将探讨数据移动开销、负载均衡、资源利用率优化等核心问题,并分享在大规模数据处理、AI 原生任务中的挑战和最佳实践。
午餐
Session B 主持人:Kenneth Tan
使用 Ray 构建统一的大规模多模态模型数据处理管道 王万兴 - 字节跳动
创建一个能够从文本指令生成真实且富有想象力场景的视频生成模型需要海量的高质量视频数据。在本次演讲中,我们将分享如何利用 Ray 从零开始构建我们的视频数据处理管道,并应对过程中遇到的各种挑战。 我们的重点将放在开发一个能够处理海量视频数据的健壮且可扩展的数据管道上。Ray 生态系统,尤其是 Ray Core、Ray Data 和 Ray Serve 的核心功能,为解决这些挑战提供了有效方案,特别是在动态扩展计算和异构资源编排方面表现出色。通过充分利用这些功能,我们成功构建了一套复杂且高效的数据处理管道。 此外,我们还将分享在管理 Ray 基础设施中的经验,并介绍我们在此过程中总结出的最佳实践。
华为云数智融合:基于 Ray 的高可靠云服务 徐波 - 华为云 EI
华为云基于 Ray 提供高可靠的云服务,涵盖托管 Ray 服务与 LLM 推理服务,通过产品化的技术方案满足多场景的需求。在托管 Ray 服务方面,我们通过多项技术手段提升了 Ray 服务的可靠性与安全性。我们支持 Ray 集群与 Ray Job,服务已在华为智能汽车解决方案 BU、MetaERP 等实际场景中落地应用。同时,托管服务结合了 Fabric 与 XDS 技术,支持 LLaMA、Qwen、GLM、盘古等模型,提供灵活的按需计费和自动扩缩容能力。在基于 Ray 的 LLM 推理服务中,我们实现了 Pod 级别、容器级别和进程级别的可靠性提升和安全加固,推理服务还具备节点自动扩缩容和灰度升级功能,为企业提供更加灵活、高效的推理计算管理,能够满足不同业务场景下的弹性需求。通过这些创新技术,我们为用户提供了安全、可靠、可扩展的分布式计算能力,助力企业在多场景中实现高效推理计算和分布式服务管理。
茶歇
Ray 在分布式视频数据处理中的应用与实践 吕召刚 - 阿里巴巴
大量视频需要进行数据预处理的情况下,如何设计分布式的架构来处理数据?数据切片,标注,音画同步,情感识别,镜头检测,字幕识别需要不同的算法模型来进行处理,在显卡有限的情况下如何进行快速的大量数据处理? 如何进行规模化的 CPU/GPU 的调度,如何设计处理流程利于算子/流程的复用? 这一主题将分享我们在处理视频数据过程中遇到的问题,以及使用 K8s/Ray 进行数据处理的经验。
Pioneering Next-Gen AI Platform 俞育才 - eBay
eBay 的人工智能平台经历了一场深刻的变革,这场变革旨在加快人工智能应用的开发速度,优化昂贵的 GPU 资源使用,并提升用户体验。Ray 的融入对我们生态系统的改进起到了关键的作用。本次演讲将回顾 Ray 整合入 eBay 人工智能平台的历程。我们将探讨 Ray 在四个关键生产场景中的应用:批量推理、近实时的特征工程、分布式训练以及AI服务的构建。针对每一种生产场景,我们将分享我们遇到的挑战、解决方案、以及学到的经验教训。在演讲的最后,我们将展望 Ray 如何推动产品设计的优化。一个精心打造的产品设计对于用户在整个机器学习生命周期中无缝管理资产和高效利用平台至关重要。
圆桌讨论 Panel B:面向多租户的集群在大模型时代的发展方向 圆桌主持人:刘晓双,参与嘉宾:王万兴,徐波,吕召刚,俞育才
在大模型时代,计算资源需求急剧增加,为了提升资源利用率,异构计算集群往往会被多租户共享,在资源最大化共享和保证应用性能中做平衡给AI Infra 工程师提出了巨大挑战。Ray 作为一个高效的分布式计算框架,为多租户环境中的调度策略以及公平性提供了基础支持,但在很多方面上还有所欠缺。本次圆桌讨论将深入探讨如何在多租户场景下有效管理和优化Ray集群,确保各租户能够在共享计算资源的同时获得稳定且高效的计算性能。我们将结合大模型训练和推理的需求,探讨未来集群管理技术的发展方向,包括动态资源分配、租户优先级调度、资源使用监控与计费等关键议题,为大模型时代的多租户集群提供前瞻性的思路和解决方案。
闭幕致辞 刘晓双,陈泊远
为什么要参加 Ray Connect 2024?
与专家面对面交流
本次研讨会将邀请 Ray 核心开发者以及来自顶尖科技公司的技术专家,与会者可以直接向他们请教在实际使用 Ray 过程中遇到的问题与挑战。
获取前沿知识
深入了解 Ray 最新的功能和最佳实践,探索其在不同领域中的创新应用,包括在大规模数据处理、机器学习模型训练和在线推理等方面的实际案例。
拓展人脉
汇聚了来自各大企业、科研机构的技术领袖与开发者,这是一个建立和拓展专业网络的绝佳机会。
活动注册
参加 Ray Connect 2024
联系我们
组织者
Ahmed E. Hassan, 加拿大女王大学教授, IEEE Fellow, ACM Fellow
Kenneth Tan, 华为异构计算架构师,前 Intel Principal Engineer
陈泊远, 博士,华为加拿大研究院, 异构计算软件工程专家
刘晓双, 博士,华为 2012 实验室, Huawei-Ray Owner, Ray 开源社区活跃贡献者
陈智隆, 华为加拿大研究院, 分布式 AI、联邦学习专家, Ray 开源社区活跃贡献者
陈意昊, 华为加拿大研究院, 分布式可观测技术专家, Apache SkyWalking PMC