阅读笔记 - (ATC'23)Beware of Fragmentation: Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent

输入“/”快速插入内容

阅读笔记 - (ATC'23)Beware of Fragmentation: Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent

用户5289

2024年4月23日修改

优点和问题

•

开源模拟器：

◦

源码地址：https://github.com/hkust-adsl/kubernetes-scheduler-simulator

◦
代码阅读笔记：​Beware of Fragmentation模拟器 ​

•
介绍了多种不同的GPU Sharing方式​

•
提出了一种全新的衡量指标，如果要接着做，需要考虑以下的几个点：​
◦
确定是否在小规模场景中也有实验的价值？​
◦
确定劫持cuda实现隔离的方案如何直接实现​
◦
确定simulation的数据是否够用​

•

阿里云的ECS文档里还有很多值得研究的点，可以考虑从里面找到一些可以优化的点来做

◦

GPU云服务器：https://help.aliyun.com/product/155040.html?spm=a2c4g.750001.0.0.1218300cCFQuDV

◦

ECS云服务器：https://help.aliyun.com/zh/ecs/user-guide/overview-of-alibaba-cloud-heterogeneous-computing-services?spm=a2c4g.11186623.0.0.4545499ccwuMLO

◦
计算资源 、 数据资源、 交互式资源【这种场景是否有可以调度的内容？】​

common.docs_name - LarkCCM_Docs_Menu_Image

•
阿里云GPU云服务器计费方式​
◦
包年包月：按一定时长购买资源，先付费后使用。​
◦
按量付费：按需开通和释放资源，先使用后付费。​
◦
抢占式实例：通过竞价模式抢占库存充足的计算资源，相对按量付费实例有一定的折扣，但是存在回收机制。​

•
阿里云自研的加速​

49%

51%

•
GPU容器共享技术cGPU​
◦
兼容性好：不仅适配标准的Docker和Containerd工作方式，而且还无缝兼容Kubernetes工作方式。​
◦
操作简单：无需重编译AI应用，运行时无需替换CUDA库。​
◦
资源灵活划分：物理GPU的资源任意划分。例如，GPU显存动态划分，支持M级划分、GPU利用率动态划分，算力支持最小2%粒度的划分。​
◦
GPU实例规格无限制：适用于GPU裸金属实例，虚拟化实例，vGPU实例等各种GPU实例。​
◦
应用场景丰富：支持在离线混部业务（即在线业务和离线业务）、支持CUDA AI和渲染应用场景。​
◦
功能强大：具备高优先级的抢占功能和较高的可运维能力，支持热升级、支持多卡划分功能。​

阅读笔记 - (ATC'23)Beware of Fragmentation: Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent​

阅读笔记 - (ATC'23)Beware of Fragmentation: Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent