分享
阅读笔记 - (ATC'23)Beware of Fragmentation: Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent
输入“/”快速插入内容
阅读笔记 - (ATC'23)Beware of Fragmentation: Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent
用户5289
用户5289
2024年4月23日修改
优点和问题
•
开源模拟器:
◦
源码地址:
https://github.com/hkust-adsl/kubernetes-scheduler-simulator
◦
代码阅读笔记:
Beware of Fragmentation模拟器
•
介绍了多种不同的
GPU
Sharing方式
•
提出了一种全新的衡量指标,如果要接着做,需要考虑以下的几个点:
◦
确定是否在小规模场景中也有实验的价值?
◦
确定劫持
cuda
实现隔离的方案如何直接实现
◦
确定simulation的数据是否够用
•
阿里云的ECS文档里还有很多值得研究的点,可以考虑从里面找到一些可以优化的点来做
◦
GPU
云服务器:
https://help.aliyun.com/product/155040.html?spm=a2c4g.750001.0.0.1218300cCFQuDV
◦
ECS云服务器:
https://help.aliyun.com/zh/ecs/user-guide/overview-of-alibaba-cloud-heterogeneous-computing-services?spm=a2c4g.11186623.0.0.4545499ccwuMLO
◦
计算资源 、 数据资源、
交互式资源【这种场景是否有可以调度的内容?】
•
阿里云
GPU
云服务器计费方式
◦
包年包月:按一定时长购买资源,先付费后使用。
◦
按量付费:按需开通和释放资源,先使用后付费。
◦
抢占式实例:通过竞价模式抢占库存充足的计算资源,相对按量付费实例有一定的折扣,但是存在回收机制。
•
阿里云自研的加速
49%
51%
•
GPU
容器共享技术cGPU
◦
兼容性好:
不仅适配标准的Docker和Containerd工作方式,而且还无缝兼容Kubernetes工作方式。
◦
操作简单:
无需重编译
AI
应用,运行时无需替换
CUDA
库。
◦
资源灵活划分:
物理
GPU
的资源任意划分。例如,GPU显存动态划分,支持M级划分、GPU利用率动态划分,算力支持最小2%粒度的划分。
◦
GPU
实例规格无限制:
适用于GPU裸金属实例,虚拟化实例,vGPU实例等各种GPU实例。
◦
应用场景丰富:
支持在离线混部业务(即在线业务和离线业务)、支持
CUDA
AI
和渲染应用场景。
◦
功能强大:
具备高优先级的抢占功能和较高的可运维能力,支持热升级、支持多卡划分功能。