Cnvrgio首次为机器学习开发人员提供统一资源利用仪表板
以cnvrg.io做生意的Accessible Labs Ltd.今天发布了一个仪表板,机器学习模型的开发人员可以使用它来优化服务器资源的使用。
这家位于耶路撒冷的初创公司表示,其ML基础结构仪表板最初可用于使开发经理了解中央处理器,图形处理单元,内存和群集节点在软件容器中运行的工作负载的利用率,这些软件容器是可移植的环境,其中包括工作负载和所有资源都需要运行它们。
首席执行官Yochay Ettun表示,下一个版本计划于明年第一季度发布,它将分析工作负载并建议分配资源以优化它们。尽管虚拟化已帮助信息技术组织极大地提高了服务器利用率,但这种效率尚未达到典型的机器学习开发人员的水平。埃通说。
他说:“当客户购买Nvidia服务器时,他们得到一个黑匣子-他们看不到正在使用多少资源。”他补充说,Nvidia估计其服务器资源中通常只有不到30%被利用。
原因之一是配置软件容器并估计大数据集的处理需求需要并非所有组织都具备的专业技能。他说:“例如,我可以为一个模型分配两个GPU,但是我只使用一个,因为我没有足够的数据或代码未正确优化。”
GPU优化尤为重要,因为单个GPU服务器的成本为5,000美元,附加组件和增强功能的价格却是该价格的两倍以上。缺乏可见性不仅会降低开发人员的工作效率,而且会阻止资源被同一计算机上运行的其他作业占用。该公司声称,仪表板可以将GPU / CPU和内存利用率提高到70%。
除了提供当前资源使用情况的快照外,仪表板还显示有多少容量未使用以及分配的资源量未得到充分利用。它使用Prometheus开源监视和时间序列数据库以及来自机器监视器的数据来组合一个视图,以显示活动作业以及有关用户,项目和容器的信息。指标可以导出到外部数据分析平台,例如Tableau Software Inc.的Tableau和Excel电子表格。