火山引擎机器学习平台
产品能力
云端开发
提供稳定的在线编译、调试代码和模型开发的环境
灵活性对齐裸机
秒级开关机、重启不丢环境、动态挂载存储
易用性
SSH/WebIDE直连、秒级打包开发环境
分布式训练
一键发起超大规模分布式任务
多机编排
0侵入支持PyTorch、DeepSpeed等框架
训练加速
通信库、算子库的通用优化
动态调度
任务优先级、跨队列抢占
实验管理
可视化地跟踪训练过程筛选最优模型
实验对比
对比不同实验的数据随Step的变化找出最优超参
数据形式多样
标量、直方图、多媒体、自定义表格
在线服务
支持多框架、多种硬件的高性能推理服务
高性能
支持TF、Triton以及自研的多种推理引擎
弹性扩缩容
根据定时/负载情况动态扩缩容实现极致的弹性
流程自动化
从数据处理、训练、评估至发布的机器学习全流程编排
易用性(流程自动化)
支持SDK/YAML编排、触发器自动触发
可复用(流程自动化)
支持定义工作流模板实现组件的复用
大模型安全
通过大模型应用防火墙,保护大模型及应用不会受到OWASP LLM Top10攻击
全栈防护
集成提示词注入等多种攻击识别能力,接入更高效
产品优势
高利用率
资源池化:GPU资源的高效利用
调度:训推一体、抢占、弹性伸缩
存储优化:PFS、缓存加速
模型优化
GPT大模型预训练、一键精调
抖音同款推荐模型白盒建模
算子库、通信库等通用系统优化
体验友好
易用性:代码+数据+镜像0改动
调参神器:兼容WandB、TB
模型运行效率分析工具箱
免费开放
平台免费,只按资源收费
支持OpenAPI、命令行工具
支持多语言SDK
极低时延
支持急速检测,满足低时延场景需求