有奖捉虫:行业应用 & 管理与支持文档专题 HOT

创建步骤

填写基本信息

1. 登录TI-ONE 控制台,进入训练工坊 > 任务式建模,单击新建,开始创建训练任务。
2. 在基本信息配置页,填写如下信息:
任务名称:仅支持中英文、数字、下划线"_"、短横"-",只能以中英文、数字开头。
地域:训练任务所在的地域,默认为当前列表页所在的地域。
训练镜像:可选择平台内置训练镜像、自定义镜像和内置大模型,其中内置训练镜像请查看内置镜像列表,内置大模型训练使用方式请查看 精调 LLM 大模型最佳实践
训练模式:不同训练框架支持的训练模式请查看内置镜像列表
计费模式:可选择按量计费和包年包月,若选择按量计费,则需要选择算力规格和节点数量;若选择包年包月,则需要先创建资源组,购买节点,相关操作请查看 资源组管理,选择完资源组后选择对应的计算资源。平台支持的计费规格请查看 TI-ONE 计费规格列表
标签:可为任务创建标签,一个任务可添加多个标签。
描述:可添加最多500字的备注描述。

填写任务配置信息

任务配置页面需要配置本次训练任务的算法、数据、输入输出等信息,具体配置项说明如下:
1. 数据配置:数据来源支持数据集、 COS、CFS、CFS Turbo、GooseFSx(仅支持从CVM机器中选择的资源组)、EMR(HDFS)和 Wedata (HDFS):
若选择数据集,则需要首先在平台数据中心 > 数据集管理创建数据集;
若选择 COS,则需要选择数据集所在的 COS 路径;
若选择 CFS、CFS Turbo、GooseFSx、EMR(HDFS) 或者 Wedata(HDFS),则需要下拉选择 CFS 文件系统、GooseFSx实例、EMR 集群或者 Wedata 数据源,同时填写需要平台挂载的数据源目录;
以上几种数据来源在配置的时候均可定义数据在训练容器内的映射路径,您的代码中需要填写该路径以获取数据。创建任务时可选择多个数据集或者多个数据路径,分别设置不同的本地存储路径(映射路径),挂载到容器中,供训练算法读取。
您也可以不在界面中配置数据来源,直接在代码中通过Tikit或者客户端工具访问远端数据源,此时若您的代码中需要访问 EMR,亦需要配置 VPC 和子网,这样可以保证训练容器和您的 EMR 集群在同一 VPC 中。
使用 EMR(HDFS) 作为训练数据源注意事项:平台默认使用 Hadoop 身份访问挂载 HDFS;如果需要使用其他身份,请按照如下代码包规范上传相关配置文件。
用户名和 keytab 文件统一由用户提供,放在代码包里面。
代码包规范: /<emr_id>/username.txt (内容为用户名,内容如: “hadoop/172.0.1.5”,文件不存在或者文件为空时使用默认的用户名“hadoop”) /<emr_id>/emr.keytab (内容为keytab认证文件) (因为平台同时支持多个 emr 的多个认证,所以需要添加 <emr_id> 到目录中,值如:emr-1rnhggsh)
2. 代码包:您可以选择 COS 中的文件路径作为代码包目录,也可以不填此选项,读取数据配置中挂载的路径作为代码包路径;代码包可先上传至 COS 存储桶中,也可以直接在 TI-ONE 的 COS 文件选择对话框中点击上传。
3. 启动命令:您需要填写程序入口命令,默认工作目录为/opt/ml/code。
4. 调优参数:填写的超参数 JSON 会保存为 /opt/ml/input/config/hyperparameters.json 文件,您的代码需自行解析。
5. 训练输出:选择您需要保存训练输出的 COS 路径,平台会默认将 /opt/ml/output 路径下的数据定期上传至输出 COS 路径;若您需要将训练输出的模型一键发布至模型仓库,则需要将模型输出保存至 /opt/ml/model 路径下,平台会在训练结束后将该路径下的数据上传至 COS 路径;若您选择的是 CFS 等文件系统作为训练存储,您也可以不配置训练输出,直接将训练输出写到挂载的 CFS 文件路径中。
6. 私有网络:您可以配置当前训练任务可访问的私有网络,若您选择的存储产品配置了 VPC 和子网,平台会默认打通该 VPC 网络,以保证训练任务可正常访问所配置的存储产品。
7. CLS 日志投递:CLS 日志投递默认关闭,TI 控制台会默认展示 7 天的日志,若您期望持久化存储日志,获得日志检索等服务,可以开启 CLS 日志投递,打开 CLS 后可以将日志投递至 CLS 服务(需要确保 CLS 服务已完成开通),CLS 产品介绍和收费指南请查看 CLS 介绍
8. 自动重启:您可以对任务配置自动重启策略,您需要配置最大重启次数,最高为10次,超过最大重启次数后,会将任务直接标记为异常;当前任务自动重启的触发条件为任务运行过程中发生异常退出(当前该功能仅支持计费模式为包年包月且训练模式为 MPI、DDP 和 Horovod 的训练任务)。任务自动重启的事件信息可在 任务详情-事件 页面中查看。
?
另外,在您配置任务的过程中,底部会实时显示您当前任务配置的价格,请注意关注。所有信息配置完成后,即完成了任务创建。


http://www.vxiaotou.com