Alibabacloud Pai Dlc Job — 阿里云 pai DLC 作业
v0.0.1Alibaba Cloud PAI-DLC(深度学习容器)作业管理技能。用于创建、管理和监控DLC训练作业,以及管理可重用作业模板。触发器: "DLC"、 "PAI-DLC"、 "JobTemplate"、 "create-job-template"、 "list-job-templates"、 "set-job-template-default-version"、 "create-tensorboard"、 "list-tensorboards"、 "get-dashboard"。
运行时依赖
安装命令
点击复制技能文档
PAI-DLC 深度学习作业管理 在阿里云 PAI-DLC(平台为 AI - 深度学习容器)服务上管理深度学习训练作业。
场景描述 PAI-DLC 是阿里云 AI 平台 PAI 提供的分布式训练服务,支持: 作业创建和执行 — 为 TensorFlow、PyTorch、XGBoost 等框架创建分布式训练作业 作业监控 — 获取作业状态、日志、事件和监控指标 计算健康检查 — 检查 GPU 和其他计算设备的健康状态 作业管理 — 更新和停止作业 作业模板 — 将可重用的 CreateJob 配置保存为模板,具有多版本管理和字段约束
架构:PAI 工作空间 + DLC 作业 + 计算资源(ECS 公共按量付费或 Lingjun 专用配额)+ AIWorkSpace 目录(镜像/数据集/代码源/配额/工作空间)。
安装要求 预检查:Aliyun CLI >= 3.3.1 必须 运行 aliyun version 验证版本 >= 3.3.1。如果未安装或版本过低,请参阅 references/cli-installation-guide.md 获取安装说明。然后 [必需] 运行 aliyun configure set --auto-plugin-install true 启用自动插件安装。
关于 --user-agent 的说明:本技能中所有调用 API 的 aliyun 命令必须包含 --user-agent AlibabaCloud-Agent-Skills/alibabacloud-pai-dlc-job。客户端帮助程序(aliyun version、aliyun configure ...、aliyun plugin ...、aliyun --help)不调用远程 API,因此不需要该标志。
aliyun version aliyun configure set --auto-plugin-install true aliyun pai-dlc --help # JobTemplate(§7.7)需要 aliyun-cli-pai-dlc >= 0.3.1。 # 如果 create-job-template --help 失败:aliyun plugin update --name aliyun-cli-pai-dlc aliyun aiworkspace --help >/dev/null 2>&1 || aliyun plugin install --names aliyun-cli-aiworkspace aliyun configure ai-mode enable aliyun configure ai-mode set-user-agent --user-agent "AlibabaCloud-Agent-Skills/alibabacloud-pai-dlc-job" # 会话结束后:aliyun configure ai-mode disable
环境变量 本技能不需要任何自定义环境变量。凭证由 Alibaba Cloud CLI 配置处理(参阅下面的身份验证)。
可选: 变量 必需 目的 ALIBABA_CLOUD_PROFILE 可选 选择非默认 aliyun configure 配置文件 ALIBABA_CLOUD_REGION_ID 可选 默认区域,当 --region 省略时(仍建议显式传递 --region)
身份验证配置 预检查:阿里云凭证必需 安全规则: 绝不读取、回显或打印 AK/SK 值(例如,echo $ALIBABA_CLOUD_ACCESS_KEY_ID 是禁止的) 绝不要求用户直接在对话或命令行中输入 AK/SK 绝不使用 aliyun configure set 与字面凭证值 仅使用 aliyun configure list 检查凭证状态 aliyun configure list 检查输出是否有有效的配置文件(AK、STS 或 OAuth 身份)。如果没有有效的配置文件,请停止这里。从阿里云控制台获取凭证,在本会话外配置凭证(通过 aliyun configure 在终端或 shell 配置文件中的环境变量)。
RAM 权限 [必须] 权限失败处理:在执行过程中,如果任何命令或 API 调用由于权限错误而失败,请按照以下流程: 阅读 references/ram-policies.md 获取所需的权限列表 使用 ram-permission-diagnose 技能指导用户请求必要的权限 暂停并等待用户确认已授予所需的权限 详细的权限列表,请参阅 references/ram-policies.md。
所需权限概述: 操作 所需权限 创建作业 pai:CreateJob 列出作业 pai:ListJobs 获取作业详细信息 pai:GetJob 获取 Pod 日志 pai:GetPodLogs 获取作业事件 pai:GetJobEvents 获取作业指标 pai:GetJobMetrics 更新作业 pai:UpdateJob 停止作业 pai:StopJob 停止作业 pai:StopJob 创建/读取/更新作业模板 paidlc:CreateJobTemplate / paidlc:GetJobTemplate / paidlc:ListJobTemplates / paidlc:UpdateJobTemplate / paidlc:SetJobTemplateDefaultVersion AIWorkSpace 资源发现 paiworkspace:ListWorkspaces / paiimage:ListImages,GetImage / paidataset:ListDatasets,GetDataset / paicodesource:ListCodeSources,GetCodeSource
AIWorkSpace 授权说明:create-job 的 Image / DataSourceId / CodeSourceId / WorkspaceId 字段值来自 AIWorkSpace 资源发现 API。--resource-id(QuotaId)由用户手动提供。RAM 用户必须持有上述 AIWorkSpace 命名空间的权限(不要将其缩写为 aiworkspace:*)。
参数确认 重要:参数确认 — 在执行任何命令或 API 调用之前,所有参数必须确认。