指标¶
对于指标,我们建议使用 Tensorboard 将指标直接记录到云端 storage 的 intent 和模型一起。在模型训练时,您可以启动 tensorboard 实例来监控模型进度:
$ tensorboard --log-dir provider://path/to/logs
或者,您可以使用torchx.components.metrics.tensorboard()
组件设置为
管道的一部分。
有关如何使用 PyTorch 的示例,请参阅 Trainer 应用程序示例 Lightning TensorboardLogger 的 TensorboardLogger 中。
参考¶
PyTorch Tensorboard 教程 https://pytorch.org/tutorials/intermediate/tensorboard_tutorial.html
PyTorch Lightning 记录器 https://pytorch-lightning.readthedocs.io/en/stable/extensions/logging.html
- torchx.components.metrics 的TensorBoard(logdir: str, image: str = 'ghcr.io/pytorch/torchx:0.1.2', timeout: float = 3600, 端口: int = 6006, start_on_file: str = '', exit_on_file: str = '') → torchx.specs.api.AppDef[来源]¶
此组件运行 Tensorboard 服务器,该服务器将呈现日志 由 logdir 指定。
由于 Tensorboard 作为服务运行,因此您需要指定终止 条件。这包括一个超时和一个可选选项,当该路径为 创建。
exit_on_file
通过 fsspec 定期轮询文件是否存在,并将触发 创建时的相应行为。
- 参数
logdir – Tensorboard 日志的 fsspec 路径
image – 要使用的图像
timeout – 退出前运行的最长时间 (秒)
start_on_file – 在创建 fsspec 路径时启动服务器
exit_on_file – 创建 fsspec 路径时关闭服务器