跳到主要内容

Tensorboard

部署自 JupyterLab-TensorBoard-Pro

在自己模型的代码中加入 Logging 以定期将训练过程中的指标记录在文件中。然后可以使用 TensorBoard 进行数据可视化(损失,指标等)以便对训练的过程有更全面的了解。本文将介绍对如何在 EPTI 集群的机器学习镜像中使用 TensorBoard。本文不会介绍如何在自己的代码中进行 Logging。

入口,启动 TensorBoard

TensorBoard Startup Entry

TensorBoard 在 GPU TensorFlow 和 PyTorch 镜像上都有预装,新启动的镜像,可以在首页看到 TensorBoard 的按钮。点击可以打开一个新的 TensorBoard。

TensorBoard Idle

开启后,TensorBoard 还没有加载,首先要确认 Log 目录的地址,填写位置在新窗口的左上角 Log Dir 文本框处。预填的目录是你启动 TensorBoard 时,JupyterLab 左侧文件栏所在的地址,所以一种做法是你先在左侧文件栏访问到 log 目录,再启动 TensorBoard。

TensorBoard Started

在确认好 Log Dir 后,可以点击接下来的 Create TensorBoard 黄色按钮,然后根据你 Log Dir 生成的 TensorBoard 界面就会启动。

查看结果

TensorBoard 显示的内容与你设定 Logging 的内容有关,可以记录 Metrics/Losses 的时间序列(或以 Scales 类型),也可以将图片塞入 TensorBoard,在模型的训练过程过程中查看结果。关于 TensorBoard 功能的使用,请参照TensorBoard 官方文档

TensorBoard Open Single Page

EPTI 上 TensorBoard 的显示默认是嵌入在 JupyterLab 里面的,你可以点击如图按钮,打开一个独立的 TensorBoard 页面。方便查看。

TensorBoard Single Page

关闭 TensorBoard 实例

TensorBoard Close

如果要关闭已经开启的 TensorBoard 实例,你可以打开侧栏 Running Terminal and Kernel 的选项卡,已经启动的 TensorBoard 也显示在这里,你可以选择 Shut Down All 关闭所有,或是选择某个 TensorBoard 实例来关闭。