AI-Stack人工智慧實驗平台 提升AI教學與實驗效率


產業需求人工智慧人才,然而面向眾多學生的人工智慧實驗卻難以開展,各級學校無不開始採購AI設備與軟體教材,希望促進人才培養,滿足現下的人才荒。對此,數位無限AI-Stack人工智慧實驗平台提供了基於Docker容器集群技術開發的多人在線實驗環境。平台基於深度學習計算集群,支持主流深度學習框架,方便快速部署訓練環境,同時支持多人在線實驗,解決人工智慧實驗配置難度大、實驗入門難、缺乏實驗數據等難題,可用於深度學習模型訓練等教學、實戰應用。


平台特色


1. 在線實驗應用

  • 一分鐘部署深度學習計算環境,快速啟動訓練任務

  • 支持多個人工智慧實驗在線訓練

  • 動態分配GPU資源,實現資源的合理共享

  • 支援多容器共享GPU機制,讓多名使用者、多個容器可共用同一片GPU進行操作開發

  • 即時監控與掌握CPU/GPU資源使用情況及運行狀態

  • 提供NGC深度學習框架下載服務


2. 實驗高效可靠

  • 基於Docker容器技術,可瞬間創建隨時運行的實驗環境

  • 使用幾台機器即可虛擬出大量實驗集群,並配套GPU,滿足實驗室規模使用需求

  • 採用Kubernetes容器編排架構管理集群,用戶實驗集群隔離、互不干擾

  • 容器建立後平台提供使用者 Jupyter Notebook 程式編輯工具進行開發

  • 租戶管理者可批次建立容器,使用同一個容器樣板一次為多位相同租戶使用者建立容器

  • 提供 Batch Job 排程工具,使用者可設定執行時間,平台於排程期間將定時執行重複性訓練任務

  • 提供 share memory 動態調整功能,使用者建立 GPU 資源時可自行輸入共享記憶體大小(上限 70% )


3. 軟硬體高規格

  • 硬體採用GPU+CPU混合架構,實現對數據的高性能並行處理

  • CPU選用2顆AMD EPYC™ 7502 32C/64T 2.5GHz 中央處理器,搭配NVIDIA A6000 GPU卡

  • 內建NVIDIA優化之常用TensorFlow、PyTorch之AI框架,並具備AI框架擴充設計

  • 可介接外部存儲設備,可透過NFS介接標準NAS

  • 可介接LDAP/AD、OpenID、OAuth等用戶身份登入認證機制

  • 提供歷史 GPU 使用率與使用時數查詢功能,協助管理者清查容器使用狀態,提高 GPU 使用效率


平台框架


數位無限AI-Stack人工智慧實驗平台整體設計基於Docker容器集群技術,可快速創建隨時運行的實驗環境。

  • Kubernetes是Google開源的容器集群管理系統,提供應用部署、維護、擴展機制等功能,利用Kubernetes能方便地管理跨機器運行容器化的應用。

  • 實驗時,系統預先針對人工智慧實驗內容構建好一系列基於Ubuntu的特定容器鏡像,通過Docker在集群主機內構建容器,為每個使用平台的用戶開闢隔離的實驗環境。


AI-Stack人工智慧實驗平台可有效協助提升AI教學與實驗效率,經過多所學校的採用,包含政治大學、成功大學、交通大學、台北科技大學、雲林科技大學、義守大學等知名學校的實際案例,證實AI-Stack人工智慧實驗平台讓AI計算資源使用透明化,透過簡單的操作介面、流程管理、專案管理、報表分析,滿足多方的管理決策者、IT管理者與資源使用者的需求,讓AI實驗得以落地,創造更有價值的影響。


40 次瀏覽0 則留言

最新文章

查看全部

數位無限AI-Stack領先推出一鍵分割/還原NVIDIA A100 MIG

最新的NVIDIA GPU伺服器DGX Station A100有一項特別的功能【NVIDIA多執行個體GPU】,也就是俗稱的「MIG」 (Multi-Instance GPU),NVIDIA Ampere架構中的MIG模式可以在A100 GPU上同時並行七個作業,也就是說可以讓每個A100 GPU最多能分隔成七個執行個體。在MIG模式下,A100可以同時運行多達七個不同大小的AI或HPC工作負載