PCDIY!業界新聞

NVIDIA 加速全球頂尖資料分析平台 Apache Spark 的運算速度

(本資訊由廠商提供,不代表PCDIY!立場) 2020-05-15 15:49:05

本地 NVIDIA GPU 支援開源社群,加快 Spark 3.0 的運算速度,ETL 與 SQL 能以閃電般飛快的速度處理數百 TB 的海量資料,Adobe 在 Databricks 上使用 Spark 3.0 訓練模型的速度提高七倍

NVIDIA (輝達) 今天宣布將與開源社群攜手合作,將端到端的 GPU 加速技術導入 Apache Spark 3.0。全球超過五十萬名資料科學家使用 Apache Spark 3.0 分析引擎處理大數據資料。

透過預計於今年春末正式發表的 Spark 3.0,資料科學家與機器學習工程師將能首次把革命性的 GPU 加速技術應用於 ETL (擷取、轉換、載入) 資料處理作業負載,這些作業普遍都是透過操作 SQL 資料庫來進行。

NVIDIA也為Spark 3.0提供運算加速平台


另一項創舉便是人工智慧 (AI) 模型可以在同一個 Spark 叢集上進行訓練,而非將作業負載視為單獨的流程,在單獨的基礎架構上進行訓練。這麼一來便能在整個資料科學作業管道上以高效能的方式分析龐大資料,加快處理從資料湖泊 (Data Lake) 到模型訓練的數萬 TB 資料量,又無需修改用於本地及雲端運行之 Spark 應用程式的程式碼。

NVIDIA 企業運算部門主管 Manuvir Das 表示:「資料分析正是當前企業與研究人員在高效能運算領域所面臨到的最大挑戰。從 ETL、訓練再到推論,用於整個 Spark 3.0 資料處理管道的本地 GPU 加速技術,提供最終將大數據的潛力與人工智慧的力量串連起來所需的效能和規模。」

基於與 NVIDIA 的策略性 AI 合作夥伴關係,Adobe 是首批推出在 Databricks 上運行 Spark 3.0 預覽版本的公司之一。經初步測試,於 Adobe Experience Cloud 中使用 GPU 加速資料分析技術來開發產品,並支援數位業務相關功能,成果顯示 Spark 3.0 的運算效能提升了七倍,並省下了 90% 的成本。

Spark 3.0 的效能提升讓科學家們可以使用更龐大的資料集來訓練模型,並且更頻繁地重新訓練模型,進而提高模型的準確性。如此一來,科學家們每天都能處理多達數 TB 的新資料,這對於支援線上推薦系統或分析新研究資料的資料科學家們來說十分重要。此外,更快的處理速度也代表著能夠減少取得結果所需的硬體資源,大幅節省了成本。

Adobe 機器學習部門資深總監 William Yan 表示:「與 CPU 相比,我們發現 Spark 3.0 使用 NVIDIA 加速技術的運算表現有顯著提升。透過改寫遊戲規則的 GPU 效能表現,為我們整套 Adobe Experience Cloud 應用程式中增強的 AI 驅動功能,開啟全新的可能。」

Databricks 與 NVIDIA 加快 Spark 的運算速度

Apache Spark 是由 Databrick 的創辦人所打造,該公司基於雲端的整合資料分析平台 (Unified Data Analytics Platform) 每天在超過一百萬台虛擬機器上運行。NVIDIA 與 Databricks 合作使用 RAPIDSTM 套裝軟體為 Databricks 優化 Spark,將 GPU 加速技術應用在於 Databricks 上運行的資料科學和機器學習作業附載,其橫跨醫療、金融、零售等各種產業。

Apache Spark 的原始建立者,也是 Databricks 的首席技術專家 Matei Zaharia 表示:「我們持續與 NVIDIA 合作,使用針對 Apache Spark 3.0 和 Databricks 的 RAPIDS 優化內容來提升運算效能,我們雙方共有的客戶如 Adobe 便因此而受惠。這些貢獻加快了資料管道處理、模型訓練和評分的速度,直接為資料工程師及資料科學家帶來更多的突破和嶄新的見解。」

借助 NVIDIA GPU 加快 Spark 中的 ETL 及資料傳輸速度

NVIDIA 正在為 Apache Spark 提供全新的開源 RAPIDS 加速器,以協助資料科學家提高從端到端的資料管道效能表現。此加速器攔截了過去由 CPU 運行的功能,改由 GPU 來執行:

● 在無需修改任何程式碼的前提之下,大幅提升 Spark SQL 和 DataFrame 的運算表現,以加快 Spark 中處理 ETL 資料的速度
● 在同一套基礎架構上加快資料準備及模型訓練的速度,機器學習與深度學習則無需使用另外的叢集
● 加快 Spark 分散式叢集中跨節點的資料傳輸效能。這些函式庫利用 UCF Consortium 的開源 Unified Communication X (UCX) 框架,讓資料直接在 GPU 的記憶體之間移動,將延遲情況降到最低。

現在可以透過 Apache 軟體基金會取得 Spark 3.0 的預覽版本,預計將在未來幾個月內全面推出。欲了解更多資訊,請參考 www.nvidia.com/spark。

發表您的看法

請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。

請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。

請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。

請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。

請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。

您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。