PCDIY!業界新聞
NVIDIA 加速全球頂尖資料分析平台 Apache Spark 的運算速度
(本資訊由廠商提供,不代表PCDIY!立場) 2020-05-15 15:49:05本地 NVIDIA GPU 支援開源社群,加快 Spark 3.0 的運算速度,ETL 與 SQL 能以閃電般飛快的速度處理數百 TB 的海量資料,Adobe 在 Databricks 上使用 Spark 3.0 訓練模型的速度提高七倍
NVIDIA (輝達) 今天宣布將與開源社群攜手合作,將端到端的 GPU 加速技術導入 Apache Spark 3.0。全球超過五十萬名資料科學家使用 Apache Spark 3.0 分析引擎處理大數據資料。透過預計於今年春末正式發表的 Spark 3.0,資料科學家與機器學習工程師將能首次把革命性的 GPU 加速技術應用於 ETL (擷取、轉換、載入) 資料處理作業負載,這些作業普遍都是透過操作 SQL 資料庫來進行。
另一項創舉便是人工智慧 (AI) 模型可以在同一個 Spark 叢集上進行訓練,而非將作業負載視為單獨的流程,在單獨的基礎架構上進行訓練。這麼一來便能在整個資料科學作業管道上以高效能的方式分析龐大資料,加快處理從資料湖泊 (Data Lake) 到模型訓練的數萬 TB 資料量,又無需修改用於本地及雲端運行之 Spark 應用程式的程式碼。
NVIDIA 企業運算部門主管 Manuvir Das 表示:「資料分析正是當前企業與研究人員在高效能運算領域所面臨到的最大挑戰。從 ETL、訓練再到推論,用於整個 Spark 3.0 資料處理管道的本地 GPU 加速技術,提供最終將大數據的潛力與人工智慧的力量串連起來所需的效能和規模。」
基於與 NVIDIA 的策略性 AI 合作夥伴關係,Adobe 是首批推出在 Databricks 上運行 Spark 3.0 預覽版本的公司之一。經初步測試,於 Adobe Experience Cloud 中使用 GPU 加速資料分析技術來開發產品,並支援數位業務相關功能,成果顯示 Spark 3.0 的運算效能提升了七倍,並省下了 90% 的成本。
Spark 3.0 的效能提升讓科學家們可以使用更龐大的資料集來訓練模型,並且更頻繁地重新訓練模型,進而提高模型的準確性。如此一來,科學家們每天都能處理多達數 TB 的新資料,這對於支援線上推薦系統或分析新研究資料的資料科學家們來說十分重要。此外,更快的處理速度也代表著能夠減少取得結果所需的硬體資源,大幅節省了成本。
Adobe 機器學習部門資深總監 William Yan 表示:「與 CPU 相比,我們發現 Spark 3.0 使用 NVIDIA 加速技術的運算表現有顯著提升。透過改寫遊戲規則的 GPU 效能表現,為我們整套 Adobe Experience Cloud 應用程式中增強的 AI 驅動功能,開啟全新的可能。」
Databricks 與 NVIDIA 加快 Spark 的運算速度
Apache Spark 是由 Databrick 的創辦人所打造,該公司基於雲端的整合資料分析平台 (Unified Data Analytics Platform) 每天在超過一百萬台虛擬機器上運行。NVIDIA 與 Databricks 合作使用 RAPIDSTM 套裝軟體為 Databricks 優化 Spark,將 GPU 加速技術應用在於 Databricks 上運行的資料科學和機器學習作業附載,其橫跨醫療、金融、零售等各種產業。Apache Spark 的原始建立者,也是 Databricks 的首席技術專家 Matei Zaharia 表示:「我們持續與 NVIDIA 合作,使用針對 Apache Spark 3.0 和 Databricks 的 RAPIDS 優化內容來提升運算效能,我們雙方共有的客戶如 Adobe 便因此而受惠。這些貢獻加快了資料管道處理、模型訓練和評分的速度,直接為資料工程師及資料科學家帶來更多的突破和嶄新的見解。」
借助 NVIDIA GPU 加快 Spark 中的 ETL 及資料傳輸速度
NVIDIA 正在為 Apache Spark 提供全新的開源 RAPIDS 加速器,以協助資料科學家提高從端到端的資料管道效能表現。此加速器攔截了過去由 CPU 運行的功能,改由 GPU 來執行:● 在無需修改任何程式碼的前提之下,大幅提升 Spark SQL 和 DataFrame 的運算表現,以加快 Spark 中處理 ETL 資料的速度
● 在同一套基礎架構上加快資料準備及模型訓練的速度,機器學習與深度學習則無需使用另外的叢集
● 加快 Spark 分散式叢集中跨節點的資料傳輸效能。這些函式庫利用 UCF Consortium 的開源 Unified Communication X (UCX) 框架,讓資料直接在 GPU 的記憶體之間移動,將延遲情況降到最低。
現在可以透過 Apache 軟體基金會取得 Spark 3.0 的預覽版本,預計將在未來幾個月內全面推出。欲了解更多資訊,請參考 www.nvidia.com/spark。
- 發表您的看法
請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。
請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。
請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。
請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。
請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。
您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。
最近新增
- ADATA 推出 SD820 與 SC735 外接式固態硬碟 升級經典設計 輕巧且高速 強悍守護行動生活
- TikTok 吸引萬人參與「青少年守護星」活動, 社群自律公約同步全面升級,主動下架 99% 違規內容
- 擎發表 AI QuickSet WSL 在Windows下執行Linux AI Apps只在彈指之間
- 漸強實驗室發布「AI-First Communication Cloud」戰略藍圖 為終結工具、數據分散難題 首推三大 AI 平台串聯一站式解決方案
- 威剛四度蟬聯「台灣最佳職場」 榜上唯一台灣品牌!幸福職場落實人本承諾,AI賦能驅動永續未來
- TrendForce:Inference AI需求導致Nearline HDD嚴重缺貨,2026年QLC SSD出貨有望趁勢爆發
- 威剛 XPG VALOR AIR PRO 領銜登場! 打造美型高效無痛安裝的次世代機殼
- 把投影機價格打下來!Warpple 品牌 HD 投影機預購免兩千元 搭載 200° 靈動雲台、先進短焦技術;攜手 momo推 「OVO強強特惠組」買高規投影機送頂級立式護眼燈
- SAMA 先馬開學祭, 買大境界就送你 360 水冷散熱器
- GIGABYTE 與 V-COLOR 合作 推出創新內建 OLED 超頻記憶體
- 技嘉「BEYOND EDGE」發表會揭示將加速推進 AI 創新佈局
- AMD擴展工作站效能、推進AI PC發展,並為開發者提供全新工具
最多人點閱
- Microsoft Azure Certified for IoT 快速打造智慧物聯網
- SP廣穎電通將於德國2015 Embedded World展示全方位工控系列產品
- 英特爾舉辦亞洲區創新高峰會 促進台灣與全亞洲產業體系的創新發展
- IEM於台北國際電玩展熱血開打,購買Intel Core i5/i7處理器系列+SSD 750即得限量好禮
- 深根台灣成就萬物相聯 2015 ARM®新竹辦公室擴大營運暨亞洲第一座CPU設計中心開幕
- AMD發表全球首款GPU硬體虛擬化產品線
- PLEXTOR感恩節大回饋,M6V卡禮來雙重送!
- 希捷科技:2016年六大科技趨勢
- 台灣微軟與Lamigo聯手 應援總冠軍封王賽「Win for 10」!
- InWin 805 NVIDIA EDITION機殼爆紅,迎廣GeForce GTX特仕版機箱正式開賣!
- AMD獲選2015年道瓊永續性指數 連續14年榮獲此殊榮
- 微軟推出Office 2016 引領MOCO新世代 Office 2016 以全新特色打造工作新境界 隨時隨地 無所不在
