PCDIY!業界新聞
NVIDIA 加速全球頂尖資料分析平台 Apache Spark 的運算速度
(本資訊由廠商提供,不代表PCDIY!立場) 2020-05-15 15:49:05本地 NVIDIA GPU 支援開源社群,加快 Spark 3.0 的運算速度,ETL 與 SQL 能以閃電般飛快的速度處理數百 TB 的海量資料,Adobe 在 Databricks 上使用 Spark 3.0 訓練模型的速度提高七倍
NVIDIA (輝達) 今天宣布將與開源社群攜手合作,將端到端的 GPU 加速技術導入 Apache Spark 3.0。全球超過五十萬名資料科學家使用 Apache Spark 3.0 分析引擎處理大數據資料。透過預計於今年春末正式發表的 Spark 3.0,資料科學家與機器學習工程師將能首次把革命性的 GPU 加速技術應用於 ETL (擷取、轉換、載入) 資料處理作業負載,這些作業普遍都是透過操作 SQL 資料庫來進行。
另一項創舉便是人工智慧 (AI) 模型可以在同一個 Spark 叢集上進行訓練,而非將作業負載視為單獨的流程,在單獨的基礎架構上進行訓練。這麼一來便能在整個資料科學作業管道上以高效能的方式分析龐大資料,加快處理從資料湖泊 (Data Lake) 到模型訓練的數萬 TB 資料量,又無需修改用於本地及雲端運行之 Spark 應用程式的程式碼。
NVIDIA 企業運算部門主管 Manuvir Das 表示:「資料分析正是當前企業與研究人員在高效能運算領域所面臨到的最大挑戰。從 ETL、訓練再到推論,用於整個 Spark 3.0 資料處理管道的本地 GPU 加速技術,提供最終將大數據的潛力與人工智慧的力量串連起來所需的效能和規模。」
基於與 NVIDIA 的策略性 AI 合作夥伴關係,Adobe 是首批推出在 Databricks 上運行 Spark 3.0 預覽版本的公司之一。經初步測試,於 Adobe Experience Cloud 中使用 GPU 加速資料分析技術來開發產品,並支援數位業務相關功能,成果顯示 Spark 3.0 的運算效能提升了七倍,並省下了 90% 的成本。
Spark 3.0 的效能提升讓科學家們可以使用更龐大的資料集來訓練模型,並且更頻繁地重新訓練模型,進而提高模型的準確性。如此一來,科學家們每天都能處理多達數 TB 的新資料,這對於支援線上推薦系統或分析新研究資料的資料科學家們來說十分重要。此外,更快的處理速度也代表著能夠減少取得結果所需的硬體資源,大幅節省了成本。
Adobe 機器學習部門資深總監 William Yan 表示:「與 CPU 相比,我們發現 Spark 3.0 使用 NVIDIA 加速技術的運算表現有顯著提升。透過改寫遊戲規則的 GPU 效能表現,為我們整套 Adobe Experience Cloud 應用程式中增強的 AI 驅動功能,開啟全新的可能。」
Databricks 與 NVIDIA 加快 Spark 的運算速度
Apache Spark 是由 Databrick 的創辦人所打造,該公司基於雲端的整合資料分析平台 (Unified Data Analytics Platform) 每天在超過一百萬台虛擬機器上運行。NVIDIA 與 Databricks 合作使用 RAPIDSTM 套裝軟體為 Databricks 優化 Spark,將 GPU 加速技術應用在於 Databricks 上運行的資料科學和機器學習作業附載,其橫跨醫療、金融、零售等各種產業。Apache Spark 的原始建立者,也是 Databricks 的首席技術專家 Matei Zaharia 表示:「我們持續與 NVIDIA 合作,使用針對 Apache Spark 3.0 和 Databricks 的 RAPIDS 優化內容來提升運算效能,我們雙方共有的客戶如 Adobe 便因此而受惠。這些貢獻加快了資料管道處理、模型訓練和評分的速度,直接為資料工程師及資料科學家帶來更多的突破和嶄新的見解。」
借助 NVIDIA GPU 加快 Spark 中的 ETL 及資料傳輸速度
NVIDIA 正在為 Apache Spark 提供全新的開源 RAPIDS 加速器,以協助資料科學家提高從端到端的資料管道效能表現。此加速器攔截了過去由 CPU 運行的功能,改由 GPU 來執行:● 在無需修改任何程式碼的前提之下,大幅提升 Spark SQL 和 DataFrame 的運算表現,以加快 Spark 中處理 ETL 資料的速度
● 在同一套基礎架構上加快資料準備及模型訓練的速度,機器學習與深度學習則無需使用另外的叢集
● 加快 Spark 分散式叢集中跨節點的資料傳輸效能。這些函式庫利用 UCF Consortium 的開源 Unified Communication X (UCX) 框架,讓資料直接在 GPU 的記憶體之間移動,將延遲情況降到最低。
現在可以透過 Apache 軟體基金會取得 Spark 3.0 的預覽版本,預計將在未來幾個月內全面推出。欲了解更多資訊,請參考 www.nvidia.com/spark。
- 發表您的看法
請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。
請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。
請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。
請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。
請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。
您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。
最近新增
- 曜越推出ATX 3.1金牌認證電源 鋼影TOUGHPOWER GT 1000W/1200W
- InnoVEX 450家新創齊聚 引領全球創新浪潮
- Sony 發表 E 接環 FE50-150mm F2 GM 鏡頭 全球首款達150mm F2
- 工控資安再升級!華碩智慧物聯網榮獲IEC 62443-4-1認證
- 再造進化!華碩、ROG創新出擊COMPUTEX 2025
- 網石歡慶《我獨自升級: ARISE》上市1周年 大規模更新與活動即將登場
- 微軟發佈《2025 工作趨勢指數》報告 揭示「AI 前瞻企業」興起 超過 8 成台灣企業預計於未來 18 個月內導入 Agents Microsoft 365 Copilot 強勢更新 強化下一代 AI 人機協作體驗
- 強力貫穿、寂靜高效,NZXT 全新世代 靜音扇/靜壓扇,水冷/塔散/機殼完全適配,滿足穿透與寧靜的風流渴望!
- Acer Nitro VG240Y P6 電競螢幕 144Hz高刷新升級上市
- Oen應援科技客戶數年增340% 全面推動「應援經濟」發展 A輪募資進度已達70% 將聚焦於雲端金流技術升級與跨市場應用擴展
- 【NielsenIQ/NIQ-GfK_新聞稿】NIQ發布《科技與消費性電子供應鏈與產業分析》預測2025供應鏈動態:關稅政策引
- 廣穎電通推出全新「Inspire」microSDXC 記憶卡─專為運動攝影與內容創作而生
最多人點閱
- Microsoft Azure Certified for IoT 快速打造智慧物聯網
- SP廣穎電通將於德國2015 Embedded World展示全方位工控系列產品
- 英特爾舉辦亞洲區創新高峰會 促進台灣與全亞洲產業體系的創新發展
- IEM於台北國際電玩展熱血開打,購買Intel Core i5/i7處理器系列+SSD 750即得限量好禮
- 深根台灣成就萬物相聯 2015 ARM®新竹辦公室擴大營運暨亞洲第一座CPU設計中心開幕
- AMD發表全球首款GPU硬體虛擬化產品線
- AMD推出全球首款業界領先的32GB記憶體伺服器GPU 瞄準高效能運算
- AMD推出全新Catalyst 15.7驅動程式 讓AMD APU及GPU充分展現Windows®10直覺化體驗
- PLEXTOR感恩節大回饋,M6V卡禮來雙重送!
- 希捷科技:2016年六大科技趨勢
- 台灣微軟攜手台大電機 高中程式夏令營獲佳評
- 台灣微軟與Lamigo聯手 應援總冠軍封王賽「Win for 10」!
