PCDIY!業界新聞
NVIDIA 加速全球頂尖資料分析平台 Apache Spark 的運算速度
(本資訊由廠商提供,不代表PCDIY!立場) 2020-05-15 15:49:05本地 NVIDIA GPU 支援開源社群,加快 Spark 3.0 的運算速度,ETL 與 SQL 能以閃電般飛快的速度處理數百 TB 的海量資料,Adobe 在 Databricks 上使用 Spark 3.0 訓練模型的速度提高七倍
NVIDIA (輝達) 今天宣布將與開源社群攜手合作,將端到端的 GPU 加速技術導入 Apache Spark 3.0。全球超過五十萬名資料科學家使用 Apache Spark 3.0 分析引擎處理大數據資料。透過預計於今年春末正式發表的 Spark 3.0,資料科學家與機器學習工程師將能首次把革命性的 GPU 加速技術應用於 ETL (擷取、轉換、載入) 資料處理作業負載,這些作業普遍都是透過操作 SQL 資料庫來進行。
另一項創舉便是人工智慧 (AI) 模型可以在同一個 Spark 叢集上進行訓練,而非將作業負載視為單獨的流程,在單獨的基礎架構上進行訓練。這麼一來便能在整個資料科學作業管道上以高效能的方式分析龐大資料,加快處理從資料湖泊 (Data Lake) 到模型訓練的數萬 TB 資料量,又無需修改用於本地及雲端運行之 Spark 應用程式的程式碼。
NVIDIA 企業運算部門主管 Manuvir Das 表示:「資料分析正是當前企業與研究人員在高效能運算領域所面臨到的最大挑戰。從 ETL、訓練再到推論,用於整個 Spark 3.0 資料處理管道的本地 GPU 加速技術,提供最終將大數據的潛力與人工智慧的力量串連起來所需的效能和規模。」
基於與 NVIDIA 的策略性 AI 合作夥伴關係,Adobe 是首批推出在 Databricks 上運行 Spark 3.0 預覽版本的公司之一。經初步測試,於 Adobe Experience Cloud 中使用 GPU 加速資料分析技術來開發產品,並支援數位業務相關功能,成果顯示 Spark 3.0 的運算效能提升了七倍,並省下了 90% 的成本。
Spark 3.0 的效能提升讓科學家們可以使用更龐大的資料集來訓練模型,並且更頻繁地重新訓練模型,進而提高模型的準確性。如此一來,科學家們每天都能處理多達數 TB 的新資料,這對於支援線上推薦系統或分析新研究資料的資料科學家們來說十分重要。此外,更快的處理速度也代表著能夠減少取得結果所需的硬體資源,大幅節省了成本。
Adobe 機器學習部門資深總監 William Yan 表示:「與 CPU 相比,我們發現 Spark 3.0 使用 NVIDIA 加速技術的運算表現有顯著提升。透過改寫遊戲規則的 GPU 效能表現,為我們整套 Adobe Experience Cloud 應用程式中增強的 AI 驅動功能,開啟全新的可能。」
Databricks 與 NVIDIA 加快 Spark 的運算速度
Apache Spark 是由 Databrick 的創辦人所打造,該公司基於雲端的整合資料分析平台 (Unified Data Analytics Platform) 每天在超過一百萬台虛擬機器上運行。NVIDIA 與 Databricks 合作使用 RAPIDSTM 套裝軟體為 Databricks 優化 Spark,將 GPU 加速技術應用在於 Databricks 上運行的資料科學和機器學習作業附載,其橫跨醫療、金融、零售等各種產業。Apache Spark 的原始建立者,也是 Databricks 的首席技術專家 Matei Zaharia 表示:「我們持續與 NVIDIA 合作,使用針對 Apache Spark 3.0 和 Databricks 的 RAPIDS 優化內容來提升運算效能,我們雙方共有的客戶如 Adobe 便因此而受惠。這些貢獻加快了資料管道處理、模型訓練和評分的速度,直接為資料工程師及資料科學家帶來更多的突破和嶄新的見解。」
借助 NVIDIA GPU 加快 Spark 中的 ETL 及資料傳輸速度
NVIDIA 正在為 Apache Spark 提供全新的開源 RAPIDS 加速器,以協助資料科學家提高從端到端的資料管道效能表現。此加速器攔截了過去由 CPU 運行的功能,改由 GPU 來執行:● 在無需修改任何程式碼的前提之下,大幅提升 Spark SQL 和 DataFrame 的運算表現,以加快 Spark 中處理 ETL 資料的速度
● 在同一套基礎架構上加快資料準備及模型訓練的速度,機器學習與深度學習則無需使用另外的叢集
● 加快 Spark 分散式叢集中跨節點的資料傳輸效能。這些函式庫利用 UCF Consortium 的開源 Unified Communication X (UCX) 框架,讓資料直接在 GPU 的記憶體之間移動,將延遲情況降到最低。
現在可以透過 Apache 軟體基金會取得 Spark 3.0 的預覽版本,預計將在未來幾個月內全面推出。欲了解更多資訊,請參考 www.nvidia.com/spark。
- 發表您的看法
請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。
請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。
請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。
請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。
請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。
您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。
最近新增
- 記憶體、SSD漲價阻升級?全漢「鈦」挺你! 鈦金效率 × A++ 靜音 × 工業級三防漆,FSP出手半價相挺!
- 網石於 The Game Awards 2025公開 《七大罪:Origin》全新預告片
- 威剛揮出永續全壘打 全面加速ESG行動 厚植永續治理 接連榮獲「台灣企業永續獎」、最佳職場肯定
- 科技海嘯來襲!Check Point Software 發佈 2026 年資安預測 技術融合與 AI Agents 的崛起重新定義全球安全韌性
- NetApp 揭露台灣資料管理策略 驅動台灣躍升區域 AI 樞紐 從統一資料儲存邁向統一資料模型 NetApp 強化資料管理方法 加速企業 AI 資料管道 助攻台灣 AI 島願景
- HPE 推出首款 AMD「Helios」AI機架級解決方案 整合Broadcom開放式網路架構,加速AI部署
- TrendForce: 傳統旺季與新品帶動,3Q25全球智慧手機產量季增9%
- XPG 發表全新 ARMAX DDR5 系列電競記憶體 隱形戰機造型設計 助玩家馳騁無數遊戲戰役
- 混合專家架構驅動最智慧的前沿 AI 模型, 搭載 NVIDIA Blackwell NVL72 運行速度提升達十倍
- 十銓科技發表 TEAMGROUP PD40 迷你外接式固態硬碟 輕巧之姿融合高速效能 隨行儲存引領行動新潮
- 華碩智慧指揮中樞亮相 2025 醫療科技展 大秀人機協作新紀元
- 點亮文青桌面美學!ASUS Jelly75撞色鍵盤玩出新氣氛
最多人點閱
- SP廣穎電通將於德國2015 Embedded World展示全方位工控系列產品
- IEM於台北國際電玩展熱血開打,購買Intel Core i5/i7處理器系列+SSD 750即得限量好禮
- AMD發表全球首款GPU硬體虛擬化產品線
- 希捷科技:2016年六大科技趨勢
- InWin 805 NVIDIA EDITION機殼爆紅,迎廣GeForce GTX特仕版機箱正式開賣!
- 2024開學季筆電選購指南: 10大熱銷筆電推薦榜
- Windows 10 搭載 Office 版本聲明稿 Office Mobile 、 Office 2016 與 Office 365 版本差異說明
- Lenovo聯想持續拓展伺服器市場,瞄準中型企業推出ThinkServer系列伺服器
- 你的人生「升級」了沒?倒數十天!Windows 10開闊你的無限視野
- 全新Intel Core X系列處理器- Intel Core i9 極致版處理器 重裝上陣
- 微軟攜手研華、凌華與新漢 以Azure IoT Suite串聯物聯網大未來
- PLEXTOR展現軟實力,一舉推出三大獨家軟體
