PCDIY!業界新聞
激發轉型:GPU 如何突破過去被視為無法達成的分析工作,最新版的 Cloudera Data Platform 加上由 NVIDIA 加快,運行速度的 Spark 3.0,協助一支團隊提升作業表現達八倍,順利執行一項原本以為無法完成的工作
(本資訊由廠商提供,不代表PCDIY!立場) 2021-08-09 12:00:06堅持不懈的 Deborah Tylor 運用正確的工具,達成原本以為做不到的事情。
身為資料科學家的她,負責整理美國國稅局 (IRS) 超過 300 TB 的龐大資料庫,從中找出可能有助於發現身份盜用和其它詐欺行為的模式。但就算她在一大排 CPU 伺服器上徹夜運行整理工作,依舊摸不著頭緒。
她隔天早上發現沒有成功,於是又試了一次,結果再次失敗。
Cloudera 的 Nasheb Ismaily 差不多就在同一時間,敲了敲 Tylor 的主管 Rahul Tikekar 辦公室的門,Tikekar 也是國稅局資料分析師技術支援團隊的主管。這名 Cloudera 的解決方案工程師詢問 Tikekar 的團隊有沒有用過 Cloudera Data Platform (CDP),以發揮 以 GPU 加速的 Apache Spark 3.0 軟體的優勢。
Tikekar 表示:「我欣然接受這個提議。我們的獨立伺服器上裝有 NVIDIA 顯示卡,在分散式叢集上使用 Spark 來運行這些顯示卡也有一段時間了,這對我們來說時機剛剛好。」
解開腦袋裡的結
他們很快就進行軟體測試,在沒有更動程式碼的情況下,Tylor 很多的工作執行速度提升高達五倍,不過還是出現了一些延遲。Ismaily 找來 NVIDIA 的資料科學家協助檢查程式碼,很快就確認 CPU 上還運行著一些資料結構特別差的任務。他們寫了程式碼來處理這些工作,並且把它插入 Spark 的 RAPIDS (在 GPU 上進行資料分析的開源函式庫) 軟體介面裡。Tylor 又試了一次。
Tikekar 說:「資料突然全都進入分散式 Spark 叢集的 GPU 上,加速成果非常顯著,Deborah 現在在有四個節點的叢集上運行整個程式。」
美國國稅局研究與應用分析及統計部門的技術主管 Joe Ansaldi 表示:「Cloudera 與 NVIDIA 的整合讓我們能夠從資料中找出寶貴的洞察,以支援關鍵的任務。我們正運用這個組合,且已經看到資料工程和資料科學工作流程的執行速度提高了十倍以上,而且成本還少了一半。」
Spark 3.0 + GPU = 全新境界
IRS 團隊已經著手探索這項工作帶來的一些回報。他們使用搭載 GPU 的伺服器組成的 Spark 叢集,可以加快處理手邊的各項工作,還能執行過去以為做不到的事情,而這些工作可以協助處理該團隊所擁有的大型資料集。Tikekar 表示:「在 Spark 3.0 出現前,我們做不到這些,但現在有 GPU 可以讓我們放手一搏,解決曾經不可能解決的問題。」
規畫發展人工智慧 (AI) 的路線
這支團隊計畫應用他們在資料準備的成功經驗,即資料分析的擷取、轉換和載入 (ETL) 作業。下一個重大計畫便是加快全面發展 AI 推論工作。Tikekar 表示:「跟 Cloudera 和 NVIDIA 合作,幫助我們發揮叢集中 GPU 的優勢。市場上出現這麼進步的技術,我們要花點時間才能認清它們的實力,還有開發出能夠運用它們的應用,Deborah 為我們規劃了一條新的路線,她是我們故事的英雄。」
說得更具體一點,這支團隊想要建立大型深度學習神經網路,以解決自然語言處理和分析的問題。
許多用於機器學習的應用
這是當下許多企業想要透過機器學習進行的轉型。擁有電腦科學博士學位的 Tikekar 表示:「我個人覺得機器學習帶來了無窮的可能,讓我們能夠做到從前無法完成的事情。」Tikekar 在 13 年前加入國稅局之前,曾在南奧勒岡大學 (Southern Oregon University) 任教十年。
他進一步表示:「例如我們可以掃描表格,然後用光學字元辨識技術來讀取裡面的隻字片語,但有了 AI,我們還可以更深入從表格中找出有助於發現身分盜用,或是減少浪費的模式,AI 在很多方面都能嘉惠不少應用。」
- 發表您的看法
請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。
請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。
請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。
請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。
請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。
您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。
最近新增
- 報稅季這樣「省」!LG乾衣機、除濕機省到獲「節能標章」 LG空調掌握用電、冰箱智慧控溫 選對年省上千元
- TrendForce: AI浪潮驅動資料中心互連應用崛起,預估2025年全球市場產值年增14.3%
- 趨勢科技提供企業AI防護平台守護雲端和地端資料
- 技嘉全域運算力領航科技新紀元,在COMPUTEX 2025 展出從資料中心到邊緣的旗艦 AI 解決方案
- 撼與科技強攻AI應用 COMPUTEX 2025 展出一站式智慧運算平台
- 宏碁Predator電競快閃店起跑!邀您親身體驗頂尖電競科技,豐富好禮帶回家!
- 全面進化!MONTECH 攜最新 PC 解決方案強勢登場 Computex 2025
- 廣穎電通發表全新XPOWER Cyclone DDR5 CUDIMM記憶體 全面支援最新 Intel Core Ultra 處理器
- TP-Link高雄NOVA旗艦店盛大開幕—— 四次元女神「趙娟週」化身一日店長帶你體驗 最強Wi-Fi 7路由器、智慧家庭與商用解決方案 打造一站式未來生活與辦公新場景!
- 技嘉科技COMPUTEX 2025 領航未來:全方位打造 AI 創新典範
- 歡慶LG官方線上商城四週年 消費滿額送智慧變頻微波爐! 全館家電限時6折起 再享最高16%回饋
- NVIDIA 與合作夥伴推出限量《毀滅戰士:黑暗時代》GeForce RTX 5080 PC、筆記型電腦及顯示卡
最多人點閱
- Microsoft Azure Certified for IoT 快速打造智慧物聯網
- SP廣穎電通將於德國2015 Embedded World展示全方位工控系列產品
- 英特爾舉辦亞洲區創新高峰會 促進台灣與全亞洲產業體系的創新發展
- IEM於台北國際電玩展熱血開打,購買Intel Core i5/i7處理器系列+SSD 750即得限量好禮
- 深根台灣成就萬物相聯 2015 ARM®新竹辦公室擴大營運暨亞洲第一座CPU設計中心開幕
- AMD發表全球首款GPU硬體虛擬化產品線
- AMD推出全球首款業界領先的32GB記憶體伺服器GPU 瞄準高效能運算
- AMD推出全新Catalyst 15.7驅動程式 讓AMD APU及GPU充分展現Windows®10直覺化體驗
- PLEXTOR感恩節大回饋,M6V卡禮來雙重送!
- 希捷科技:2016年六大科技趨勢
- 台灣微軟攜手台大電機 高中程式夏令營獲佳評
- 台灣微軟與Lamigo聯手 應援總冠軍封王賽「Win for 10」!
