PCDIY!業界新聞
激發轉型:GPU 如何突破過去被視為無法達成的分析工作,最新版的 Cloudera Data Platform 加上由 NVIDIA 加快,運行速度的 Spark 3.0,協助一支團隊提升作業表現達八倍,順利執行一項原本以為無法完成的工作
(本資訊由廠商提供,不代表PCDIY!立場) 2021-08-09 12:00:06堅持不懈的 Deborah Tylor 運用正確的工具,達成原本以為做不到的事情。
身為資料科學家的她,負責整理美國國稅局 (IRS) 超過 300 TB 的龐大資料庫,從中找出可能有助於發現身份盜用和其它詐欺行為的模式。但就算她在一大排 CPU 伺服器上徹夜運行整理工作,依舊摸不著頭緒。
她隔天早上發現沒有成功,於是又試了一次,結果再次失敗。
Cloudera 的 Nasheb Ismaily 差不多就在同一時間,敲了敲 Tylor 的主管 Rahul Tikekar 辦公室的門,Tikekar 也是國稅局資料分析師技術支援團隊的主管。這名 Cloudera 的解決方案工程師詢問 Tikekar 的團隊有沒有用過 Cloudera Data Platform (CDP),以發揮 以 GPU 加速的 Apache Spark 3.0 軟體的優勢。
Tikekar 表示:「我欣然接受這個提議。我們的獨立伺服器上裝有 NVIDIA 顯示卡,在分散式叢集上使用 Spark 來運行這些顯示卡也有一段時間了,這對我們來說時機剛剛好。」
解開腦袋裡的結
他們很快就進行軟體測試,在沒有更動程式碼的情況下,Tylor 很多的工作執行速度提升高達五倍,不過還是出現了一些延遲。Ismaily 找來 NVIDIA 的資料科學家協助檢查程式碼,很快就確認 CPU 上還運行著一些資料結構特別差的任務。他們寫了程式碼來處理這些工作,並且把它插入 Spark 的 RAPIDS (在 GPU 上進行資料分析的開源函式庫) 軟體介面裡。Tylor 又試了一次。
Tikekar 說:「資料突然全都進入分散式 Spark 叢集的 GPU 上,加速成果非常顯著,Deborah 現在在有四個節點的叢集上運行整個程式。」
美國國稅局研究與應用分析及統計部門的技術主管 Joe Ansaldi 表示:「Cloudera 與 NVIDIA 的整合讓我們能夠從資料中找出寶貴的洞察,以支援關鍵的任務。我們正運用這個組合,且已經看到資料工程和資料科學工作流程的執行速度提高了十倍以上,而且成本還少了一半。」
Spark 3.0 + GPU = 全新境界
IRS 團隊已經著手探索這項工作帶來的一些回報。他們使用搭載 GPU 的伺服器組成的 Spark 叢集,可以加快處理手邊的各項工作,還能執行過去以為做不到的事情,而這些工作可以協助處理該團隊所擁有的大型資料集。Tikekar 表示:「在 Spark 3.0 出現前,我們做不到這些,但現在有 GPU 可以讓我們放手一搏,解決曾經不可能解決的問題。」
規畫發展人工智慧 (AI) 的路線
這支團隊計畫應用他們在資料準備的成功經驗,即資料分析的擷取、轉換和載入 (ETL) 作業。下一個重大計畫便是加快全面發展 AI 推論工作。Tikekar 表示:「跟 Cloudera 和 NVIDIA 合作,幫助我們發揮叢集中 GPU 的優勢。市場上出現這麼進步的技術,我們要花點時間才能認清它們的實力,還有開發出能夠運用它們的應用,Deborah 為我們規劃了一條新的路線,她是我們故事的英雄。」
說得更具體一點,這支團隊想要建立大型深度學習神經網路,以解決自然語言處理和分析的問題。
許多用於機器學習的應用
這是當下許多企業想要透過機器學習進行的轉型。擁有電腦科學博士學位的 Tikekar 表示:「我個人覺得機器學習帶來了無窮的可能,讓我們能夠做到從前無法完成的事情。」Tikekar 在 13 年前加入國稅局之前,曾在南奧勒岡大學 (Southern Oregon University) 任教十年。
他進一步表示:「例如我們可以掃描表格,然後用光學字元辨識技術來讀取裡面的隻字片語,但有了 AI,我們還可以更深入從表格中找出有助於發現身分盜用,或是減少浪費的模式,AI 在很多方面都能嘉惠不少應用。」
- 發表您的看法
請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。
請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。
請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。
請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。
請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。
您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。
最近新增
- Whoscall:惡意軟體下載連結氾濫、詐貸簡訊佔大宗 Whoscall 一鍵查:最多人截圖查「假繳費通知」 「一接就掛」為詐騙探路 年逾 800 萬通
- 技嘉 AORUS 再次攜手王牌投手林昱珉!
- 芝奇宣布 2026 世界盃超頻大賽正式登場,賽事總獎金高達 40,000 美金!
- 2026年2月11日 2026 MSI春季健檢開跑 六大產品線享十大免費健檢服務項目 再抽品牌精美周邊和QD-OLED電競螢幕
- TrendForce: 記憶體漲勢加劇終端售價壓力,2026年全球手機產量恐面臨顯著衰退風險
- 技嘉攜手 NVIDIA 推出《Resident Evil Requiem》遊戲套裝 強化沉浸遊戲體驗
- 買技嘉/AORUS精選產品《人中之龍 極3 / 人中之龍3外傳 Dark Ties》免費送
- 技嘉攜手 AMD 推出《Crimson Desert》遊戲套裝 全面升級極致遊戲體驗
- 華碩舉辦「商用解決方案交流會」,吸引超過百家ISV軟體服務夥伴
- 快搶!TUF Gaming《黑色行動7》特別版顯示卡超限量上市
- 首跨科普漫畫力作 《 ROG OMNI 無懼特攻 》電競信仰力爆棚
- 宏正榮獲TIPS A級驗證 深化專利治理展現永續韌性
最多人點閱
- SP廣穎電通將於德國2015 Embedded World展示全方位工控系列產品
- InWin 805 NVIDIA EDITION機殼爆紅,迎廣GeForce GTX特仕版機箱正式開賣!
- 2024開學季筆電選購指南: 10大熱銷筆電推薦榜
- Windows 10 搭載 Office 版本聲明稿 Office Mobile 、 Office 2016 與 Office 365 版本差異說明
- 你的人生「升級」了沒?倒數十天!Windows 10開闊你的無限視野
- 全新Intel Core X系列處理器- Intel Core i9 極致版處理器 重裝上陣
- PLEXTOR展現軟實力,一舉推出三大獨家軟體
- JEDEC發布全新DDR5標準規範,從DDR5-4800起跳! 將加速導入下世代高效能電腦系統
- 不再是Toshiba品牌,全新Dynabook 2019 新品發布,透過運算與服務改變世界
- Mac 版 Office 2016 正式在台上市!
- microSD技術邁入第十年,SanDisk microSD記憶卡出貨量突破20億片
- 英特爾前進3D NAND,發表Intel SSD 600p、6000p、E 5420s、E 6000p、DC P3520、DC S3520固態硬碟!
