PCDIY!業界新聞
激發轉型:GPU 如何突破過去被視為無法達成的分析工作,最新版的 Cloudera Data Platform 加上由 NVIDIA 加快,運行速度的 Spark 3.0,協助一支團隊提升作業表現達八倍,順利執行一項原本以為無法完成的工作
(本資訊由廠商提供,不代表PCDIY!立場) 2021-08-09 12:00:06堅持不懈的 Deborah Tylor 運用正確的工具,達成原本以為做不到的事情。
身為資料科學家的她,負責整理美國國稅局 (IRS) 超過 300 TB 的龐大資料庫,從中找出可能有助於發現身份盜用和其它詐欺行為的模式。但就算她在一大排 CPU 伺服器上徹夜運行整理工作,依舊摸不著頭緒。
她隔天早上發現沒有成功,於是又試了一次,結果再次失敗。
Cloudera 的 Nasheb Ismaily 差不多就在同一時間,敲了敲 Tylor 的主管 Rahul Tikekar 辦公室的門,Tikekar 也是國稅局資料分析師技術支援團隊的主管。這名 Cloudera 的解決方案工程師詢問 Tikekar 的團隊有沒有用過 Cloudera Data Platform (CDP),以發揮 以 GPU 加速的 Apache Spark 3.0 軟體的優勢。
Tikekar 表示:「我欣然接受這個提議。我們的獨立伺服器上裝有 NVIDIA 顯示卡,在分散式叢集上使用 Spark 來運行這些顯示卡也有一段時間了,這對我們來說時機剛剛好。」
解開腦袋裡的結
他們很快就進行軟體測試,在沒有更動程式碼的情況下,Tylor 很多的工作執行速度提升高達五倍,不過還是出現了一些延遲。Ismaily 找來 NVIDIA 的資料科學家協助檢查程式碼,很快就確認 CPU 上還運行著一些資料結構特別差的任務。他們寫了程式碼來處理這些工作,並且把它插入 Spark 的 RAPIDS (在 GPU 上進行資料分析的開源函式庫) 軟體介面裡。Tylor 又試了一次。
Tikekar 說:「資料突然全都進入分散式 Spark 叢集的 GPU 上,加速成果非常顯著,Deborah 現在在有四個節點的叢集上運行整個程式。」
美國國稅局研究與應用分析及統計部門的技術主管 Joe Ansaldi 表示:「Cloudera 與 NVIDIA 的整合讓我們能夠從資料中找出寶貴的洞察,以支援關鍵的任務。我們正運用這個組合,且已經看到資料工程和資料科學工作流程的執行速度提高了十倍以上,而且成本還少了一半。」
Spark 3.0 + GPU = 全新境界
IRS 團隊已經著手探索這項工作帶來的一些回報。他們使用搭載 GPU 的伺服器組成的 Spark 叢集,可以加快處理手邊的各項工作,還能執行過去以為做不到的事情,而這些工作可以協助處理該團隊所擁有的大型資料集。Tikekar 表示:「在 Spark 3.0 出現前,我們做不到這些,但現在有 GPU 可以讓我們放手一搏,解決曾經不可能解決的問題。」
規畫發展人工智慧 (AI) 的路線
這支團隊計畫應用他們在資料準備的成功經驗,即資料分析的擷取、轉換和載入 (ETL) 作業。下一個重大計畫便是加快全面發展 AI 推論工作。Tikekar 表示:「跟 Cloudera 和 NVIDIA 合作,幫助我們發揮叢集中 GPU 的優勢。市場上出現這麼進步的技術,我們要花點時間才能認清它們的實力,還有開發出能夠運用它們的應用,Deborah 為我們規劃了一條新的路線,她是我們故事的英雄。」
說得更具體一點,這支團隊想要建立大型深度學習神經網路,以解決自然語言處理和分析的問題。
許多用於機器學習的應用
這是當下許多企業想要透過機器學習進行的轉型。擁有電腦科學博士學位的 Tikekar 表示:「我個人覺得機器學習帶來了無窮的可能,讓我們能夠做到從前無法完成的事情。」Tikekar 在 13 年前加入國稅局之前,曾在南奧勒岡大學 (Southern Oregon University) 任教十年。
他進一步表示:「例如我們可以掃描表格,然後用光學字元辨識技術來讀取裡面的隻字片語,但有了 AI,我們還可以更深入從表格中找出有助於發現身分盜用,或是減少浪費的模式,AI 在很多方面都能嘉惠不少應用。」
- 發表您的看法
請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。
請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。
請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。
請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。
請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。
您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。
最近新增
- 威剛TRUSTA、FADU與技鋼三方結盟 共創新世代企業級SSD生態系 攜手推動AI基礎建設升級 展現全球產業策略合作新典範
- 連續22年蟬聯寶座!金士頓再次稱霸全球記憶體市場
- 2025年10月2日 MSI 與 SEGA 宣布合作推出獨家遊戲贈送活動
- TRYX STRING PCIe 5.0 顯卡延長線 —— 完美適配新顯卡,頂級用料幀數穩如磐石
- 硬管水冷也能玩3D!TRYX 推出 PANORAMA WB 分體式冷頭,最高規格Asetek 8.5代方案
- 【CHERRY 10月最新活動 – 軸見櫻桃 磁滿雙十】
- 疾速制霸!宏碁推出 27 吋 Nitro電競螢幕,240Hz 超高刷新率刷出流暢極限!
- 飆速7世代 天鷹任翱翔 D-Link友訊科技攜手台鋼雄鷹 大巨蛋品牌日發表Wi-Fi 7新品 飆速連線引領未來智慧生活
- LG「AI 情感智慧」不只懂運算也懂你 技術創新結合社會關懷,LG引領AI新價值
- NVIDIA 利用全新開放式模型與模擬函式庫,加速機器人技術研發
- 台灣LG電子關懷花蓮災情 宣布捐贈100台洗衣機助災戶 並提供LG家電免費檢測及維修零件優惠支持
- 調查:企業AI支出年增三倍 AI 布局成業界主流 2025 Lenovo Accelerate 通路展望大會 展示平台、裝置、
最多人點閱
- Microsoft Azure Certified for IoT 快速打造智慧物聯網
- SP廣穎電通將於德國2015 Embedded World展示全方位工控系列產品
- 英特爾舉辦亞洲區創新高峰會 促進台灣與全亞洲產業體系的創新發展
- IEM於台北國際電玩展熱血開打,購買Intel Core i5/i7處理器系列+SSD 750即得限量好禮
- AMD發表全球首款GPU硬體虛擬化產品線
- PLEXTOR感恩節大回饋,M6V卡禮來雙重送!
- 希捷科技:2016年六大科技趨勢
- 台灣微軟與Lamigo聯手 應援總冠軍封王賽「Win for 10」!
- InWin 805 NVIDIA EDITION機殼爆紅,迎廣GeForce GTX特仕版機箱正式開賣!
- ARM DesignStart入口網站提供免費的Cortex-M0處理器IP 以簡化嵌入式SoC設計流程
- 2024開學季筆電選購指南: 10大熱銷筆電推薦榜
- Windows 10 搭載 Office 版本聲明稿 Office Mobile 、 Office 2016 與 Office 365 版本差異說明
