PCDIY!業界新聞
激發轉型:GPU 如何突破過去被視為無法達成的分析工作,最新版的 Cloudera Data Platform 加上由 NVIDIA 加快,運行速度的 Spark 3.0,協助一支團隊提升作業表現達八倍,順利執行一項原本以為無法完成的工作
(本資訊由廠商提供,不代表PCDIY!立場) 2021-08-09 12:00:06堅持不懈的 Deborah Tylor 運用正確的工具,達成原本以為做不到的事情。
身為資料科學家的她,負責整理美國國稅局 (IRS) 超過 300 TB 的龐大資料庫,從中找出可能有助於發現身份盜用和其它詐欺行為的模式。但就算她在一大排 CPU 伺服器上徹夜運行整理工作,依舊摸不著頭緒。
她隔天早上發現沒有成功,於是又試了一次,結果再次失敗。
Cloudera 的 Nasheb Ismaily 差不多就在同一時間,敲了敲 Tylor 的主管 Rahul Tikekar 辦公室的門,Tikekar 也是國稅局資料分析師技術支援團隊的主管。這名 Cloudera 的解決方案工程師詢問 Tikekar 的團隊有沒有用過 Cloudera Data Platform (CDP),以發揮 以 GPU 加速的 Apache Spark 3.0 軟體的優勢。
Tikekar 表示:「我欣然接受這個提議。我們的獨立伺服器上裝有 NVIDIA 顯示卡,在分散式叢集上使用 Spark 來運行這些顯示卡也有一段時間了,這對我們來說時機剛剛好。」
解開腦袋裡的結
他們很快就進行軟體測試,在沒有更動程式碼的情況下,Tylor 很多的工作執行速度提升高達五倍,不過還是出現了一些延遲。Ismaily 找來 NVIDIA 的資料科學家協助檢查程式碼,很快就確認 CPU 上還運行著一些資料結構特別差的任務。他們寫了程式碼來處理這些工作,並且把它插入 Spark 的 RAPIDS (在 GPU 上進行資料分析的開源函式庫) 軟體介面裡。Tylor 又試了一次。
Tikekar 說:「資料突然全都進入分散式 Spark 叢集的 GPU 上,加速成果非常顯著,Deborah 現在在有四個節點的叢集上運行整個程式。」
美國國稅局研究與應用分析及統計部門的技術主管 Joe Ansaldi 表示:「Cloudera 與 NVIDIA 的整合讓我們能夠從資料中找出寶貴的洞察,以支援關鍵的任務。我們正運用這個組合,且已經看到資料工程和資料科學工作流程的執行速度提高了十倍以上,而且成本還少了一半。」
Spark 3.0 + GPU = 全新境界
IRS 團隊已經著手探索這項工作帶來的一些回報。他們使用搭載 GPU 的伺服器組成的 Spark 叢集,可以加快處理手邊的各項工作,還能執行過去以為做不到的事情,而這些工作可以協助處理該團隊所擁有的大型資料集。Tikekar 表示:「在 Spark 3.0 出現前,我們做不到這些,但現在有 GPU 可以讓我們放手一搏,解決曾經不可能解決的問題。」
規畫發展人工智慧 (AI) 的路線
這支團隊計畫應用他們在資料準備的成功經驗,即資料分析的擷取、轉換和載入 (ETL) 作業。下一個重大計畫便是加快全面發展 AI 推論工作。Tikekar 表示:「跟 Cloudera 和 NVIDIA 合作,幫助我們發揮叢集中 GPU 的優勢。市場上出現這麼進步的技術,我們要花點時間才能認清它們的實力,還有開發出能夠運用它們的應用,Deborah 為我們規劃了一條新的路線,她是我們故事的英雄。」
說得更具體一點,這支團隊想要建立大型深度學習神經網路,以解決自然語言處理和分析的問題。
許多用於機器學習的應用
這是當下許多企業想要透過機器學習進行的轉型。擁有電腦科學博士學位的 Tikekar 表示:「我個人覺得機器學習帶來了無窮的可能,讓我們能夠做到從前無法完成的事情。」Tikekar 在 13 年前加入國稅局之前,曾在南奧勒岡大學 (Southern Oregon University) 任教十年。
他進一步表示:「例如我們可以掃描表格,然後用光學字元辨識技術來讀取裡面的隻字片語,但有了 AI,我們還可以更深入從表格中找出有助於發現身分盜用,或是減少浪費的模式,AI 在很多方面都能嘉惠不少應用。」
- 發表您的看法
請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。
請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。
請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。
請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。
請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。
您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。
最近新增
- 《七騎士Re:BIRTH》聯名快閃咖啡廳今起登場 官方釋出限定序號 免費領取四皇「孫悟空
- 創見推出DrivePro Body 10D穿戴式攝影機, 全面支援前線執勤與蒐證
- 凱擘大寬頻與國際資安專家趨勢科技獨家續約 強化居家網路防護網
- 深化產學合作能量!華碩攜手臺大培育AI即戰力
- 毛孩家庭如臨大敵!冬天潮濕空氣讓你越清反而越臭!? 石頭科技 F25 ACE Pro 全新超微泡沫洗地技術 解決異味困擾
- NAS也能上水冷!」JONSBO N6 ,9 硬碟、雙電源、長顯卡、雙塔,玩家與專業用戶的「多工存儲怪獸」!
- Red Hat 收購 Chatterbox Labs,強化 AI 信任與安全防護
- 行競科技十年浸沒式冷卻電池創新於 CES 2026 完整落地 首度呈現 EV、ESS 與 AI 資料中心 BBU 三大應用
- LIAN LI 聯力推出 Vector V100R MINI 緊湊型 mATX 機殼,建議售價NTD 1,590 元
- 全漢 FSP 正式推出 VIC GD 系列,為次世代高效能平台而生 金牌效率 × ATX 3.1 × 極高性價比,登錄升級至 5 年保、2 年快換!
- 記憶體、SSD漲價阻升級?全漢「鈦」挺你! 鈦金效率 × A++ 靜音 × 工業級三防漆,FSP出手半價相挺!
- 網石於 The Game Awards 2025公開 《七大罪:Origin》全新預告片
最多人點閱
- SP廣穎電通將於德國2015 Embedded World展示全方位工控系列產品
- IEM於台北國際電玩展熱血開打,購買Intel Core i5/i7處理器系列+SSD 750即得限量好禮
- AMD發表全球首款GPU硬體虛擬化產品線
- 希捷科技:2016年六大科技趨勢
- InWin 805 NVIDIA EDITION機殼爆紅,迎廣GeForce GTX特仕版機箱正式開賣!
- 2024開學季筆電選購指南: 10大熱銷筆電推薦榜
- Windows 10 搭載 Office 版本聲明稿 Office Mobile 、 Office 2016 與 Office 365 版本差異說明
- Lenovo聯想持續拓展伺服器市場,瞄準中型企業推出ThinkServer系列伺服器
- 你的人生「升級」了沒?倒數十天!Windows 10開闊你的無限視野
- 全新Intel Core X系列處理器- Intel Core i9 極致版處理器 重裝上陣
- 微軟攜手研華、凌華與新漢 以Azure IoT Suite串聯物聯網大未來
- PLEXTOR展現軟實力,一舉推出三大獨家軟體
