PCDIY!業界新聞
你需要的就在這裡:來自推薦系統團隊的致勝策略建議,在頂尖的業界競賽中奪下多項勝利的 NVIDIA 專家們,分享打造世界級推薦系統的密技
(本資訊由廠商提供,不代表PCDIY!立場) 2021-07-21 11:46:25最後全力一搏取得三連勝。
NVIDIA 團隊在今年參加的第三場、也是最困難的推薦系統資料科學競賽中,於截止期限的前五分鐘提交了作品。這項技術被稱為 RecSys,是電腦科學領域中相對較新的分支,催生了機器學習中最廣泛使用的應用之一,幫助數百萬人找到他們想觀看、購買和遊玩的內容。
團隊將六款人工智慧模型擠進競賽規定的 20GB 限制內,全都是從研究了 7.5 億個資料點中篩選出來的結晶。競賽中有一項特別的規定:模型在雲端 CPU 的單一核心上不得執行超過 24 小時。
他們按下提交按鈕後,開始耐心等待。23 小時 40 分鐘後收到一封電子郵件:他們在排行榜上拿下第一。
最後一刻才見分曉
6 月 28 日正式宣佈結果,由七人組成的 NVIDIA 團隊第二度贏得 2021 年 ACM RecSys 挑戰賽。其中一名團隊成員 Chris Deotte 表示:「我們就在最後一刻收到電子郵件,若再晚個 20 分鐘我們就超出時間了。」Chris 同時也是資料科學界的線上奧運會 ── Kaggle 競賽的高手。
協助設計 NVIDIA Merlin 的隊友 Benedikt Schifferer 也說:「我們真的差一點就失敗了。」Merlin 是可以幫助使用者快速建立自有推薦系統的框架。
GPU 本來就能在很短的時間內完成推論任務。對於將任務調整到單一 CPU 核心上運作,團隊中居住於巴西的 Kaggle 高手 Gilberto “Giba” Titericz 表示:「就像回到遙遠的過去一樣。」
事實上,在比賽結束的時候,該團隊就證明了在 CPU 核心上耗費近 24 小時才完成的推論任務,可以用單個 NVIDIA A100 Tensor 核心 GPU 在五分半的時間內就完成。
每天分類 4,000 萬件物品
Twitter 在 28 天的競賽期間內,每天提供數百萬個資料點給參賽者,並要求他們預測用戶會喜歡或轉發哪些推文。這場業界級強度的挑戰賽是由 RecSys 的頂尖技術大會舉辦,吸引了來自 Facebook、Google、Spotify 和其他公司的頂尖工程師參加。Gilberto Titericz (右下)及 Chris Deotte (左下)
這個領域非常困難,但也非常實用。推薦系統能驅動數位經濟,提供比傳統搜尋更快速、更智慧的建議。業界競賽有助於推動各個領域的發展,無論是想為另一半尋找完美的禮物,或想在網路上尋找老朋友的人都能受惠。
五個月內囊括三場勝利
今年稍早,NVIDIA 率領一支 40 人的團隊參加 Booking.com 挑戰賽。他們使用數百萬個匿名資料點,準確預測在歐洲的遊客會選擇到訪的最後一個城市。六月時,在另一場頂尖的 RecSys 競賽 SIGIR eCommerce Data Challenge 中立下了更高的門檻。這場資訊檢索專業小組 (Special Interest Group on Information Retrieval;SIGIR) 的年度會議吸引了來自阿里巴巴和 Walmart Labs 等數家公司的專家。其 2021 年的挑戰提供 3,700 萬個線上購物活動的資料點,並要求參賽者預測用戶會購買哪些商品。
Md Yasin Kabir (右下) 和隊長 Gabriel Moreira (左下)
因為這場競賽的時程與 ACM 競賽重疊,NVIDIA 團隊不得不分成兩組,在兩場比賽之間互相配合。壓力日益升高的同時,部分團隊成員還得埋頭苦幹,撰寫 ACM RecSys 會議的論文。
團隊合作的藝術
NVIDIA 五人團隊的成員所在地橫跨巴西、加拿大、法國和美國,其中有兩個重要因素驅使團隊達到最好的整體表現,在每個排行榜上都奪得第一或第二名。他們放手一搏,全心全意專注於 Transformer 這個專為自然語言處理開發且日漸應用於推薦系統的模型上,而且他們深知接力合作的重要性。負責帶領 Merlin 團隊的隊長 Even Oldridge 表示:「當一位成員要去睡覺時,另一位就在不同的時區接手工作。這個方式在分秒必爭的時候非常有效。我們也在去年強化了團隊的知識,並在推薦系統社群中佔有一席之地,讓我們在五個月內贏得三場重要的比賽,我對這樣的成就感到不可思議。」
尊重用戶隱私
在競賽中,模型必須在只知道用戶目前瀏覽中資訊的狀況下,預測用戶的行為。位於聖保羅的 Merlin 資深研究員,同時也是 NVIDIA SIGIR 團隊隊長的 Gabriel Moreira 表示:「這是一項重要的任務,因為有時候用戶希望以匿名方式瀏覽,且有些隱私權法規對於取得歷史資訊有所限制。」
這是團隊第一次在競賽的關鍵環節只使用 Transformer 模型來解決問題。Moreira 的團隊目標是讓所有使用 Merlin 的客戶都能更輕鬆地使用龐大的神經網路。
NVIDIA 大獲全勝
6 月 30 日,我們在 RecSys 競賽中取得四連勝,可說是大獲全勝。業界基準測試組織 MLPerf 宣佈 NVIDIA 及其合作夥伴在所有最新的訓練基準測試 (包含一項推薦系統測試) 中都創下了記錄。幕後團隊表示,在 14 個 NVIDIA DGX 系統上訓練推薦系統,只花費不到一分鐘就完成,速度相比一年前提交成果時提升 3.3 倍。
經驗分享
這些競賽激發了對新技術的創意,並最終融入像 Merlin 這樣的推薦系統框架、相關工具、論文,以及由 NVIDIA 深度學習機構舉辦的線上課程中,最終目標就是要協助每個人都獲得成功。NVIDIA 的推薦系統專家在採訪中大方地分享了他們的知識,其中一部分是關於藝術,一部分是關於科學。
關於推薦系統的專家密技
最佳作法是運用互相搭配時能相得益彰的多種模型。在 ACM RecSys 挑戰賽中,團隊同時使用了樹狀和神經網路模型。在稱為堆疊 (stacking) 的過程中,一個階段的輸出變成下個階段的輸入。
NVIDIA Kaggle 高手團隊的最新成員 Bo Liu 表示:「單一模型可能會因為資料錯誤或收斂問題而出錯,但如果將幾個模型組合在一起,就會非常強大。」
與推薦系統專家線上見面
在 7 月 29 日,你可以與來自 Facebook、NVIDIA 和 TensorFlow 的推薦系統專家們見面,深入瞭解如何打造出色的推薦系統。- 發表您的看法
請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。
請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。
請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。
請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。
請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。
您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。
最近新增
- 報稅季這樣「省」!LG乾衣機、除濕機省到獲「節能標章」 LG空調掌握用電、冰箱智慧控溫 選對年省上千元
- TrendForce: AI浪潮驅動資料中心互連應用崛起,預估2025年全球市場產值年增14.3%
- 趨勢科技提供企業AI防護平台守護雲端和地端資料
- 技嘉全域運算力領航科技新紀元,在COMPUTEX 2025 展出從資料中心到邊緣的旗艦 AI 解決方案
- 撼與科技強攻AI應用 COMPUTEX 2025 展出一站式智慧運算平台
- 宏碁Predator電競快閃店起跑!邀您親身體驗頂尖電競科技,豐富好禮帶回家!
- 全面進化!MONTECH 攜最新 PC 解決方案強勢登場 Computex 2025
- 廣穎電通發表全新XPOWER Cyclone DDR5 CUDIMM記憶體 全面支援最新 Intel Core Ultra 處理器
- TP-Link高雄NOVA旗艦店盛大開幕—— 四次元女神「趙娟週」化身一日店長帶你體驗 最強Wi-Fi 7路由器、智慧家庭與商用解決方案 打造一站式未來生活與辦公新場景!
- 技嘉科技COMPUTEX 2025 領航未來:全方位打造 AI 創新典範
- 歡慶LG官方線上商城四週年 消費滿額送智慧變頻微波爐! 全館家電限時6折起 再享最高16%回饋
- NVIDIA 與合作夥伴推出限量《毀滅戰士:黑暗時代》GeForce RTX 5080 PC、筆記型電腦及顯示卡
最多人點閱
- Microsoft Azure Certified for IoT 快速打造智慧物聯網
- SP廣穎電通將於德國2015 Embedded World展示全方位工控系列產品
- 英特爾舉辦亞洲區創新高峰會 促進台灣與全亞洲產業體系的創新發展
- IEM於台北國際電玩展熱血開打,購買Intel Core i5/i7處理器系列+SSD 750即得限量好禮
- 深根台灣成就萬物相聯 2015 ARM®新竹辦公室擴大營運暨亞洲第一座CPU設計中心開幕
- AMD發表全球首款GPU硬體虛擬化產品線
- AMD推出全球首款業界領先的32GB記憶體伺服器GPU 瞄準高效能運算
- AMD推出全新Catalyst 15.7驅動程式 讓AMD APU及GPU充分展現Windows®10直覺化體驗
- PLEXTOR感恩節大回饋,M6V卡禮來雙重送!
- 希捷科技:2016年六大科技趨勢
- 台灣微軟攜手台大電機 高中程式夏令營獲佳評
- 台灣微軟與Lamigo聯手 應援總冠軍封王賽「Win for 10」!
