焦點
素描秒變照片,NVIDIA GauGAN帶領AI應用邁向可視創作應用,首席研究員現身說法
文.圖/Johan 2019-10-07 18:00:00
這幾年吵了很久的AI (Artificial Intelligence,人工智慧),到底真正能幫助到人們什麼呢?除了手機喊AI、3C喊AI、汽車也要AI,就連IoT (物聯網)也要搭AI熱潮而創造出一個全新的AIoT (即AI + IoT,人工智能物聯網)名詞,才好像不會跟這個強調AI的世界脫勾一樣。
但是仔細看看,AI到底能做些什麼?除了像是手機的自動場景判別、自動分類、甚至Google Pixel手機也導入AI軟體應用,能讓一般鏡頭拍攝並經由計算後產生有淺景深效果的照片,讓人覺得AI似乎可以在攝影上面幫上許多忙。然而AI的應用其實不只這些,雖說很多更深入的AI研究計畫與應用幾乎在實驗室內進行,透過超昂貴的AI級伺服器來進行計算與訓練,這些研究成果也不一定是普羅大眾會注意到的部份,而為讓AI的應用更多元、有趣,且實用化,NVIDIA推出了GauGAN技術,讓大家也能輕鬆運用AI所帶來的優勢,來做更有趣的事情!
這次要介紹的就是NVIDIA Research於GTC 2019正式公佈的GauGAN,也就是一種只要用戶提供簡單的素描,即可產生出如照片般栩栩如生的圖畫,可以幫助創作者激發出更多的創意,亦可發揮初一般用戶有趣的構圖應用,成為可視化AI應用中,最能與生活創意結合的絕佳應用案例。
▼ GauGAN的使用示範影片
這個GanGAN計畫,是來自NVIDIA和MIT的研究團隊所共同執行的成果,組成的團員皆是華人/韓國人,包含NVIDIA的劉洺堉(Ming-Yu Liu)、王鼎鈞(Ting-Chun Wang),以及來自 MIT 的朱俊彥(Jun-Yan Zhu)和UC Berkeley的Taesung Park等。可以參考他們的GitHub網頁:
劉洺堉 (Ming-Yu Liu)的GitHub頁面: 這裡
王鼎鈞 (Ting-Chun Wang) 的GitHub頁面: 這裡
朱俊彥 (Jun-Yan Zhu)的GitHub頁面: 這裡
박태성 (Taesung Park)的GitHub頁面: 這裡
取名為GauGAN (高竿),主要是紀念法國印象派畫家高更(Gauguin),並加上GAN (Generative Adversarial Networks,生成對抗網路) 的字首,所形成的全新字彙,也是該應用所使用到的主要技術。
有關於更多NVIDIA GauGAN相關報導,請參考下方文章:
● 為想像力增添色彩:GauGAN AI 藝術工具創造出超過五十萬個影像
● NVIDIA Research 在 SIGGRAPH 展出令人驚豔的開創性研究成果
當然不只自然圖片,包括人臉也能隨機產生,此外該團隊還有另一項研究計畫,叫做PetSwap,可以只要輸入一個原始動物照片,就能產生出其他不同動物,但表情類似的照片,甚至可以產生動畫,讓AI應用更加有趣!
那麼GauGAN技術是如何幫助用戶產生這樣的照片(或動畫)呢?當然得先從其技術來研究,這次由NVIDIA Research首席研究員劉洺堉先生,來親自講解並示範GauGAN的功能,其中也包括了主要應用原理的簡述 (這裡僅簡單做簡述而已,因為光是簡述與原理就很複雜了,有興趣深度研究者,可參考其相關Paper文件),讓讀者能大致了解該技術運用到的原理與解決方式,以讓開啟大家對於這項技術的認知與應用。
這裡講述的是GanGAN與其運用到的主要技術:SPADE (SPatially Adaptive DEnormalization,空間適應去正規化),搭配BN (Batch Normalization,批次正規化)技術的優點,讓產生出來的結果是在能夠控制的範圍,以產生出使用者所要表達的目標圖片。
以下就透過劉先生的簡報,來了解GauGAN的運作原理吧 (註:很燒腦,請斟酌服用):
人類的作畫演進史:從最早的洞穴石畫開始,到近世紀使用畫筆來作畫,直到近30年來數位革命後,可透過電腦來作畫。近期則是因應AI革命,以後作畫只要搭配NVIDIA GauGAN技術來簡單素描,就可以輕鬆產生出如照片等級的圖畫
GauGAN既然能自行合成出如真實照片一般的圖畫,那麼其運用到的技術,就有包含有監控和未受監控的技術,左側是配對好、有監控下,指示GauGAN依照我們需求來繪製出想要的圖形場景,而右側是未配對與未規範下,繪製出來的結果就會有各種結果
這兩張圖原本是一連串動畫,透過左邊的不同素描,即可產生出如電影般的場景。不過劉洺堉表示目前的模型下,由於圖是個別依照原素材產生的,因此像是左圖的光澤與波浪是沒有連續性的,但可以先給導演或是製片一個方向,而這部份未來也是有機會克服的
GAN (生成對抗網路)的模型就是,上述的圖片表示在沒有原始圖像時,產生器(Generator)只能產出無意義的亂碼圖,此時經過判別器(Discriminator)判定因為沒有人頭像,所以失敗!這樣就必須重新生成。而下方是提供各種原始頭像圖,經過產生器產生出我們規定想要的圖片後,經由判別器判定為「真」,代表成功生成。
而NVIDIA條件式GAN的模型,就是以分割圖遮罩(Segmentation Mask)作法,z為原始圖庫,y為設定條件。例如上圖的綠色區設定成樹木、淺綠區設定成草地、灰色區為天空,透過產生器之後,即可生成如右上圖那樣的場景。以下類推!
這是pix2pixHD (圖素點轉成高清圖素)的產生器設計模型,更多細節可參考這裡的白皮書
為什麼GauGAN要使用到BN模型,因為一開始的假設,是要減少協方差內部活動的轉變,如右上沒使用BN時,生成的圖片會變得很奇怪,採用BN後,表面變得比較單一光滑且單純。因此新的假設就是:讓風景照潤飾得更平滑,並促使權重空間往長度方向做去耦合,讓收斂速度更快
因此必須搭配SPADE技術,來讓生成畫面更接近原始語意所要表達的重點。例如這裡的說明,若單獨透過pix2pixHD之下,生成的圖就可能出現灰色的狀況(語意被洗掉了),而搭配SPADE之後,就能清楚告訴產生器要生成的正確圖像
以上,就是GauGAN所使用到的各種模型與深度學習網路。在圖片的大數據中,劉洺堉表示,目前NVIDIA GanGAN的雲端資料庫照片共有超過500萬張,這些皆是來自flickr或是其他有授權的圖片。而每當使用者將素描語意檔上傳並送至NVIDIA的GauGAN伺服器進行分析之後,GauGAN會從已經透過過深度學習訓練後的100萬張圖當中,挑出最符合語意的照片素材,以合成出最適合的照片組成,最後再調整色調,讓整張照片看起來沒問題之後,再回傳給使用者。
最後,提供與GauGAN與PetSwap的相關網站,讓使用者親自去體驗看看吧!
● GauGAN遊樂場: http://nvidia-research-mingyuliu.com/gaugan/
● PetSwap遊樂場: http://nvidia-research-mingyuliu.com/petswap
但是仔細看看,AI到底能做些什麼?除了像是手機的自動場景判別、自動分類、甚至Google Pixel手機也導入AI軟體應用,能讓一般鏡頭拍攝並經由計算後產生有淺景深效果的照片,讓人覺得AI似乎可以在攝影上面幫上許多忙。然而AI的應用其實不只這些,雖說很多更深入的AI研究計畫與應用幾乎在實驗室內進行,透過超昂貴的AI級伺服器來進行計算與訓練,這些研究成果也不一定是普羅大眾會注意到的部份,而為讓AI的應用更多元、有趣,且實用化,NVIDIA推出了GauGAN技術,讓大家也能輕鬆運用AI所帶來的優勢,來做更有趣的事情!
GauGAN技術說明會,講述其功能與部份原理
NVIDIA一直以來總是在消費性GPU上取得了領先的市場地位,賦予玩家們最快最棒的遊戲玩樂體驗,近年來透過GPGPU的應用以及其CUDA架構,更是在AI領域取得市場先機,獲得全世界不少研究機構與企業的青睞,成為當今AI領域的霸主之一。為讓其GPGPU產品發揮強大的運算效能,NVIDIA內部也有不少與AI領域相關的研究計畫與應用。這次要介紹的就是NVIDIA Research於GTC 2019正式公佈的GauGAN,也就是一種只要用戶提供簡單的素描,即可產生出如照片般栩栩如生的圖畫,可以幫助創作者激發出更多的創意,亦可發揮初一般用戶有趣的構圖應用,成為可視化AI應用中,最能與生活創意結合的絕佳應用案例。
▼ GauGAN的使用示範影片
這個GanGAN計畫,是來自NVIDIA和MIT的研究團隊所共同執行的成果,組成的團員皆是華人/韓國人,包含NVIDIA的劉洺堉(Ming-Yu Liu)、王鼎鈞(Ting-Chun Wang),以及來自 MIT 的朱俊彥(Jun-Yan Zhu)和UC Berkeley的Taesung Park等。可以參考他們的GitHub網頁:
劉洺堉 (Ming-Yu Liu)的GitHub頁面: 這裡
王鼎鈞 (Ting-Chun Wang) 的GitHub頁面: 這裡
朱俊彥 (Jun-Yan Zhu)的GitHub頁面: 這裡
박태성 (Taesung Park)的GitHub頁面: 這裡
取名為GauGAN (高竿),主要是紀念法國印象派畫家高更(Gauguin),並加上GAN (Generative Adversarial Networks,生成對抗網路) 的字首,所形成的全新字彙,也是該應用所使用到的主要技術。
有關於更多NVIDIA GauGAN相關報導,請參考下方文章:
● 為想像力增添色彩:GauGAN AI 藝術工具創造出超過五十萬個影像
● NVIDIA Research 在 SIGGRAPH 展出令人驚豔的開創性研究成果
GauGAN技術說明會,NVIDIA首席研究員技術開講
GauGAN就如同一枝「智能畫筆」(Smart Paintbrush),透過NVIDIA在雲端資料圖所提供的GAN(生成對抗網路)的訓練結果,讓使用者只要簡單繪製幾個分割圖(Segmentation Map)並填入不同的顏色細節以顯示出該場景中各圖素的對應位置,搭配選擇不同效果濾鏡,即可自動產生出目標的專業照片級的圖片。當然不只自然圖片,包括人臉也能隨機產生,此外該團隊還有另一項研究計畫,叫做PetSwap,可以只要輸入一個原始動物照片,就能產生出其他不同動物,但表情類似的照片,甚至可以產生動畫,讓AI應用更加有趣!
那麼GauGAN技術是如何幫助用戶產生這樣的照片(或動畫)呢?當然得先從其技術來研究,這次由NVIDIA Research首席研究員劉洺堉先生,來親自講解並示範GauGAN的功能,其中也包括了主要應用原理的簡述 (這裡僅簡單做簡述而已,因為光是簡述與原理就很複雜了,有興趣深度研究者,可參考其相關Paper文件),讓讀者能大致了解該技術運用到的原理與解決方式,以讓開啟大家對於這項技術的認知與應用。
這裡講述的是GanGAN與其運用到的主要技術:SPADE (SPatially Adaptive DEnormalization,空間適應去正規化),搭配BN (Batch Normalization,批次正規化)技術的優點,讓產生出來的結果是在能夠控制的範圍,以產生出使用者所要表達的目標圖片。
以下就透過劉先生的簡報,來了解GauGAN的運作原理吧 (註:很燒腦,請斟酌服用):








以上,就是GauGAN所使用到的各種模型與深度學習網路。在圖片的大數據中,劉洺堉表示,目前NVIDIA GanGAN的雲端資料庫照片共有超過500萬張,這些皆是來自flickr或是其他有授權的圖片。而每當使用者將素描語意檔上傳並送至NVIDIA的GauGAN伺服器進行分析之後,GauGAN會從已經透過過深度學習訓練後的100萬張圖當中,挑出最符合語意的照片素材,以合成出最適合的照片組成,最後再調整色調,讓整張照片看起來沒問題之後,再回傳給使用者。
最後,提供與GauGAN與PetSwap的相關網站,讓使用者親自去體驗看看吧!
● GauGAN遊樂場: http://nvidia-research-mingyuliu.com/gaugan/
● PetSwap遊樂場: http://nvidia-research-mingyuliu.com/petswap
- 發表您的看法
請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。
請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。
請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。
請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。
請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。
您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。
最近新增
- 群暉正式推出2025年式2.5GbE NAS!「Synology DiskStation新一代DS225+、DS425+、DS625slim、DS725+、DS925+、DS1525+、DS1825+、DS1825xs+與RackStation RS2825RP+」強勢來襲,全面啟動「Synology 儲存系統硬碟相容性政策」,並邀請硬碟業者參與「AVL相容性清單硬碟認證計畫」
- 曜越推出ATX 3.1金牌認證電源 鋼影TOUGHPOWER GT 1000W/1200W
- InnoVEX 450家新創齊聚 引領全球創新浪潮
- Sony 發表 E 接環 FE50-150mm F2 GM 鏡頭 全球首款達150mm F2
- 工控資安再升級!華碩智慧物聯網榮獲IEC 62443-4-1認證
- 再造進化!華碩、ROG創新出擊COMPUTEX 2025
- 網石歡慶《我獨自升級: ARISE》上市1周年 大規模更新與活動即將登場
- 微軟發佈《2025 工作趨勢指數》報告 揭示「AI 前瞻企業」興起 超過 8 成台灣企業預計於未來 18 個月內導入 Agents Microsoft 365 Copilot 強勢更新 強化下一代 AI 人機協作體驗
- 強力貫穿、寂靜高效,NZXT 全新世代 靜音扇/靜壓扇,水冷/塔散/機殼完全適配,滿足穿透與寧靜的風流渴望!
- Acer Nitro VG240Y P6 電競螢幕 144Hz高刷新升級上市
- Oen應援科技客戶數年增340% 全面推動「應援經濟」發展 A輪募資進度已達70% 將聚焦於雲端金流技術升級與跨市場應用擴展
- 【NielsenIQ/NIQ-GfK_新聞稿】NIQ發布《科技與消費性電子供應鏈與產業分析》預測2025供應鏈動態:關稅政策引
最多人點閱
- GIGABYTE GeForce GTX 1070 Xtreme Gaming實測開箱,電競級顯示卡中的頂尖之作!
- Seagate IRONWOLF 10TB機械硬碟實測開箱,氦氣填充那嘶狼守護者NAS HDD
- AMD Radeon RX 480實測開箱,玩家級顯示卡重返榮耀!
- PLEXTOR S2C 512GB實測開箱,超值型固態硬碟中的優質好貨!
- 洋垃圾神器,Xeon E5-2670實測開箱大作戰!
- MSI CORE FROZR L CPU散熱器實測開箱,微星電競產品再添新兵
- MSI GeForce GTX 1060 GAMING X 6G實測開箱,玩家級電競顯示卡中的神兵利器!
- ASUS ROG STRIX-GTX1080-O8G-GAMING開箱實測,旗艦三風扇電競顯示卡中的頂尖之作!
- MSI GeForce GTX 1080 GAMING X 8G實測開箱,史上最強大Pascal自製顯示卡全面來襲!
- 淘寶網洋垃圾再顯神威,1999元買到8核心16執行緒Xeon E5-2670神器級處理器!
- MSI GeForce GTX 1050 Ti GAMING X 4G實測開箱,中階電競顯示卡中的玩家精品!
- 微星MSI Aegis X-026TW快打旋風V同梱版實測開箱,VR電競桌機的頂尖之作!
