焦點
素描秒變照片,NVIDIA GauGAN帶領AI應用邁向可視創作應用,首席研究員現身說法
文.圖/Johan 2019-10-07 18:00:00
這幾年吵了很久的AI (Artificial Intelligence,人工智慧),到底真正能幫助到人們什麼呢?除了手機喊AI、3C喊AI、汽車也要AI,就連IoT (物聯網)也要搭AI熱潮而創造出一個全新的AIoT (即AI + IoT,人工智能物聯網)名詞,才好像不會跟這個強調AI的世界脫勾一樣。
但是仔細看看,AI到底能做些什麼?除了像是手機的自動場景判別、自動分類、甚至Google Pixel手機也導入AI軟體應用,能讓一般鏡頭拍攝並經由計算後產生有淺景深效果的照片,讓人覺得AI似乎可以在攝影上面幫上許多忙。然而AI的應用其實不只這些,雖說很多更深入的AI研究計畫與應用幾乎在實驗室內進行,透過超昂貴的AI級伺服器來進行計算與訓練,這些研究成果也不一定是普羅大眾會注意到的部份,而為讓AI的應用更多元、有趣,且實用化,NVIDIA推出了GauGAN技術,讓大家也能輕鬆運用AI所帶來的優勢,來做更有趣的事情!
這次要介紹的就是NVIDIA Research於GTC 2019正式公佈的GauGAN,也就是一種只要用戶提供簡單的素描,即可產生出如照片般栩栩如生的圖畫,可以幫助創作者激發出更多的創意,亦可發揮初一般用戶有趣的構圖應用,成為可視化AI應用中,最能與生活創意結合的絕佳應用案例。
▼ GauGAN的使用示範影片
這個GanGAN計畫,是來自NVIDIA和MIT的研究團隊所共同執行的成果,組成的團員皆是華人/韓國人,包含NVIDIA的劉洺堉(Ming-Yu Liu)、王鼎鈞(Ting-Chun Wang),以及來自 MIT 的朱俊彥(Jun-Yan Zhu)和UC Berkeley的Taesung Park等。可以參考他們的GitHub網頁:
劉洺堉 (Ming-Yu Liu)的GitHub頁面: 這裡
王鼎鈞 (Ting-Chun Wang) 的GitHub頁面: 這裡
朱俊彥 (Jun-Yan Zhu)的GitHub頁面: 這裡
박태성 (Taesung Park)的GitHub頁面: 這裡
取名為GauGAN (高竿),主要是紀念法國印象派畫家高更(Gauguin),並加上GAN (Generative Adversarial Networks,生成對抗網路) 的字首,所形成的全新字彙,也是該應用所使用到的主要技術。
有關於更多NVIDIA GauGAN相關報導,請參考下方文章:
● 為想像力增添色彩:GauGAN AI 藝術工具創造出超過五十萬個影像
● NVIDIA Research 在 SIGGRAPH 展出令人驚豔的開創性研究成果
當然不只自然圖片,包括人臉也能隨機產生,此外該團隊還有另一項研究計畫,叫做PetSwap,可以只要輸入一個原始動物照片,就能產生出其他不同動物,但表情類似的照片,甚至可以產生動畫,讓AI應用更加有趣!
那麼GauGAN技術是如何幫助用戶產生這樣的照片(或動畫)呢?當然得先從其技術來研究,這次由NVIDIA Research首席研究員劉洺堉先生,來親自講解並示範GauGAN的功能,其中也包括了主要應用原理的簡述 (這裡僅簡單做簡述而已,因為光是簡述與原理就很複雜了,有興趣深度研究者,可參考其相關Paper文件),讓讀者能大致了解該技術運用到的原理與解決方式,以讓開啟大家對於這項技術的認知與應用。
這裡講述的是GanGAN與其運用到的主要技術:SPADE (SPatially Adaptive DEnormalization,空間適應去正規化),搭配BN (Batch Normalization,批次正規化)技術的優點,讓產生出來的結果是在能夠控制的範圍,以產生出使用者所要表達的目標圖片。
以下就透過劉先生的簡報,來了解GauGAN的運作原理吧 (註:很燒腦,請斟酌服用):
人類的作畫演進史:從最早的洞穴石畫開始,到近世紀使用畫筆來作畫,直到近30年來數位革命後,可透過電腦來作畫。近期則是因應AI革命,以後作畫只要搭配NVIDIA GauGAN技術來簡單素描,就可以輕鬆產生出如照片等級的圖畫
GauGAN既然能自行合成出如真實照片一般的圖畫,那麼其運用到的技術,就有包含有監控和未受監控的技術,左側是配對好、有監控下,指示GauGAN依照我們需求來繪製出想要的圖形場景,而右側是未配對與未規範下,繪製出來的結果就會有各種結果
這兩張圖原本是一連串動畫,透過左邊的不同素描,即可產生出如電影般的場景。不過劉洺堉表示目前的模型下,由於圖是個別依照原素材產生的,因此像是左圖的光澤與波浪是沒有連續性的,但可以先給導演或是製片一個方向,而這部份未來也是有機會克服的
GAN (生成對抗網路)的模型就是,上述的圖片表示在沒有原始圖像時,產生器(Generator)只能產出無意義的亂碼圖,此時經過判別器(Discriminator)判定因為沒有人頭像,所以失敗!這樣就必須重新生成。而下方是提供各種原始頭像圖,經過產生器產生出我們規定想要的圖片後,經由判別器判定為「真」,代表成功生成。
而NVIDIA條件式GAN的模型,就是以分割圖遮罩(Segmentation Mask)作法,z為原始圖庫,y為設定條件。例如上圖的綠色區設定成樹木、淺綠區設定成草地、灰色區為天空,透過產生器之後,即可生成如右上圖那樣的場景。以下類推!
這是pix2pixHD (圖素點轉成高清圖素)的產生器設計模型,更多細節可參考這裡的白皮書
為什麼GauGAN要使用到BN模型,因為一開始的假設,是要減少協方差內部活動的轉變,如右上沒使用BN時,生成的圖片會變得很奇怪,採用BN後,表面變得比較單一光滑且單純。因此新的假設就是:讓風景照潤飾得更平滑,並促使權重空間往長度方向做去耦合,讓收斂速度更快
因此必須搭配SPADE技術,來讓生成畫面更接近原始語意所要表達的重點。例如這裡的說明,若單獨透過pix2pixHD之下,生成的圖就可能出現灰色的狀況(語意被洗掉了),而搭配SPADE之後,就能清楚告訴產生器要生成的正確圖像
以上,就是GauGAN所使用到的各種模型與深度學習網路。在圖片的大數據中,劉洺堉表示,目前NVIDIA GanGAN的雲端資料庫照片共有超過500萬張,這些皆是來自flickr或是其他有授權的圖片。而每當使用者將素描語意檔上傳並送至NVIDIA的GauGAN伺服器進行分析之後,GauGAN會從已經透過過深度學習訓練後的100萬張圖當中,挑出最符合語意的照片素材,以合成出最適合的照片組成,最後再調整色調,讓整張照片看起來沒問題之後,再回傳給使用者。
最後,提供與GauGAN與PetSwap的相關網站,讓使用者親自去體驗看看吧!
● GauGAN遊樂場: http://nvidia-research-mingyuliu.com/gaugan/
● PetSwap遊樂場: http://nvidia-research-mingyuliu.com/petswap
但是仔細看看,AI到底能做些什麼?除了像是手機的自動場景判別、自動分類、甚至Google Pixel手機也導入AI軟體應用,能讓一般鏡頭拍攝並經由計算後產生有淺景深效果的照片,讓人覺得AI似乎可以在攝影上面幫上許多忙。然而AI的應用其實不只這些,雖說很多更深入的AI研究計畫與應用幾乎在實驗室內進行,透過超昂貴的AI級伺服器來進行計算與訓練,這些研究成果也不一定是普羅大眾會注意到的部份,而為讓AI的應用更多元、有趣,且實用化,NVIDIA推出了GauGAN技術,讓大家也能輕鬆運用AI所帶來的優勢,來做更有趣的事情!
GauGAN技術說明會,講述其功能與部份原理
NVIDIA一直以來總是在消費性GPU上取得了領先的市場地位,賦予玩家們最快最棒的遊戲玩樂體驗,近年來透過GPGPU的應用以及其CUDA架構,更是在AI領域取得市場先機,獲得全世界不少研究機構與企業的青睞,成為當今AI領域的霸主之一。為讓其GPGPU產品發揮強大的運算效能,NVIDIA內部也有不少與AI領域相關的研究計畫與應用。這次要介紹的就是NVIDIA Research於GTC 2019正式公佈的GauGAN,也就是一種只要用戶提供簡單的素描,即可產生出如照片般栩栩如生的圖畫,可以幫助創作者激發出更多的創意,亦可發揮初一般用戶有趣的構圖應用,成為可視化AI應用中,最能與生活創意結合的絕佳應用案例。
▼ GauGAN的使用示範影片
這個GanGAN計畫,是來自NVIDIA和MIT的研究團隊所共同執行的成果,組成的團員皆是華人/韓國人,包含NVIDIA的劉洺堉(Ming-Yu Liu)、王鼎鈞(Ting-Chun Wang),以及來自 MIT 的朱俊彥(Jun-Yan Zhu)和UC Berkeley的Taesung Park等。可以參考他們的GitHub網頁:
劉洺堉 (Ming-Yu Liu)的GitHub頁面: 這裡
王鼎鈞 (Ting-Chun Wang) 的GitHub頁面: 這裡
朱俊彥 (Jun-Yan Zhu)的GitHub頁面: 這裡
박태성 (Taesung Park)的GitHub頁面: 這裡
取名為GauGAN (高竿),主要是紀念法國印象派畫家高更(Gauguin),並加上GAN (Generative Adversarial Networks,生成對抗網路) 的字首,所形成的全新字彙,也是該應用所使用到的主要技術。
有關於更多NVIDIA GauGAN相關報導,請參考下方文章:
● 為想像力增添色彩:GauGAN AI 藝術工具創造出超過五十萬個影像
● NVIDIA Research 在 SIGGRAPH 展出令人驚豔的開創性研究成果
GauGAN技術說明會,NVIDIA首席研究員技術開講
GauGAN就如同一枝「智能畫筆」(Smart Paintbrush),透過NVIDIA在雲端資料圖所提供的GAN(生成對抗網路)的訓練結果,讓使用者只要簡單繪製幾個分割圖(Segmentation Map)並填入不同的顏色細節以顯示出該場景中各圖素的對應位置,搭配選擇不同效果濾鏡,即可自動產生出目標的專業照片級的圖片。當然不只自然圖片,包括人臉也能隨機產生,此外該團隊還有另一項研究計畫,叫做PetSwap,可以只要輸入一個原始動物照片,就能產生出其他不同動物,但表情類似的照片,甚至可以產生動畫,讓AI應用更加有趣!
那麼GauGAN技術是如何幫助用戶產生這樣的照片(或動畫)呢?當然得先從其技術來研究,這次由NVIDIA Research首席研究員劉洺堉先生,來親自講解並示範GauGAN的功能,其中也包括了主要應用原理的簡述 (這裡僅簡單做簡述而已,因為光是簡述與原理就很複雜了,有興趣深度研究者,可參考其相關Paper文件),讓讀者能大致了解該技術運用到的原理與解決方式,以讓開啟大家對於這項技術的認知與應用。
這裡講述的是GanGAN與其運用到的主要技術:SPADE (SPatially Adaptive DEnormalization,空間適應去正規化),搭配BN (Batch Normalization,批次正規化)技術的優點,讓產生出來的結果是在能夠控制的範圍,以產生出使用者所要表達的目標圖片。
以下就透過劉先生的簡報,來了解GauGAN的運作原理吧 (註:很燒腦,請斟酌服用):








以上,就是GauGAN所使用到的各種模型與深度學習網路。在圖片的大數據中,劉洺堉表示,目前NVIDIA GanGAN的雲端資料庫照片共有超過500萬張,這些皆是來自flickr或是其他有授權的圖片。而每當使用者將素描語意檔上傳並送至NVIDIA的GauGAN伺服器進行分析之後,GauGAN會從已經透過過深度學習訓練後的100萬張圖當中,挑出最符合語意的照片素材,以合成出最適合的照片組成,最後再調整色調,讓整張照片看起來沒問題之後,再回傳給使用者。
最後,提供與GauGAN與PetSwap的相關網站,讓使用者親自去體驗看看吧!
● GauGAN遊樂場: http://nvidia-research-mingyuliu.com/gaugan/
● PetSwap遊樂場: http://nvidia-research-mingyuliu.com/petswap
- 發表您的看法
請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。
請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。
請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。
請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。
請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。
您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。
最近新增
- ENERMAX 36 週年感恩回饋,旗艦效能輕鬆擁有 史無前例業界最強CP 值 限時搶購!金牌電源CyberG II 限定
- 十銓科技推出 P250Q 一鍵銷毀固態硬碟 強化機敏資料防護、引領工控資安創新
- 印尼攜手 NVIDIA、Cisco 及 IOH,邁向主權 AI 目標
- 《無限暖暖》1.7版本「藍淚季」重拾被遺忘的珍寶吧!
- ENERMAX 36 週年感恩回饋,旗艦效能輕鬆擁有 史無前例業界最強CP 值 限時搶購!金牌電源CyberG II 限定
- MONTECH推出X5 與 X5M:定義無妥協的全新標準
- 燦坤3C家電7/10開賣Nintendo Switch 2瑪利歐賽車世界同捆組合 7/10當天到燦坤11家指定門市 每店前20名送燦坤限定獨家贈品 燦坤全台門市與燦坤線上購物網站刷指定銀行信用卡購Switch 2享限量最高現折520元+燦坤K幣無上限 舊換新再加碼10% 燦坤推出SAMSUNG Galaxy Z系列新機與Watch系列新錶預購活動 買就送獨家「星動大禮包」 買指定手機憑消費發票抽限
- 極致6K超高解析!ProArt PA32QCV創作者螢幕驚豔上市
- 企業須留意!AI深偽助長高階主管、徵才流程與KYC詐騙 趨勢科技揭露採用深偽(deepfake)技術的網路犯罪劇本
- LG推出「RADIO OPTIMISM」全球品牌活動 台灣限定「美好生活電台」即日起限時開播! 攜手KKBOX 用音樂促進社交連結 傳遞正向能量
- NVIDIA 推出 GeForce Summer Nights 抽獎活動;宣布具有多畫格生成的 DLSS 4 開始支援《凡人 Online 2》、《Brickadia》和《盧恩傳奇:龍荒秘境》等三款遊戲大作
- ROG三創旗艦店定義電競未來!開幕限定福利吸引玩家朝聖
最多人點閱
- GIGABYTE GeForce GTX 1070 Xtreme Gaming實測開箱,電競級顯示卡中的頂尖之作!
- Seagate IRONWOLF 10TB機械硬碟實測開箱,氦氣填充那嘶狼守護者NAS HDD
- AMD Radeon RX 480實測開箱,玩家級顯示卡重返榮耀!
- 「浦科特 PLEXTOR S2C 512GB SSD」實測開箱,超值型固態硬碟中的優質好貨!
- 洋垃圾神器,Xeon E5-2670實測開箱大作戰!
- MSI CORE FROZR L CPU散熱器實測開箱,微星電競產品再添新兵
- MSI GeForce GTX 1060 GAMING X 6G實測開箱,玩家級電競顯示卡中的神兵利器!
- ASUS ROG STRIX-GTX1080-O8G-GAMING開箱實測,旗艦三風扇電競顯示卡中的頂尖之作!
- MSI GeForce GTX 1080 GAMING X 8G實測開箱,史上最強大Pascal自製顯示卡全面來襲!
- 淘寶網洋垃圾再顯神威,1999元買到8核心16執行緒Xeon E5-2670神器級處理器!
- MSI GeForce GTX 1050 Ti GAMING X 4G實測開箱,中階電競顯示卡中的玩家精品!
- 微星MSI Aegis X-026TW快打旋風V同梱版實測開箱,VR電競桌機的頂尖之作!
