AI繪畫的「小秘密」都在這一篇文章里

有了AI，人人都可以是藝術家。AI繪畫的出現，恰如瑞士藝術家保羅·克利所言：「藝術不是再現可見，而是使不可見成為可見。」經過20年左右的發展，目前基於不同類型或者模態元素的AI繪畫發展情況不盡相同，發展最久的是「以圖生圖」，再到近期火爆的「文+圖」生圖。當然，也有團隊已經研發出由語音生成圖像的技術。
上傳一張圖片，或者輸入一些簡單的關鍵詞，係統就能自動生成一張卡通圖像……最近一段時間，AI繪畫開始在互聯網社交平台走紅。
AI繪畫，顧名思義就是利用人工智慧進行繪畫，是人工智慧生成內容的典型應用場景之一。其主要原理是收集大量已有作品，通過算法對其內容和風格特徵進行解析，最後再生成新的作品，所以算法是AI繪畫的核心。
當前，「憑空」生成圖像的AI繪畫，其實也會動輒「翻車」：也許上一秒AI通過你的照片繪出的是一張充滿藝術感的二次元畫像，下一秒你的寵物貓、狗則可能被畫成可愛少女或肌肉猛男。
事實上，AI繪畫早已火爆全球。第一張公開展出的、由人工智慧創作的繪畫作品《埃德蒙·貝拉米的肖像》曾於2018年在佳士得拍賣行以43.25萬美元成交，那是一張由機器學習了從14世紀到20世紀的1.5萬張肖像畫之後自動生成的一張肖像畫作品。
AI繪畫是如何實現「憑空」生圖的？除了娛樂外，AI繪畫還有哪些潛在的應用前景？
從「以圖生圖」到「語音生圖」
2022年，由人工智慧創作的《太空歌劇院》一度火出圈。在美國科羅拉多州舉辦的新興數字藝術家競賽中，《太空歌劇院》獲得「數字藝術/數字脩飾照片」類別一等獎。它的構圖、配色以及畫面的細節堪稱精緻。然而，這個作品的創作者不是藝術家，而是來自美國科羅拉多州的遊戲設計師。
這位遊戲設計師在一個名為「Midjourney」的AI創作工具里，先輸入幾個關鍵詞，如光源、構圖、氛圍等，得到了100幅作品，再進行約80小時的修圖脩飾，最終選出3幅作品，最後把圖像列印到畫布上。
通過簡單交互式對話在短時間內生成的「藝術」作品，讓人類藝術家展開了一場關於「AI繪畫作品參賽是否屬於作弊」的爭論。這場聲勢浩大的爭論也令大眾直觀地意識到如今的AI繪畫水準已經發展到了何種程度。
「人工智慧在藝術方面的創作最早可以追溯到上個世紀末，當時的人工智慧繪畫技術叫作『圖像的風格化濾鏡』。」中國科學院自動化研究所多模態人工智慧系統全國重點實驗室研究員董未名說，最初的AI繪畫方法比較簡單，比如一張普通的照片，通過一些圖像處理的算法，把照片像素進行幾何或者色彩上的變換，然後再調節不同參數，就可以模擬出類似油畫或者水彩畫的風格。
經過20年左右的發展，目前基於不同類型或者模態元素的AI繪畫發展情況不盡相同，發展最久的是「以圖生圖」，再到近期火爆的「文+圖」生圖。當然，也有團隊已經研發出由語音生成圖像的技術。
AI繪畫主要依靠三種技術模式實現
董未名介紹，目前AI繪畫主要藉助圖像風格遷移技術、圖文預訓練模型和擴散模型實現。
「圖像風格遷移技術指的是圖像處理算法通過對輸入的真實圖像內容特徵和對參考的藝術圖像風格特徵的提取，實現真實圖像內容特徵和藝術圖像風格特徵的融合，從而生成新的藝術圖像。」董未名舉例，如果將美國舊金山藝術宮的外景照片和印象派創始人莫奈繪製的作品，通過圖像風格遷移技術進行融合，就能得到一張看起來像是由莫奈繪製的美國舊金山藝術宮的繪畫作品。最初的AI繪畫採用的正是這種技術。
不過，在董未名看來，圖像風格遷移技術大多依賴的是生成式對抗網路（GAN）算法，它最大的問題是生成的繪畫作品藝術性不強，筆觸和構圖讓人覺得與真實的繪畫有差距，所以長久以來，AI繪畫一直「籍籍無名」。
當圖像風格遷移技術還在掙扎于輸出作品的審美問題時，圖文預訓練模型的出現，加速了AI繪畫的崛起。
「依託圖文預訓練模型，只要輸入一句話或者上傳一幅風格明顯的圖片，算法就能將圖像特徵和文字特徵『對齊』。生成的繪畫作品的內容特徵和上傳圖片的內容相似，藝術性也比圖像風格遷移技術生成的圖片強很多。」董未名舉例，比如支撐圖文預訓練模型的可對比語言—圖像預訓練（CLIP）算法，就是利用圖文特徵「對齊」的能力，再結合已有的生成模型，實現「以圖生圖」或者「圖+文」生圖。
不過，董未名坦言，圖文預訓練模型的推廣也存在一些爭議，有部分人認為，該模型在訓練前期，需要用大量的圖形處理器（GPU）進行數據訓練，耗電量大、成本很高，而該模型的應用場景卻不夠清晰。但也有人認為，也許該模型未來可以打造為通用的人工智慧模型，用它完成更多的算法作業，只是這還需要時間的驗證。
誠然沒有一項技術是完美的，這也為人類探究更先進的技術提供了無限動力。當下最流行的擴散模型便是其中之一。
「目前最新的AI繪畫技術採用的就是擴散模型，這種模型可以把一個隨機采樣的噪聲輸入模型，然後嘗試通過去噪來生成圖像。」董未名錶示，擴散模型也存在弱點，由於模型對圖片內容識別的能力不足，或者難以完全理解識別文字的意義，以及訓練數據的偏差，有時便會生成「四不像」的作品。此外，擴散模型生成圖片的速度比較慢，目前還達不到實時生成圖片。
互聯網治理、元宇宙或潛藏應用前景
AI繪畫目前的應用場景，更多聚焦于社交軟體。近期在國內社交網路「火出天際」的AI繪畫軟體主要集中在小程式及App。隨著AI繪畫小程式的火爆，短視訊平台抖音也迅速上線了AI繪畫特效。同時，此前騰訊上線了「QQ小世界AI畫匠」活動，百度也推出了首款AI藝術和創意輔助平台「文心一格」。
有了AI，人人都可以是藝術家。AI繪畫的出現，恰如瑞士藝術家保羅·克利所言：「藝術不是再現可見，而是使不可見成為可見。」「AI現在已經完美實現了這一目標，人們可以通過機器計算來繪製出很多現實中見不到的場景。」董未名暢想，不遠的將來，AI繪畫或許還將展現更豐富的應用場景。
「現在網路上充斥著很多不良內容，這些內容為了逃避監管經常以繪畫的形式出現，而當前很多內容識別模型對真實圖片識別得很準確，但缺乏不良內容藝術作品的相關訓練數據，所以對不良內容識別不準確。也許可以用AI繪畫技術，積累不良內容藝術作品的數據，並用以訓練識別模型，以提昇互聯網內容的安全監管能力和識別的準確率。」董未名建議。
在董未名看來，作為一種藝術呈現形式，AI繪畫也將在元宇宙、設計、文旅等行業催生新的商業模式。例如AI繪畫目前在AI輔助創作、短視訊、影視製作和元宇宙等方面都有布局，因為這些賽道都離不開創意，AI繪畫可以幫助創作者通過簡單的特徵輸入，實現對其創意的預覽，甚至可以直接進行創作。
不過，董未名並不諱言，當下AI繪畫仍然存在版權爭議問題。AI繪畫的核心是模型，而訓練模型需要使用大量圖像、文本數據。對於未經授權的圖片，經過運算之後所生成的圖像版權歸屬尚難界定。「有的畫家風格特別明顯，如果用畫家的畫去訓練算法模型生成作品，那最後的版權屬於誰呢？」董未名提出的問題，正是多數AI繪畫作品所面臨的現實問題。
AI繪畫掀起了一場資本的群體狂歡，希望有一天它能走出「照貓畫虎」的尷尬，真正服務藝術創作、創造更多價值。

首頁 > 新聞 >