在當今可用于圖像轉換的眾多人工智能和機器學習模型中,使用生成對抗網絡(GAN)的圖像到圖像轉換模型可以改變圖像的風格。
這些模型通過使用兩張輸入圖像來工作:一張內容圖像,該圖像被改變以匹配參考圖像的風格。這些模型用于將圖像轉換為不同的藝術風格、模擬天氣變化、提高衛星視頻分辨率以及幫助自動駕駛汽車識別不同的照明條件(如白天和夜晚)等任務。
據外媒報道,上智大學(Sophia University)研究人員開發出新模型,可以減少運行這些模型所需的計算要求,從而可以在包括智能手機在內的各種設備上運行。

圖片來源:上智大學
在2024年9月25日發表在期刊《IEEE Open Journal of the Computer Society》的一項研究論文中,上智大學信息與通信科學系的項目助理教授Rina Oh和教授Tad Gonsalves提出一種“單流圖像到圖像轉換(SSIT)”模型,僅使用單個編碼器進行這種轉換。
通常,圖像到圖像的轉換模型需要兩個編碼器(一個用于內容圖像,一個用于風格圖像)來“理解”圖像。
這些編碼器將內容和風格圖像轉換為數值(特征空間),這些數值代表圖像的關鍵方面,例如顏色、對象和其他特征。然后,解碼器采用組合的內容和風格特征,并使用所需的內容和風格重建最終圖像。
相比之下,SSIT使用單個編碼器來提取空間特征,例如內容圖像的形狀、對象邊界和布局。
對于風格圖像,該模型使用帶池化的直接自適應實例規范化(DAdaINP),它可以捕獲顏色和紋理等關鍵風格細節,同時專注于最突出的特征以提高效率。然后,解碼器采用組合的內容和風格特征,并根據所需的內容和風格重建最終圖像。
Oh教授表示:“我們實現了一個引導式圖像到圖像轉換模型,該模型可以在參考輸入風格圖像的同時,以較低的GPU計算成本執行風格轉換。與之前的相關模型不同,我們的方法利用池化和可變形卷積來高效提取風格特征,從而實現高質量的風格轉換,同時降低計算成本并保留內容圖像中的空間特征。”
該模型采用對抗訓練進行訓練,生成的圖像由帶有視覺變換器的鑒別器進行評估,該視覺變換器可捕捉圖像中的模式。鑒別器通過將生成的圖像與目標圖像進行比較來評估生成的圖像是真實的還是假的,而生成器則學習創建可以欺騙鑒別器的圖像。
研究人員使用該模型執行了三種類型的圖像轉換任務。第一個涉及季節轉換,其中風景照片從夏季轉換為冬季,反之亦然。
第二項任務是將照片轉換為藝術作品,即將風景照片轉換為著名的藝術風格,例如畢加索、莫奈或動漫的風格。
第三項任務側重于駕駛中的時間和天氣轉換,將從汽車前方拍攝的圖像進行修改以模擬不同的條件,例如從白天變為夜晚或從晴天變為陰雨天氣。
在所有這些任務中,該模型的表現都優于其他五個GAN模型(即NST、CNNMF、MUNIT、GDWCT和TSIT),Fréchet初始距離和核初始距離得分較低。這表明生成的圖像與目標風格相似,并且在復制顏色和藝術細節方面做得更好。
“與其他模型相比,我們的生成器能夠降低計算成本和FLOP,因為我們使用了一個由多個卷積層組成的編碼器,該編碼器僅用于內容圖像,并放置了池化層以從不同角度提取風格特征,而不是卷積層,”Oh教授說。
從長遠來看,SSIT模型有可能推動圖像轉換的應用,使其可以部署在智能手機或個人電腦等設備上,從而是數字藝術、設計和科學研究等各個領域的用戶無需依賴昂貴的硬件或云服務即可創建高質量的圖像轉換。