鵝廠程序員親測(cè)AI寫真通用版，女友直呼“真妙呀”！

2023-08-29 21:46:27 來(lái)源：程序員客棧

# 關(guān)注并星標(biāo)騰訊云開(kāi)發(fā)者 # 每周4 | 鵝廠一線程序員，為你“試毒”新技術(shù) #第4期|騰訊霍然：鵝廠大牛手把手教學(xué)，讓自己實(shí)現(xiàn)數(shù)字分身？

時(shí)下流行的 AI 寫真工具，為用戶提供了用現(xiàn)成的照片遨游于廣袤素材與想象中的可能性，也啟發(fā) AI 從業(yè)者對(duì)于大眾消費(fèi)產(chǎn)品的構(gòu)想。對(duì)于個(gè)人來(lái)說(shuō)，是否可以上手 AI 技術(shù)，做出自己的“數(shù)字分身”呢？本文將介紹一種高效率、易上手、低成本、高安全的“數(shù)字分身”制作方式。看完本文，你也會(huì)用一張圖片“穿越古今”，做出自己的 N 個(gè)“數(shù)字分身”。

(相關(guān)資料圖)

圖1，作者使用 StableDiffusion制作的美女“數(shù)字分身”集

隨著網(wǎng)絡(luò)某相機(jī)小程序的火爆，關(guān)于 AIGC 智能應(yīng)用的討論又一次點(diǎn)燃移動(dòng)互聯(lián)網(wǎng)。9.9 元即可制作不同背景、造型下的“數(shù)字分身”照片，出圖效果幾可比擬專業(yè)照相館，引發(fā)了受眾的追捧。

而質(zhì)疑者，認(rèn)為 9.9 元的體驗(yàn)成本過(guò)高，也覺(jué)得產(chǎn)品高峰期的數(shù)十小時(shí)的等待時(shí)長(zhǎng)過(guò)于熬人?？鄲烙跓o(wú)法對(duì)生產(chǎn)的照片任意加工，更為 AI 應(yīng)用的數(shù)據(jù)安全性憂心忡忡。

這些想法也反映了廣大用戶對(duì)于 AI 應(yīng)用的需求和渴望。對(duì)于 AI 工具，用戶希望既可以降低使用成本，又可以保證生產(chǎn)效果。如果還能簡(jiǎn)化生產(chǎn)流程、縮短生產(chǎn)時(shí)長(zhǎng)、提供便于交互的服務(wù)，同時(shí)保證數(shù)據(jù)安全性，當(dāng)然更佳。

那么，所謂的 AI“數(shù)字分身”領(lǐng)域，或是“AI 寫真”領(lǐng)域?yàn)槔?，是否有一個(gè)滿足以上所有要求的方案呢？

制作個(gè)人的 LoRA 模型是一種生成“數(shù)字分身”的方式，也被一些用戶猜測(cè)為“AI 寫真小程序”的技術(shù)方案。

這種方法可以生成較為穩(wěn)定的、多角度的人像，但是其需要輸入的照片較多，技術(shù)實(shí)現(xiàn)的步驟也稍復(fù)雜，對(duì)于新手的使用門檻較高，文中不做介紹。

本文將由淺入深地介紹一種小白可以輕松上手的簡(jiǎn)易“數(shù)字分身”制作方式，基本滿足用戶對(duì) AI 應(yīng)用的要求。

本文介紹的“數(shù)字分身”制作方法可以通過(guò) AI 技術(shù)隨意更換照片中人物的服裝、造型、背景，用一張人像照片“穿越古今”。讀者可以拿 9.9 元買一杯蜜雪冰城，在家里“一鍵出圖”。

整個(gè)產(chǎn)圖流程可以在個(gè)人計(jì)算機(jī)的服務(wù)器完成，不需要把照片上傳到外部服務(wù)器，極大地保障數(shù)據(jù)的安全性。同時(shí)，千變?nèi)f化的服裝、背景、造型更是令人眼花繚亂，AI 的創(chuàng)意指數(shù)拉滿，令人拍案叫絕。

圖2，作者使用 StableDiffusion制作風(fēng)格各異的美女“數(shù)字分身”

制作“數(shù)字分身”的過(guò)程需要解決 3 個(gè)問(wèn)題：

畫(huà)什么？用什么？參考什么？

針對(duì)這 3 個(gè)問(wèn)題，產(chǎn)生了 3 個(gè)步驟：

畫(huà)什么：填寫描述詞；

用什么：上傳圖片并選擇重繪區(qū)域；

參考什么：提供參考的人物姿態(tài)。

下面將按照這 3 點(diǎn)依次介紹。下文用到的工具為 Stable Diffusion WebUI，以及 ControlNet 插件。為了簡(jiǎn)化內(nèi)容，本文介紹便捷有效的實(shí)操步驟，Stable Diffusion 的安裝和精細(xì)化調(diào)參技能點(diǎn)請(qǐng)讀者自行學(xué)習(xí)，文末附有參考材料。

圖3，文章核心步驟的示意圖

“畫(huà)什么”的問(wèn)題在用文字形式模擬用戶腦海中的想象。

小時(shí)候，男生幻想自己穿著俠客的青衫，仗劍走天涯；女生幻想自己穿著飄逸的襦裙，沐浴唐風(fēng)漢韻。如今的 AI 技術(shù)可以借助語(yǔ)言描述，讓我們?cè)陲L(fēng)格各異的場(chǎng)景中塑造個(gè)人形象。建立這一形象，首先需要用語(yǔ)言描述人物的服裝、發(fā)型、背景，描述語(yǔ)言稱為提示詞。

提示詞分為正向提示詞（希望畫(huà)面出現(xiàn)的內(nèi)容）和負(fù)向提示詞（不希望畫(huà)面出現(xiàn)的內(nèi)容）。繪圖用的 Stable Diffusion 為國(guó)際化工具，提示詞要用英語(yǔ)。

比如生成一個(gè)穿著古裝漢服的女孩，女孩佩戴精美發(fā)簪，以傳統(tǒng)的中式宮殿為背景；同時(shí)，希望圖片高質(zhì)量、高清晰，不要出現(xiàn)模糊、丑陋、動(dòng)畫(huà)等元素。將正向提示詞寫為“1girl, wearing song hanfu, wearing delicate traditional chinese hairpins, chinese palace background, materpiece, best quality, ultra-detailed”。負(fù)向提示詞寫為“blurry, ugly, bad quality, cartoon, anime, NSFW, nude”。

圖4，StableDiffusionWebUI 的提示詞輸入界面

“用什么”在追問(wèn)圖片生產(chǎn)過(guò)程中的主要原料是什么。

本文介紹簡(jiǎn)易的“數(shù)字分身”制作過(guò)程，用現(xiàn)成的照片換掉照片中的造型、服飾、背景，達(dá)到“一鍵穿越”的效果。在此過(guò)程中，用到的原料是現(xiàn)有的照片，應(yīng)用的技術(shù)為 Stable Diffusion 的圖生圖局部重繪（img2img inpaint）功能。涉及到的操作為上傳圖片并手動(dòng)選擇重繪區(qū)域。選擇照片時(shí)，建議選擇上半身，面部輪廓清晰的正面照。比如，以一張年輕女性的正面半身照作為輸入。

圖5，上傳的照片示例

上傳圖片后，我們把“換造型，換服裝”的需求轉(zhuǎn)換為技術(shù)語(yǔ)言“重繪除了臉部之外的所有區(qū)域”。那么，AI 工具如何知道照片中哪里是面部區(qū)域呢？在使用時(shí)，先上傳圖片，再用黑色的筆刷手動(dòng)涂抹面部區(qū)域，就能精準(zhǔn)地標(biāo)識(shí)面部區(qū)域，如圖 6 所示。

圖6，涂抹上傳照片的功能示例

此外，還需要選擇對(duì)非涂抹區(qū)域進(jìn)行重繪的選項(xiàng)（inpaint not masked），也就是對(duì)于除面部外的區(qū)域進(jìn)行新的創(chuàng)作，如圖 7 所示。

圖7，選擇“繪制非蒙版內(nèi)容”操作示例

“參考什么”則是結(jié)合什么輔助信息，讓圖片生產(chǎn)的效果更穩(wěn)定。

既然是參考，則非必需，但是有利于提升圖片生產(chǎn)的質(zhì)量。上面的兩個(gè)步驟為 AI 描繪了繪圖內(nèi)容，也提供了人像的臉部特征。此時(shí)若是讓 AI 工具“信馬由韁”地發(fā)揮，容易出現(xiàn)人體比例失調(diào)，動(dòng)作不自然等問(wèn)題。為 AI 工具提供“參考答案”雖然會(huì)減少創(chuàng)意空間，但是能讓 AI 工具學(xué)習(xí)原照片的動(dòng)作姿態(tài)，生成更加自然的圖片。如何學(xué)習(xí)人物姿態(tài)呢？學(xué)習(xí)人物姿態(tài)需要用到 ControlNet 插件，一款對(duì)圖片進(jìn)行預(yù)加工的工具，把預(yù)加工的結(jié)果像積木塊一樣拼插到生成圖片的流程中。

輸入和上一步相同的正面半身照，用 ControlNet 插件中的 openpose 預(yù)處理器學(xué)習(xí)圖中人物姿態(tài)，比如頭和身體位置關(guān)系，手臂的動(dòng)作。按照?qǐng)D 8 的方式選擇啟用 ControlNet 插件，并選擇 openpose 預(yù)處理模式和模型。

圖8，ControlNet 插件的使用示例

進(jìn)行上述操作后，就可以得到圖 9 的多款古裝美女“數(shù)字分身”。

圖9，通過(guò) StableDiffusionWebUI 制作的古裝美女“數(shù)字分身”

那么如果想制作更多的分身，讀者應(yīng)該修改前文介紹的哪些步驟呢？

讀者可以回顧，思考一下本文介紹的方法。前面介紹的 3 個(gè)步驟中，“畫(huà)什么”的步驟決定圖片內(nèi)容，“用什么”的步驟決定核心素材，“參考什么”的步驟決定額外的素材。

回顧后發(fā)現(xiàn)，當(dāng)我們想對(duì)畫(huà)面元素做修改時(shí)，只需要修改“畫(huà)什么”步驟中的提示詞。比如想要生成現(xiàn)代裝校園風(fēng)圖片，只需要重寫正向提示詞中涉及服裝，造型，背景的提示詞，將正向提示詞改寫為“1girl, wearing school uniform, ponytail, campus background, materpiece, best quality, ultra-detailed”。負(fù)向提示詞仍然寫為“blurry, ugly, bad quality, cartoon, anime, NSFW, nude”，如圖 10所示。

圖10，更新 StableDiffusionWebUI 的提示詞示例

除了修改正向提示詞外，其他步驟均保持不變。點(diǎn)擊“生成”按鈕，就能得到圖 11 的“校園女孩分身”。

得到“數(shù)字分身”后，如果讀者希望進(jìn)一步修改圖片細(xì)節(jié)，比如重新生成背景中的建筑物，可以用局部重繪功能涂抹待修改的細(xì)節(jié)，仿照上面的指引，用提示詞來(lái)牽引重繪方向，具體操作交給讀者探索。

圖11，通過(guò) StableDiffusionWebUI 制作的校園美女“數(shù)字分身”

按照這種方式不斷解鎖校園風(fēng)、古代風(fēng)、未來(lái)感、中式旗袍、日常風(fēng)的造型，就得到了文章開(kāi)頭異彩紛呈的“數(shù)字分身集”。

圖12，作者使用 StableDiffusion制作的美女“數(shù)字分身”集

寫到最后，對(duì)比一下本文通過(guò) Stable Diffusion WebUI 制作“數(shù)字分身”的方案和 AI 寫真小程序在用戶體驗(yàn)方面的異同。

兩種方法的相同點(diǎn)為：以人像照片為輸入，通過(guò)技術(shù)手段獲得不同場(chǎng)景、造型的人像寫真圖。

除此之外，兩者在使用體驗(yàn)方面有較大的差異。在成本方面，AI 寫真小程序需要更多“有形投資”，比如更多的照片數(shù)量，更高的費(fèi)用；而本文的方法有更多的“無(wú)形投資”，比如部署和使用 Stable Diffusion 的能力。

在收益方面，AI 寫真小程序在生成圖片的角度和顏值上有優(yōu)勢(shì)，畫(huà)面自然感更高；而本文的方法在生成圖片的造型、背景豐富度以及再加工能力上更勝一籌。

期待大家可以用 AI 技術(shù)拓展生活的疆域。

如果讀者朋友們想進(jìn)一步學(xué)習(xí)如何部署 Stable Diffusion 以及如何精細(xì)化調(diào)參，可以參考騰訊云開(kāi)發(fā)者的這篇文章《給想玩AI的新手｜Stable Diffusion 保姆級(jí)入門手冊(cè)》。
有了自制的 AI 寫真工具，你最想生成哪些照片？或者想在工具里面加入哪些功能？歡迎留言。我們將挑選一則最有趣的答案，為其留言者送出騰訊定制T恤。8月31日中午12點(diǎn)開(kāi)獎(jiǎng)。

歡迎加入騰訊云開(kāi)發(fā)者社群，社群專享券、大咖交流圈、第一手活動(dòng)通知、限量鵝廠周邊能你來(lái)~

（長(zhǎng)按圖片立即掃碼）

關(guān)注并星標(biāo)騰訊云開(kāi)發(fā)者

每周4看鵝廠程序員測(cè)評(píng)新技術(shù)

關(guān)鍵詞：