AIGC爆火，想象力幾何？百度吳華：讓個體創作者成為“獨立”制作人

中國科技新聞網1月6日訊（楊晶佳） 過去一年，AIGC（即人工智能自主生成內容）迎來爆發元年，從繪畫到建模、從寫作文到敲代碼，各類AIGC工具紛紛涌現，用戶只需輸入關鍵詞就能在幾分鐘甚至幾秒鐘內得到一幅精美畫作、一篇翔實論文，水平驚人。

眼看傳統內容生產模式即將被顛覆，不少打工人似乎也迎來職業危機，例如2022年8月，由AI繪圖軟件創作的《太空歌劇院》拿下美國科羅拉多州新興數字藝術家競賽一等獎，此后，有關AIGC工具是否會跟人類“搶飯碗”的相關爭議層出不窮。

百度技術委員會主席吳華

圍繞上述爭議，1月5日，在百度“AIGC智能創作新風尚”媒體溝通會上，百度技術委員會主席吳華表示，其實AI技術革新會對行業發展起到正向促進作用，比如攝影技術的出現曾對傳統繪畫行業產生沖擊，機器翻譯誕生時也曾引發是否會替代人工翻譯的討論，但實際上，攝影技術本身后來發展成了一個新的藝術方向，而人工翻譯則在機器的幫助下提高了效率。

據介紹，目前百度已經推出了文心ERNIE 3.0 Zeus、ERNIE-ViLG 2.0等大模型，基于此，創作者將能夠更加輕松、高效、快樂地創作，甚至一個人就可以完成編劇、美術創作及后期剪輯等內容創作全流程工作，成為天才創作者。

此外，據吳華透露，在1月10日即將召開的 2022百度Create大會上，百度還將推出更多的AIGC工具產品并對相關技術進行講解。

“大模型的進步，讓我們在文字、圖像、視頻等創作領域全面感受到了AI技術的魅力。如果你掌握了這項內容創作能力，那你幾乎可以完成一部影片的許多重要工作，成為天才鬼才創作者。再配上自己設計的虛擬人演員，那你就可以成為一個真正的‘獨立’制作人、真正的‘獨立導演’。”吳華表示。

ERNIE 3.0 Zeus，會寫故事的“天才編劇”

2022年以來，隨著谷歌、百度、Meta、微軟等國內外企業先后推出自己的AI繪畫模型或者平臺，AIGC這一新型內容創作形式，獲得了越來越多的關注。因此，2022年也被看做是AIGC發展的元年。

在此前的發言中，百度創始人、董事長兼首席執行官李彥宏也曾指出，“過去一年間，人工智能無論是在技術層面還是在商業應用層面，都有了巨大的進展，有些甚至是方向性的改變。”而在諸多被提及的方向性改變中，AIGC成為了被重點提及的對象。

2022年5月，百度發布了融合任務相關知識的千億大模型ERNIE 3.0 Zeus。該模型能夠從豐富多樣的無標注數據中學習，同時在學習過程中融入知識圖譜指導模型學習世界知識和語言知識，進而提升學習的效率。此外，該模型還能從摘要、對聯、翻譯、分類、閱讀理解等百余種不同形式的任務中學習知識，通過對通用知識和專門知識的學習來提升模型泛化能力，使得ERNIE 3.0 Zeus能夠做到多種語言理解和生成任務，成為名副其實的“通才”。

例如，輸入一篇論文，ERNIE 3.0 Zeus可以立刻自動生成摘要；輸入一個題目，它可以瞬間寫出上百篇作文，而且作文還可以結合語境，寫出不同的風格，甚至是諸如詩歌、小說等不同的體裁內容。

同樣的，ERNIE 3.0 Zeus也會寫劇本。吳華指出，事實上有很多電視劇的劇本并不是由一位編劇單獨完成的，而是由一位總編劇制定總綱，再制定每一集的大概內容，再交給多位編劇分別寫每集的具體對話、詳細故事。因此，如果一個人能編制一部電視劇的總綱，他便可以把每一集的要求交給ERNIE 3.0 Zeus生成故事，然后再經過合并整理最終寫出整部劇。

吳華指出，文心 ERNIE 3.0 系列模型已經在幾十類自然語言理解和生成公開權威任務，以及零樣本、小樣本學習任務上處于世界領先水平。此外，它還發布了業界首個開放的千億參數中文生成API，供各行各業開發者到文心大模型官網上調用、學習。

從“插畫”到生成“視頻”，AIGC讓創作更高效

在編劇的工作完成后，場景和畫面的美術創作，以及視頻內容的產出和后期剪輯，是影視創作中必不可少的關鍵環節。而借助百度文心ERNIE-ViLG 2.0以及VIMER-TCIR等模型工具，創作者可以逐步完成他想要實現的目標。

2022年10月，百度發布了業界首個知識增強的AI作畫大模型 ERNIE-ViLG 2.0。它能根據一句話或者一段描述文本，生成一幅精美的畫作。吳華介紹指出，為提高文本生成圖像的準確性，百度在AI預訓練學習過程中創新性地提出了知識增強的擴散模型，實現了精準的細粒度語義控制；同時通過引入混合降噪專家網絡，對圖像生成不同階段對模型、計算性能要求的不同，使用不同網絡進行了針對性地建模和優化，進而提升了圖像生成的質量。

吳華指出，在實際應用場景下，只需要輸入一段文字，ERNIE-ViLG就可以快速理解這段文字所表達的含義和場景，然后根據這個理解，幾十秒內就可以生成媲美人類作畫水平的圖像，而且可以同時生成數百張風格各異的畫作，比如寫實、意象、中國風、二次元等等。它甚至可以生成現實世界中沒有創造性的圖像，比如穿西裝的齊天大圣、街邊擼串兒的熊貓，讓人們天馬行空的想象力得到精準的可視化呈現。

在權威公開數據集 MS-COCO 上，目前ERNIE-ViLG 2.0已經刷新 SOTA 效果，性能遠遠超過了國際上的同類技術；而在圖文相關性和圖像保真度兩個維度的人工評估上，ERNIE-ViLG 2.0 相對 DALL-E 2 和 Stable Diffusion 同樣取得了較大的優勢。

由于人類眼睛的特殊生理結構，如果所看畫面的幀率高于60Hz時，就會認為是連貫的，這也造就了早期電影膠片是一格一格拍攝出來，然后再快速播放的情況。而AI生成的圖像，在經過幀率的調控之后，也將進一步生成視頻。

據吳華介紹，在視覺內容生成方面，百度在文生圖擴散模型的基礎上加入時序建模，使得模型能根據文本或者圖像生成新的視頻。創作者可以根據用戶提供的一段描述文本，或者一幅圖像，自動地生成高清、流暢的視頻。

此外，通過百度研發的VIMER-TCIR多任務大模型，還可以實現對生成視頻的修復和編輯，通過畫質提升、邊緣銳化等方式增強視頻的清晰度，達到全方位提升視頻編輯效率和觀感體驗。據悉，TCIR模型已在去噪、增強、去模糊等多個任務領域達到SOTA結果，并在AIM2022壓縮圖像超分競賽中，以大幅度領先優勢取得冠軍。

目前，VIMER-TCIR多任務大模型也已經在老電影修復等場景實現落地，大幅提升了效率，每天單機可修復視頻28.5萬幀，解決了絕大部分畫面的修復問題。

整體來看，一系列AIGC生產工具的出現，大幅度提高了音視頻等內容創作者的工作效率，正如吳華所言，AIGC正讓個體創作者成為真正的“獨立”制作人。

科技新聞傳播、科技知識普及 - 中國科技新聞網
關注微信公眾號（kjxw001）及微博（中國科技新聞網）

微信公眾號

微博

AIGC爆火，想象力幾何？百度吳華：讓個體創作者成為“獨立”制作人

免責聲明