中國科技新聞網1月6日訊(楊晶佳) 過去一年,AIGC(即人工智能自主生成內容)迎來爆發元年,從繪畫到建模、從寫作文到敲代碼,各類AIGC工具紛紛涌現,用戶只需輸入關鍵詞就能在幾分鐘甚至幾秒鐘內得到一幅精美畫作、一篇翔實論文,水平驚人。
眼看傳統內容生產模式即將被顛覆,不少打工人似乎也迎來職業危機,例如2022年8月,由AI繪圖軟件創作的《太空歌劇院》拿下美國科羅拉多州新興數字藝術家競賽一等獎,此后,有關AIGC工具是否會跟人類“搶飯碗”的相關爭議層出不窮。
百度技術委員會主席 吳華
圍繞上述爭議,1月5日,在百度“AIGC智能創作新風尚”媒體溝通會上,百度技術委員會主席吳華表示,其實AI技術革新會對行業發展起到正向促進作用,比如攝影技術的出現曾對傳統繪畫行業產生沖擊,機器翻譯誕生時也曾引發是否會替代人工翻譯的討論,但實際上,攝影技術本身后來發展成了一個新的藝術方向,而人工翻譯則在機器的幫助下提高了效率。
據介紹,目前百度已經推出了文心ERNIE 3.0 Zeus、ERNIE-ViLG 2.0等大模型,基于此,創作者將能夠更加輕松、高效、快樂地創作,甚至一個人就可以完成編劇、美術創作及后期剪輯等內容創作全流程工作,成為天才創作者。
此外,據吳華透露,在1月10日即將召開的 2022百度Create大會上,百度還將推出更多的AIGC工具產品并對相關技術進行講解。
“大模型的進步,讓我們在文字、圖像、視頻等創作領域全面感受到了AI技術的魅力。如果你掌握了這項內容創作能力,那你幾乎可以完成一部影片的許多重要工作,成為天才鬼才創作者。再配上自己設計的虛擬人演員,那你就可以成為一個真正的‘獨立’制作人、真正的‘獨立導演’。”吳華表示。
ERNIE 3.0 Zeus,會寫故事的“天才編劇”
2022年以來,隨著谷歌、百度、Meta、微軟等國內外企業先后推出自己的AI繪畫模型或者平臺,AIGC這一新型內容創作形式,獲得了越來越多的關注。因此,2022年也被看做是AIGC發展的元年。
在此前的發言中,百度創始人、董事長兼首席執行官李彥宏也曾指出,“過去一年間,人工智能無論是在技術層面還是在商業應用層面,都有了巨大的進展,有些甚至是方向性的改變。”而在諸多被提及的方向性改變中,AIGC成為了被重點提及的對象。
2022年5月,百度發布了融合任務相關知識的千億大模型ERNIE 3.0 Zeus。該模型能夠從豐富多樣的無標注數據中學習,同時在學習過程中融入知識圖譜指導模型學習世界知識和語言知識,進而提升學習的效率。此外,該模型還能從摘要、對聯、翻譯、分類、閱讀理解等百余種不同形式的任務中學習知識,通過對通用知識和專門知識的學習來提升模型泛化能力,使得ERNIE 3.0 Zeus能夠做到多種語言理解和生成任務,成為名副其實的“通才”。
例如,輸入一篇論文,ERNIE 3.0 Zeus可以立刻自動生成摘要;輸入一個題目,它可以瞬間寫出上百篇作文,而且作文還可以結合語境,寫出不同的風格,甚至是諸如詩歌、小說等不同的體裁內容。
同樣的,ERNIE 3.0 Zeus也會寫劇本。吳華指出,事實上有很多電視劇的劇本并不是由一位編劇單獨完成的,而是由一位總編劇制定總綱,再制定每一集的大概內容,再交給多位編劇分別寫每集的具體對話、詳細故事。因此,如果一個人能編制一部電視劇的總綱,他便可以把每一集的要求交給ERNIE 3.0 Zeus生成故事,然后再經過合并整理最終寫出整部劇。
吳華指出,文心 ERNIE 3.0 系列模型已經在幾十類自然語言理解和生成公開權威任務,以及零樣本、小樣本學習任務上處于世界領先水平。此外,它還發布了業界首個開放的千億參數中文生成API,供各行各業開發者到文心大模型官網上調用、學習。
從“插畫”到生成“視頻”,AIGC讓創作更高效
在編劇的工作完成后,場景和畫面的美術創作,以及視頻內容的產出和后期剪輯,是影視創作中必不可少的關鍵環節。而借助百度文心ERNIE-ViLG 2.0以及VIMER-TCIR等模型工具,創作者可以逐步完成他想要實現的目標。
2022年10月,百度發布了業界首個知識增強的AI作畫大模型 ERNIE-ViLG 2.0。它能根據一句話或者一段描述文本,生成一幅精美的畫作。吳華介紹指出,為提高文本生成圖像的準確性,百度在AI預訓練學習過程中創新性地提出了知識增強的擴散模型,實現了精準的細粒度語義控制;同時通過引入混合降噪專家網絡,對圖像生成不同階段對模型、計算性能要求的不同,使用不同網絡進行了針對性地建模和優化,進而提升了圖像生成的質量。
吳華指出,在實際應用場景下,只需要輸入一段文字,ERNIE-ViLG就可以快速理解這段文字所表達的含義和場景,然后根據這個理解,幾十秒內就可以生成媲美人類作畫水平的圖像,而且可以同時生成數百張風格各異的畫作,比如寫實、意象、中國風、二次元等等。它甚至可以生成現實世界中沒有創造性的圖像,比如穿西裝的齊天大圣、街邊擼串兒的熊貓,讓人們天馬行空的想象力得到精準的可視化呈現。
在權威公開數據集 MS-COCO 上,目前ERNIE-ViLG 2.0已經刷新 SOTA 效果,性能遠遠超過了國際上的同類技術;而在圖文相關性和圖像保真度兩個維度的人工評估上,ERNIE-ViLG 2.0 相對 DALL-E 2 和 Stable Diffusion 同樣取得了較大的優勢。
由于人類眼睛的特殊生理結構,如果所看畫面的幀率高于60Hz時,就會認為是連貫的,這也造就了早期電影膠片是一格一格拍攝出來,然后再快速播放的情況。而AI生成的圖像,在經過幀率的調控之后,也將進一步生成視頻。
據吳華介紹,在視覺內容生成方面,百度在文生圖擴散模型的基礎上加入時序建模,使得模型能根據文本或者圖像生成新的視頻。創作者可以根據用戶提供的一段描述文本,或者一幅圖像,自動地生成高清、流暢的視頻。
此外,通過百度研發的VIMER-TCIR多任務大模型,還可以實現對生成視頻的修復和編輯,通過畫質提升、邊緣銳化等方式增強視頻的清晰度,達到全方位提升視頻編輯效率和觀感體驗。據悉,TCIR模型已在去噪、增強、去模糊等多個任務領域達到SOTA結果,并在AIM2022壓縮圖像超分競賽中,以大幅度領先優勢取得冠軍。
目前,VIMER-TCIR多任務大模型也已經在老電影修復等場景實現落地,大幅提升了效率,每天單機可修復視頻28.5萬幀,解決了絕大部分畫面的修復問題。
整體來看,一系列AIGC生產工具的出現,大幅度提高了音視頻等內容創作者的工作效率,正如吳華所言,AIGC正讓個體創作者成為真正的“獨立”制作人。
關注微信公眾號(kjxw001)及微博(中國科技新聞網)

