自然語言處理( Natural Language Processing, NLP)是計算機科學領域與人工智能領域中的一個重要方向,廣泛應用于機器翻譯、輿情監測、觀點提取、語音識別等場景。自然語言處理技術在發展過程當中長 期面臨著包含內容的有效界定、不規范輸入等在內的技術難點。這些都導致了較高的人工參與程度及尚有極大提升空間的機器學習效率。
特斯聯所打造的科創中心致力于通過弱監督大模型訓練體系及聯邦學習安全訓練體系,向不具備AI能力或弱AI能力的用戶提供AI算法孵化服務能力。目 前針對計算機視覺、自然語言處理、推薦預測、知識圖譜四個方向共十三個細分項,特斯聯與學術生態及產業合作伙伴已展開深入合作。在自然語言處理方向,特斯 聯打造了基于對比學習與自監督的NLP自訓練學習算法,通過自監督的預訓練算法、特征表示學習算法,及自訓練系統,解決前述挑戰。
NLP自訓練學習算法:已知反哺未知,提升學習效率
特斯聯核心算法團隊基于數千項目的業務數據,提出了基于自監督的預訓練算法、特征表示學習算法,及自訓練系統,最大限度從領域數據、大量無標簽數據、已有無標簽樣本、已知標簽樣本特征中,挖掘潛在內嵌信息,反哺到未知標簽數據上,減少人工干預,提升學習效率。
基于自監督的預訓練算法
特斯聯通過對自有數千項目生產的數據進行提取,獲得大量無標簽數據,并基于bert模型實行自監督無人工干預的預訓練,讓bert模型深入地學習到領域內知識,從而保證模型得到領域內數據更精確的特征表示。該方法通過三個步驟實現:
步驟1,采用[MASK]。采用基于分詞的n-gram masking技術,1-gram~4gram Masking的概率分別為40%、30%、20%、10%。Mask使用whole word masking方式對分詞后的結果進行。
步驟2,取消[MASK]。通過word2vec計算相似度,召回最相似的詞替代MASK,緩解預訓練任務與下游fine-tune任務的不一致性。基于分詞后的結果隨機挑選15%的詞進行MASK。其中80%同義詞替換,10%隨機詞替換,10%保持不變。
步驟3,添加sentence-order prediction任務。Sentence-order prediction任務預測自監督的兩個句子為正序或逆序,使預訓練模型學習到sentence pair的內在知識。
上述三個步驟之后,算法將所有訓練集和測試集的數據去掉標簽,并結合所有未標注的數據,進入預訓練模型實行自監督預訓練,讓預訓練模型更充分學習到任務數據的內在語義特征,更精準地預測無標簽數據。
特征表示學習算法
特斯聯提出通過一個改進的全局特征相似度,充分挖掘樣本特征內在的聯系和表示,從而構建捕捉樣本間細粒度特征的學習模塊。
如上圖,輸入分別通過4個大模型,每個大模型分別在一塊GPU中,通過master節點分發輸入,最終master節點將4塊GPU中大模型的輸出進行concat,并通過線性層得到最終輸出
特征表示學習算法模型主要采用bert、roberta、macbert,其base和large模型級聯分別對應如圖GPU1、GPU2、 GPU3,得到輸出的embedding特征表示為E1、E2、E3。GPU0部分為bert、roberta、macbert模型級聯,使用fgm對抗 性訓練技術,最終得到輸出embedding特征表示為E0。這里使用stacking的集成學習思想,結合四種特征表示concat (E0,E1,E2,E3),再進入分類器得到模型輸出,讓特征的表示更加豐富,融合各模型知識,以不同的視角去獲得特征表示,以此為后續的任務提供更有 效的支持。
自訓練系統
自訓練系統為一個自監督訓練系統,其流程分為兩個階段:第一階段,采用自監督對比學習技術,充分利用無標簽數據進行自監督訓練,讓模型清晰地表達現 有數據;第二階段,使用少量帶標簽數據對模型微調,讓模型在任務數據上達到較好效果。其中,第一階段分為自監督與半監督兩個步驟:
自監督訓練系統解決了標注數據不足,少標簽數據的問題,可在極少人工干預的情況下,讓不懂AI算法的人員訓練出屬于自己的AI模型。
提升意圖識別效率,特斯聯NLP自訓練學習算法助力AI產業落地
在人機對話系統的實踐中,大量算法需要首先進行用戶的意圖識別,但用戶的許多意圖數據量很少,難以對用戶各個意圖進行大量的數據標注。這在實際的工業落地中是一個極大的挑戰,也是NLP自訓練學習算法可以發揮作用的場景。
特斯聯NLP自訓練學習算法可幫助廠家將此產業難題分解為幾個pipeline式的子問題,逐一解決。廠家可先從對話系統中搜集大量未標注的用戶對 話語料,然后根據特斯聯九章算法賦能平臺提供的指標選擇訓練模型和訓練目標,直接使用無標注的語料開啟預訓練。在開啟預訓練流程后,NLP自訓練學習算法 會自動挖掘用戶各個意圖之間的語義相關聯系和區別,學習界定各個不同意圖的邊界方法,充分捕捉用戶輸入的潛在語義表達。完成預訓練流程后,NLP自訓練學 習算法會自動使用未標注語料,進行自監督的對比學習訓練,進一步學習區分不同用戶輸入和意圖。隨后的下游任務訓練流程,僅需要對用戶對話語料數據進行少量 的標注,配合半監督技術進行下游的微調訓練。待訓練完成后,即可獲得最終的意圖識別模型,幫助滿足諸如人機對話、機器人文本客服、機器人語音客服等實際工 業場景中的需求。
隨著技術的不斷迭代,自然語言識別的能力也已從“讓機器聽得到”發展到了“讓機器聽得懂”的階段,未來突破的方向則是讓機器不僅能夠“聽得懂”還能 “做得到”,這離不開整個產業的共同努力。借由科創中心,特斯聯希望打造流程化、低門檻的AI基礎設施,使各細分領域的玩家可以共同站在當前AI發展的成 果的基礎之上,探索更前沿的創新,使人工智能技術真正高效地參與到產業實踐當中。
關注微信公眾號(kjxw001)及微博(中國科技新聞網)

