尤物视频网站_国产精品成人在亚洲_国产成人亚洲综合无码不卡精品_丁香五月香婷婷五月_亚洲成AV人片高潮喷水

您的位置:首頁 >智能 >

全球最大語義評(píng)測(cè)比賽SemEval2020今天結(jié)果出爐

2020-04-07 13:42:46    來源:北國網(wǎng)

這兩天,全球規(guī)模最大的語義評(píng)測(cè)比賽 SemEval 2020 結(jié)果出爐,百度基于飛槳平臺(tái)自研的語義理解框架 ERNIE 一舉斬獲5項(xiàng)世界冠軍,囊括視覺媒體的關(guān)鍵文本片段挖掘、多語攻擊性語言檢測(cè)和混合語種的情感分析。

SemEval是全球范圍規(guī)模最大、參賽人數(shù)最多的權(quán)威語義評(píng)測(cè)競(jìng)賽,由國際計(jì)算語言學(xué)協(xié)會(huì)(Association for Computational Linguistics, ACL)的 SIGLEX 主辦。自2001年起,SemEval已成功舉辦十四屆,在業(yè)界和學(xué)術(shù)界具有極高影響力。此次SemEval和自然語言處理領(lǐng)域的頂級(jí)會(huì)議COLING聯(lián)合舉辦。

ERNIE是此次五項(xiàng)世界冠軍背后的“趁手利器”。去年,ERNIE先后完成兩版重大升級(jí)。ERNIE 1.0提出知識(shí)增強(qiáng)的語義表示模型,而ERNIE 2.0則構(gòu)建了持續(xù)學(xué)習(xí)語義理解框架,在中英文16個(gè)任務(wù)上超越業(yè)界最好模型。此后,ERNIE模型再次改進(jìn),以歷史上首次超越90大關(guān)的成績(jī)登頂自然語言處理領(lǐng)域最權(quán)威的GLUE評(píng)測(cè)榜單。本次比賽,ERNIE再度創(chuàng)新,再立戰(zhàn)功,奪得五項(xiàng)世界冠軍。

讓AI更懂“輕重”:視覺媒體的關(guān)鍵文本片段挖掘

該任務(wù)由美國休斯頓大學(xué)、Adobe美國研究院聯(lián)合舉辦,旨在自動(dòng)挖掘海報(bào)、廣告、傳單等視覺媒體中文本的關(guān)鍵片段,對(duì)其進(jìn)行重點(diǎn)設(shè)計(jì),提升宣傳效果。由于人們對(duì)于同一文本重要內(nèi)容的判斷不一致,在沒有唯一標(biāo)準(zhǔn)的情況下,該任務(wù)存在極大的難度。

百度ERNIE團(tuán)隊(duì)采用多種技術(shù)手段解決這個(gè)難題:首先ERNIE模型作為語義信息提取模塊,對(duì)各片段重要性進(jìn)行建模;然后針對(duì)關(guān)鍵片段標(biāo)準(zhǔn)不統(tǒng)一的問題,設(shè)計(jì)了更貼近目標(biāo)的5 Label的Pairwise損失函數(shù);最后從數(shù)據(jù)出發(fā)構(gòu)造了多種針對(duì)性的語義特征以及數(shù)據(jù)增強(qiáng)策略,最終以5項(xiàng)指標(biāo)全部­第一的成績(jī)獲得冠軍。

比賽中,主辦方Adobe希望將賽題的解決方案應(yīng)用于Adobe Spark,賦予其海報(bào)自動(dòng)設(shè)計(jì)能力,以達(dá)到更好的宣傳效果。如下圖所示的“ERNIE”、“輕重”的黑白效果就是自動(dòng)挑選的結(jié)果。百度ERNIE團(tuán)隊(duì)采用ERNIE讓AI更懂文字的“輕重”,釋放廣大視覺設(shè)計(jì)者的勞動(dòng)力,使其能夠更專注于對(duì)核心內(nèi)容的設(shè)計(jì)。此外,該項(xiàng)技術(shù)已應(yīng)用于百度搜索,能夠動(dòng)態(tài)分析出用戶查詢內(nèi)容中的重要片段,使其返回更精準(zhǔn)的搜索結(jié)果,讓百度更懂您。

讓世界更有“AI”:多語攻擊性語言檢測(cè)

該任務(wù)由多個(gè)國家的研究機(jī)構(gòu)聯(lián)合舉辦。其中包括了英國劍橋大學(xué)、美國IBM研究院、以及來自德國、丹麥、卡塔爾的多所著名大學(xué)和研究院。該任務(wù)包含了三個(gè)子任務(wù):

第一個(gè)子任務(wù)是在對(duì)英語、丹麥語、希臘語、阿拉伯語和土耳其語等包含五種語言的社交媒體進(jìn)行攻擊性檢測(cè)。百度ERNIE團(tuán)隊(duì)構(gòu)建了大規(guī)模的多語預(yù)訓(xùn)練模型,充分挖掘海量的多語無監(jiān)督文本,用相同的模型來學(xué)習(xí)所有語種的語義表示,使模型具備跨語言的理解和分析能力。同時(shí),采用Multi-lingual Fine-tuning的方法,利用其他語言的知識(shí)輔助建模,最終以五項(xiàng)語言平均分第一名的成績(jī)?nèi)〉霉谲姟?/p>

另外兩個(gè)任務(wù)是在英語環(huán)境中對(duì)攻擊性語言的類型和目標(biāo)分別進(jìn)行更加精細(xì)化的分析。百度ERNIE團(tuán)隊(duì)通過數(shù)據(jù)蒸餾的技術(shù),從更多無監(jiān)督的網(wǎng)絡(luò)文本中學(xué)習(xí)多種模型的Soft Label,分別以F1超過第二名1.0%和4.4%的絕對(duì)優(yōu)勢(shì)取得了冠軍。

隨著網(wǎng)民人數(shù)的不斷增加,網(wǎng)民態(tài)度立場(chǎng)不同、文化水平及道德素質(zhì)參差不齊的狀況便擺在我們面前。網(wǎng)絡(luò)暴力和網(wǎng)絡(luò)人身攻擊現(xiàn)象由此而生。政府、社交網(wǎng)站、搜索引擎、興趣社區(qū)都在大力研究如何檢測(cè)出社交媒體攻擊性行為,幫助人們構(gòu)建一個(gè)更加和諧友愛的網(wǎng)絡(luò)環(huán)境。百度的研究者也希望通過這一技術(shù),能夠讓世界充滿“AI”,少一些偏見。

讓AI更有情感:混合語種的情感分析

該任務(wù)的主辦方包括谷歌研究院、美國休斯敦大學(xué)以及印度的多所高校等。在比賽中,主辦方搜集了源于社交網(wǎng)絡(luò)的語料片段,測(cè)試參賽者對(duì)于相關(guān)語料片段的情感分析能力。這些語料中都包含一種特殊的語言現(xiàn)象:語碼混用——即一段語料中同時(shí)混有多種語言。主辦方致力于探索時(shí)下的 AI 技術(shù)對(duì)于這一類新問題的解決能力。

不同于傳統(tǒng)的情感分析,隨著互聯(lián)網(wǎng)上的內(nèi)容越來越豐富,夾雜著不同語種的內(nèi)容不斷產(chǎn)生。這些內(nèi)容中可能混合著中文、英文等多種語言。針對(duì)此類文本內(nèi)容,傳統(tǒng)的基于單語語料的情感分類模型已經(jīng)無法發(fā)揮作用。針對(duì)此問題,百度的研究者首先利用ERNIE進(jìn)行Zero-Shot情感分類。為了充分利用多語種語料的信息,還引入了基于對(duì)抗學(xué)習(xí)的多語種模型,進(jìn)一步提升了多語種情感分析的效果。最終在印度語/英語混合任務(wù)上以F1值超過第二名 1.9% 的絕對(duì)優(yōu)勢(shì)獲得第一。

隨著AI技術(shù)日新月異的發(fā)展,已經(jīng)逐漸的走進(jìn)千家萬戶。在解決日常生活需求之余,讓AI可以更通情達(dá)理、更知性,并感知用戶的喜怒哀樂、提供貼心的服務(wù),也是一個(gè)有溫度的AI應(yīng)該達(dá)成的目標(biāo)。百度始終希望通過AI讓復(fù)雜的世界有更多的貼心。

百度ERNIE團(tuán)隊(duì)在SemEval 2020取得五項(xiàng)世界冠軍并非偶然,這得益于團(tuán)隊(duì)在語義理解領(lǐng)域的深厚積累。目前,ERNIE語義理解技術(shù)已廣泛地應(yīng)用于百度內(nèi)外多個(gè)產(chǎn)品和技術(shù)場(chǎng)景,在百度搜索、小度音箱、信息流推薦等一系列產(chǎn)品應(yīng)用中發(fā)揮了重要作用,大幅提升了產(chǎn)品的技術(shù)效果和用戶體驗(yàn),逐步賦能各行各業(yè)。

賦予機(jī)器“認(rèn)知”能力,是人工智能中最具挑戰(zhàn)的問題。自然語言處理是認(rèn)知智能中的重要領(lǐng)域。深入理解語言,讓機(jī)器具備人類的思考和理解能力意義重大。百度在自然語言處理領(lǐng)域已有二十年的積累與沉淀,具備了最前沿、最全面、最領(lǐng)先的技術(shù)布局,不僅專注于前瞻技術(shù)探索,更致力通過技術(shù)應(yīng)用解決實(shí)際問題。(一鳴)

關(guān)鍵詞: 語義評(píng)測(cè)比賽

相關(guān)閱讀