QQ在線(xiàn)客服

AI頂會(huì),正在使用AI來(lái)審閱AI論文

2021-04-02 14:42 來(lái)源: 站長(zhǎng)資源平臺(tái) 編輯: 佚名 瀏覽(5381)人   

編者按:本文來(lái)自微信公眾號(hào)“機(jī)器之心”(ID:almosthuman2014),編輯:蛋醬、澤南,36氪經(jīng)授權(quán)發(fā)布。

近年來(lái)我們?cè)趫?bào)道 AI 頂會(huì)的文章里不斷聽(tīng)到「史上最大」、「論文數(shù)量新高」等字眼,論文的審核儼然成了一項(xiàng)挑戰(zhàn)。但既然是在研究 AI,為什么不讓機(jī)器來(lái)自動(dòng)解決問(wèn)題?

人工智能頂會(huì) NeurIPS 2019 的現(xiàn)場(chǎng),曾被人吐槽像跨年夜的百貨商場(chǎng)。

對(duì)于大多數(shù)科學(xué)領(lǐng)域來(lái)說(shuō),期刊是同行評(píng)審和論文發(fā)表的主陣地,編輯們會(huì)根據(jù)專(zhuān)業(yè)判斷將論文分配給合適的審稿人。但在計(jì)算機(jī)科學(xué)領(lǐng)域,尋找審稿人的過(guò)程通常是匆匆忙忙的:大多數(shù)論文是一次性提交給年度大會(huì),組織者需要在僅僅一周的時(shí)間內(nèi)將成千上萬(wàn)的論文分配給成千上萬(wàn)的審稿人。

這樣的節(jié)奏是非常緊張的,在過(guò)去的五年內(nèi),大型 AI 會(huì)議的投稿量增長(zhǎng)了三倍不止,也給大會(huì)主辦機(jī)構(gòu)帶來(lái)了不小的壓力。舉個(gè)例子,人工智能領(lǐng)域最大規(guī)模的定會(huì) NeurIPS 2020 收到了 9000 多份有效投稿,比上一年增長(zhǎng)了 40%。組織者不得不將 3 萬(wàn)多個(gè)審稿任務(wù)分派給約 7000 位審稿人。NeurIPS 2020 大會(huì)主席 Marc’Aurelio Ranzato 表示:「這非常累,壓力很大。」

大概也是「近水樓臺(tái)先得月」,AI 頂會(huì)的審稿工作得到了 AI 的協(xié)助。首先,主辦方使用了 Toronto Paper Matching System (TPMS),在此之前 TPMS 也被應(yīng)用于其他多個(gè)會(huì)議的投遞論文分配工作,它通過(guò)對(duì)比投稿論文和審稿人研究工作之間的文本,來(lái)計(jì)算投稿與審稿人專(zhuān)業(yè)知識(shí)之間的相關(guān)性。這個(gè)篩選過(guò)程是匹配系統(tǒng)中的一部分,期間審稿人也可以主動(dòng)爭(zhēng)取自己希望審閱的論文。

TPMS 架構(gòu),該系統(tǒng)可通過(guò)會(huì)議管理系統(tǒng)在線(xiàn)使用。

同時(shí)還有方法更加優(yōu)化的 AI 軟件:論文審閱平臺(tái) OpenReview 開(kāi)發(fā)了一種「親和力評(píng)測(cè)」系統(tǒng),借助了神經(jīng)網(wǎng)絡(luò)「Spectre」來(lái)分析論文標(biāo)題和摘要。OpenReview 和麻省大學(xué)阿默斯特分校的計(jì)算機(jī)科學(xué)家 Melisa Bok 和 Haw-Shiuan Chang 表示,包括 NeurIPS 在內(nèi)的一些計(jì)算機(jī)科學(xué)大會(huì)將在今年把親和力評(píng)測(cè)系統(tǒng)與 TPMS 結(jié)合使用。

AI 會(huì)議的組織者希望通過(guò)提高匹配質(zhì)量來(lái)推動(dòng)同行評(píng)審和出版論文的質(zhì)量。2014 年的一項(xiàng)研究表明這仍有進(jìn)步空間,作為測(cè)試,當(dāng)年 NeurIPS 中 10% 的投稿論文分別有兩組審稿人審閱,在一組中被全部接收,另一組僅接收了 57%。影響到結(jié)果的因素可能有很多,但可以確定的是,對(duì)于具體某一篇論文來(lái)說(shuō),至少某一個(gè)小組是缺乏評(píng)估的專(zhuān)業(yè)知識(shí)的。

為了提升匹配質(zhì)量,CMU 的計(jì)算機(jī)科學(xué)家 Ivan Stelmakh 開(kāi)發(fā)了一種名為「 PeerReview4All」的算法,通常匹配系統(tǒng)會(huì)最大程度地提升論文和審稿人之間的平均親和力,但有可能出現(xiàn)「厚此薄彼」的現(xiàn)象。PeerReview4All 旨在最大程度地提升最差匹配的質(zhì)量,注重增加該過(guò)程的公平性。

Ivan Stelmakh 在去年的 ICML 大會(huì)使用了 PeerReview4All 進(jìn)行試驗(yàn),并在今年的 AAAI 大會(huì)上介紹了這一結(jié)果。他表示,該方法在不損害平均匹配質(zhì)量的情況下顯著提高了公平性。

具體結(jié)論可以參考 Ivan Stelmakh 所寫(xiě)的這篇 2 頁(yè)論文:https://www.aaai.org/AAAI21Papers/DC-169.StelmakhI.pdf

OpenReview 也已經(jīng)開(kāi)始提供一種旨在提高公平性的系統(tǒng),稱(chēng)為「FairFlow」。根據(jù) NeurIPS 2021 Call for Papers 頁(yè)面,今年的 NeurIPS 將使用 OpenReview 進(jìn)行審稿工作。雅虎計(jì)算機(jī)科學(xué)家、NeurIPS 2021 高級(jí)程序主席 Alina Beygelzimer 表示,NeurIPS 今年將至少?lài)L試上述中的一種匹配方法。

這些系統(tǒng)的作用都是將一組已知的論文與一組已知的審稿人進(jìn)行匹配,但還有另外一個(gè)問(wèn)題:隨著 AI 領(lǐng)域的不斷發(fā)展,頂會(huì)還需要招募、評(píng)估、培訓(xùn)新的審稿人。針對(duì)此,Ivan Stelmakh 正在進(jìn)行一項(xiàng)最新實(shí)驗(yàn),探索一種不依賴(lài) AI 來(lái)減輕這些任務(wù)負(fù)擔(dān)的方法。

他們?cè)谌ツ甑?ICML 上,邀請(qǐng)了一些學(xué)生和剛剛畢業(yè)的人去審閱從同事那里收集的未發(fā)表論文(134 篇)。隨后團(tuán)隊(duì)邀請(qǐng)了 52 位成員加入審稿人團(tuán)體,并為他們分配了一位資深研究人員擔(dān)任導(dǎo)師。最終這些新手審稿人的工作成果還不錯(cuò),與那些經(jīng)驗(yàn)豐富的審稿人相差無(wú)幾。借此 Ivan Stelmakh 證明了:主辦方可以在不增加負(fù)擔(dān)的情況下擴(kuò)招數(shù)百名審稿人,「且這些候選審稿人極具熱情」。

使用親和力來(lái)評(píng)估審稿人專(zhuān)業(yè)知識(shí)的匹配系統(tǒng)也可以讓身高人們對(duì)評(píng)審一篇論文進(jìn)行「招標(biāo)」,最近的一些工作試圖解決這種方法中的潛在偏見(jiàn)。我們有時(shí)會(huì)聽(tīng)到選論文的審核者只選擇朋友的論文,這實(shí)際上是在破解算法。

今年 2 月,康奈爾大學(xué)、Facebook 一篇發(fā)在 arXiv 上的論文《Making Paper Reviewing Robust to Bid Manipulation Attacks 》描述了使用機(jī)器學(xué)習(xí)來(lái)過(guò)濾可疑論文審核競(jìng)標(biāo)的過(guò)濾方法。在模擬數(shù)據(jù)集上,即使?jié)撛谧鞅渍咧老到y(tǒng)的運(yùn)行方式,它也可以減少操縱,而不會(huì)降低評(píng)審質(zhì)量。去年在 NeurIPS 上的另一種算法《Mitigating Manipulation in Peer Review via Randomized Reviewer Assignments》實(shí)質(zhì)上是對(duì)在專(zhuān)業(yè)領(lǐng)域以外的論文進(jìn)行投標(biāo)的人進(jìn)行懲罰。

研究人員通過(guò)結(jié)合模擬競(jìng)價(jià)和上次會(huì)議的真實(shí)數(shù)據(jù)證明了其方法在減少操縱方面的有效性。

這些工具面臨的問(wèn)題是——你很難評(píng)估它們?cè)趯?shí)際使用過(guò)程中是不是真的優(yōu)于其他方法。蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)家 Laurent Charlin 表示,要想掌握確鑿的證據(jù)需要進(jìn)行對(duì)照試驗(yàn),但現(xiàn)在沒(méi)有任何試驗(yàn)。其中一部分原因是因?yàn)槠渲性S多工具都是新的。

十年前開(kāi)發(fā) TPMS 工具的親和性測(cè)量工具的 Charlin 表示,隨著這些技術(shù)的發(fā)展,類(lèi)似的方法可能會(huì)在某一天開(kāi)始幫助計(jì)算機(jī)科學(xué)領(lǐng)域以外的同行審閱者。但是到目前為止,這種方法的應(yīng)有范圍還很有限。

美國(guó)科學(xué)促進(jìn)會(huì) AAAS(《Science》等雜志的主辦方)發(fā)言人梅根 · 費(fèi)倫(Meagan Phelan)表示 AAAS 在分配同行審閱者時(shí)沒(méi)有使用 AI。

「但在人工智能領(lǐng)域里,」Charlin 說(shuō)道,「作為一個(gè)具有一定自動(dòng)化程度水平的領(lǐng)域。我們沒(méi)有理由不使用自己的工具。」

參考內(nèi)容:

https://www.sciencemag.org/news/2021/04/ai-conferences-use-ai-assign-papers-reviewers

【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ,我們將及時(shí)溝通與處理。 本站內(nèi)容除了2898站長(zhǎng)資源平臺(tái)( m.stoptheftofyouridentity.com )原創(chuàng)外,其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容,涉及言論、版權(quán)與本站無(wú)關(guān)。