国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

EEPW首頁 > 博客 > 阿里達(dá)摩院獲KDD 2022最佳論文,國內(nèi)企業(yè)首次獲獎(jiǎng)

阿里達(dá)摩院獲KDD 2022最佳論文,國內(nèi)企業(yè)首次獲獎(jiǎng)

發(fā)布人:機(jī)器之心 時(shí)間:2022-08-20 來源:工程師 發(fā)布文章

8 月 18 日,全球數(shù)據(jù)挖掘領(lǐng)域頂級(jí)會(huì)議 KDD 2022 大獎(jiǎng)公布,阿里巴巴達(dá)摩院團(tuán)隊(duì)斬獲應(yīng)用科學(xué)方向“最佳論文獎(jiǎng)”,這是中國企業(yè)首次獲得該重磅獎(jiǎng)項(xiàng)。

圖片


KDD(ACM SIGKDD)是數(shù)據(jù)挖掘領(lǐng)域歷史最悠久、規(guī)模最大的國際頂級(jí)學(xué)術(shù)會(huì)議,也是全球錄取率最低的計(jì)算機(jī)頂會(huì)之一,在知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘、人工智能等領(lǐng)域具有重大影響力。KDD 組委會(huì)對(duì)達(dá)摩院獲獎(jiǎng)的聯(lián)邦圖學(xué)習(xí)開源工作 FederatedScope-GNN 給予充分肯定,評(píng)語提到,該工作“推動(dòng)了聯(lián)邦圖學(xué)習(xí)技術(shù)的發(fā)展,并樹立了優(yōu)秀平臺(tái)工作的榜樣”。

圖片


KDD會(huì)議分為研究和應(yīng)用科學(xué)兩個(gè)方向,本年度共收到2448篇投稿,僅接受449篇。包括阿里巴巴、華為、騰訊、百度等多家中國科技企業(yè)均有論文被收錄,其中阿里巴巴今年共34篇論文入選,是全球入選論文數(shù)量最多的企業(yè)之一,同時(shí)阿里巴巴獨(dú)立獲得了大會(huì)應(yīng)用科學(xué)方向唯一的“最佳論文獎(jiǎng)”。歷年榮摘桂冠的包括來自谷歌、亞馬遜、卡內(nèi)基梅隆大學(xué)等海外知名機(jī)構(gòu)的研究團(tuán)隊(duì),國內(nèi)企業(yè)此前從未獲得該獎(jiǎng)。


阿里巴巴達(dá)摩院獲獎(jiǎng)?wù)撐摹?/span>FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》聚焦聯(lián)邦學(xué)習(xí)中應(yīng)用廣泛且技術(shù)復(fù)雜的聯(lián)邦圖學(xué)習(xí)方向,針對(duì)現(xiàn)有框架及算法庫對(duì)圖數(shù)據(jù)支持有限的情況,提出了包含豐富數(shù)據(jù)集及創(chuàng)新算法的易用平臺(tái),為該領(lǐng)域后續(xù)研究奠定堅(jiān)實(shí)基礎(chǔ)。 

圖片

論文鏈接:https://arxiv.org/pdf/2204.05562.pdf

今年以來,阿里巴巴達(dá)摩院在全球頂級(jí)學(xué)術(shù)會(huì)議上多次榮獲大獎(jiǎng),目前已斬獲 KDD 最佳論文、ACL 杰出論文、CVPR 最佳學(xué)生論文等獎(jiǎng)項(xiàng)。
值得注意的是,今年 5 月份,阿里巴巴達(dá)摩院發(fā)布新型聯(lián)邦學(xué)習(xí)框架 FederatedScope,通過事件驅(qū)動(dòng)的編程范式構(gòu)建聯(lián)邦學(xué)習(xí),大幅降低了相關(guān)技術(shù)的開發(fā)部署難度。本次 KDD 獲獎(jiǎng)工作即為該開源項(xiàng)目的一部分,其關(guān)注的對(duì)象是具有復(fù)雜鏈接關(guān)系的圖數(shù)據(jù)類型,在科學(xué)探索、知識(shí)表示、互聯(lián)網(wǎng)、金融等科研及工業(yè)領(lǐng)域均有廣闊應(yīng)用需求。 

圖片


以下為達(dá)摩院作者團(tuán)隊(duì)對(duì) FederatedScope-GNN 工作的詳細(xì)解讀:
聯(lián)邦圖學(xué)習(xí)在社交、金融、科研等領(lǐng)域前景廣闊
圖(graph)是一種用于描述對(duì)象間關(guān)系的數(shù)據(jù)類型,在現(xiàn)實(shí)生活中無處不在。例如在互聯(lián)網(wǎng)領(lǐng)域,微博等社交網(wǎng)絡(luò)將每個(gè)用戶賬號(hào)視為節(jié)點(diǎn)(node/vertex),根據(jù)好友關(guān)系給節(jié)點(diǎn)連邊(edge);在金融領(lǐng)域,****將每個(gè)賬戶視為一個(gè)節(jié)點(diǎn),將轉(zhuǎn)賬關(guān)系視為節(jié)點(diǎn)間的邊,即兩個(gè)節(jié)點(diǎn)間有邊表示對(duì)應(yīng)的兩個(gè)賬戶間發(fā)生過轉(zhuǎn)賬;在自然科學(xué)領(lǐng)域,科學(xué)家有時(shí)候?qū)⒎肿用枋鰹橐粋€(gè)圖,其中節(jié)點(diǎn)象征原子,邊象征原子間的化學(xué)鍵;在知識(shí)表示領(lǐng)域,人們習(xí)慣于將實(shí)體表示為節(jié)點(diǎn),兩個(gè)實(shí)體間存在關(guān)聯(lián)關(guān)系則對(duì)其建立連邊。
根據(jù)場景不同,圖上的任務(wù)往往分為節(jié)點(diǎn)級(jí)別(node-level)、連接級(jí)別(link-level)和圖級(jí)別(graph-level)。例如****在反洗錢任務(wù)中需要預(yù)測每個(gè)賬戶是否是風(fēng)險(xiǎn)賬戶,即進(jìn)行節(jié)點(diǎn)分類,這是一個(gè)典型的節(jié)點(diǎn)級(jí)別的任務(wù);社交網(wǎng)絡(luò)中的好友推薦,是預(yù)測兩個(gè)節(jié)點(diǎn)之間是否存在連邊,所以是連接級(jí)別的任務(wù);而分子屬性預(yù)測中,目標(biāo)是預(yù)測每個(gè)分子圖的某種屬性,所以是圖級(jí)別的任務(wù)。
在圖數(shù)據(jù)上的各種任務(wù)中,近年來興起的圖神經(jīng)網(wǎng)絡(luò)(graph neural networks)得到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注并取得了顯著的成功。這些成功一方面得益于圖神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表示能力與泛化能力,同時(shí)也受益于上述各類現(xiàn)實(shí)場景中圖數(shù)據(jù)的收集與積累。作為一種數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法,更充足的圖數(shù)據(jù)往往能引導(dǎo)圖神經(jīng)網(wǎng)絡(luò)得到更優(yōu)秀的性能。
因此,各個(gè)機(jī)構(gòu)往往具有強(qiáng)烈的意愿去基于各方的圖數(shù)據(jù)共同訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)。例如,若干****共同訓(xùn)練反洗錢模型往往能得到分類準(zhǔn)確率更高的圖神經(jīng)網(wǎng)絡(luò)(如圖一所示);多個(gè)研究機(jī)構(gòu)希望能融合各自擁有的知識(shí)圖譜來更準(zhǔn)確地補(bǔ)全缺失的知識(shí);多家****企已經(jīng)開始嘗試基于大家各自擁有的分子標(biāo)注聯(lián)合訓(xùn)練用于新****發(fā)現(xiàn)的圖神經(jīng)網(wǎng)絡(luò)。  

圖片

圖一:****反洗錢場景
然而,考慮到數(shù)據(jù)隱私保護(hù)和商業(yè)競爭等因素,機(jī)構(gòu)之間不能直接把原始的數(shù)據(jù)集中起來進(jìn)行模型訓(xùn)練。如何在符合監(jiān)管要求,即嚴(yán)格保護(hù)各方數(shù)據(jù)隱私的前提下進(jìn)行合作,共同訓(xùn)練圖神經(jīng)網(wǎng)絡(luò),成為了研究和應(yīng)用的焦點(diǎn)。聯(lián)邦圖學(xué)習(xí)給出了一種可行的解法,即在 “數(shù)據(jù)可用而不可見” 的設(shè)定下,各方圖數(shù)據(jù)不出域而只交互模型參數(shù)等信息來進(jìn)行合作式的模型訓(xùn)練。
現(xiàn)有聯(lián)邦學(xué)習(xí)框架及算法庫對(duì)圖數(shù)據(jù)支持有限
近年來,在全社會(huì)對(duì)隱私保護(hù)日益重視的背景下,聯(lián)邦學(xué)習(xí)的研究和應(yīng)用得到了長足發(fā)展。這一進(jìn)步在很大程度上得益于聯(lián)邦學(xué)習(xí)框架(framework)及算法庫(package)的支持。這類基礎(chǔ)設(shè)施和開箱即用的模塊使得研究人員能夠?qū)W⒂诶碚摵退惴ǖ膭?chuàng)新而不需要過度關(guān)心實(shí)現(xiàn)的細(xì)節(jié),同時(shí)使得工程師能高效開發(fā)、仿真、部署,大大加快了聯(lián)邦學(xué)習(xí)在現(xiàn)實(shí)應(yīng)用中的落地。具有代表性的聯(lián)邦學(xué)習(xí)框架包括 Google 公司的 TensorFlow Federated (TFF)、微眾****的 FATE 等。
當(dāng)前,這類框架對(duì)聯(lián)邦學(xué)習(xí)中各個(gè)參與方的通信、計(jì)算圖的描述和拆分調(diào)度、模型的部署與推理等一般性的基礎(chǔ)設(shè)施均有完整豐富的支持。但是,現(xiàn)有聯(lián)邦學(xué)習(xí)相關(guān)的框架和庫對(duì)圖聯(lián)邦的支持相對(duì)有限,框架中提供的現(xiàn)成圖數(shù)據(jù)集、圖神經(jīng)網(wǎng)絡(luò)架構(gòu)、專門針對(duì)圖學(xué)習(xí)設(shè)計(jì)的聯(lián)邦學(xué)習(xí)算法等也還不夠全面,難以基于這些已有工作去建立聯(lián)邦圖學(xué)習(xí)的基準(zhǔn)。這導(dǎo)致當(dāng)前流行的若干聯(lián)邦優(yōu)化算法工作和廣泛采用的基準(zhǔn),如 LEAF,更多地關(guān)注視覺和自然語言領(lǐng)域的基準(zhǔn),但是尚缺少對(duì)圖神經(jīng)網(wǎng)絡(luò)在圖數(shù)據(jù)上的性能評(píng)估。
而且,針對(duì)圖數(shù)據(jù)的聯(lián)邦學(xué)習(xí)算法有別于常規(guī)算法簡單的聚合行為,對(duì)算法實(shí)現(xiàn)提出了更多要求。一方面是參與者間交換的數(shù)據(jù)更多種多樣,比如近期發(fā)表的 FedSage + 算法需要在參與者間交換節(jié)點(diǎn)的嵌入式表示以及一個(gè)關(guān)于鄰居特征的生成模型。同時(shí),更多樣的信息交換導(dǎo)致各個(gè)參與者需要有更豐富的行為去處理收到的信息,例如 GCFL + 算法中 server 需要?jiǎng)討B(tài)地對(duì)收集到的梯度進(jìn)行聚類操作?,F(xiàn)有框架大多以中心化的視角,讓開發(fā)者以聲明式的編程范式描述計(jì)算圖來表達(dá)算法流程。這種方式雖然適用于實(shí)現(xiàn)常規(guī)的聯(lián)邦學(xué)習(xí)算法(例如 FedAvg),卻對(duì)實(shí)現(xiàn)上述聯(lián)邦圖學(xué)習(xí)算法帶來了較高的開發(fā)門檻。
在這個(gè)背景下,學(xué)術(shù)界和工業(yè)界都對(duì)一款功能全面且對(duì)實(shí)現(xiàn)聯(lián)邦圖學(xué)習(xí)算法友好的框架具有強(qiáng)烈需求。
FederatedScope-GNN:為聯(lián)邦圖學(xué)習(xí)建立豐富基準(zhǔn)
為了更好地滿足上述需求,阿里巴巴達(dá)摩院智能計(jì)算實(shí)驗(yàn)室提出并基于聯(lián)邦學(xué)習(xí)框架 FederatedScope 實(shí)現(xiàn)了針對(duì)圖學(xué)習(xí)的庫 FederatedScope-GNN,并以此工作形成了本次獲獎(jiǎng)?wù)撐摹禙ederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》。
FederatedScope-GNN 針對(duì)圖學(xué)習(xí)提供了 DataZoo 和 ModelZoo,分別為用戶提供了豐富多樣的聯(lián)邦圖數(shù)據(jù)集和相應(yīng)的模型與算法。DataZoo 既包含若干新引入的數(shù)據(jù)集,也實(shí)現(xiàn)了大量不同類型的 splitters,用于通過單機(jī)圖數(shù)據(jù)集來構(gòu)造聯(lián)邦圖數(shù)據(jù)集。DataZoo 提供的大量數(shù)據(jù)集涵蓋了不同領(lǐng)域、不同任務(wù)類型、不同統(tǒng)計(jì)異質(zhì)性的聯(lián)邦圖數(shù)據(jù),大大方便了使用者對(duì)所關(guān)注算法進(jìn)行全面的評(píng)估。
ModelZoo 提供了豐富的圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),既包含傳統(tǒng)的 GCN、GIN、GAT、GraphSage 等架構(gòu),也提供了最新的 GPRGNN 等拆分了特征變換與消息傳播的架構(gòu)。同時(shí),ModelZoo 也包含了像 FedSage + 和 GCFL + 這樣最新的聯(lián)邦圖學(xué)習(xí)算法的實(shí)現(xiàn)。其中,得益于底層框架事件驅(qū)動(dòng)(event-driven)的編程范式,參與者間多樣的消息交換和參與者豐富的行為得以模塊化地進(jìn)行拆分實(shí)現(xiàn)(如圖二所示)。ModelZoo 給研究人員復(fù)現(xiàn)相關(guān)工作以及建立新的基準(zhǔn)帶來了更多便利。 

圖片

圖二:基于事件驅(qū)動(dòng)的底層框架 FederatedScope 來實(shí)現(xiàn)聯(lián)邦圖學(xué)習(xí)算法 FedSage+。
與此同時(shí),針對(duì)聯(lián)邦圖學(xué)習(xí)對(duì)超參數(shù)敏感的現(xiàn)象,F(xiàn)ederatedScope-GNN 還實(shí)現(xiàn)了模型調(diào)優(yōu) (model tuning) 相關(guān)的模塊,包括多保真度的 Successive Halving Algorithm 和新近提出的聯(lián)邦超參優(yōu)化算法 FedEx,以及針對(duì)聯(lián)邦異質(zhì)任務(wù)的個(gè)性化(如圖三所示,各個(gè)參與者被允許使用獨(dú)立的特有神經(jīng)架構(gòu)而只聚合學(xué)習(xí)共享部分)。考慮到諸如 FedSage + 這類聯(lián)邦圖學(xué)習(xí)算法交換節(jié)點(diǎn)嵌入式表示等信息的特點(diǎn),F(xiàn)ederatedScope-GNN 提供了豐富的隱私評(píng)估算法對(duì)算法在隱私保護(hù)方面的能力進(jìn)行檢驗(yàn)。 

圖片

圖三:一個(gè)個(gè)性化圖神經(jīng)網(wǎng)絡(luò)的示例,其中各參與方僅共享模型的一部分參數(shù)。
基于上述功能和特性,該獲獎(jiǎng)?wù)撐慕⒘巳尕S富的關(guān)于聯(lián)邦圖學(xué)習(xí)的基準(zhǔn),包含不同圖上任務(wù)、不同圖神經(jīng)網(wǎng)絡(luò)架構(gòu)、不同的聯(lián)邦優(yōu)化算法等,為該領(lǐng)域后續(xù)的研究奠定了堅(jiān)實(shí)基礎(chǔ)。同時(shí),關(guān)于聯(lián)邦設(shè)定下對(duì)圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練進(jìn)行超參優(yōu)化的實(shí)驗(yàn),展示了對(duì)不同保真度維度進(jìn)行權(quán)衡的潛在優(yōu)勢;關(guān)于個(gè)性化的實(shí)驗(yàn),展示了應(yīng)對(duì)各參與方同配度差異的有效性。
聯(lián)邦學(xué)習(xí)下圖數(shù)據(jù)補(bǔ)全值得關(guān)注
FederatedScope-GNN 給相關(guān)領(lǐng)域的研究和應(yīng)用帶來了極大的便利,其對(duì)應(yīng)論文的獲獎(jiǎng)不僅反映了各位相關(guān)專家學(xué)者對(duì)這一工作的肯定,同時(shí)也體現(xiàn)了學(xué)界對(duì)聯(lián)邦圖學(xué)習(xí)領(lǐng)域未來長足發(fā)展的期冀。
一個(gè)值得指出且被廣泛注意的研究方向是在保護(hù)好各參與方隱私的前提下,關(guān)注各參與方如何對(duì)其圖數(shù)據(jù)進(jìn)行補(bǔ)全,使得圖神經(jīng)網(wǎng)絡(luò)能基于完整圖結(jié)構(gòu)進(jìn)行消息傳播。FederatedScope-GNN 所提供的功能和特性將支持研究與開發(fā)人員開展更多的相關(guān)研究、落地更多的實(shí)際應(yīng)用。
論文作者簡介
第一作者
王楨,阿里巴巴達(dá)摩院智能計(jì)算實(shí)驗(yàn)室算法專家。2017 年博士畢業(yè)于中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院,讀博期間以一作身份發(fā)表知識(shí)圖譜補(bǔ)全算法 TransH,單篇引用量超 2500 次。畢業(yè)后加入阿里巴巴,曾任阿里云高級(jí)算法工程師,專注于強(qiáng)化學(xué)習(xí)方向。在達(dá)摩院工作期間,致力于聯(lián)邦圖學(xué)習(xí)等領(lǐng)域前沿研究,多次在 KDD Cup 比賽中取得高排名成績,發(fā)表多篇國際頂級(jí)會(huì)議論文,并作為核心設(shè)計(jì)與開發(fā)人員參與開源 FederatedScope 平臺(tái)。

圖片


通訊作者
李雅亮,阿里巴巴達(dá)摩院智能計(jì)算實(shí)驗(yàn)室高級(jí)算法專家,2017 年于紐約州立大學(xué)布法羅分校計(jì)算機(jī)科學(xué)與工程系取得博士學(xué)位。研究領(lǐng)域包括數(shù)據(jù)融合、因果推斷、自動(dòng)機(jī)器學(xué)習(xí)、隱私計(jì)算,研究成果發(fā)表于 KDD、ACL、SIGIR、NeurIPS、WWW、TKDE 等多個(gè)領(lǐng)域的頂尖國際會(huì)議與期刊。他擔(dān)任了 NeurIPS'21、NeurIPS'22、AAAI'22 的領(lǐng)域主席,在 IJCAI 和 NeurIPS 上三次組織 workshop,在 CIKM'22 上組織了 AnalytiCup 比賽,并在 KDD、AAAI 上多次做了 Tutorial。

圖片


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉