亚洲国产日韩人妖另类,久久只有这里有精品热久久,依依成人精品视频在线观看,免费国产午夜视频在线

      
      

        微博為何讓人上癮?幕后推薦算法解密

        微博為何讓人上癮?幕后推薦算法解密

        編輯:Aeneas 好困

        【新智元導(dǎo)讀】大事件時(shí)常引「爆」熱搜,微博服務(wù)器為啥挺得???微博到處都是我的「互聯(lián)網(wǎng)嘴替」,為何推薦內(nèi)容如此深得我心?

        2021年7月13日,勞累了一天的年輕人們,正準(zhǔn)備躺平拿出手機(jī),打開(kāi)那熟悉的小破站App,一鍵三連自己最喜愛(ài)的up主的最新視頻。

        結(jié)果突然發(fā)現(xiàn),自己的眼前一黑:

        時(shí)隔一年,B站終于揭曉了這其中的奧秘:一個(gè)「詭計(jì)多端的0」。

        不過(guò),你有沒(méi)有想過(guò),即便是經(jīng)歷著用戶的瘋狂涌入,為啥這個(gè)微博,它沒(méi)崩呢?

        AI和微博有啥關(guān)系?

        在揭開(kāi)這個(gè)謎底之前,還需要從人工智能的發(fā)展說(shuō)起。

        7月27日,由中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)指導(dǎo)、微博和新浪新聞主辦的「融合生態(tài) 價(jià)值共創(chuàng)」2022新智者大會(huì)順利召開(kāi)。

        在「智驅(qū)萬(wàn)物:AI推動(dòng)萬(wàn)物互聯(lián)的加速到來(lái)」議題中,微博COO、新浪移動(dòng)CEO、新浪AI媒體研究院院長(zhǎng)王巍發(fā)表了題為《云為數(shù)智 技術(shù)融合應(yīng)用 賦能微博復(fù)雜業(yè)務(wù)場(chǎng)景》的主題演講。

        王巍表示,如果我們回顧機(jī)器學(xué)習(xí)的發(fā)展歷程,可以看出AI的總體發(fā)展趨勢(shì)是:訓(xùn)練數(shù)據(jù)的海量化及多樣化,AI模型的復(fù)雜化及通用化,算力的高效化及規(guī)模化。

        第一,是多模態(tài)數(shù)據(jù)融合。

        隨著5G的快速發(fā)展,圖片、視頻類(lèi)型模態(tài)內(nèi)容在網(wǎng)絡(luò)內(nèi)容中占比越來(lái)越高,所以進(jìn)行模態(tài)融合非常必要。

        對(duì)于微博來(lái)說(shuō),如果能同時(shí)對(duì)文本、圖片、視頻進(jìn)行多模態(tài)融合,也就可以更好理解這條微博所講的內(nèi)容了。

        第二,是超大規(guī)模圖計(jì)算。

        相對(duì)其他機(jī)器學(xué)習(xí)模型,超大規(guī)模圖計(jì)算有個(gè)特殊的優(yōu)勢(shì):通過(guò)信息在網(wǎng)絡(luò)中的傳遞,促進(jìn)信息的流動(dòng)、匯聚與集成。

        比如對(duì)于行為少的冷啟動(dòng)用戶,我們可以通過(guò)他關(guān)注列表中的人,以及這些人發(fā)布的內(nèi)容,通過(guò)信息傳播來(lái)推導(dǎo)這個(gè)用戶的興趣。

        第三,是AI研發(fā)的啞鈴模式。

        目前的AI研發(fā)重點(diǎn),一個(gè)是越來(lái)越大的超級(jí)大模型,一個(gè)是模型小型化技術(shù)。

        我們都知道,目前隨著模型參數(shù)規(guī)模越來(lái)越大,模型效果越來(lái)越好,高精度模型仍然在持續(xù)增大,比如2018年Google的Bert剛出來(lái)的時(shí)候,模型參數(shù)規(guī)模是3億,不算太大,但是之后這個(gè)數(shù)字一直在飛速增長(zhǎng)。

        OpenAI研發(fā)的GPT-2模型,參數(shù)規(guī)模15億,GPT-3模型,參數(shù)規(guī)模1750億,而到了2021年Google發(fā)布的Switch Transformer,參數(shù)規(guī)模已經(jīng)達(dá)到了1.6萬(wàn)億。

        另一方面,雖然說(shuō)模型越大效果越好,但是因?yàn)槟P瓦^(guò)大,有時(shí)會(huì)導(dǎo)致無(wú)法讓實(shí)際應(yīng)用落地。所以研發(fā)的另外一個(gè)重點(diǎn),是將這些大模型小型化、輕量化,比如模型蒸餾、模型剪枝等技術(shù)。

        第四,是AI模型從專(zhuān)用模型走向通用模型。

        谷歌在2021年下半年公開(kāi)了Pathways模型框架,首先提出了這一構(gòu)想,希望通過(guò)構(gòu)造一個(gè)通用的大模型,達(dá)到「一個(gè)模型做千萬(wàn)件事」的目標(biāo)。

        具體的思路是,不同任務(wù)數(shù)據(jù)輸入后,通過(guò)路由算法,選擇神經(jīng)網(wǎng)絡(luò)的部分路徑,到達(dá)模型輸出層。不同任務(wù)既有參數(shù)共享,也有任務(wù)獨(dú)有的模型參數(shù)。

        10億節(jié)點(diǎn)+100億邊的超大規(guī)模圖

        為何講了這么半天機(jī)器學(xué)習(xí)?因?yàn)榻酉聛?lái)要登場(chǎng)的,就是「微博特色推薦系統(tǒng)」了。

        眾所周知,作為國(guó)內(nèi)最大的社交媒體網(wǎng)絡(luò),微博目前的月活用戶已經(jīng)達(dá)到5.82億了!這樣大的用戶規(guī)模,必然會(huì)讓微博上的網(wǎng)絡(luò)環(huán)境十分復(fù)雜。

        再加上內(nèi)容時(shí)效性強(qiáng)、多樣性高,現(xiàn)在的網(wǎng)絡(luò)大事都會(huì)第一時(shí)間在微博上引爆。

        另外,微博面臨的場(chǎng)景還很多元化,需要在關(guān)系流、熱點(diǎn)流、視頻流等眾多場(chǎng)景中給用戶分發(fā)他們感興趣的「千人千面」的內(nèi)容。

        我可以沒(méi)有手指,但不能沒(méi)有手機(jī)

        面對(duì)復(fù)雜的業(yè)務(wù)場(chǎng)景,微博是怎樣通過(guò)AI和大數(shù)據(jù),做出能隨機(jī)應(yīng)變的推薦系統(tǒng)的呢?

        王巍向我們介紹說(shuō),微博推薦系統(tǒng)整體由三部分構(gòu)成:內(nèi)容理解、用戶理解,以及推薦系統(tǒng)。

        首先,是內(nèi)容理解。

        如果要想搞明白一個(gè)微博到底在說(shuō)什么,僅僅理解文本內(nèi)容是不夠的,必須采用多模態(tài)理解技術(shù),融合博文、圖片、視頻等多種媒體信息。

        為此,微博訓(xùn)練了自己的微博多模態(tài)預(yù)訓(xùn)練模型,通過(guò)「對(duì)比學(xué)習(xí)」,用這種自監(jiān)督學(xué)習(xí)方法,來(lái)進(jìn)行多模態(tài)預(yù)訓(xùn)練。

        下圖的這例子就展示了微博是怎樣利用自帶的「話題」來(lái)自動(dòng)構(gòu)造訓(xùn)練數(shù)據(jù)的。

        比如,我們把兩個(gè)都寫(xiě)著「訓(xùn)練中的拉什福德」的微博當(dāng)作正例,隨機(jī)選擇一些不同話題的微博作為負(fù)例,這樣就能自動(dòng)構(gòu)造訓(xùn)練數(shù)據(jù)。

        對(duì)于某條微博,其中的文本內(nèi)容通過(guò)Bert編碼,圖像和視頻內(nèi)容通過(guò)ViT編碼,然后通過(guò)fusion子網(wǎng)絡(luò)進(jìn)行信息融合,形成微博的embedding編碼。這就是一種預(yù)訓(xùn)練過(guò)程。

        經(jīng)過(guò)預(yù)訓(xùn)練,學(xué)好的微博編碼器可以拿來(lái)對(duì)新的微博內(nèi)容進(jìn)行多模態(tài)編碼,形成embedding,應(yīng)用在推薦等下游任務(wù)中。

        其次,在用戶理解方面,微博采取了超大規(guī)模圖計(jì)算,來(lái)更好地理解用戶的閱讀興趣。畢竟微博自帶社交媒體屬性,天然地就和大規(guī)模圖計(jì)算非常匹配。

        利用用戶和博文作為圖中的節(jié)點(diǎn),以用戶間的關(guān)注關(guān)系、用戶和博文的閱讀及轉(zhuǎn)評(píng)贊等互動(dòng)行為構(gòu)造圖中的邊,微博建立起了包含10億規(guī)模節(jié)點(diǎn)、100億規(guī)模邊的超大規(guī)模圖。

        通過(guò)大規(guī)模圖計(jì)算中的信息傳播、匯聚和集成,形成表征用戶興趣的embedding向量,可以更好地理解用戶興趣。

        如此一來(lái),也就可以同時(shí)搞定用戶之間的關(guān)注關(guān)系、用戶和博文的轉(zhuǎn)評(píng)贊等等的互動(dòng)行為了。

        在理解了用戶在講什么、理解了微博用戶的興趣之后,微博推薦系統(tǒng)就會(huì)將高質(zhì)量的微博,個(gè)性化地分發(fā)給感興趣的用戶。

        那么,如何在這種復(fù)雜場(chǎng)景下構(gòu)造高效率的推薦系統(tǒng)呢?

        微博采取的是采取了多場(chǎng)景建模的方式。最理想的情況是,只構(gòu)建一個(gè)推薦模型,用它來(lái)服務(wù)多個(gè)場(chǎng)景。

        那么如何表示場(chǎng)景間的共性和個(gè)性呢?可以通過(guò)網(wǎng)絡(luò)參數(shù)在場(chǎng)景間共享,或者場(chǎng)景自己獨(dú)享私有網(wǎng)絡(luò)參數(shù),來(lái)體現(xiàn)場(chǎng)景的共性與個(gè)性。

        比如這張模型圖,在模型的底層特征輸入層,以及網(wǎng)絡(luò)中間的一部分「專(zhuān)家子網(wǎng)絡(luò)」,這些網(wǎng)絡(luò)參數(shù)是各個(gè)場(chǎng)景共享的;而其他子網(wǎng)絡(luò)參數(shù)則是某個(gè)場(chǎng)景所獨(dú)有的

        通過(guò)這種方式,就能夠通過(guò)一個(gè)模型服務(wù)多個(gè)場(chǎng)景,節(jié)省模型資源。

        唐山事件:流量暴漲一倍怎么辦?

        現(xiàn)在,說(shuō)回到最初的那個(gè)「懸念」上來(lái)。

        對(duì)于微博來(lái)說(shuō),這個(gè)保不齊什么時(shí)候就會(huì)「炸」的熱點(diǎn),一直以來(lái)都是非常大的挑戰(zhàn)。

        比如,最近全民關(guān)注的「唐山事件」,事件當(dāng)天的熱點(diǎn)流量,比日常流量峰值翻了整整一倍。

        對(duì)此王巍表示,微博在很早就應(yīng)用了微服務(wù)+Docker容器化技術(shù),不僅提升服務(wù)運(yùn)維的效率,而且還實(shí)現(xiàn)了服務(wù)動(dòng)態(tài)擴(kuò)縮容能力。當(dāng)前,微博已經(jīng)具備了10分鐘調(diào)度超過(guò)一萬(wàn)臺(tái)的擴(kuò)容能力,可以有足夠的服務(wù)器來(lái)應(yīng)對(duì)熱點(diǎn)流量。

        此外,微博還建立了熱點(diǎn)監(jiān)測(cè)機(jī)制和熱點(diǎn)聯(lián)動(dòng)體系,并通過(guò)微博自研的Weibo Mesh技術(shù),實(shí)現(xiàn)不同服務(wù)間跨語(yǔ)言的高效調(diào)用,提升整體服務(wù)的性能,和聯(lián)動(dòng)擴(kuò)容效率。

        最后,微博采用了在離線實(shí)時(shí)混合部署技術(shù)。利用CPU實(shí)時(shí)搶占式調(diào)度技術(shù)與容器化技術(shù)相結(jié)合,實(shí)現(xiàn)微博服務(wù)在離線實(shí)時(shí)混合部署能力。

        綜合了上面這些操作之后,在有熱點(diǎn)流量來(lái)襲時(shí),就可以秒級(jí)承接核心服務(wù)的熱點(diǎn)流量了。

        最后,讓我們?cè)賮?lái)回顧下互聯(lián)網(wǎng)的發(fā)展歷程。

        如果說(shuō)PC互聯(lián)網(wǎng)是網(wǎng)絡(luò)世界的開(kāi)端,那么移動(dòng)互聯(lián)網(wǎng)的興起則讓我們將這無(wú)形的信息空間裝進(jìn)了口袋。隨著大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)與移動(dòng)互聯(lián)網(wǎng)的疊加融合,我們進(jìn)入了智能信息時(shí)代。

        而現(xiàn)在,最火的話題就要數(shù)元宇宙了。從去年開(kāi)始,元宇宙就引發(fā)了廣泛的討論,比如數(shù)字孿生、數(shù)字人、XR、區(qū)塊鏈技術(shù)等。

        王巍認(rèn)為,目前基于AI、區(qū)塊鏈、XR等前沿技術(shù)的應(yīng)用場(chǎng)景,已經(jīng)體現(xiàn)了一些元宇宙的雛形。諸如游戲、社交等領(lǐng)域,都是元宇宙非常好的應(yīng)用場(chǎng)景,會(huì)引爆大家參與元宇宙的熱情。

        「新智者Talk」來(lái)襲!

        就在今天下午,我們即將迎來(lái)「新智者Talk」圓桌論壇!

        元宇宙時(shí)代,我們?cè)撊绾闻c數(shù)量龐大的虛擬人相處?在論壇上,新智元楊靜、騰訊云蔡弋戈、商湯科技欒青、英偉達(dá)何展、奧丁科技張玥,與你一起暢聊元宇宙未來(lái)與數(shù)字新人類(lèi)。

        「2022新智者大會(huì)」開(kāi)啟,微博、新浪新聞聯(lián)合主辦,新智元戰(zhàn)略合作:2022年7月27日本周三已上線,快來(lái)預(yù)約直播啦!

        鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場(chǎng),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。
        上一篇 2022年7月29日 12:10
        下一篇 2022年7月29日 12:11

        相關(guān)推薦

        聯(lián)系我們

        聯(lián)系郵箱:admin#wlmqw.com
        工作時(shí)間:周一至周五,10:30-18:30,節(jié)假日休息