国产精品亚洲一区二区z-国产精品亚洲一区二区三区-国产精品亚洲一区二区三区喷水-国产精品亚洲一区二区三区在线-国产精品亚洲一区二区无码-国产精品亚洲一区二区在线观看

多模態視頻理解模型新標桿!微軟黃學東團隊發布 i-Code

放大字體  縮小字體 發布日期:2022-05-11     來源:雷鋒網     瀏覽次數:1404
核心提示:真正的類人智能要考慮來自各種信號和感覺器官的信息。智能系統應該是綜合的,引入來自所有可用模式的信號。在許多實際的數據體系
真正的類人智能要考慮來自各種信號和感覺器官的信息。智能系統應該是綜合的,引入來自所有可用模式的信號。在許多實際的數據體系中,我們可以利用視覺(V)、語言(L)和語音/音頻(S)模態的數據。目前,研究者們在建立理解單模態、雙模太的模型方面取得了巨大的進展,然而將這些工作推廣到能夠同時解譯視覺、語言、語音的三模態系統上仍然是一項艱巨的任務。
圖像
三模態訓練需要大量的三模態數據(例如,帶文字描述的視頻),而此類數據的規模往往比可用的單模態或雙模態數據小好幾個數量級。例如,目前最大的帶標注的視頻數據集由 1.8 億段視頻組成,而最大的圖像描述數據集則包含高達 9 億個圖文對。

為了解決該問題,本文提出了兩種解決方案。首先,除了三模態視頻,我們還利用了大規模的雙模態數據,例如:帶有文本描述的圖像(V+L)、帶有轉寫文本的語音(S+L)和視頻描述(V+S)。這極大地擴展了模型輸入數據的規模和多樣性,同時涵蓋了全部三種目標模式。其次,我們提出了一種融合架構,可以采用研究社區提出的最先進的單模態編碼器的上下文輸出,而非從頭開始構建一個獨立的模型。

本文提出了「i-Code」,其中 i 代表集成多模態學習。我們開發了一個有效的融合模塊,該模塊集成了單模態編碼器的輸出,進行跨模態理解,從而獲得最終的預測結果。為了設計最佳的融合架構,我們試驗了多種 Transformer 架構內的自注意機制的變體,包括交叉和合并不同模態的注意力得分的機制。

接著,我們使用各種自監督目標利用雙模態和三模態數據對 i-Code 進行預訓練。這些目標包括:(1)掩碼單元建模。其中所有輸入信號都被轉換為離散的詞例(Token),旨在預測各模態下的被遮蔽的單元的正確詞例。(2)對比學習。給定兩種輸入模態,模型預測給定的信號是否來自訓練數據中的同一個三元組(或數據對)。

我們在多個多模態對比基準上徹底評估了 i-Code。實驗結果證明了所提出的多模態預訓練框架的有效性。對 i-Code 進行微調,相較目前最先進,我們可以在 6 個多模態數據集和 GLUE NLP 基準測試中的算法獲得 11% 的性能提升。 
工博士工業品商城聲明:凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網站贊同其觀點,也不代表本網站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與商城(m.xyent.cn)聯系,本網站將迅速給您回應并做處理。
聯系電話:021-31666777
新聞、技術文章投稿QQ:3267146135  投稿郵箱:[email protected]
主站蜘蛛池模板: 欧美xxxxx性| 国产精品成人免费视频99 | 午夜视频网 | 高潮毛片又色又爽免费 | 丝袜美腿中文字幕 | 久久综合香蕉国产蜜臀av | 免费国产黄网站在线观看视频 | 精品一区二区成人精品 | 人人爽人人澡人人人人妻 | 国产白袜脚足j棉袜在线观看 | 亚洲欧美视频一区二区三区 | 亚洲精品久久久中文字幕 | 午夜影皖 | 国产精品a免费一区久久电影 | 少妇无套内谢久久久久 | 97一本大道波多野吉衣 | 久久久久亚洲av成人片乱码 | 日韩伊人网 | 很黄很色的小视频在线网站 | 日韩中文字幕免费在线观看 | 成人免费的性色视频 | 老熟妇仑乱一区二区视頻 | 蜜芽亚洲av无码一区二区三区 | 成年免费视频网站入口 | 久草香蕉在线视频 | 国产成人无码AA片免费看 | 亚婷婷洲AV久久蜜臀无码 | 欧洲精品视频完整版在线 | 久久人人爽人人爽人人片av高清 | 久久精品国产久精国产果冻传媒 | 欧美老妇与禽交 | 爆乳熟妇一区二区三区霸乳 | 亚洲国产精品日韩在线 | 激情航班h版在线观看 | 久久草网 | 国产最新视频 | 国产精品女人呻吟在线观看 | 精品国产午夜肉伦伦影院 | 国产精品麻豆欧美日韩ww | 久久91精品国产91久久小草 | 国产人妻久久精品二区三区特黄 |