免费看无码一级A片在线播放,日本尤物视频在线观看,xxxx国产,在线日韩日本国产亚洲,97超级碰碰碰免费视频公开,亚洲a成人,99久久国产综合精品女,国产奶头好大揉着好爽视频

報(bào)告服務(wù)熱線400-068-7188

2025年中國(guó)多模態(tài)大模型行業(yè)核心技術(shù)現(xiàn)狀 關(guān)鍵在表征、翻譯、對(duì)齊、融合、協(xié)同技術(shù)【組圖】

分享到:
20 劉海晶 ? 2025-06-03 13:00:34  來(lái)源:前瞻產(chǎn)業(yè)研究院 E11041G0

行業(yè)主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);騰訊(00700.HK, TCEHY);科大訊飛(002230.SZ);萬(wàn)興科技(300624.SZ);三六零(601360.SH);昆侖萬(wàn)維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等

多模態(tài)大模型的核心技術(shù)-表征

表征學(xué)習(xí)是多模態(tài)任務(wù)的基礎(chǔ),其中包含了一些開(kāi)放性問(wèn)題,例如:如何結(jié)合來(lái)源不同的異質(zhì)數(shù)據(jù),如何處理不同模態(tài)的不同噪聲等級(jí),測(cè)試樣本的某種模態(tài)缺失怎么辦。相較于多模態(tài),基于單模態(tài)的表征學(xué)習(xí)已被廣泛且深入地研究。在Transformer出現(xiàn)之前,不同模態(tài)所適用的最佳表征學(xué)習(xí)模型不同,例如,CNN廣泛適用CV領(lǐng)域,LSTM占領(lǐng)NLP領(lǐng)域。較多的多模態(tài)工作仍舊局限在使用N個(gè)異質(zhì)網(wǎng)絡(luò)單獨(dú)提取N個(gè)模態(tài)的特征,之后采用Joint或Coordinated結(jié)構(gòu)進(jìn)行訓(xùn)練。不過(guò)這種思路在很快改變,隨著越來(lái)越多工作證實(shí)Transformer在CV和NLP以及Speech領(lǐng)域都可以獲得極佳的性能,僅使用Transformer統(tǒng)一多個(gè)模態(tài)、甚至多個(gè)跨模態(tài)任務(wù)成為可能。基于Transformer的多模態(tài)預(yù)訓(xùn)練模型在2019年后噴涌而出。

圖表1:多模態(tài)大模型表征的聯(lián)合表示法和坐標(biāo)表示法

注:聯(lián)合和協(xié)調(diào)表示的結(jié)構(gòu)。點(diǎn)表示使用所有模態(tài)作為輸入投射到相同的空間,另一方面,協(xié)調(diào)表示存在于自己的空間中,但通過(guò)相似性(例如歐幾里得距離)或結(jié)構(gòu)約束(例如偏序)進(jìn)行協(xié)調(diào)。

多模態(tài)大模型的核心技術(shù)-翻譯

跨模態(tài)翻譯的目的是學(xué)習(xí)如何將源模態(tài)映射(map)到目標(biāo)模態(tài)。例如:輸入一張圖像,我們希望生成一句話描述它,或者輸入一句話,我們生成與之匹配的一張圖。

基于語(yǔ)法模版,即人為設(shè)定多個(gè)針對(duì)目標(biāo)模態(tài)的語(yǔ)法模版,將模型的預(yù)測(cè)結(jié)果插入模版中作為翻譯結(jié)果。以圖像描述為例,模版定義為who did what to whom in a place,其中有四個(gè)待替換的插槽。通過(guò)不同類(lèi)型的目標(biāo)/屬性/場(chǎng)景檢測(cè)器可以獲得who, what, whom, place等具體單詞,進(jìn)而完成翻譯。

編碼-解碼器(encoder-decoder):首先將源模態(tài)的數(shù)據(jù)編碼為隱特征,后續(xù)被解碼器用于生成目標(biāo)模態(tài)。以圖像描述為例,編碼器(一般為CNN+spatial pooling)將圖像編碼為一個(gè)或多個(gè)特征向量,進(jìn)而輸入到RNN中以自回歸的方式生成單詞序列。

連續(xù)性生成(continuous generation):它針對(duì)源模態(tài)與目標(biāo)模態(tài)都為流數(shù)據(jù)且在時(shí)間上嚴(yán)格對(duì)齊的任務(wù)。以文本合成語(yǔ)音為例,它與圖像描述不同,語(yǔ)音數(shù)據(jù)與文本數(shù)據(jù)在時(shí)間上嚴(yán)格對(duì)齊。WaveNet采用了CNN并行預(yù)測(cè)+CTC loss解決該類(lèi)問(wèn)題。當(dāng)然,編碼-解碼器理論上也可完成該任務(wù),但需處理數(shù)據(jù)對(duì)齊問(wèn)題。

圖表2:多模態(tài)大模型表征的文本翻譯

多模態(tài)大模型的核心技術(shù)-對(duì)齊

對(duì)齊是多模態(tài)學(xué)習(xí)中的一個(gè)關(guān)鍵環(huán)節(jié),它涉及如何在不同的數(shù)據(jù)模態(tài)之間發(fā)現(xiàn)和建立對(duì)應(yīng)關(guān)系。通過(guò)對(duì)齊,多模態(tài)模型能夠?qū)W習(xí)到不同模態(tài)之間的相互表示,從而增強(qiáng)對(duì)復(fù)雜場(chǎng)景的理解能力。跨模態(tài)對(duì)齊目的是挖掘多模態(tài)數(shù)據(jù)的子元素之間的關(guān)聯(lián)性,例如visual grounding任務(wù)。在學(xué)習(xí)表征或翻譯時(shí)也可能隱式地學(xué)習(xí)對(duì)齊。

顯式對(duì)齊:此處對(duì)實(shí)例具有兩個(gè)或更多子組件的對(duì)齊進(jìn)行分類(lèi)。如何衡量相似性在顯式對(duì)齊中很重要。用于設(shè)計(jì)相似性度量的基于學(xué)習(xí)的方法可以分為無(wú)監(jiān)督和監(jiān)督。Unsupervised的大部分內(nèi)容都受到統(tǒng)計(jì)機(jī)器翻譯和基因組測(cè)序等方法的啟發(fā)。一個(gè)典型的例子是動(dòng)態(tài)時(shí)間扭曲(DTW)。使用CCA和高斯混合模型的監(jiān)督方法已經(jīng)被提出,但深度學(xué)習(xí)方法變得更加流行。

隱式對(duì)齊:與顯式對(duì)齊不同,隱式對(duì)齊用作其他任務(wù)中使用的潛在表示。這可用于提高沒(méi)有嚴(yán)格對(duì)齊的任務(wù)的方法的性能,例如VQA或機(jī)器翻譯。方法大致可分為圖模型和神經(jīng)網(wǎng)絡(luò)。圖形模型已用于機(jī)器翻譯和語(yǔ)音現(xiàn)象對(duì)齊。然而,這些方法需要在單詞之間進(jìn)行手動(dòng)映射。神經(jīng)網(wǎng)絡(luò)近年來(lái)得到了廣泛的應(yīng)用,編碼器-解碼器模型可以解決這些傳統(tǒng)的機(jī)器翻譯問(wèn)題。然而,如果不使用隱式對(duì)齊,對(duì)編碼器的要求會(huì)很大(需要熟練地將整個(gè)文檔和圖像轉(zhuǎn)換為潛在表示)。注意力機(jī)制是解決這個(gè)問(wèn)題的一種眾所周知的方法。

多模態(tài)對(duì)齊目前處于其發(fā)展的非常初期階段,主要強(qiáng)調(diào)與人類(lèi)指令的對(duì)齊,但忽略了如美德和社會(huì)規(guī)范等高層次和多樣化的人類(lèi)價(jià)值。確保無(wú)害性提出了一個(gè)重大且不可忽視的挑戰(zhàn)。

圖表3:多模態(tài)大模型表征的對(duì)齊結(jié)構(gòu)

多模態(tài)大模型的核心技術(shù)-融合

融合是將多模態(tài)數(shù)據(jù)或其特征結(jié)合在一起,以便進(jìn)行統(tǒng)一的分析和決策。其核心在于如何有效結(jié)合不同模態(tài)的信息以增強(qiáng)學(xué)習(xí)任務(wù)的性能。融合是一個(gè)使用多種模式的數(shù)據(jù)進(jìn)行預(yù)測(cè)的領(lǐng)域。最古老的多模式學(xué)習(xí)形式之一。優(yōu)點(diǎn)包括能夠通過(guò)使用來(lái)自多種模態(tài)的數(shù)據(jù)進(jìn)行更穩(wěn)健的預(yù)測(cè),以及即使某些模態(tài)的數(shù)據(jù)丟失也能夠進(jìn)行預(yù)測(cè)。應(yīng)用領(lǐng)域廣泛,包括視聽(tīng)語(yǔ)音識(shí)別(AVSR)、情感識(shí)別、醫(yī)學(xué)圖像分析和多媒體事件檢測(cè)。這里,F(xiàn)usion分為模型無(wú)關(guān)的和基于模型的。

早期融合(Early Fusion):在特征層面進(jìn)行融合,將不同模態(tài)的特征早早地合并,以充分利用各模態(tài)的互補(bǔ)信息。

晚期融合(Late Fusion):在決策層面進(jìn)行融合,即在模型輸出后再結(jié)合不同模態(tài)的結(jié)果,這有助于在最終決策時(shí)綜合考慮各模態(tài)的見(jiàn)解。

混合融合(Hybrid Fusion):結(jié)合早期和晚期融合的優(yōu)點(diǎn),可能在多個(gè)層面進(jìn)行特征和決策的結(jié)合,以實(shí)現(xiàn)更靈活的信息整合。

多模態(tài)融合是依賴(lài)于任務(wù)和數(shù)據(jù)的,現(xiàn)有工作中常常是多種融合手段的堆積,并未真正統(tǒng)一的理論支撐。最近,神經(jīng)網(wǎng)絡(luò)已成為處理多模態(tài)融合的一種非常流行的方式,然而圖形模型和多核學(xué)習(xí)仍然被使用,特別是在訓(xùn)練數(shù)據(jù)有限或模型可解釋性很重要的任務(wù)中。

圖表4:多模態(tài)大模型的圖像融合

多模態(tài)大模型的核心技術(shù)-協(xié)同

協(xié)同學(xué)習(xí)是通過(guò)使用另一種模態(tài)(擁有大量數(shù)據(jù))的數(shù)據(jù)來(lái)設(shè)計(jì)一種模態(tài)模型的過(guò)程。在共同學(xué)習(xí)中,來(lái)自另一種模式的數(shù)據(jù)僅在訓(xùn)練期間使用,而不在測(cè)試期間使用。根據(jù)訓(xùn)練時(shí)使用的數(shù)據(jù)資源,協(xié)同學(xué)習(xí)可以分為并行、非并行和混合。

并行學(xué)習(xí):并行數(shù)據(jù)方法需要訓(xùn)練數(shù)據(jù)集,其中來(lái)自一個(gè)模態(tài)的觀察直接與來(lái)自其他模態(tài)的觀察相關(guān)聯(lián)。換句話說(shuō),當(dāng)多模態(tài)觀察來(lái)自相同的實(shí)例時(shí),比如在一個(gè)音視頻語(yǔ)音數(shù)據(jù)集中,視頻和語(yǔ)音樣本來(lái)自同一說(shuō)話者。

非并行協(xié)同學(xué)習(xí):非并行數(shù)據(jù)方法不需要不同模態(tài)觀察之間的直接鏈接。這些方法通常通過(guò)在類(lèi)別方面的重疊來(lái)實(shí)現(xiàn)協(xié)同學(xué)習(xí)。例如,在零樣本學(xué)習(xí)中,常規(guī)的視覺(jué)對(duì)象識(shí)別數(shù)據(jù)集可以通過(guò)擴(kuò)展為包括來(lái)自維基百科的第二個(gè)純文本數(shù)據(jù)集,以提高視覺(jué)對(duì)象識(shí)別的泛化性能。

混合協(xié)同方法:在混合數(shù)據(jù)設(shè)置中,通過(guò)共享模態(tài)或數(shù)據(jù)集來(lái)連接模態(tài)。協(xié)同學(xué)習(xí)中使用的數(shù)據(jù)并行類(lèi)型:并行-模式來(lái)自同一數(shù)據(jù)集,并且實(shí)例之間存在直接對(duì)應(yīng);非并行模式來(lái)自不同的數(shù)據(jù)集,沒(méi)有重疊的實(shí)例,但在一般類(lèi)別或概念上有重疊;混合模式-實(shí)例或概念由第三種模式或數(shù)據(jù)集連接。

多模態(tài)協(xié)同學(xué)習(xí)允許一種模態(tài)影響另一種模態(tài)的訓(xùn)練,利用跨模態(tài)的互補(bǔ)信息。值得注意的是,協(xié)同學(xué)習(xí)是與任務(wù)無(wú)關(guān)的,可以用于創(chuàng)建更好的融合、翻譯和對(duì)齊模型。這一挑戰(zhàn)可以通過(guò)諸如協(xié)同訓(xùn)練、多模態(tài)表示學(xué)習(xí)、概念接地和零樣本學(xué)習(xí)(ZSL)等算法來(lái)解決,并已在視覺(jué)分類(lèi)、動(dòng)作識(shí)別、視聽(tīng)語(yǔ)音識(shí)別和語(yǔ)義相似度估計(jì)等領(lǐng)域得到廣泛應(yīng)用。

圖表5:多模態(tài)大模型表征的并行、非并行和混合協(xié)同方法

更多本行業(yè)研究分析詳見(jiàn)前瞻產(chǎn)業(yè)研究院《全球及中國(guó)多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告

同時(shí)前瞻產(chǎn)業(yè)研究院還提供產(chǎn)業(yè)新賽道研究投資可行性研究產(chǎn)業(yè)規(guī)劃園區(qū)規(guī)劃產(chǎn)業(yè)招商產(chǎn)業(yè)圖譜產(chǎn)業(yè)大數(shù)據(jù)智慧招商系統(tǒng)行業(yè)地位證明IPO咨詢/募投可研專(zhuān)精特新小巨人申報(bào)十五五規(guī)劃等解決方案。如需轉(zhuǎn)載引用本篇文章內(nèi)容,請(qǐng)注明資料來(lái)源(前瞻產(chǎn)業(yè)研究院)。

更多深度行業(yè)分析盡在【前瞻經(jīng)濟(jì)學(xué)人APP】,還可以與500+經(jīng)濟(jì)學(xué)家/資深行業(yè)研究員交流互動(dòng)。更多企業(yè)數(shù)據(jù)、企業(yè)資訊、企業(yè)發(fā)展情況盡在【企查貓APP】,性價(jià)比最高功能最全的企業(yè)查詢平臺(tái)。

前瞻產(chǎn)業(yè)研究院 - 深度報(bào)告 REPORTS

2025-2030年全球及中國(guó)多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告
2025-2030年全球及中國(guó)多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告

本報(bào)告前瞻性、適時(shí)性地對(duì)多模態(tài)大模型行業(yè)的發(fā)展背景、供需情況、市場(chǎng)規(guī)模、競(jìng)爭(zhēng)格局等行業(yè)現(xiàn)狀進(jìn)行分析,并結(jié)合多年來(lái)多模態(tài)大模型行業(yè)發(fā)展軌跡及實(shí)踐經(jīng)驗(yàn),對(duì)多模態(tài)大...

查看詳情

本文來(lái)源前瞻產(chǎn)業(yè)研究院,內(nèi)容僅代表作者個(gè)人觀點(diǎn),本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問(wèn)題,請(qǐng)聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請(qǐng)聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

如在招股說(shuō)明書(shū)、公司年度報(bào)告中引用本篇文章數(shù)據(jù),請(qǐng)聯(lián)系前瞻產(chǎn)業(yè)研究院,聯(lián)系電話:400-068-7188。

p45 q0 我要投稿

分享:

品牌、內(nèi)容合作請(qǐng)點(diǎn)這里:尋求合作 ››

前瞻經(jīng)濟(jì)學(xué)人

專(zhuān)注于中國(guó)各行業(yè)市場(chǎng)分析、未來(lái)發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國(guó)產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者,專(zhuān)業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報(bào)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報(bào)告等領(lǐng)域解決方案,掃一掃關(guān)注。

前瞻數(shù)據(jù)庫(kù)
企查貓
作者 劉海晶
前瞻產(chǎn)業(yè)研究院研究員
3061818
關(guān)注
440
文章
前瞻經(jīng)濟(jì)學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟(jì)學(xué)家互動(dòng)交流讓您成為更懂趨勢(shì)的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢寶)App
×

掃一掃
下載《前瞻經(jīng)濟(jì)學(xué)人》APP提問(wèn)

 
在線咨詢
×
在線咨詢

項(xiàng)目熱線 0755-33015070

AAPP
前瞻經(jīng)濟(jì)學(xué)人APP下載二維碼

下載前瞻經(jīng)濟(jì)學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號(hào)

掃一掃關(guān)注我們

我要投稿

×
J