全面進(jìn)入AI大模型時(shí)代,安防領(lǐng)域?qū)⒖缭绞缴?jí)
發(fā)布日期:2023-11-16 瀏覽:540
近幾年來(lái),隨著5G、AI、IoT、大數(shù)據(jù)、云計(jì)算等新興技術(shù)與安防行業(yè)的高度融合,讓安防的邊界越來(lái)越模糊,萬(wàn)物互聯(lián)到萬(wàn)物智聯(lián)時(shí)代主旋律下,智慧物聯(lián)(AIoT)打開(kāi)了安防新的市場(chǎng)空間。
隨著安防行業(yè)的快速發(fā)展,傳統(tǒng)的安防方式已經(jīng)逐漸被以視頻為核心的智慧互聯(lián)所取代。這種轉(zhuǎn)變使得下游應(yīng)用呈指數(shù)式增長(zhǎng),同時(shí)也對(duì)AI技術(shù)提出了更高的要求。在AIoT領(lǐng)域,如何將技術(shù)創(chuàng)新與市場(chǎng)需求有效結(jié)合成為了行業(yè)發(fā)展的關(guān)鍵。
在傳統(tǒng)安防時(shí)期,算法的針對(duì)性較強(qiáng),主要依賴于小模型的專用算法。然而,隨著應(yīng)用場(chǎng)景的不斷擴(kuò)大和復(fù)雜化,這種小模型算法已經(jīng)無(wú)法滿足需求。因此,我們需要借助大模型的泛化能力來(lái)推動(dòng)行業(yè)的發(fā)展。
一、AI賦能安防從看得清到看得懂,從傳統(tǒng)安防到智慧物聯(lián) AI賦能安防從“看得清”到“看得懂”,傳統(tǒng)安防逐步轉(zhuǎn)變?yōu)橹悄芪锫?lián)。安防視頻監(jiān)控分為“看得見(jiàn)”、“看得清”、“看得懂”三個(gè)階段。 以中國(guó)為例,在第一階段“看得見(jiàn)”中,主要的驅(qū)動(dòng)力是以視頻作為常見(jiàn)事件的證據(jù)形式,作為安檢偵破的重要線索,目前全國(guó)已經(jīng)基本實(shí)現(xiàn)了主要城市街區(qū)的無(wú)死角監(jiān)控;在第二階段“看得清”中,主要的驅(qū)動(dòng)力為十三五規(guī)劃、十九大報(bào)告、公安部雪亮工程以及《超高清視頻產(chǎn)業(yè)發(fā)展行動(dòng)計(jì)劃》等,高清實(shí)時(shí)編碼SoC芯片成為市場(chǎng)主流助力高清需求實(shí)現(xiàn);在第三階段“看得懂”中,AI的發(fā)展使得安防系統(tǒng)從被動(dòng)的記錄和查看轉(zhuǎn)化為“事前有預(yù)警、事中有處置、事后有分析”,車(chē)牌識(shí)別發(fā)展為車(chē)輛數(shù)據(jù)結(jié)構(gòu)化分析、人臉檢測(cè)發(fā)展到人臉比對(duì)、目標(biāo)全結(jié)構(gòu)化分析、行為處事檢測(cè)分析等新技術(shù)逐步落地,強(qiáng)大算力運(yùn)行AI算法,運(yùn)用海量數(shù)據(jù),使得行業(yè)邊界逐漸模糊,需求也從安全轉(zhuǎn)變?yōu)榻当驹鲂?,傳統(tǒng)安防逐步擴(kuò)大范圍,轉(zhuǎn)向智慧物聯(lián)大行業(yè)。 過(guò)去十幾年,國(guó)內(nèi)安防行業(yè)相繼解決了“看得見(jiàn)”、“看得清”、“看得懂”的問(wèn)題。 尤其在解決“看得懂”的問(wèn)題時(shí),僅通過(guò)視頻手段已無(wú)法實(shí)現(xiàn),安防企業(yè)于是借助物聯(lián)網(wǎng)技術(shù),大大提高了識(shí)別的結(jié)果和效率。 在這個(gè)過(guò)程中,人工智能、大數(shù)據(jù)、數(shù)字通信、AIoT等技術(shù)與實(shí)體經(jīng)濟(jì)的深度融合,幾乎滲透進(jìn)了安防企業(yè)的全系列產(chǎn)品中,技術(shù)創(chuàng)新和產(chǎn)品迭代升級(jí)加速。 二、安防企業(yè)為什么能成為AIoT的主力軍? 那么,安防企業(yè)為什么能成為AIoT的主力軍? 首先,智能安防是進(jìn)入智慧物聯(lián)市場(chǎng)的絕佳通道。 在AIoT世界,一切智能都要以感知為基礎(chǔ),其中視頻是數(shù)據(jù)的一個(gè)強(qiáng)入口,源源不斷產(chǎn)生的高質(zhì)量數(shù)據(jù)是數(shù)字化時(shí)代的新的生產(chǎn)要素。安防行業(yè)一直在智慧物聯(lián)的典型場(chǎng)景中,天然的感知能力,順其自然成為一切智能與數(shù)字化的基礎(chǔ),經(jīng)過(guò)千錘百煉的視頻能力已成為他們的強(qiáng)項(xiàng)。 其次,安防企業(yè)有足夠的能力躋身智慧物聯(lián)行業(yè)。 從安防廠商,到以視頻為核心的智慧物聯(lián)解決方案提供商,到不再只強(qiáng)調(diào)視頻,增加非視頻的投入,他們一邊擴(kuò)充產(chǎn)品線,一邊在智能技術(shù)上進(jìn)一步投入感知智能、認(rèn)知智能。對(duì)智慧物聯(lián)行業(yè)意義重大的大模型,也早有部署。比如大華,已經(jīng)利用AIoT和大模型技術(shù),廣泛地感知和連接以視頻為核心的泛在物聯(lián)數(shù)據(jù),讓客戶獲得高質(zhì)量的數(shù)據(jù)資源。 AIoT產(chǎn)業(yè)與安防產(chǎn)業(yè)極其相似,都是一場(chǎng)事關(guān)場(chǎng)景碎片化、硬件制造經(jīng)驗(yàn)、整體解決方案的綜合能力的比拼。從安防場(chǎng)景中磨礪出來(lái)的傳統(tǒng)安防企業(yè),進(jìn)入智慧物聯(lián)時(shí)代有較大優(yōu)勢(shì)。 再者,傳統(tǒng)安防企業(yè)已經(jīng)建立了廣泛的客戶基礎(chǔ)。 面對(duì)數(shù)字化升級(jí)愿望迫切的客戶,誰(shuí)能“多快好省”地落地智慧物聯(lián)產(chǎn)品和方案,更穩(wěn)定的運(yùn)行設(shè)備,誰(shuí)就能在數(shù)字化的落地和升級(jí)上快走一步。 在安防行業(yè)發(fā)展過(guò)程中,一些公司已經(jīng)成長(zhǎng)為世界著名品牌,獲得了包括政府機(jī)構(gòu)、企業(yè)和消費(fèi)者的信任,因此客戶更容易接受他們的智慧物聯(lián)產(chǎn)品和服務(wù)。 安防自帶AI和物聯(lián)的屬性,好比是在安防領(lǐng)域與智慧物聯(lián)領(lǐng)域之間架起了一根管道,使前者向后者的過(guò)渡變得自然、順暢。 目前,傳統(tǒng)安防已經(jīng)發(fā)展為以視頻為核心的智慧互聯(lián),下游應(yīng)用呈指數(shù)式增長(zhǎng),基于小模型的專用算法無(wú)法滿足需求,需要大模型的泛化能力助力行業(yè)發(fā)展。 三、通用大模型VS微調(diào)后的行業(yè)大模型? 根據(jù)中國(guó)信通院、騰訊云和騰訊標(biāo)準(zhǔn)發(fā)布的《行業(yè)大模型標(biāo)準(zhǔn)體系及能力架構(gòu)研究報(bào)告》,通用大模型在多任務(wù)與領(lǐng)域上可表現(xiàn)出較好性能,但無(wú)法精準(zhǔn)解決行業(yè)的特定需求與問(wèn)題。 通用大模型如果想在特定行業(yè)中發(fā)揮SOTA模型效果,其參數(shù)數(shù)量會(huì)比同樣效果的行業(yè)大模型多數(shù)十倍、甚至百倍,根據(jù)OpenCSG,在特定的垂直應(yīng)用中,通用大模型千億甚至萬(wàn)億參數(shù)達(dá)到的效果,垂直大模型百億參數(shù)也可以達(dá)到,成本相對(duì)較低,相比ChatGPT的10億人民幣以上的硬件投入(僅訓(xùn)練),彭博金融大模型硬件端投入僅約1200萬(wàn)元(僅訓(xùn)練)。 以工業(yè)領(lǐng)域?yàn)槔?,該?chǎng)景需求中精準(zhǔn)測(cè)量、缺陷檢測(cè)等功能可以通過(guò)結(jié)合視覺(jué)能力、各類型裝備實(shí)現(xiàn),在大模型基礎(chǔ)上用更小樣本的訓(xùn)練,可實(shí)現(xiàn)更加快速和準(zhǔn)確的識(shí)別,且成本和效果平衡,有助于商業(yè)化落地。 以近期北大的ChatLaw為例,該團(tuán)隊(duì)構(gòu)建了口語(yǔ)化咨詢?cè)V求到法律專業(yè)詞匯抽取模型,在檢索端結(jié)合關(guān)鍵詞+向量檢索技術(shù),依靠13B的模型在2000條司法問(wèn)答數(shù)據(jù)中,Elo評(píng)分機(jī)制下得分超越gpt4。其表現(xiàn)優(yōu)于gpt4的一大原因是構(gòu)建了類似于國(guó)家司法考試的多項(xiàng)選擇題來(lái)訓(xùn)練本文的模型,這也表明了基于對(duì)細(xì)分行業(yè)的場(chǎng)景需求,選擇細(xì)分行業(yè)的數(shù)據(jù)進(jìn)行訓(xùn)練即可使得其表現(xiàn)優(yōu)于通用的大模型。 單模態(tài)VS多模態(tài)? 在智慧物聯(lián)的時(shí)代,數(shù)據(jù)呈現(xiàn)著多模態(tài)及復(fù)雜關(guān)聯(lián)的特性,如文本、圖像、聲音等,根據(jù)機(jī)器學(xué)習(xí)雜貨鋪3號(hào)店公眾號(hào),視頻動(dòng)作識(shí)別技術(shù)在泛安防有著廣泛的使用場(chǎng)景,由于攝像頭需要部署在各個(gè)地點(diǎn),攝像機(jī)姿態(tài)各有不同,需要多視角挖掘共同表征,因此泛安防對(duì)于多視角視頻識(shí)別與分析有更急切的需求,而視頻理解存在數(shù)據(jù)集缺少,視頻語(yǔ)義復(fù)雜多變,視頻多模態(tài)語(yǔ)義融合,非線性流的視頻理解等多種問(wèn)題。 在多模態(tài)模型下,對(duì)于標(biāo)注的精準(zhǔn)性要求更低,可以使用弱標(biāo)注的圖片描述數(shù)據(jù),語(yǔ)義更為通用,且可以改善長(zhǎng)尾問(wèn)題,輸入多模態(tài)數(shù)據(jù)可提高模型精度,對(duì)語(yǔ)義相近的場(chǎng)景更加友好,減少誤判,因此我們認(rèn)為,多模態(tài)模型將更適合智慧物聯(lián)。 (1)多模態(tài)可緩解長(zhǎng)尾的標(biāo)簽標(biāo)注壓力。 以YouTube視頻數(shù)據(jù)為例,YouTube8M數(shù)據(jù)集具有6.1M的視頻量,共3862個(gè)標(biāo)簽,平均每個(gè)視頻有3個(gè)標(biāo)簽,呈現(xiàn)明顯的長(zhǎng)尾分布。 Instructional數(shù)據(jù)集在WikiHow中挑選了23,611個(gè)howto任務(wù),為檢索詞query在YouTube上進(jìn)行搜索,生成大規(guī)模的帶噪聲的文本-視頻樣本用于多模態(tài)任務(wù)預(yù)訓(xùn)練,我們可以看到112個(gè)大類的howto視頻也呈現(xiàn)長(zhǎng)尾分布,這類廣泛存在的長(zhǎng)尾現(xiàn)象使得事無(wú)巨細(xì)的樣本標(biāo)注不可行。 文本-視覺(jué)之間語(yǔ)義的橋梁分為語(yǔ)義對(duì)齊(Semanticalignment)和語(yǔ)義融合(Semanticfusion),通過(guò)語(yǔ)義對(duì)齊完成視覺(jué)元素映射(基礎(chǔ)視覺(jué)語(yǔ)義),并通過(guò)基礎(chǔ)視覺(jué)語(yǔ)義的融合形成復(fù)雜視覺(jué)語(yǔ)義與抽象的視覺(jué)氛圍,在多模態(tài)融合方法中,模型可以通過(guò)場(chǎng)景描述文本““treesina'wintersnowstorm”學(xué)到“tree”的概念,還有可能學(xué)到“snowstorm”,以此來(lái)緩解長(zhǎng)尾問(wèn)題導(dǎo)致的標(biāo)簽標(biāo)注壓力。 (2)多模態(tài)數(shù)據(jù)可提升模型精度。 以田間作物產(chǎn)量預(yù)測(cè)為例,相關(guān)研究團(tuán)隊(duì)通過(guò)融合基于無(wú)人機(jī)的多模態(tài)數(shù)據(jù)(融合基于無(wú)人機(jī)的RGB、高光譜近紅外(HNIR)和熱成像圖像)進(jìn)行田間作物產(chǎn)量預(yù)測(cè),提出了MultimodalNet的新型模型,融合效果精度高于任意單一模態(tài)。 微調(diào)后的多模態(tài)行業(yè)大模型+邊側(cè)小模型或?qū)⑹俏磥?lái)幾年最適合智慧物聯(lián)的形式。 但單純依靠云端的多模態(tài)行業(yè)大模型會(huì)存在一些問(wèn)題。 大模型規(guī)模較大,難以部署在邊緣設(shè)備上,只能以云的形式提供服務(wù),但云有較高的時(shí)延,一線生產(chǎn)中的數(shù)據(jù)處理和控制等網(wǎng)絡(luò)主要是內(nèi)網(wǎng),需要更加穩(wěn)定的網(wǎng)絡(luò)和及時(shí)的處理,將這類需求送至云端并不合適,且由于本地?cái)?shù)據(jù)量大,全部“上云”成本高企且存在隱私風(fēng)險(xiǎn)。 邊側(cè)算力不足無(wú)法運(yùn)行大模型,但是可以通過(guò)知識(shí)蒸餾等方法,用teacher模型訓(xùn)練student模型,用教師模型的輸出作為軟標(biāo)簽來(lái)指導(dǎo)學(xué)生模型的學(xué)習(xí),且能較好保全原有模型的功能,實(shí)現(xiàn)云邊協(xié)同,保證私域安全性以及更好的實(shí)時(shí)性。 基于分析,我們認(rèn)為,微調(diào)后的多模態(tài)行業(yè)大模型+邊側(cè)小模型或?qū)⑹俏磥?lái)幾年最適合以視頻為核心的智慧物聯(lián)行業(yè)的形式。