AI視覺邁入“大模型時代”:從“觀察”到“理解”的巨大飛躍!
發布時間:2023-11-20 09:36:50
大到天地傳感,小到社區“最后一公里”,在新技術的助力下,我們所居住的城市正在加速向“智慧城市”轉變,計算機視覺(CV)作為人工智能領域最大的應用領域,在人臉識別、視頻監控、門禁卡、防盜報警等智慧安防領域率先實現了商業化。
“相比于傳統的社區管理模式,‘智慧社區’更加以人為本,以不斷滿足居民的幸福感和滿意度為核心,為居民提供更便捷、安全的社區環境,讓孩子茁壯成長,讓老人盡享天倫。”之前的攝像頭只是“看得見”,而智能視頻分析系統可以“看得懂”。
據了解,智能視覺分析通過對采集社區中的人、車、公共設施等管理對象的視覺數據進行智慧化的數據洞察,實現“入侵”“攀高”“自行車/電動自行車違停”“亂丟垃圾”“高空拋物”“水域入侵”“占道堆物”等方面的識別需求,在事件發生后,系統能夠在3秒內通過AI應用對圖像進行識別并判斷該事件是否違規,并在5分鐘內處置完成,從而營造更智能、安全、舒適的社區和公共環境。
攝像頭我們已經用很多年了,最大的感觸就是無法事前報警。比如說,有的老人在起居室里摔倒了,或者小孩爬到沒有關閉窗戶的危險地帶,原來的攝像頭可能會認出來有老人有小孩,但它不能理解畫面的語義;但當攝像頭有了一個‘認知性大腦’,看到這些場景時,自然就會聯想到這個人可能處在危險之中,從而實現事中的監測和預警。上海趨視科技總裁介紹了其最新的“AI視覺行為分析”技術:“采用TOF(Time-of-Flight) 傳感器采集數據,并通過‘智能分析儀’進行AI推理,可以精準地識別老人跌倒、久坐不起等風險因素,通過APP實時將信息發送至家人或社區服務人員手機端。”
現在,某街道違章停車、渣土車違規行駛、無證攤販臨時擺攤、商鋪占道經營、亂倒垃圾等社區問題頻現,對于人員缺乏的社區管理隊伍而言,會出現如問題發現不及時,協調成本高,管理缺少數據支撐等現象;而智能視頻行為分析技術給街道每一部攝像機都裝上‘AI 大腦’,實時分析街面情況,對違規行為自動且及時地上報。當偵測到指定區域內出現違規行為,系統會生成提醒信號,實時推送到管理人員隨身設備中,實現社區問題處理敏捷化。
高新興科技集團首席技術官介紹,在即將于12月24日于廣州舉行的黃埔馬拉松比賽中,通過在沿路高聳的樓宇部署的AI視頻監控和無人機,可以做到賽事的全程管控。“無論隊伍到哪里,整個隊伍都是在可視范圍內。比如說哪里發生擁擠或是有什么異常,AI視覺分析可以協助管理人員快速掌握全局。”
在本次CPSE安博會上,至少有六家頭部企業推出了通用或行業大模型,或是展示大模型應用。郭威認為,視頻大模型已成為繼自然語言處理(NLP)之后AI技術的下一個引爆點。“大模型最大的意義是讓我們從判別式AI走向深層次判別式的AI,前者主要從數據和信號中去提取特征進行識別,完成像人臉識別語音識別、圖像識別這樣的任務;而后者可以在海量數據訓練的基礎上生成文字、語言、圖片、視頻代碼甚至算法,完成各類專業人士的工作,在生產力的提升上更為直接。”
計算機視覺已經邁入“大模型時代”,在許多領域都展現出了巨大潛力和價值,安防領域也不例外。目前,安防產業鏈上的各細分領域企業也推出了自己的大模型,如大華的“星漢”以視覺解析為核心;宇視科技的“梧桐”集CV行業、NLP行業等于一身,能夠滿足多樣化的任務和場景需求;云從科技的大模型“從容”應用于視頻監控、入侵檢測、人臉識別等過程中的數據分析,“行人基礎大模型”覆蓋了人體全局屬性(性別、年齡)、局部屬性(穿戴風格、配飾)、攜帶屬性(手機、刀棍、手提包等)、人-物交互HOI(抽煙,持刀棍,手機拍屏幕)等,廣泛應用于礦山、建筑工地以及特殊場所的安全布控,監控作業人員穿戴合規,姿態行為等異常和違規行為。
我們人類的智慧體現在我們可以通過感知、思考和行動來改變世界?,F在機器也擁有了‘感知’和‘思考’的能力,伴隨AI的發展,機器必須通過視覺來理解周圍的環境,做出決策。企業自研的BioCV大模型可以實現園區運行安全“一屏統覽”。多模態AI結合了更多的感官模式,它模仿了人類感知世界的方式,能夠為多樣化場景下的智能個性化應用開創全新可能。
智慧社區對于人工智能有著旺盛的需求,也是能夠實現規?;l展、可復制性強的場景。記者發現,在此次CPSE安博會上,“個人隱私保護”也被多位專家和業內人士著重強調。“視覺分析系統涉及采集并分析一些日常生活畫面,需要平衡監控與隱私保護之間的關系,確保合理使用和保護個人隱私權。”據了解,針對智慧社區場景的特點,趨視科技、精華隆智慧感知等企業采用了可以“脫敏”的采集技術,不是通過視頻監控,而是通過僅可見“影子”的深度圖像,反映景內物體的距離和角度值,不直接包含面部、身體或其他私人信息,大大降低了隱私泄露的風險。
目前部分智能安防產品和現有的基礎大模型還沒有掛鉤,但徐飆介紹,未來,相關安防設備可以和目前一些成熟的語音大模型對接,感知方式從視覺延伸到紅外、雷達、光纖、聲紋等更多維度,隨著TOF類雷達傳感器的不斷應用,除了語音和圖像外,第三維深度數據感知越來越豐富,基于深度數據的大模型必將把機器“認知”世界的能力帶到一個新高度。