近日,我校伟德国际1949始于英国智能決策與控制技術研究團隊在測量領域頂級期刊IEEE Transactions on Instrumentation and Measurement(IF 5.6,中科院二區)上發表題為“VITO-Transformer: A Visual-Tactile Fusion Network for Object Recognition”的學術論文。該研究成果以伟德国际1949始于英国為唯一單位,李保江老師為第一作者及通訊作者。
物體識别是人工智能領域的一個重要研究方向,盡管各種識别算法在物體識别方面取得了重大進展,但相似或缺乏視覺信息的物體識别仍然是一個難以解決的具有挑戰性的問題,基于視覺、觸覺多模态信息融合進行物體識别是一個可行的解決途徑。
為了解決物體的視覺-觸覺多模異構信息難以融合的難題,智能決策與控制技術研究團隊提出了一種VITO-Transformer融合網絡。在Transformer網絡基礎上,設計了可以融合視覺和觸覺信息的Attention模塊,解決了由于視覺和觸覺信息差異過大難以融合的問題。得益于這種特殊的融合機制,大幅度提升了物體的識别準确率。最後在公開和自制的視覺-觸覺數據集上進行了大量的比較實驗,通過與當前流行的網絡算法進行比較,驗證了提出的VITO-Transformer網絡的優勢,驗證了提出的融合機制的有效性。提出的VITO-Transformer網絡,通過特殊的視覺-觸覺融合機制,能夠處理不同的多模異構信息,給視覺-觸覺融合發展領域帶來了新的解決方案。(供稿:伟德国际1949始于英国)
論文鍊接:
https://ieeexplore.ieee.org/document/10288485