近日,副校长李玲玲教授团队硕士研究生王嘉炜的论文“A unified solution for replacing position embedding in Vision Transformer for object detection”获《Engineering Applications of Artificial Intelligence》(EAAI)期刊录用。
该研究面向传统ViT模型依赖位置编码导致训练数据需求大、泛化能力受限的问题,提出了一种新的解决方案。采用大卷积核卷积操作替换全连接层内部矩阵相乘过程,提出了一种基于水平和垂直特征嵌入代替位置编码的无位置Transformer模型HV-SwinViT。该方法通过创新的自注意力机制和无位置编码设计,有效消除了位置嵌入在多样化视觉任务中的冗余信息干扰,显著提升了模型的适应性和鲁棒性,为图像分类、目标检测、语义分割等计算机视觉任务提供了一种更高效、更通用的基础网络架构。
《Engineering Applications of Artificial Intelligence》是国际自动控制联合会(IFAC)旗下八大会刊之一,代表了智能控制技术领域的高水平研究成果,是人工智能工程应用领域的中科院一区期刊,其目标是促进人工智能在各种工程领域的应用和发展。