语义分割作为计算机视觉与人工智能最重要的任务之一,其目的在于让计算机能够识别出图像场景中每一个像素所代表的语义类别,如图1所示,也是衡量计算机是否理解图像场景的重要评价标准。一直以来是自动驾驶,自动医疗诊断等应用的关键技术支撑。
图1:SETR语义分割结果可视化
自2014年加州伯克利大学提出的全卷积神经网络FCN以来,语义分割的解决方案就被基于FCN的网络模型所定义。复旦大学大数据学院张力课题组变革性的抛弃全卷积神经网络,为语义分割任务提出一种新型基于自注意力机制序列预测的神经网络范式SEgmentation TRansformer (SETR),网络结构如图2所示。
图2:SEgmentation TRansformer (SETR)网络结构
课题组联合腾讯优图、Facebook AI在多个国际权威语义分割数据集中包括MIT Scene Parsing Benchmark ADE20k以及Pascal Context上取得最佳了性能。该工作颠覆了传统的全卷积神经网络在计算机视觉中的稠密预测(dense prediction)任务上多年的霸主地位,并为计算机视觉和核心任务提供了全新的解决方案与全新的研究方向。该论文工作(Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers)已被CVPR 2021接收,代码模型已开源供学术界以及工业界使用,项目代码在Github社区已star超过400次。
论文地址:https://arxiv.org/abs/2012.15840
项目主页:https://fudan-zvg.github.io/SETR/
代码地址:https://github.com/fudan-zvg/SETR