没有合适的资源？快使用搜索试试~ 我知道了~

文库首页人工智能深度学习Zero-shot RIS with Global-Local Context Features

Zero-shot RIS with Global-Local Context Features

需积分: 5 1 下载量 193 浏览量 2023-10-27 16:52:20 上传评论收藏 34.03MB PPTX 举报

温馨提示

试读

25页

组会汇报ppt，仅供参考。有问题欢迎提出，大家共同进步。

资源推荐

资源详情

资源评论

Zero-shot Referring Image Segmentation with Global-Local Context Features

CVPR 2023

2023.10.27

Abstract

指代图像分割( RIS )的目的是根据给定的关于输入图像的某一区域的指代表

达式找到一个分割掩码。然而，为这项任务收集有标签的数据集是非常困难

的。

于是本文通过利用来自CLIP的预训练跨模态知识，提出了零样本RIS方法。

建立一种掩码引导的视觉编码器，用于捕捉输入图像的全局-局部上下文信息。

通过利用从现成的mask proposal技术中获得的实例掩码，本文的方法可以分割精

细的实例级图像；引入一种全局-局部文本编码器编码整个句子的语义和目标名

词短语的局部特征。实验表明本文方法效果很好甚至超过一些弱监督 RIS 方

法。

Introduction

CLIP的零样本迁移能力强，但不能直接用于如目标检测和实例分割之类的

稠密预测任务。有一些任务尝试微调，但是成本太大。

由于RIS任务需要收集目标区域的精确指代表达式及其密集的掩码注释，因

此为该任务收集注释更具有挑战性。为此，提出了弱监督RIS方法，但同样需要

高质量的图像-文本对注释，并且性能与监督方法相比很差。于是本文提出从预

训练的 CLIP 中执行零样本迁移到 RIS。

值得注意的是，虽然我们的方法不需要对CLIP模型进行任何额外的训练，

但它比所有的基线和弱监督参考图像分割方法都有很大的优势。

Introduction

本文主要贡献如下:

1. 第一个提出基于 CLIP 的零样本 RIS 方法；

2. 提出的视觉和文本编码器以同样的方式分别整合图像和文本的全局-局部

上下文信息；

3. 提出的全局-局部上下文特征充分利用了 CLIP 的优势来捕捉在视觉和文本

形态方面的目标对象语义及对象间的关系；

4. 实验表明本文的方法比许多基线模型和弱监督RIS模型优秀。

Overall Framework

图：global-local CLIP。给定一幅图像和一个表达式作为输入，我们使用mask proposal提取全局-局部上下文视觉特征，同时提

取全局-局部上下文文本特征。在计算所有全局-局部上下文视觉特征和一个全局-局部上下文文本特征之间的余弦相似度得分

后，我们选择得分最高的掩码。

剩余24页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

安冉冉

粉丝: 188
资源: 6

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

Zero-shot RIS with Global-Local Context Features

s41467-022-34132-9-citation.ris

10.1007_s11704-022-1389-x-citation.ris

10.1007_s13164-021-00535-8-citation.ris

10.1038_s41422-022-00624-y-citation.ris

10.1007_s13320-022-0667-4-citation.ris

ris-linux-0.4.tar.gz

10.1038_d41586-022-00985-9-references.ris (1)

citation-289649710.ris

DVTk-Storage-SCP-Emulator/DVTk-RIS-Emulator-5.0.0

nature04235-citation.ris

wordnet-ris-en:WordNet 精简信息集 (RIS)

jors.1983.232-citation.ris

10.1038_191322a0-references.ris

10.1038_191322a0-citation.ris

RIS+UAV+DQN-Simulation_ris_深度增强学习_无人机_无人机通信_DQN

aws-wa-ris:AWS Well Architectd框架的参考实现

ist的matlab代码-cologne-ris-scraper:用于德国科隆的Ratsinformationsystem（RIS）的基于py

瑞利衰落matlab代码-RIS-fading:出现“可重配置智能表面的瑞利衰落建模和信道强化”的仿真代码，IEEE无线通信快报

dresden-ris-api:用于在scrape-a-ris mongodb中进行全文搜索的webserviceapi

YOLOv8-deepsort 实现智能车辆目标检测+车辆跟踪+车辆计数

YOLOv8网络结构图，自制visio文件，yolov8.vsds，需要的自取，在原有的基础上直接改就行了

yolov8(2023年8月版本),已经下好yolov8s.pt和yolov8n.pt

Transformer模型实现长期预测并可视化结果（附代码+数据集+原理介绍）

社交平台上经济类话题的文章热度信息，数据是真实的，但不是真实日期

行人跌倒数据集（VOC格式）

Unet眼底血管图像分割数据集+代码+模型+系统界面+教学视频.zip

YOLOV5 + 双目相机实现三维测距（新版本）

基于YOLOv8-Pose的姿态识别项目，带数据集可直接跑通的源码

全新的SOTA模型YOLOv9

最新资源