打打字就能指挥算法视频抠图 Transformer把握跨模态新技能
发布时间:2022-03-07 16:59:27 所属栏目:动态 来源:互联网
导读:都说 Transformer 适合处理多模态任务。这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒 76 帧)的视频实例分割框架。 这个框架只需一串文本描述,就可以轻松将视频中的动态目标抠出来:可以实现端到
都说 Transformer 适合处理多模态任务。这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒 76 帧)的视频实例分割框架。 这个框架只需一串文本描述,就可以轻松将视频中的动态目标“抠”出来:可以实现端到端训练的它,在基准测试中的多个指标上表现全部优于现有模型。目前,相关论文已被 CVPR 2022 接收,研究人员来自以色列理工学院。 首先,输入的文本和视频帧被传递给特征编码器进行特征提取,然后将两者连接成多模态序列(每帧一个)。接着,通过多模态 Transformer 对两者之间的特征关系进行编码,并将实例级(instance-level )特征解码为一组预测序列。 接下来,生成相应的 mask 和参考预测序列。最后,将预测序列与基准(ground truth,在有监督学习中通常指代样本集中的标签)序列进行匹配,以供训练过程中的监督或用于在推理过程中生成最终预测。 具体来说,对于 Transformer 输出的每个实例序列,系统会生成一个对应的 mask 序列。 为了实现这一点,作者采用了类似 FPN(特征金字塔网络)的空间解码器和动态生成的条件卷积核。 而通过一个新颖的文本参考分数函数,该函数基于 mask 和文本关联,就可以确定哪个查询序列与文本描述的对象具有最强的关联,然后返回其分割序列作为模型的预测。 前两个数据集的衡量指标包括 IoU(交并比,1 表示预测框与真实边框完全重合)、平均 IoU 和 precision@K(预测正确的相关结果占所有结果的比例)。 (编辑:娄底站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 芯片晶圆测试设备交期逾半年,2nm将在2024年试产
- 联想新款拯救者台式机曝光搭承RX 6500 XT 显卡4GB 显存
- 首发 3999 元 锐龙版华硕无畏 16 2022 大屏笔记本上线
- 如何在几分钟内创建一个可扩展并且高可用的GraphQL API
- 谷歌 Pixel 7 系列通过 FCC 认证 支撑多个 5G 频段
- 带大梁!比亚迪 皮卡 测试车泄露 套壳宋PLUS太喜感
- 优秀的性价比PCIe 4.0!影驰星曜X4 1TB SSD
- 互联网平台的新整顿逻辑有限游戏的无限解法
- 索尼推出PS定制版Backbone One手柄iPhone秒变掌上PS5
- AMD锐龙Threadripper7000系列CPU最高至96个 Zen 4 内核
站长推荐
热点阅读