Algebraic methods for solving recognition problems with non-crossing classes Authors Anvar Kabulov, Alimdzhan Babadzhanov, Islambek Saymanov 在本文中,我们建议考虑各种模式识别模型。同时,建议考虑两个算子形式的模型:识别算子和决策规则。引入代数运算来识别算子,并基于这些算子的应用,创建了一系列识别算法。 |
How Good is ChatGPT at Face Biometrics? A First Look into Recognition, Soft Biometrics, and Explainability Authors Ivan DeAndres Tame, Ruben Tolosana, Ruben Vera Rodriguez, Aythami Morales, Julian Fierrez, Javier Ortega Garcia 大型语言模型法学硕士(例如 OpenAI 开发的 GPT)已经显示出惊人的成果,给我们的社会带来了快速的变化。 ChatGPT 的发布进一步强化了这一点,它允许任何人以简单的对话方式与法学硕士进行交互,而无需任何该领域的经验。 |
Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild Authors Fanghua Yu, Jinjin Gu, Zheyuan Li, Jinfan Hu, Xiangtao Kong, Xintao Wang, Jingwen He, Yu Qiao, Chao Dong 我们介绍 SUPIR Scaling UP Image Restoration,这是一种突破性的图像恢复方法,利用生成先验和模型放大的力量。利用多模态技术和先进的生成先验,SUPIR 标志着智能和真实图像恢复领域的重大进步。作为 SUPIR 中的关键催化剂,模型缩放极大地增强了其功能,并展示了图像恢复的新潜力。我们收集了一个包含 2000 万张高分辨率、高质量图像的数据集用于模型训练,每张图像都富含描述性文本注释。 SUPIR 提供了通过文本提示恢复图像的功能,拓宽了其应用范围和潜力。此外,我们引入负面质量提示以进一步提高感知质量。我们还开发了一种恢复引导采样方法来抑制基于生成的恢复中遇到的保真度问题。 |
Enhancing Image Retrieval : A Comprehensive Study on Photo Search using the CLIP Mode Authors Naresh Kumar Lahajal, Harini S 照片搜索是基于文本查询检索图像的任务,随着 CLIP 对比语言图像预训练模型的引入,取得了重大进展。 CLIP 利用视觉语言预训练方法,学习图像和文本的共享表示空间,从而实现跨模式理解。该模型展示了理解不同图像和文本对之间语义关系的能力,允许基于自然语言查询高效、准确地检索图像。通过对包含图像及其相关文本描述的大规模数据集进行训练,CLIP 实现了显着的泛化,为零样本学习和少量样本分类等任务提供了强大的工具。 |
Towards Efficient and Effective Deep Clustering with Dynamic Grouping and Prototype Aggregation Authors Haixin Zhang, Dong Huang 以前的对比深度聚类方法主要关注实例级信息,而忽略了组簇内的成员关系,这可能会严重损害其表示学习和聚类能力。最近,已经开发了一些分组对比方法,然而,这些方法通常依赖于整个数据集的样本来获取伪标签,并且缺乏以批量方式有效更新分组分配的能力。为了解决这些关键问题,我们提出了一种新颖的端到端深度聚类框架,具有动态分组和原型聚合功能,称为 DigPro。具体来说,所提出的动态分组将对比学习从实例级别扩展到组级别,这对于及时更新组是有效且高效的。同时,我们在球形特征空间中对原型进行对比学习,称为原型聚合,其目的是最大化簇间距离。值得注意的是,通过期望最大化框架,DigPro 在自监督训练期间同时利用紧凑的簇内连接、良好分离的簇以及高效的组更新。对六个图像基准的广泛实验证明了我们的方法相对于现有技术的卓越性能。 |
SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation Authors Zhaohu Xing, Tian Ye, Yijun Yang, Guang Liu, Lei Zhu Transformer 架构在建模全局关系方面表现出了非凡的能力。然而,在处理高维医学图像时,它带来了巨大的计算挑战。这阻碍了它在这项任务中的发展和广泛采用。 Mamba 作为一种状态空间模型 SSM,最近成为顺序建模中长程依赖关系的一种著名方式,以其卓越的内存效率和计算速度在自然语言处理领域表现出色。受其成功的启发,我们推出了 SegMamba,这是一种新颖的 3D 医学图像 Mamba 模型,旨在有效捕获每个尺度的整个体积特征中的长距离依赖性。与基于 Transformer 的方法相比,我们的 SegMamba 从状态空间模型的角度来看,在整个体积特征建模方面表现出色,即使体积特征分辨率为 64 × 64 × 64 ,也能保持卓越的处理速度。 BraTS2023 数据集上的综合实验证明了我们的 SegMamba 的有效性和效率。 |
Benchmarking the Fairness of Image Upsampling Methods Authors Mike Laszkiewicz, Imant Daunhawer, Julia E. Vogt, Asja Fischer, Johannes Lederer 近年来,用于创建图像和视频等合成媒体的深度生成模型迅速发展。虽然这些模型在日常任务中的实际应用很诱人,但评估其公平性的固有风险至关重要。在这项工作中,我们引入了一个用于对条件生成模型的性能和公平性进行基准测试的综合框架。我们开发了一组 unicode x2013 指标,其灵感来自于其监督公平对应物 unicode x2013,以评估模型的公平性和多样性。专注于图像上采样的具体应用,我们创建了涵盖各种现代上采样方法的基准。作为基准测试的一部分,我们引入了 UnfairFace,它是 FairFace 的一个子集,它复制了常见的大规模人脸数据集的种族分布。我们的实证研究强调了使用无偏训练集的重要性,并揭示了算法如何响应数据集不平衡的变化。 |
PanAf20K: A Large Video Dataset for Wild Ape Detection and Behaviour Recognition Authors Otto Brookes, Majid Mirmehdi, Colleen Stephens, Samuel Angedakin, Katherine Corogenes, Dervla Dowd, Paula Dieguez, Thurston C. Hicks, Sorrel Jones, Kevin Lee, Vera Leinert, Juan Lapuente, Maureen S. McCarthy, Amelia Meier, Mizuki Murai, Emmanuelle Normand, Virginie Vergnes, Erin G. Wessling, Roman M. Wittig, Kevin Langergraber, Nuria Maldonado, Xinyu Yang, Klaus Zuberbuhler, Christophe Boesch, Mimi Arandjelovic, Hjalmar Kuhl, Tilo Burghardt 我们展示了 PanAf20K 数据集,这是自然环境中类人猿最大、最多样化的开放获取带注释视频数据集。它包含超过 700 万帧的黑猩猩和大猩猩的 20,000 个摄像机陷阱视频,这些视频是在热带非洲 18 个野外地点收集的,是泛非计划“养殖黑猩猩”的一部分。该镜头附有丰富的注释和基准,使其适合训练和测试各种具有挑战性且对生态重要的计算机视觉任务,包括猿检测和行为识别。鉴于国际自然保护联盟现已将类人猿家族的所有物种列为濒危或极度濒危,进一步对相机陷阱信息进行人工智能分析至关重要。 |
Interleaving One-Class and Weakly-Supervised Models with Adaptive Thresholding for Unsupervised Video Anomaly Detection Authors Yongwei Nie, Hao Huang, Chengjiang Long, Qing Zhang, Pradipta Maji, Hongmin Cai 如果没有人工注释,典型的无监督视频异常检测 UVAD 方法需要训练两个模型,为彼此生成伪标签。在之前的工作中,这两个模型彼此紧密纠缠在一起,并且不知道如何在不显着修改其训练框架的情况下升级其方法。其次,以前的工作通常采用固定阈值来获得伪标签,但是用户指定的阈值并不可靠,这不可避免地会在训练过程中引入错误。为了缓解这两个问题,我们提出了一种新颖的交错框架,该框架交替训练 UVAD 的单类分类 OCC 模型和弱监督 WS 模型。我们方法中的OCC或WS模型可以很容易地替换为其他OCC或WS模型,这有助于我们的方法随着这两个领域的最新发展而升级。为了处理固定阈值问题,我们突破了传统的认知边界,提出了一种可以在正常和异常数据上进行训练的加权 OCC 模型。我们还提出了一种自适应机制,用于以宽松到严格的方式自动找到 WS 模型的最佳阈值。 |
QAGait: Revisit Gait Recognition from a Quality Perspective Authors Zengbin Wang, Saihui Hou, Man Zhang, Xu Liu, Chunshui Cao, Yongzhen Huang, Peipei Li, Shibiao Xu 步态识别是一种很有前途的生物识别方法,旨在根据行人独特的行走模式来识别行人。 Silhouette模态以其易于获取、结构简单、稀疏表示、建模方便等特点,在实验室控制研究中得到了广泛的应用。然而,随着步态识别从实验室快速发展到野外场景,各种条件对剪影模态提出了重大挑战,包括1种无法识别的低质量剪影、异常分割、严重遮挡甚至非人类形状,以及2种可识别但具有挑战性的剪影背景噪音、姿势不标准、轻微遮挡。为了应对这些挑战,我们重新审视步态识别流程,并从质量角度处理步态识别,即 QAGait。具体来说,我们提出了一系列具有成本效益的质量评估策略,包括最大连接面积和模板匹配以消除背景噪音和无法识别的轮廓,对齐策略以处理非标准姿势。我们还提出了两个质量感知损失函数,将轮廓质量集成到嵌入空间内的优化中。大量实验证明我们的 QGait 可以保证步态可靠性和性能增强。此外,我们的质量评估策略可以与现有的步态数据集无缝集成,展示了我们的优势。 |
Delocate: Detection and Localization for Deepfake Videos with Randomly-Located Tampered Traces Authors Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Qian Wang, Zheng Qin, Mike Zheng Shou Deepfake 视频变得越来越真实,在不同帧之间的面部区域显示出微妙的篡改痕迹。因此,许多现有的 Deepfake 检测方法很难检测未知领域的 Deepfake 视频,同时准确定位被篡改的区域。为了解决这个限制,我们提出了 Delocate,一种新颖的 Deepfake 检测模型,可以识别和定位未知领域的 Deepfake 视频。我们的方法包括两个阶段:恢复和定位。在恢复阶段,模型随机屏蔽感兴趣区域ROI并在不篡改痕迹的情况下重建真实人脸,导致真实人脸恢复效果相对较好,而对于假人脸恢复效果较差。在定位阶段,恢复阶段的输出和伪造地面真值掩模作为监督来指导伪造定位过程。这个过程策略性地强调了恢复较差的假脸的恢复阶段,有利于被篡改区域的本地化。 |
Generative Human Motion Stylization in Latent Space Authors Chuan Guo, Yuxuan Mu, Xinxin Zuo, Peng Dai, Youliang Yan, Juwei Lu, Li Cheng 人体动作风格化旨在修改输入动作的风格,同时保持其内容不变。与直接在姿势空间中操作的现有作品不同,我们利用预训练自动编码器的潜在空间作为运动提取和注入更具表现力和鲁棒性的表示。在此基础上,我们提出了一种新颖的生成模型,该模型可以产生单个运动潜在代码的多种风格化结果。在训练期间,运动代码被分解为两个编码组件:确定性内容代码和遵循先验分布的概率性风格代码,然后生成器处理内容和风格代码的随机组合以重建相应的运动代码。我们的方法是通用的,允许从标记或未标记的运动风格中学习概率风格空间,在风格化方面也提供了显着的灵活性。在推理中,用户可以选择使用参考动作或标签中的风格提示来对动作进行风格化。即使没有明确的风格输入,我们的模型也可以通过从无条件风格先验分布中采样来促进新颖的重新风格化。实验结果表明,我们提出的风格化模型尽管采用轻量级设计,但在风格重演、内容保存以及跨各种应用程序和设置的泛化方面优于现有技术。 |
Research about the Ability of LLM in the Tamper-Detection Area Authors Xinyu Yang, Jizhe Zhou 近年来,特别是自 2020 年代初以来,大型语言模型法学硕士已成为解决各种挑战(从自然语言处理到各个领域的复杂问题解决)的最强大的人工智能工具。 |
Learning Representations for Clustering via Partial Information Discrimination and Cross-Level Interaction Authors Hai Xin Zhang, Dong Huang, Hua Bao Ling, Guang Yu Zhang, Wei jun Sun, Zi hao Wen 在本文中,我们提出了一种称为 PICI 的新型深度图像聚类方法,该方法在联合学习框架中强制执行部分信息区分和跨级别交互。特别是,我们利用 Transformer 编码器作为主干,通过它制定具有两个并行增强视图的蒙版图像建模。在通过 Transformer 编码器从蒙版图像中导出类别标记后,进一步合并了三个部分信息学习模块,包括用于通过蒙版图像重建来训练自动编码器的 PISD 模块、用于采用两级对比学习的 PICD 模块以及用于实例级和集群级子空间之间交互的 CLI 模块。在六个真实世界图像数据集上进行了大量实验,证明了所提出的 PICI 方法比最先进的深度聚类方法具有更优越的聚类性能。 |
LDCA: Local Descriptors with Contextual Augmentation for Few-Shot Learning Authors Maofa Wang, Bingchen Yan 很少有镜头图像分类已成为计算机视觉领域的一个关键挑战,凸显了以最少的标记数据快速适应新任务的能力。现有方法主要依赖于图像级特征或局部描述符,通常忽略了这些描述符周围的整体上下文。在这项工作中,我们引入了一种称为具有上下文增强的本地描述符 LDCA 的新颖方法。具体来说,该方法通过利用自适应全局上下文增强模块,独特地弥合了局部和全局理解之间的差距。该模块包含一个视觉转换器,赋予局部描述符上下文感知能力,范围从广泛的全球视角到复杂的周围细微差别。通过这样做,LDCA 超越了传统的基于描述符的方法,确保每个局部特征在其更大的视觉叙事中得到解释。 |
Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond Authors Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao 薄板样条 TPS 是一种主要扭曲,允许通过控制点运动表示弹性非线性变换。随着控制点的增加,扭曲变得越来越灵活,但通常会遇到由不良问题(例如内容扭曲)引起的瓶颈。在本文中,我们探讨了 TPS 在基于单图像的变形任务中的一般应用,例如旋转校正、矩形校正和肖像校正。为了打破这个瓶颈,我们提出了耦合薄板样条模型 CoupledTPS ,它将具有有限控制点的多个 TPS 迭代耦合成更灵活、更强大的变换。具体来说,我们首先设计一个迭代搜索来根据当前的潜在条件预测新的控制点。然后,我们提出了扭曲流作为不同TPS变换耦合的桥梁,有效地消除了多个扭曲引起的插值误差。此外,鉴于标注成本高昂,我们开发了一种半监督学习方案,通过利用未标记的数据来提高变形质量。它是通过未标记数据的搜索控制点与其图形增强之间的双重变换来制定的,产生隐式校正一致性约束。最后,我们收集了大量未标记的数据,以展示我们的半监督方案在旋转校正方面的优势。大量实验证明了 CoupledTPS 相对于现有最先进的 SoTA 解决方案在旋转校正及其他方面的优越性和通用性。 |
Serial fusion of multi-modal biometric systems Authors Gian Luca Marcialis, Paolo Mastinu, Fabio Roli 迄今为止,多个生物识别匹配器的串行或连续融合尚未得到彻底研究。然而,相对于广泛采用的并行方法,这种方法表现出一些优势。在本文中,我们基于作者之前的工作,提出了一种用于评估此类系统性能的新颖理论框架。从理论上评估了性能方面的优势以及模型参数计算中的估计误差。 |
GTAutoAct: An Automatic Datasets Generation Framework Based on Game Engine Redevelopment for Action Recognition Authors Xingyu Song, Zhan Li, Shi Chen, Kazuyuki Demachi 当前的动作识别任务数据集面临着传统收集和生成方法的限制,包括动作类范围有限、缺乏多视点记录、多样性有限、视频质量差以及劳动密集型手动收集。为了应对这些挑战,我们引入了 GTAutoAct,这是一种创新的数据集生成框架,利用游戏引擎技术来促进动作识别的进步。 GTAutoAct 擅长自动创建大规模、注释良好的数据集,具有广泛的动作类和卓越的视频质量。我们的框架的独特贡献包括 1 它创新地将基于坐标的 3D 人体运动转换为旋转导向的表示,并增强了多视点的适用性 2 它采用旋转序列的动态分段和插值来创建流畅且逼真的动作动画 3 它提供了广泛的可定制功能动画场景 4 它实现了自主视频捕获和处理管道,具有随机导航相机,具有自动修剪和标签功能。 |
Synthetic data enables faster annotation and robust segmentation for multi-object grasping in clutter Authors Dongmyoung Lee, Wei Chen, Nicolas Rojas 机器人抓取中的对象识别和对象姿态估计仍然是重大挑战,因为构建标记数据集在数据收集和注释方面可能非常耗时且成本高昂。在这项工作中,我们提出了一种合成数据生成方法,通过将生成的合成数据集与较小的现实世界数据集混合数据集相结合,最大限度地减少人为干预并使下游图像分割算法更加稳健。注释实验表明,所提出的合成场景生成可以显着减少标记时间。 RGB 图像分割使用混合数据集进行训练,并与深度信息相结合,以生成各个分割对象的像素到点对应关系。然后由分割算法的置信度分数确定要抓取的对象。拾取和放置实验表明,在我们的混合数据集 98.9 , 70 上训练的分割在标记和抓取成功率方面分别优于真实数据集和公开数据集 6.7 , 18.8 和 2.8 , 10 。 |
UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion Authors Wei Li, Xue Xu, Jiachen Liu, Xinyan Xiao 现有的文本到图像扩散模型主要根据文本提示生成图像。然而,文本描述固有的简洁性给忠实合成具有复杂细节(例如特定实体或场景)的图像带来了挑战。本文提出了 textbf UNIMO G,这是一个简单的多模态条件扩散框架,它在具有交错文本和视觉输入的多模态提示上运行,它展示了文本驱动和主题驱动图像生成的统一能力。 UNIMO G 包含两个核心组件:用于编码多模态提示的多模态大语言模型 MLLM,以及用于基于编码的多模态输入生成图像的条件去噪扩散网络。我们利用两阶段训练策略来有效地训练框架,首先对大规模文本图像对进行预训练,以开发条件图像生成能力,然后使用多模式提示进行指令调整,以实现统一的图像生成能力。采用精心设计的涉及语言基础和图像分割的数据处理管道来构建多模式提示。 |
Privacy-Preserving Face Recognition in Hybrid Frequency-Color Domain Authors Dong Han, Yong Li, Joachim Denzler 人脸识别技术已被部署在各种现实生活应用中。最复杂的基于深度学习的人脸识别系统依靠通过复杂的深度神经网络训练数百万张人脸图像来实现高精度。客户将人脸图像上传到服务提供商以访问模型推理是很常见的。然而,面部图像是一种与每个用户的身份信息相关的敏感生物特征属性。将原始人脸图像直接暴露给服务提供商会对用户的隐私造成威胁。当前人脸识别的隐私保护方法侧重于隐藏模型输入上的视觉信息或保护模型输出人脸嵌入。识别准确度的显着下降是大多数方法的缺陷。本文提出了一种混合频率颜色融合方法来降低频域中人脸识别的输入维度。此外,还引入了稀疏颜色信息,以减轻添加差分隐私噪声后精度的显着下降。此外,应用特定于身份的嵌入映射方案通过扩大身份之间的距离来保护原始人脸嵌入。最后,实现了安全多方计算,以在模型推理过程中安全地计算嵌入距离。所提出的方法在多个广泛使用的验证数据集上表现良好。 |
Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons Authors Zhe Xu, Kun Wei, Xu Yang, Cheng Deng 人类舞蹈一代 HDG 旨在从图像和驾驶姿势序列合成逼真的视频。尽管取得了巨大成功,但现有方法仅限于生成具有特定背景的单个人的视频,而对于具有多人和复杂背景的现实世界场景的普遍性仍不清楚。为了系统地衡量 HDG 模型的通用性,我们引入了新的任务、数据集和合成人类舞蹈生成 cHDG 的评估协议。通过评估 cHDG 的最先进方法,我们凭经验发现它们无法推广到现实世界的场景。为了解决这个问题,我们提出了一种新颖的零镜头框架,称为 MultiDance Zero,它可以合成与任意多人和背景一致的视频,同时精确遵循驾驶姿势。具体来说,与直接的 DDIM 或空文本反演相比,我们首先提出一种姿势感知反演方法来获取噪声潜在代码和初始化文本嵌入,它可以准确地重建合成的参考图像。由于直接从它们生成视频将导致严重的外观不一致,因此我们提出了一种合成增强策略来生成增强图像并利用它们来优化一组可概括的文本嵌入。此外,还精心设计了一致性引导采样,以鼓励每个反向步骤中估计的干净图像的背景和关键点接近参考图像的背景和关键点,进一步提高生成视频的时间一致性。 |
Linear Relative Pose Estimation Founded on Pose-only Imaging Geometry Authors Qi Cai, Xinrui Li, Yuanxin Wu 如何高效、准确地处理图像匹配异常值是二视图相对估计中的关键问题。流行的 RANSAC 方法要求最小点对必须是内点。本文介绍了一种针对 n n geq 6 点对的线性相对位姿估计算法,该算法基于最近的仅位姿成像几何结构,通过适当的重新加权来滤除异常值。所提出的算法能够处理平面退化场景,并在存在大量异常值的情况下增强鲁棒性和准确性。具体来说,我们将线性全局平移LiGT约束嵌入到迭代重加权最小二乘IRLS和RANSAC策略中,以实现鲁棒的异常值去除。 |
EndoGaussians: Single View Dynamic Gaussian Splatting for Deformable Endoscopic Tissues Reconstruction Authors Yangsen Chen, Hao Wang 利用内窥镜视频对可变形软体组织进行精确的 3D 重建是 VR 手术和医学图像分析等医疗应用中的关键挑战。现有的方法常常难以准确地理解幻觉组织部分的模糊性,从而限制了它们的实际用途。在这项工作中,我们介绍了 EndoGaussians,这是一种采用高斯分布进行动态内窥镜 3D 重建的新颖方法。该方法标志着高斯分布在这种情况下的首次使用,克服了以前基于 NeRF 的技术的局限性。正如对各种内窥镜数据集的定量评估所证明的那样,我们的方法设定了新的最先进标准。 |
Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval Authors Dezhao Luo, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu 视频时刻检索 VMR 需要对细粒度时刻文本关联进行精确建模,以捕获复杂的视觉语言关系。由于缺乏多样化且通用的 VMR 数据集来促进学习可扩展的时刻文本关联,现有方法诉诸于对源域视频和目标域视频进行联合训练以实现跨域应用。同时,在大规模图像文本和/或视频文本对上预训练的视觉语言多模态模型的最新发展仅基于弱标记的粗略关联。它们不足以提供跨域 VMR 所需的细粒度时刻文本关联。在这项工作中,我们通过仅利用目标域句子文本提示而不访问其视频来解决看不见的跨域VMR问题,其中某些视觉和文本概念不跨域重叠。为此,我们探索生成视频扩散,以对由目标句子控制的源视频进行细粒度编辑,使我们能够模拟目标域视频。我们解决了视频编辑中的两个问题,以优化看不见的域 VMR 1 生成具有细微差别的不同时刻的高质量模拟视频,2 选择补充现有源训练视频的模拟视频,而不会引入有害噪声或不必要的重复。关于第一个问题,我们制定了一个两阶段视频扩散生成,由 1 源视频的原始视频结构、2 主题细节和 3 目标句子提示同时控制。这确保了视频时刻之间的细粒度变化。 |
Memory Consistency Guided Divide-and-Conquer Learning for Generalized Category Discovery Authors Yuanpeng Tu, Zhun Zhong, Yuxi Li, Hengshuang Zhao 广义类别发现 GCD 旨在解决更现实且更具挑战性的半监督学习设置,其中仅将部分类别标签分配给某些训练样本。以前的方法通常对所有样本采用朴素对比学习或无监督聚类方案。然而,他们通常忽略正在训练的模型的历史预测中固有的关键信息。具体来说,我们凭经验揭示,大量显着的未标记样本产生与其真实类别相对应的一致历史预测。根据这一观察,我们提出了一个内存一致性引导的分而治之的学习框架 MCDL 。在这个框架中,我们引入了两个内存库来记录未标记数据的历史预测,利用它们来衡量每个样本在预测一致性方面的可信度。在可信度的指导下,我们可以设计分而治之的学习策略,充分利用无标签数据的判别信息,同时减轻噪声标签的负面影响。多个基准的广泛实验结果证明了我们方法的通用性和优越性,我们的方法在通用图像识别的可见和不可见类别和具有挑战性的语义转移设置上都远远优于最先进的模型,即,增益为 8.4 |
InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions Authors Ryota Tanaka, Taichi Iki, Kyosuke Nishida, Kuniko Saito, Jun Suzuki 我们研究通过人类书面指令在现实世界文档上完成各种视觉文档理解 VDU 任务的问题,例如问答和信息提取。为此,我们提出了 InstructDoc,这是第一个包含 30 个公开可用的 VDU 数据集的大规模集合,每个数据集都具有统一格式的不同指令,涵盖了广泛的 12 种任务,并包括开放文档类型格式。此外,为了增强 VDU 任务的泛化性能,我们设计了一种新的基于指令的文档阅读和理解模型 InstructDr,它通过可训练的桥接模块连接文档图像、图像编码器和大型语言模型 LLM。 |
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models Authors Rohan Wadhawan, Hritik Bansal, Kai Wei Chang, Nanyun Peng 人工智能的最新进展导致了大型多模态模型 LMM 的开发,该模型能够处理复杂的任务,涉及对图像中的文本和视觉内容进行联合推理,例如在公共场所导航地图。本文介绍了 ConTextual,这是一种新颖的基准测试,其中包含专门设计用于评估 LMM 执行上下文敏感文本丰富视觉推理的能力的指令。 ConTextual 强调多样化的现实世界场景,例如时间阅读、导航、购物等,更需要对文本和视觉元素之间的交互有更深入的理解。我们的研究结果显示,使用人类评估,表现最佳的 LMM、GPT 4V 版本和人类能力之间存在 30.8 的显着性能差距,这表明上下文敏感文本丰富的视觉推理还有很大的改进空间。值得注意的是,虽然 GPT 4V 在模因和引文解释等抽象类别方面表现出色,但其整体表现仍然落后于人类。除了人工评估之外,我们还采用了使用 GPT 4 的自动评估指标,发现了性能差异的类似趋势。 |
Visual Objectification in Films: Towards a New AI Task for Video Interpretation Authors Julie Tores, Lucile Sassatelli, Hui Yin Wu, Clement Bergman, Lea Andolfi, Victor Ecrement, Frederic Precioso, Thierry Devars, Magali Guaresi, Virginie Julliard, Sarah Lecossais 在电影性别研究中,男性凝视的概念是指银幕上的角色被描绘成欲望的对象而不是主体的方式。在本文中,我们介绍了一种新颖的视频解释任务,用于检测电影中的角色客观化。目的是揭示和量化电影中复杂时间模式的使用,以产生客观化的认知感知。我们介绍 ObyGaze12 数据集,该数据集由 1914 年的电影剪辑组成,由专家针对电影研究和心理学中确定的客观化概念进行了密集注释。我们评估最近的视觉模型,展示任务的可行性以及概念瓶颈模型仍然存在的挑战。 |
Small Object Tracking in LiDAR Point Cloud: Learning the Target-awareness Prototype and Fine-grained Search Region Authors Shengjing Tian, Yinan Han, Xiuping Liu, Xiantong Zhao 激光雷达点云中的单目标跟踪是环境感知中最重要的部分之一,其中小目标在现实场景中是不可避免的,这会给准确定位带来重大障碍。然而,现有的方法更多地集中于探索通用类别的通用架构,而忽视了小物体由于前景点相对缺乏和对干扰的容忍度较低而长期以来一直是棘手的挑战。为此,我们提出了一种基于Siamese网络的LiDAR点云小目标跟踪方法,该方法由目标感知原型挖掘TAPM模块和区域网格细分RGS模块组成。 TAPM模块采用掩模解码器的重建机制来学习特征空间中的原型,旨在突出前景点的存在,以利于后续小物体的定位。通过上述原型能够强调感兴趣的小物体,特征图中的定位偏差仍然导致较高的跟踪误差。为了缓解这个问题,提出了 RGS 模块来基于 ViT 和像素洗牌层恢复搜索区域的细粒度特征。此外,除了正常设置之外,我们还精心设计了缩放实验来评估不同跟踪器在小物体上的鲁棒性。 |
DDI-CoCo: A Dataset For Understanding The Effect Of Color Contrast In Machine-Assisted Skin Disease Detection Authors Ming Chang Chiu, Yingfei Wang, Yen Ju Kuo, Pin Yu Chen 肤色作为人口统计偏差和不一致的人类标签给皮肤病学人工智能带来了挑战。我们从另一个角度研究肤色之外的颜色对比度对皮肤病数据集中恶性肿瘤检测的影响我们假设除了肤色之外,病变区域和皮肤之间的色差也在皮肤科恶性肿瘤检测性能中发挥着作用人工智能模型。为了研究这个问题,我们首先提出了一种鲁棒的标记方法来量化每个图像的颜色对比度分数,并通过显示小的标记变化来验证我们的方法。更重要的是,应用我们的方法对唯一多样化肤色和病理证实的皮肤病数据集 DDI 进行 textit,产生 textbf DDI CoCo 数据集,并且我们观察到高色差组和低色差组之间的性能差距。这种差异在各种最先进的 SoTA 图像分类模型中保持一致,这支持了我们的假设。此外,我们研究了肤色和色差效应之间的相互作用,并表明色差可能是肤色之间模型性能偏差背后的另一个原因。 |
Audio-Infused Automatic Image Colorization by Exploiting Audio Scene Semantics Authors Pengcheng Zhao, Yanxiang Chen, Yang Zhao, Wei Jia, Zhao Zhang, Ronggang Wang, Richang Hong 自动图像着色本质上是一个具有不确定性的病态问题,需要对场景进行准确的语义理解来估计灰度图像的合理颜色。尽管最近基于交互的方法已经取得了令人印象深刻的性能,但为自动着色推断真实且准确的颜色仍然是一项非常困难的任务。为了降低灰度场景语义理解的难度,本文尝试利用相应的音频,它自然包含同一场景的额外语义信息。具体来说,提出了一种新颖的音频注入自动图像着色AIAIC网络,它由三个阶段组成。首先,我们以彩色图像语义为桥梁,预训练由彩色图像语义引导的彩色化网络。其次,利用音频和视频的自然共现来学习音频和视觉场景之间的颜色语义相关性。第三,将隐式音频语义表示输入预训练网络,最终实现音频引导着色。整个过程以自我监督的方式进行训练,无需人工注释。此外,还建立了视听着色数据集用于训练和测试。 |
Dual-modal Dynamic Traceback Learning for Medical Report Generation Authors Shuchang Ye, Mingyuan Meng, Mingjian Li, Dagan Feng, Jinman Kim 随着临床实践中对医学成像的依赖日益增加,对从医学图像自动生成报告的需求很大。现有的报告生成方法通常采用编码器解码器深度学习框架来构建单向图像到报告映射。然而,这样的框架忽略了图像和报告之间的双向相互关联,因此在关联它们之间的内在医学含义时遇到了困难。最近的生成表示学习方法已经证明了来自图像和文本模态的双模态学习的好处。然而,这些方法在医学报告生成方面存在两个主要缺点:1它们倾向于捕获形态信息,但难以捕获微妙的病理语义信息;2它们预测屏蔽文本依赖于未屏蔽的图像和文本,不可避免地会降低基于推理的性能。仅在图像上。在本研究中,我们提出了一种具有双模态动态回溯学习 DTrace 的新报告生成框架,以克服两个已发现的缺点,并实现用于医疗报告生成的双模态学习。为了实现这一目标,我们的 DTrace 引入了追溯机制,通过自我评估来控制生成内容的语义有效性。此外,我们的 DTrace 引入了动态学习策略来适应各种比例的图像和文本输入,从而在推理过程中无需依赖文本输入即可生成报告。 |
Enhancing cross-domain detection: adaptive class-aware contrastive transformer Authors Ziru Zeng, Yue Ding, Hongtao Lu 近年来,检测变压器因其固有的最小后处理要求而受到广泛关注。然而,这种范式依赖于丰富的训练数据,但在跨域适应的背景下,目标域中的标签不足加剧了类别不平衡和模型的问题 |
Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration Authors Yimin Xu, Nanxi Gao, Zhongyun Shan, Fei Chao, Rongrong Ji 与传统的图像恢复方法相比,多合一图像恢复技术因其能够恢复受多种和未知损坏类型和级别影响的图像而受到越来越多的关注。然而,当代的多合一图像恢复方法忽略了任务方面的困难,并采用相同的网络来重建受到不同退化影响的图像。这种做法会导致任务相关性的低估和计算资源的次优分配。为了阐明任务方面的复杂性,我们引入了一个新颖的概念,认为复杂的图像退化可以用基本退化来表示。在此基础上,我们提出了一种创新方法,称为统一宽度自适应动态网络 U WADN ,由两个关键组件组成:宽度自适应骨干网 WAB 和宽度选择器 WS 。 WAB 包含多个宽度不同的嵌套子网络,这有助于选择适合每个任务的最合适的计算,从而在运行时在准确性和计算效率之间取得平衡。对于不同的输入,WS 会自动选择最合适的子网络宽度,同时考虑特定于任务和特定于样本的复杂性。跨各种图像恢复任务的大量实验表明,所提出的 U WADN 实现了更好的性能,同时减少了高达 32.3 的 FLOP 并提供了大约 15.7 的实时加速。 |
AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical Attention Network Authors Xiaolin Ma, Junkai Cheng, Aihua Li, Yuhua Zhang, Zhilong Lin 近年来,基于深度学习的方法已成功应用于合成孔径雷达SAR图像的船舶检测。尽管开发了多种船舶检测方法,但由于沿海环境的特征有限和杂乱,检测小型沿海船舶仍然是一个重大挑战。为此,提出了一种新颖的自适应多层次注意力模块 AMAM 来学习多尺度特征,并自适应地聚合来自各个特征层的显着特征,即使在复杂的环境中也是如此。具体来说,我们首先融合相邻特征层的信息来增强对较小目标的检测,从而实现多尺度特征增强。然后,为了过滤掉复杂背景的不利影响,我们剖析了通道上先前融合的多级特征,单独挖掘显着区域,并自适应地合并来自不同通道的特征。第三,我们通过在主干网络和特征金字塔网络 FPN 之间嵌入 AMAM 提出了一种新颖的自适应多层次注意力网络 AMANet。此外,AMAM 可以轻松插入不同框架之间,以改进对象检测。 |
Common-Sense Bias Discovery and Mitigation for Classification Tasks Authors Miao Zhang, Zee fryer, Ben Colman, Ali Shahriyari, Gaurav Bharaj 机器学习模型偏差可能是由与学习目标相关的数据集组成敏感特征引起的,会扰乱模型决策规则并导致特征上的性能差异。现有的去偏工作捕获了可在模型潜在空间中追踪的突出且精致的图像特征,例如数字的颜色或动物的背景。然而,使用潜在空间不足以理解所有数据集特征相关性。在这项工作中,我们提出了一个基于图像描述提取数据集中的特征簇的框架,使我们能够捕获图像的微妙和粗略特征。制定特征共现模式并测量相关性,利用环路中的人员进行检查。分析的特征和相关性是人类可以解释的,因此我们将该方法命名为 Common Sense Bias Discovery CSBD 。在暴露数据集中的敏感相关性后,我们证明可以通过调整图像采样权重来减轻下游模型偏差,而不需要敏感组标签监督。 |
AdCorDA: Classifier Refinement via Adversarial Correction and Domain Adaptation Authors Lulan Shen, Ali Edalati, Brett Meyer, Warren Gross, James J. Clark 本文描述了一种简单而有效的技术,用于改进预训练分类器网络。所提出的 AdCorDA 方法基于训练集的修改并利用网络权重和层输入之间的对偶性。我们称之为输入空间训练。该方法包括两个阶段的对抗性校正和域适应。对抗性纠正使用对抗性攻击来纠正不正确的训练集分类。训练集中错误分类的样本被去除并用对抗性校正的样本替换以形成新的训练集,然后在第二阶段执行域适应回到原始训练集。广泛的实验验证表明,CIFAR 100 数据集上的准确度显着提高了 5 以上。该技术可以直接应用于权重量化神经网络的细化,其中实验表明性能比基线有显着提高。 |
Boosting the Transferability of Adversarial Examples via Local Mixup and Adaptive Step Size Authors Junlin Liu, Xinchen Lyu 对抗性示例是对各种视觉应用程序的一种关键安全威胁,其中注入的人类难以察觉的扰动可能会混淆输出。在黑匣子设置中生成可转移的对抗性示例至关重要,但在实践中具有挑战性。现有的基于输入多样性的方法采用不同的图像变换,但由于输入多样性不足和相同的扰动步长可能效率低下。由于不同图像区域在分类中具有不同的权重,本文通过联合设计增强的输入多样性和自适应步长,提出了一种黑盒对抗生成框架。我们设计局部混合来随机混合一组变换后的对抗图像,增强输入多样性。为了精确生成对抗性,我们将扰动投影到 tanh 空间中以放松边界约束。 |
Style-Consistent 3D Indoor Scene Synthesis with Decoupled Objects Authors Yunfan Zhang, Hong Huang, Zhiwei Xiong, Zhiqi Shen, Guosheng Lin, Hao Wang, Nicholas Vun 可控 3D 室内场景合成处于技术进步的前沿,提供游戏、电影和增强虚拟现实等各种应用。在这些场景中对对象进行风格化和解耦的能力是一个关键因素,它可以在整个编辑过程中提供高级的控制。此控件不仅扩展到操纵几何属性(例如平移和缩放),还包括管理外观(例如样式化)。当前的场景风格化方法仅限于将样式应用于整个场景,无法分离和自定义单个对象。为了解决这一挑战的复杂性,我们引入了专为合成 3D 室内场景而设计的独特管道。我们的方法包括利用专业设计的边界框的信息,策略性地将对象放置在场景中。值得注意的是,我们的流程优先考虑保持场景中多个对象的风格一致性,确保具有凝聚力和视觉吸引力的结果与所需的美感保持一致。我们管道的核心优势在于它能够生成 3D 场景,这些场景不仅在视觉上令人印象深刻,而且还表现出照片级真实感、多视图一致性和多样性等特征。 |
MLLMReID: Multimodal Large Language Model-based Person Re-identification Authors Shan Yang, Yongfei Zhang 多模态大语言模型MLLM在许多任务中取得了令人满意的结果。然而,迄今为止,它们在行人重新识别 ReID 任务中的表现尚未得到探索。本文将研究如何使它们适应 ReID 任务。一个直观的想法是使用 ReID 图像文本数据集微调 MLLM,然后使用其视觉编码器作为 ReID 的骨干。然而,仍然存在两个明显的问题 1 为 ReID 设计指令,MLLM 可能会过度拟合特定指令,并且设计多种指令会导致更高的成本。 2 来自 LLM 的潜在图像特征向量不参与损失计算。教学学习,对齐图像文本特征,导致间接优化和未充分利用特征的学习目标,限制了人物特征学习的有效性。为了解决这些问题,本文提出了基于 ReID 的 MLLMReID 多模态大语言模型。首先,我们提出了Commonstruction,一种简单的方法,利用LLM继续写作的本质能力,避免复杂多样的指令设计。其次,我们提出了 DirectReID,它在 ReID 任务中有效地利用了 LLM 输出图像的潜在图像特征向量。实验结果证明了我们方法的优越性。 |
Catch-Up Mix: Catch-Up Class for Struggling Filters in CNN Authors Minsoo Kang, Minkoo Kang, Suhyun Kim 深度学习在计算机视觉领域取得了重大进展,特别是在图像分类任务中。尽管深度学习模型在训练数据上具有很高的准确性,但它经常面临与复杂性和过度拟合相关的挑战。一个值得注意的问题是,该模型通常严重依赖有限的过滤器子集来进行预测。这种依赖性可能会导致泛化能力受损,并且更容易受到微小变化的影响。虽然权重衰减、丢失和数据增强等正则化技术通常用于解决这个问题,但它们可能无法直接解决对特定过滤器的依赖。我们的观察表明,当慢速学习过滤器因快速学习过滤器而被剥夺学习机会时,严重依赖问题就会变得严重。从图像增强研究中汲取灵感,通过删除和替换部分图像来对抗对特定图像区域的过度依赖,我们的想法是通过替换高度激活的特征来减轻对强过滤器的过度依赖问题。为此,我们提出了一种称为 Catch up Mix 的新颖方法,该方法在训练期间为各种过滤器提供学习机会,重点关注可能落后的过滤器。通过将激活图与相对较低的规范混合,Catch up Mix 促进了更多样化表示的开发,并减少了对一小部分过滤器的依赖。 |
Towards Multi-domain Face Landmark Detection with Synthetic Data from Diffusion model Authors Yuanming Li, Gwantae Kim, Jeong gi Kwak, Bon hwa Ku, Hanseok Ko 最近,基于深度学习的野外人脸特征点检测取得了显着的进步。然而,其他领域的人脸特征点检测仍然存在挑战,例如:卡通、漫画等。这是由于缺乏广泛注释的训练数据。为了解决这个问题,我们设计了一种两阶段训练方法,该方法有效地利用有限的数据集和预先训练的扩散模型来获得多个领域中对齐的地标和人脸对。在第一阶段,我们在大型真实面部数据集上训练一个具有里程碑意义的条件面部生成模型。在第二阶段,我们在图像地标对的小数据集上微调上述模型,并带有用于控制域的文本提示。我们的新设计使我们的方法能够从多个领域生成高质量的合成配对数据集,同时保持地标和面部特征之间的对齐。最后,我们在合成数据集上微调预训练的人脸标志检测模型,以实现多域人脸标志检测。 |
Boundary and Relation Distillation for Semantic Segmentation Authors Dong Zhang, Pingcheng Dong, Xinting Hu, Long Chen, Kwang Ting Cheng 最近,研究表明,小型语义分割 SS 模型尽管能够有效分割主要对象区域,但在保持边界区域完整性和保持目标区域连通性方面容易出错。为了解决这些错误,我们提出了一种有针对性的边界和关系蒸馏 BRD 策略,使用从大型教师模型到小型学生模型的知识蒸馏。具体来说,边界蒸馏从主干网络的分层特征图中提取明确的对象边界,随后增强学生模型在边界区域的掩模质量。同时,关系蒸馏使用像素级自关系作为桥梁,将隐式关系从教师模型转移到学生模型,确保学生掩模具有较强的目标区域连接性。所提出的BRD是针对SS具体设计的,具有简单、高效的特点。通过对多个 SS 数据集(包括 Pascal VOC 2012、Cityscapes、ADE20K 和 COCO Stuff 10K)的实验评估,我们证明了 BRD 在不增加推理成本的情况下显着超越了当前的方法,生成了清晰的区域边界和平滑的连接区域,这对于小规模数据集来说是具有挑战性的。 |
ADMap: Anti-disturbance framework for reconstructing online vectorized HD map Authors Haotian Hu, Fanyi Wang, Yaonong Wang, Laifeng Hu, Jingwei Xu, Zhiwang Zhang 在自动驾驶领域,在线高清地图重建对于规划任务至关重要。最近的研究开发了几种高性能的高清地图重建模型来满足这种需要。然而,由于预测偏差,实例向量内的点序列可能会出现抖动或锯齿状,这可能会影响后续任务。因此,本文提出抗干扰地图重构框架ADMap。为了减轻点阶抖动,该框架由三个模块组成:Multi Scale Perception Neck、Instance Interactive Attention IIA 和 Vector Direction Difference Loss VDDL。通过以级联方式探索实例之间和实例内的点顺序关系,该模型可以更有效地监控点顺序预测过程。 ADMap 在 nuScenes 和 Argoverse2 数据集上实现了最先进的性能。大量结果证明了其在复杂多变的驾驶场景中生成稳定可靠的地图元素的能力。 |
A Generalized Multiscale Bundle-Based Hyperspectral Sparse Unmixing Algorithm Authors Luciano Carvalho Ayres, Ricardo Augusto Borsoi, Jos Carlos Moreira Bermudez, S rgio Jos Melo de Almeida 在高光谱稀疏分解中,一种成功的方法采用光谱束来解决空间域中端元的可变性。然而,通常采用的正则化惩罚会聚集大量的计算复杂性,并且解决方案对噪声非常敏感。我们推广了一种多尺度空间正则化方法,通过结合引入混合范数的组稀疏性来解决混合问题。然后,我们提出了一种噪声鲁棒方法,该方法可以利用束结构来处理端元变异性,同时以合理的计算成本确保丰度估计中的类间和类内稀疏性。我们还提出了一种通用启发式方法,用于在多次运行的分离过程中选择 emph 最具代表性的丰度估计,从而产生稳健且高度可重复的解决方案。 |
Digital Divides in Scene Recognition: Uncovering Socioeconomic Biases in Deep Learning Systems Authors Michelle R. Greene, Mariam Josyula, Wentao Si, Jennifer A. Hart 基于计算机的场景理解已经影响了从城市规划到自动驾驶汽车性能等各个领域,但人们对这些技术在跨越社会差异方面的效果知之甚少。我们使用来自全球和美国的近一百万张图像(包括用户提交的家庭照片和 Airbnb 列表)来研究深度卷积神经网络 dCNN 在场景分类中的偏差。我们应用统计模型来量化社会经济指标(例如家庭收入、人类发展指数 HDI)以及来自 CIA 和美国人口普查公共数据源的人口因素对 dCNN 性能的影响。我们的分析揭示了显着的社会经济偏差,其中预训练的 dCNN 表现出较低的分类准确性、较低的分类置信度,并且在应用于房屋(例如废墟、贫民窟)时更倾向于分配可能令人反感的标签,特别是在来自社会经济地位较低 SES 的房屋的图像中。这一趋势在两个国际图像数据集以及美国多样化的经济和种族格局中是一致的。这项研究有助于理解计算机视觉中的偏差,强调需要更具包容性和代表性的训练数据集。通过减轻计算机视觉管道中的偏差,我们可以确保应用计算机视觉(包括房屋估价和智能家居安全系统)获得更公平的结果。解决这些偏见刻不容缓,因为它们可能会对城市发展和资源分配的关键决策产生重大影响。 |
Open-source data pipeline for street-view images: a case study on community mobility during COVID-19 pandemic Authors Matthew Martell, Nick Terry, Ribhu Sengupta, Chris Salazar, Nicole A. Errett, Scott B. Miles, Joseph Wartman, Youngjun Choe 街景图像 SVI 是研究人员有价值数据的常见来源。研究人员使用 SVI 数据来估计行人流量、人口统计,并更好地了解城市景观中的建筑和自然环境。然而,公开可用的 SVI 数据最常见的来源是 Google 街景。谷歌街景图像的收集频率很低,这使得时间分析具有挑战性,特别是在人口密度低的地区。我们的主要贡献是开发了一个开源数据管道,用于处理车载摄像头录制的 360 度视频。视频数据用于生成 SVI,然后可以将其用作时间分析的输入。我们通过在 COVID 19 大流行期间对美国华盛顿州西雅图进行的 38 个月纵向调查中收集 SVI 数据集来演示该管道的使用。我们的管道的输出是通过图像中行人流量的统计分析来验证的。我们证实了文献中的已知结果,并提供了有关户外行人交通模式的新见解。这项研究证明了收集和使用 SVI 用于研究目的的可行性和价值,超出了当前可用的 SVI 数据的范围。 |
PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion Authors Shyam Sundar Kannan, Byung Cheol Min 视觉地点识别是计算机视觉、自主机器人和车辆领域的一项具有挑战性的任务,其目的是从视觉输入中识别位置或场所。现代视觉地点识别方法采用卷积神经网络,并利用图像中的每个区域来执行地点识别任务。然而,图像中存在的动态和分散注意力的元素可能会影响地点识别过程的有效性。因此,关注图像的任务相关区域以提高识别能力是有意义的。在本文中,我们提出了 PlaceFormer,一种基于 Transformer 的新型视觉地点识别方法。 PlaceFormer 使用转换器中的补丁标记来创建全局图像描述符,然后将其用于图像检索。为了重新排列检索到的图像,PlaceFormer 合并来自转换器的补丁标记以形成多尺度补丁。利用 Transformer 的自注意力机制,它选择与图像中任务相关区域相对应的补丁。这些选定的补丁经过几何验证,生成不同补丁大小的相似性分数。随后,融合每个补丁大小的空间分数以产生最终的相似性分数。然后使用该分数对最初使用全局图像描述符检索到的图像进行重新排序。 |
Free Form Medical Visual Question Answering in Radiology Authors Abhishek Narayanan, Rushabh Musthyala, Rahul Sankar, Anirudh Prasad Nistala, Pranav Singh, Jacopo Cirrone 医学领域的视觉问答 VQA 提出了独特的跨学科挑战,结合了计算机视觉、自然语言处理和知识表示等领域。尽管医学 VQA 很重要,但它的研究却很少,自 2018 年以来才开始出现势头。为了解决这一差距,我们的研究深入研究了放射图像的有效表示和多模态表示的联合学习,超越了现有方法。我们创新性地扩充了 SLAKE 数据集,使我们的模型能够响应更多样化的问题,而不仅限于放射学或病理学图像的直接内容。我们的模型以不太复杂的架构实现了 79.55 的 top 1 精度,表现出与当前最先进模型相当的性能。 |
Local Background Estimation for Improved Gas Plume Identification in Hyperspectral Images Authors Scout Jarman, Zigfried Hampel Arias, Adra Carr, Kevin R. Moon 深度学习识别模型已显示出识别城市场景的长波红外高光谱图像中的气体羽流的前景,特别是在考虑大量气体库时。由于许多气体具有相似的光谱特征,因此正确估计来自检测到的羽流的信号非常重要。通常,估计场景的全局平均谱和协方差矩阵以白化羽流信号,从而从气体特征中去除背景特征。然而,城市场景可能有许多不同的背景材料,这些背景材料在空间和光谱上是异构的。当全局背景估计不能代表给定的局部背景材料时,这可能导致识别性能不佳。我们使用图像分割以及迭代背景估计算法来为气体羽流下方的各种背景材料创建局部估计。我们的方法优于一组模拟和真实气体羽流的全局背景估计。 |
PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation Authors Zhaozhi Xie, Bochen Guan, Weihao Jiang, Muyang Yi, Yue Ding, Hongtao Lu, Lei Zhang Segment Anything Model SAM 在各种图像分割任务中表现出了出色的性能。尽管使用了超过 10 亿个掩模进行了训练,但 SAM 在许多场景中(尤其是在现实世界中)仍面临着掩模预测质量的挑战。在本文中,我们在 SAM 中引入了一种新颖的提示驱动适配器,即 Prompt Adapter Segment Anything Model PA SAM ,旨在提高原始 SAM 的分割掩模质量。通过专门训练提示适配器,PA SAM 从图像中提取详细信息,并在稀疏和密集提示级别上优化掩模解码器功能,提高 SAM 的分割性能,以产生高质量的掩模。实验结果表明,我们的 PA SAM 在高质量、零样本和开放集分割方面优于其他基于 SAM 的方法。 |
CCA: Collaborative Competitive Agents for Image Editing Authors Tiankai Hang, Shuyang Gu, Dong Chen, Xin Geng, Baining Guo 本文提出了一种新颖的生成模型,即协作竞争代理 CCA,它利用基于多个大型语言模型 LLM 的代理的功能来执行复杂的任务。 CCA 系统受到生成对抗网络 GAN 的启发,采用了两个平等状态的生成器代理和一个鉴别器代理。生成器独立处理用户指令并生成结果,而判别器评估输出,并为生成器代理提供反馈以进一步反映和改进生成结果。与之前的生成模型不同,我们的系统可以获得生成的中间步骤。由于其透明度,每个生成器代理都可以从其他成功执行中学习,从而实现协作竞争,从而提高系统结果的质量和稳健性。这项研究的主要焦点是图像编辑,展示了 CCA 稳健处理复杂指令的能力。该论文的主要贡献包括引入具有可控中间步骤和迭代优化的基于多智能体的生成模型、对智能体关系的详细检查以及图像编辑的综合实验。 |
Tyche: Stochastic In-Context Learning for Medical Image Segmentation Authors Marianne Rakic, Hallee E. Wong, Jose Javier Gonzalez Ortiz, Beth Cimini, John Guttag, Adrian V. Dalca 现有的基于学习的医学图像分割解决方案有两个重要的缺点。首先,对于大多数新的分割任务,必须训练或微调新模型。这需要大量的资源和机器学习专业知识,因此对于医学研究人员和临床医生来说通常是不可行的。其次,大多数现有的分割方法为给定图像生成单个确定性分割掩模。然而在实践中,关于什么构成正确的分割通常存在相当大的不确定性,并且不同的专家注释者通常会对同一图像进行不同的分割。我们用 Tyche 解决了这两个问题,该模型使用上下文集为以前未见过的任务生成随机预测,而无需重新训练。 Tyche 与其他上下文分割方法有两个重要的不同之处。 1 我们引入了一种新颖的卷积块架构,可以实现预测之间的交互。 2 我们在上下文测试时间增强中引入了一种提供预测随机性的新机制。 |
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks Authors Jing Yu Koh, Robert Lo, Lawrence Jang, Vikram Duvvur, Ming Chong Lim, Po Yu Huang, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, Daniel Fried 能够在网络上规划、推理和执行操作的自主代理为计算机任务自动化提供了一条有前途的途径。然而,大多数现有基准主要关注基于文本的代理,忽略了许多需要视觉信息才能有效解决的自然任务。鉴于大多数计算机界面迎合人类感知,视觉信息通常会以纯文本模型难以有效利用的方式增强文本数据。为了弥补这一差距,我们引入了 VisualWebArena,这是一个基准测试,旨在评估多模式 Web 代理在现实文本视觉基础任务上的性能。 VisualWebArena 包含一组多样化且复杂的基于 Web 的任务,用于评估自主多模式代理的各种功能。为了达到这个基准,代理需要准确地处理图像文本输入,解释自然语言指令,并在网站上执行操作以实现用户定义的目标。我们对基于 LLM 的最先进的自主代理进行了广泛的评估,包括几个多模式模型。通过广泛的定量和定性分析,我们确定了纯文本 LLM 代理的一些局限性,并揭示了最先进的多模式语言代理的能力差距。 VisualWebArena 提供了一个用于评估多模式自主语言代理的框架,并提供了构建更强大的网络自主代理的见解。 |
FLLIC: Functionally Lossless Image Compression Authors Xi Zhang, Xiaolin Wu 最近,用于无损图像编码的 DNN 模型在压缩性能方面超越了传统模型,将自然彩色图像的比特率降低了约 10%。但即使有了这些进步,自然图像的数学无损图像压缩 MLLIC 比率仍然达不到当前及以后大多数实用成像和视觉系统的带宽和成本效益要求。为了打破 MLLIC 在压缩性能方面的瓶颈,我们质疑 MLLIC 的必要性,因为几乎所有数字传感器都会固有地引入采集噪声,使得数学上的无损压缩适得其反。因此,与 MLLIC 相比,我们提出了一种联合去噪和压缩的新范例,称为功能无损图像压缩 FLLIC,它对最佳去噪图像执行无损压缩,最优性可能是特定于任务的。尽管相对于噪声输入来说并不是真正意义上的无损,但 FLLIC 的目标是实现潜在无噪声原始图像的最佳重建。 |
PLATE: A perception-latency aware estimator, Authors Rodrigo Aldana L pez, Rosario Arag s, Carlos Sag s 目标跟踪是许多潜在应用中的一个普遍问题。人们在通过不同技术提高相机目标检测质量方面做出了很多努力。一般来说,应用更高的计算量,即更长的感知延迟,可以获得更好的检测精度。然而,应用允许的最长感知延迟并不总是有用的,特别是当环境不需要并且计算资源在其他任务之间共享时。在这项工作中,我们提出了一种新的感知延迟感知估算器 PLATE,它在不同时刻使用不同的感知配置来优化特定的性能指标。该措施考虑了感知延迟和准确性的权衡,旨在在质量和资源使用之间取得良好的折衷。与其他启发式跳帧技术相比,PLATE 具有形式复杂性和最优性分析。 |
Tissue Cross-Section and Pen Marking Segmentation in Whole Slide Images Authors Ruben T. Lucassen, Willeke A. M. Blokx, Mitko Veta 组织分割是一个常规预处理步骤,通过排除背景区域来降低整个幻灯片图像 WSI 分析的计算成本。传统的图像处理技术通常用于组织分割,但通常需要手动调整非典型情况的参数值,无法从背景中排除所有幻灯片和扫描伪影,并且无法分割脂肪组织。如果不消除笔标记伪影,尤其可能成为后续分析的潜在偏差来源。此外,一些应用需要分离各个横截面,由于组织碎片和相邻定位,这可能具有挑战性。为了解决这些问题,我们使用 200 个 H E 染色 WSI 的数据集开发了一个用于组织和笔标记分割的卷积神经网络。为了分离组织横截面,我们提出了一种基于对二维直方图中横截面的预测质心位置进行聚类的新颖后处理方法。在独立测试集上,该模型在组织分割方面的平均 Dice 得分为 0.981 pm 0.033,在笔标记分割方面的平均 Dice 得分为 0.912 pm 0.090。带注释和分离的横截面数量之间的平均绝对差为 0.075 pm 0.350。我们的结果表明,所提出的模型可以准确分割 WSI 中的 HE 染色组织横截面和笔标记,同时对许多常见的幻灯片和扫描伪影具有鲁棒性。 |
SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval Authors Siwei Wu, Yizhi Li, Kang Zhu, Ge Zhang, Yiming Liang, Kaijing Ma, Chenghao Xiao, Haoran Zhang, Bohao Yang, Wenhu Chen, Wenhao Huang, Noura Al Moubayed, Jie Fu, Chenghua Lin 多模态信息检索 MMIR 是一个快速发展的领域,通过高级表示学习和跨模态对齐研究,已经取得了重大进展,特别是在图像文本配对方面。然而,当前评估科学领域图像文本配对 MMIR 性能的基准显示出显着的差距,其中用学术语言描述的图表和表格图像通常不起重要作用。为了弥补这一差距,我们通过利用开放获取论文集来提取与科学领域相关的数据,开发了专门的科学 MMIR SciMMIR 基准。该基准测试由 53 万个精心策划的图像文本对组成,这些图像文本对是从科学文档中带有详细说明的图表中提取的。我们进一步使用两级子集子类别层次结构注释来注释图像文本对,以促进对基线进行更全面的评估。我们对著名的多模态图像字幕和视觉语言模型(例如 CLIP 和 BLIP)进行了零样本和微调评估。我们的分析为 MMIR 在科学领域提供了重要的见解,包括预训练和微调设置的影响以及视觉和文本编码器的影响。 |
Segmenting Cardiac Muscle Z-disks with Deep Neural Networks Authors Mihaela Croitor Ibrahim, Nishant Ravikumar, Alistair Curd, Joanna Leng, Oliver Umney, Michelle Peckham Z 盘是描绘横纹肌中重复肌节的复杂结构。它们在心肌细胞中发挥着重要作用,例如为收缩肌节提供机械稳定性、细胞信号传导和自噬。 Z 盘结构的变化与心脏功能受损有关。因此,迫切需要创建从显微图像中分割 Z 盘的工具,以克服传统的限制,例如图像亮度和染色技术的变化。在本研究中,我们应用基于深度学习的分割模型来提取横纹肌组织图像中的 Z 盘。我们利用新颖的 Airyscan 共聚焦数据集,其中包含健康心脏组织 Z 盘的高分辨率图像,并用特定 Z 盘蛋白的仿射染色法进行染色。我们采用交互式标记工具 Ilastik 来获取地面实况分割掩模,并使用生成的数据集来训练和评估几种最先进的分割网络的性能。在测试集上,UNet 对心肌细胞中的 Z 盘实现了最佳分割性能,平均 Dice 得分为 0.91,优于其他已建立的分割方法,包括 UNet、FPN、DeepLabv3 和 pix2pix。然而,当在具有肌联蛋白突变的心肌细胞的附加数据集上进行测试时,pix2pix 表现出更好的泛化能力。这是第一项研究证明基于自动化机器学习的分割方法可以有效地用于分割共焦显微镜图像中的 Z 盘。自动分割方法和预测分割掩模可用于导出 Z 盘的形态特征,例如 |
SEDNet: Shallow Encoder-Decoder Network for Brain Tumor Segmentation Authors Chollette C. Olisah 尽管脑肿瘤分割的计算模型取得了进展,并开发了多个模型,但从现有模型的计算复杂度仍然处于历史最高水平可以看出,临床应用场景下的性能和效率受到限制。因此,本文提出了一种名为SEDNet的浅层编码器和解码器网络,用于脑肿瘤分割。所提出的网络改编自U Net结构。尽管脑肿瘤不像传统 U Net 所设计的任务那样具有复杂的结构,但它们在外观、形状和边界模糊性方面的差异使其成为一项引人注目的复杂任务。 SEDNet架构设计的灵感来自于脑图像中脑肿瘤的局部性质,因此由编码路径中足够的分层卷积块组成,能够学习脑切片中脑肿瘤的内在特征,以及具有足以用于学习脑切片中脑肿瘤的内在特征的解码路径。捕获微型局部水平空间特征以及脑肿瘤的全局水平特征。 SEDNet 将所提出的预处理算法和优化功能集成在为测试保留的 BraTS2020 集上,对于非增强肿瘤核心 NTC 、肿瘤周围水肿 ED 和分别增强肿瘤 ET 。此外,通过使用初始化的 SEDNet 预训练权重(称为 SEDNetX)进行迁移学习,可以观察到性能的提高。 NTC、ED 和 ET 记录的骰子分数和 Hausdorff 分数分别为 0.9336、0.9478、0.9061、0.6983、1.2691 和 0.7711。 |
NACHOS: Neural Architecture Search for Hardware Constrained Early Exit Neural Networks Authors Matteo Gambella, Jary Pomponi, Simone Scardapane, Manuel Roveri 早期退出神经网络 EENN 为标准深度神经网络 DNN 赋予了早期退出分类器 EEC,以便在达到足够的分类置信度时在处理的中间点提供预测。这在有效性和效率方面带来了许多好处。目前,EENN 的设计是由专家手动进行的,这是一项复杂且耗时的任务,需要考虑许多方面,包括 EEC 的正确放置、阈值处理和计算开销。为此,该研究正在探索使用神经架构搜索 NAS 来自动化 EENN 的设计。目前,文献中很少提出针对 EENN 的全面 NAS 解决方案,同时考虑骨干网和 EEC 的全自动联合设计策略仍然是一个悬而未决的问题。为此,这项工作提出了硬件约束早期退出神经网络 NACHOS 的神经架构搜索,这是第一个用于设计最佳 EENN 的 NAS 框架,满足 EENN 在推理时执行的乘法和累加 MAC 操作的准确性和数量的约束。特别是,这提供了骨干网和 EEC 的联合设计来选择一组可接受的,即尊重帕累托最优解在准确性和 MAC 数量之间的最佳权衡方面的约束。结果表明,NACHOS 设计的模型与最先进的 EENN 具有竞争力。 |
Deep Learning for Improved Polyp Detection from Synthetic Narrow-Band Imaging Authors Mathias Ramm Haugland, Hemin Ali Qadir, Ilangko Balasingham 为了应对结直肠癌 CRC 日益增长的患病率,息肉检测和切除的筛查计划已证明其有用性。结肠镜检查被认为是 CRC 筛查的最佳方法。为了简化检查,针对传统白光成像 WLI 开发了基于深度学习的自动息肉检测方法。与WLI相比,窄带成像NBI可以改善结肠镜检查时息肉的分类,但需要特殊设备。我们提出了一种基于 CycleGAN 的框架,用于将常规 WLI 捕获的图像转换为合成 NBI SNBI,作为一种预处理方法,用于在 NBI 不可用时改进 WLI 上的对象检测。本文首先表明,与相对相似的 WLI 数据集相比,NBI 可以实现更好的息肉检测结果。其次,实验结果表明,与原始 WLI 相比,我们提出的模态转换可以在 WLI 生成的 SNBI 图像上实现改进的息肉检测。 |
Segment Any Cell: A SAM-based Auto-prompting Fine-tuning Framework for Nuclei Segmentation Authors Saiyang Na, Yuzhi Guo, Feng Jiang, Hehuan Ma, Junzhou Huang 在快速发展的人工智能研究领域,BERT 和 GPT 等基础模型具有显着先进的语言和视觉任务。 ChatGPT 和 Segmentation Anything Model SAM 等训练前提示模型的出现进一步彻底改变了图像分割。然而,它们在专业领域的应用,特别是在医学成像中的细胞核分割中,揭示了一个关键挑战:生成高质量、信息丰富的提示与在基础模型上应用最先进的 SOTA 微调技术一样重要。为了解决这个问题,我们引入了 Segment Any Cell SAC,这是一种创新框架,专门针对细胞核分割增强了 SAM。 SAC 在 Transformer 的注意力层中集成了低秩自适应 LoRA,以改进微调过程,优于现有的 SOTA 方法。它还引入了一种创新的自动提示生成器,可产生有效的提示来指导分割,这是处理生物医学成像中细胞核分割复杂性的关键因素。我们广泛的实验证明了 SAC 在细胞核分割任务中的优越性,证明了它作为病理学家和研究人员工具的有效性。 |
Predicting Mitral Valve mTEER Surgery Outcomes Using Machine Learning and Deep Learning Techniques Authors Tejas Vyas, Mohsena Chowdhury, Xiaojiao Xiao, Mathias Claeys, G raldine Ong, Guanghui Wang 二尖瓣经导管边对边修复 mTEER 是一种用于治疗二尖瓣疾病的医疗手术。然而,预测手术结果提出了重大挑战。本文首次尝试利用经典机器学习 ML 和深度学习 DL 技术来预测二尖瓣 mTEER 手术结果。为了实现这一目标,我们编制了 467 名患者的数据集,其中包括标记的超声心动图视频和患者报告,其中包含经食管超声心动图 TEE 测量,详细说明了二尖瓣修复 MVR 治疗结果。利用该数据集,我们对六种机器学习算法和两种深度学习模型进行了基准评估。 |
Deep Spatiotemporal Clutter Filtering of Transthoracic Echocardiographic Images Using a 3D Convolutional Auto-Encoder Authors Mahdi Tabassian, Somayeh Akbari. S, Sandro Queir s, Jan D hooge 本研究提出了一种深度卷积自动编码器网络,用于过滤经胸超声心动图 TTE 图像序列中的混响伪影。考虑到这些伪影的时空性质,过滤网络是使用 3D 卷积层构建的,以抑制整个心动周期的杂波模式。该网络的设计利用了一种注意力机制,主要关注杂乱区域,并利用残差学习来保留图像帧的精细结构。为了训练深度网络,模拟了一组不同的伪影模式,并将模拟的模式叠加到六个超声供应商的无伪影超现实合成 TTE 序列上,以生成过滤网络的输入。无伪影序列作为基本事实。使用看不见的合成序列和体内人工序列来评估过滤网络的性能。使用后一个数据集获得的令人满意的结果证实了所提出的网络具有良好的泛化性能,该网络是使用合成序列和模拟工件模式进行训练的。通过计算分段应变曲线来评估杂波过滤后的序列是否适合进一步处理。结果表明,在使用所提出的网络对序列进行滤波后,从杂波片段计算出的应变分布与其在无杂波图像中的相应片段之间的巨大差异显着减少。经过训练的深度网络可以在不到一秒的时间内处理人为的 TTE 序列,并可用于实时杂波过滤。此外,它可以提高从TTE序列计算出的临床指标的精度。 |
Dual-Domain Coarse-to-Fine Progressive Estimation Network for Simultaneous Denoising, Limited-View Reconstruction, and Attenuation Correction of Cardiac SPECT Authors Xiongchao Chen, Bo Zhou, Xueqi Guo, Huidong Xie, Qiong Liu, James S. Duncan, Albert J.Sinusas, Chi Liu 单光子发射计算机断层扫描 SPECT 广泛应用于冠状动脉疾病的诊断。低剂量 LD SPECT 旨在最大限度地减少辐射暴露,但会导致图像噪声增加。有限视野 LV SPECT,例如最新的 GE MyoSPECT ES 系统,可以加速扫描并减少硬件费用,但会降低重建精度。此外,计算机断层扫描CT通常用于导出衰减图μ图,用于心脏SPECT的衰减校正AC,但它会引入额外的辐射暴露和SPECT CT错位。尽管已经开发出各种方法来仅关注 SPECT 中的 LD 去噪、左心室重建或 CT free AC,但同时解决这些任务的解决方案仍然具有挑战性且仍在探索中。此外,有必要探索在这些相互关联的任务中融合跨域和跨模态信息的潜力,以进一步提高每个任务的准确性。因此,我们提出了双域粗到精渐进网络 DuDoCFNet,这是一种多任务学习方法,用于同时进行 LD 去噪、LV 重建和心脏 SPECT 的 CT 免费 mu 图生成。 DuDoCFNet 中的配对双域网络使用多层融合机制进行级联,以实现跨域和跨模态特征融合。两阶段渐进学习策略应用于投影和图像领域,以实现 SPECT 投影和 CT 导出的 mu 图的粗略到精细估计。我们的实验证明,在各种迭代和 LD 级别下,与现有的单任务或多任务学习方法相比,DuDoCFNet 在估计投影、生成 mu 图和 AC 重建方面具有卓越的准确性。 |
SemanticSLAM: Learning based Semantic Map Construction and Robust Camera Localization Authors Mingyang Li, Yue Ma, Qinru Qiu 当前视觉同步定位和建图 VSLAM 技术通过比较连续场景的图像特征来估计相机位移。这些算法依赖于场景连续性,因此需要频繁的摄像机输入。然而,频繁处理图像可能会导致大量的内存使用和计算开销。在本研究中,我们介绍了 SemanticSLAM,这是一种端到端视觉惯性里程计系统,利用从 RGB D 传感器提取的语义特征。这种方法可以创建环境的语义地图并确保可靠的相机定位。 SemanticSLAM 与场景无关,这意味着它不需要针对不同环境进行重新训练。即使摄像机输入不频繁,它也可以在室内环境中有效运行,而无需事先了解。 SemanticSLAM的优势在于它能够逐步细化语义图并改进姿态估计。这是通过卷积长短期记忆 ConvLSTM 网络实现的,该网络经过训练可以纠正地图构建过程中的错误。与现有的 VSLAM 算法相比,SemanticSLAM 将姿态估计提高了 17 。生成的语义地图提供了有关环境的可解释信息,并且可以轻松应用于各种下游任务,例如路径规划、避障和机器人导航。 |
Chinese Abs From Machine Translation |