【深度学习:数据注释工具】构建以数据为中心的 AI 管道的 5 个步骤

慈云数据 2024-03-13 技术支持 65 0

在这里插入图片描述

深度学习:数据注释工具】构建与购买:从业者的经验教训

    • 什么是以数据为中心的人工智能(AI)方法?
    • 以数据为中心的人工智能方法有什么好处?
    • 实施以数据为中心的 AI、ML 和计算机视觉方法的 5 个步骤:采购、管理、注释、审查和培训 (SMART)
      • 获取正确的数据
      • 管理基于图像和视频的数据集
      • 使用人工智能注释和审查数据集
      • 使用以数据为中心的方法训练计算机视觉模型
      • 要点:以数据为中心的人工智能方法的优势

        以数据为中心的人工智能是机器学习 (ML) 和计算机视觉 (CV) 社区中积极的新兴趋势。

        简而言之,以数据为中心的人工智能是这样一种概念:人工智能系统最相关的组成部分是它所训练的数据,而不是它使用的模型或模型集。

        以数据为中心的人工智能概念建议将注意力从寻找模型架构和超参数的改进转向寻找改进数据的方法。更好的数据将产生更准确的模型结果。

        虽然这在抽象上是很好的,但对于现实世界的人工智能从业者所需的行动来说,还有一些不足之处。数据科学家和数据运营团队有理由想知道:究竟如何将工作负载从迭代模型转变为迭代数据?

        在这里插入图片描述

        随着时间的推移,ImageNet上的模型精度正在趋于平稳

        在本文中,我们将介绍一些如何正确思考和实施以数据为中心的 AI 的实际步骤。具体来说,我们将研究以数据为中心的 AI 与以模型为中心的 AI 在创建和处理训练数据方面的不同之处。

        什么是以数据为中心的人工智能(AI)方法?

        在训练计算机视觉模型或任何算法生成的模型时,以数据为中心将重点从模型转移到数据。释放 AI 的真正潜力意味着采购、注释、标记和构建更好的数据集。

        随着更高质量的数据进入模型,准确性和输出质量可以而且将会显着提高。

        任何以数据为中心的方法都取决于您获取、注释和标记要放入模型的正确数据的能力。

        在上一篇文章中,我们将探讨:

        • 寻找最佳训练数据的重要性
        • 如何确定要标记的内容的优先级
        • 如何确定在哪个数据子集上开始训练模型
        • 如何使用开源工具为计算机视觉应用程序选择数据

          考虑到这一点,我们现在可以转向以数据为中心的方法的好处以及实施以数据为中心的策略的 4 种方法。

          以数据为中心的人工智能方法有什么好处?

          对人工智能、ML 和计算机视觉模型采用以数据为中心的方法,可为企业在培训和实施生产就绪模型时带来诸多优势。

          通过与数十个行业的公司合作,我们发现,以数据为中心的方法在人工智能驱动的主动学习平台的支持下进行标注和模型训练,可以产生以下优势:

          • 更快地建立和训练计算机视觉模型
          • 提高数据质量,从而提高模型的准确性和输出结果;
          • 缩短从模型训练到部署所需的时间;
          • 加强迭代学习周期,提高生产就绪模型的准确性和产出。

            实施以数据为中心的 AI、ML 和计算机视觉方法的 5 个步骤:采购、管理、注释、审查和培训 (SMART)

            以下是使用 SMART 模型开发以数据为中心的 AI 方法所需的五个步骤。

            获取正确的数据

            包括:查找数据、收集数据、清理数据、消毒(出于监管/合规目的)

            以模型为中心的方法:使用 ImageNet 或开源数据集,那就没问题了!

            以数据为中心的 AI 模型方法:尽一切努力获取与计算机视觉项目的目标和用例相一致的专有数据集。

            尽管这是一个看似不重要的问题,但对于以数据为中心的人工智能来说,第一步也是最关键的一步是确保高质量的数据源或访问与项目目标和用例一致的专有数据管道。

            根据我们的经验,预测计算机视觉项目是否成功的主要方法是团队获取尽可能最佳数据集的能力(最好将数量和质量结合起来)。有时通过合作伙伴关系或更具创造性的方法,例如复杂的数据抓取、结构优势(例如,访问谷歌数据集)或纯粹的意志力。

            在这里插入图片描述

            从 Encord 合作过的客户那里,我们看到,采购最佳数据集的投资总是值得的。采购高质量的数据还会产生积极的外部性,因为更好的数据会吸引更多熟练的数据科学家、数据工程师和机器学习工程师。

            一旦获得数据集,无论是基于图像还是基于视频,都需要对其进行清理和清理,以便为该过程的注释和标记部分做好准备。未经处理的原始数据通常违反法律、隐私或其他监管限制。

            大多数数据运营领导者都准备好应对这些挑战。在内部或外部组建一个团队来清理数据并为注释和标记做好准备。

            管理基于图像和视频的数据集

            包括:存储、查询、采样、扩充和整理数据集。

            以模型为中心的方法:以有效的方式查询和切片数据是没有必要的,我将使用一组固定的数据和标签来处理所有事情,因为我的重点将是改进模型参数。

            以数据为中心的人工智能模型策略:数据检索和操作需要频繁且高效地进行,因为我们将迭代数据的许多排列和转换。

            一旦找到了正确的数据集,下一步就是找到有效管理它们的方法。

            数据管理是计算机视觉中被低估的部分,因为它是一项混乱的工程任务,而不是数学公式和算法。我们发现经常设计数据系统的是数据科学家,而不是数据工程师。

            我们经常看到文本文件中的注释与非结构化的图像或视频分类一起转储到随机的 Amazon S3 文件夹中。这主要是由于这样的理念:如果数据可以以某种方式访问​​,那就应该没问题。不幸的是,由于数据访问效率低下,这种不灵活性减慢了以数据为中心的开发过程。

            以数据为中心的方法从项目一开始就制定了管理解决方案,并确保包括所有有价值的公用设施。有时,可能会寻找通过增强和合成数据创建来创建更多数据的方法。其他时候,它会涉及通过采样和修剪来删除数据(图像、视频和其他需要的数据)。

            例如,在大型强子对撞机(可能是地球上最复杂的数据收集设备)中,超过 99.99% 的数据被丢弃并且从未被分析过。当然,这不是一个随机决定,而是对每年产生约 100 PB 数据的系统进行精心管理的一部分。

            从实际角度来看,这意味着尽早投资数据工程。这可以是人才,也可以是外部解决方案;只要确保您的数据系统能够面向未来,不要将其交给数学博士。 (一位前物理学博士说)。

            在这里插入图片描述

            来自 CERN 的开源大型强子对撞机数据

            使用人工智能注释和审查数据集

            (这实际上是两个阶段:注释和审查;但是,我们将它们组合在一起,因为它们通常在以 SMART 数据为中心的管道中快速从一个阶段移动到下一个阶段)

            包括:模式规范、管道设计、手动和自动标记、标签和模型评估

            以模型为中心的方法:通过使用开源标记数据集更快地进行模型开发,或者,如果没有可用的数据集来解决您的问题,请花钱请一群人来标记东西,现在您拥有可以永远使用的标签。

            以数据为中心的人工智能模型方法:注释是一个连续迭代的工作流程,应该根据模型性能来了解。

            关于注释的最大误解之一是它是一个一次性的过程。以模型为中心的视图是为项目创建一组静态标签,然后通过训练、测试和验证这些标签和注释的排列来优化参数和超参数来构建生产模型。

            在这里插入图片描述

            很清楚这种看法的起源。这是学术人工智能工作的标准操作程序。学者们倾向于依靠基准数据集来将他们的结果与在相同数据集上运行的现有工作进行比较。对于实际应用程序和业务用例,此方法不起作用。不幸的是,现实世界看起来并不像 ImageNet。这是一堆动态和不完美的数据集,可以针对各种项目和用例进行定制。

            解决现实世界数据集混乱的解决方案是维护。连续标注是AI的维护层。

            强大的数据注释管道和工作流是迭代的,包含包括注释、标记、质量控制和保证在内的流程,以确保地面实况质量以及来自现有模型和情报的输入。这确保了 AI 模型能够适应新标签和数据的流。最易于维护的人工智能系统旨在适应这些连续的过程,并充分利用这些主动学习管道。

            对于工业人工智能和组织正在设计和构建的任何计算机视觉模型来说,知识产权可以在标签过程本身开发。在以数据为中心的 AI 世界中,您使用的标签结构本身就是架构设计选择,可能会为您的系统带来竞争优势。使用通用本体或开源标签可以消除这种潜在优势。这些选择通常需要一些实证分析才能正确。

            与数据注释管道的迭代方式类似,收敛在正确的标签结构上本身也应该是一个由实验指导的迭代过程。

            使用以数据为中心的方法训练计算机视觉模型

            包括:数据拆分、高效数据加载、训练和再训练以及主动学习管道。

            以模型为中心的 AI:我训练了我的模型,并看到了权重和偏差的结果!嗯,它们看起来不太好,让我写一些代码来修复它。

            以数据为中心的 AI 和 CV 模型:我训练了我的模型,并看到了权重和偏差的结果!嗯,它们看起来不太好,让我检查一下我的数据集,看看出了什么问题。

            对于以模型为中心和以数据为中心的方法,模型训练和验证过程看起来非常相似。主要区别在于数据科学家在提高性能时首先关注的位置。不出所料,以模型为中心的视图将检查模型。模型代码中是否存在错误?我是否使用了足够广泛的超参数?我应该打开批量规范化吗?

            在这里插入图片描述

            我是否使用正确的数据进行训练?这对于特定的数据子集是否会失败?我的注释和标签是否有错误?

            使用以数据为中心的方法,在寻求训练后的性能改进时从数据集开始。

            性能和准确性输出不佳可能源于多种潜在问题,但采用以数据为中心的人工智能方法背后的策略是,要构建高性能人工智能系统,需要更加小心地确保数据层正确。

            该领域中的故障模式可能非常微妙,因此通常需要仔细思考,并且可以更深入地洞察和理解模型遇到的问题。因为它很微妙,所以在训练后调试数据还需要正确排列 SMART 管道的所有上述步骤。

            与大多数其他步骤一样,训练不是管道中的一次性过程,而是动态和迭代的过程,并为其他步骤提供支持。训练不是线性管道的末端,而是圆形管道的中间。

            要点:以数据为中心的人工智能方法的优势

            对于那些想要采用更有效的以数据为中心的人工智能方法的人来说,以下是您需要遵循的步骤:

            • 寻找巧妙的方法来获取高质量的专有数据集
            • 投资良好的数据工程资源进行数据集管理
            • 设置连续注释生成和监控管道
            • 在模型之前先考虑调试数据

              虽然看似显而易见,但我们看到不少公司没有考虑上述许多要点。他们没有意识到他们不一定需要比竞争对手更智能或更复杂的模型,他们只是需要比竞争对手更好的数据。

              虽然表面上可能不像阅读一篇关于在开源基准上改进的最新模型的论文那么有趣,但以数据为中心的方法是我们使人工智能成为日常生活现实的最佳选择。

微信扫一扫加客服

微信扫一扫加客服

点击启动AI问答
Draggable Icon