Meta AI发布Segment Anything：图像分割的“GPT-3时刻”

当地时间4月5日，Meta AI推出了一个名为Segment Anything的图像分割基础模型，英伟达的人工智能科学家Jim Fan称它为，这是计算机视觉领域的“GPT-3 时刻”之一。

Meta的AI图像分割模型Segment Anything将在AR/VR的物理对象交互中发挥重要作用 — Meta的AI图像分割模型“SAM”

该项目旨在推广图像分割技术，通过引入新的任务、数据集和模型，使得更多人能够使用图像分割技术，而不需要进行专门的任务定制、数据标注以及AI训练。为此，Meta发布了Segment Anything Model (SAM)和Segment Anything 1-Billion mask dataset (SA-1B)，并提供了在线演示以及开源许可证，供研究人员和开发者使用。SAM是一种通用的图像分割模型，可以生成任何图像或视频中任何对象的掩码，并且可以适应不同的图像域。该项目的目标是建立一个基础的分割模型，类似于自然语言处理模型中的提示模型，使得更多人能够使用和定制该技术。例如，理解网页的视觉和文本内容。在 AR/VR 领域，SAM 可以根据用户的视线（眼动追踪）选择对象，然后将其“提升”为 3D。对于内容创作者，SAM 可以改进创意应用，例如提取图像区域以进行拼贴或视频编辑。SAM 还可用于帮助对地球上什至太空中的自然事件进行科学研究，例如，通过定位动物或物体以在视频中进行研究和跟踪。

在过去，要解决任何类型的分割问题，通常采用两种方法。第一种是交互式分割，可以对任何类别的对象进行分割，但需要人来引导方法，通过迭代地优化掩码。第二种是自动分割，可以对预先定义的特定对象类别进行分割（例如猫或椅子），但需要大量手动注释的对象进行训练（例如数千甚至数万个已分割的猫示例），以及计算资源和技术专业知识来训练分割模型。这两种方法都无法提供一种通用、完全自动的分割方法。

SAM 是这两种方法的泛化。它是一个单一的模型，可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许以灵活的方式使用它，通过为模型工程正确的提示（单击、框、文本等）可以使各种分割任务成为可能。此外，SAM是基于超过10亿个高质量掩码的多样化数据集进行训练的，这使它能够泛化到新的对象和图像类型，超出了其训练时所观察到的范围。这种泛化能力意味着，从根本上讲，从业人员将不再需要收集自己的分割数据，并为他们的用例微调模型。这些功能使得 SAM 能够泛化到新的任务和领域。这种灵活性是图像分割领域的首创。

Meta称，通过分享我们的研究和数据集，我们希望进一步加速对分割和更通用的图像和视频理解的研究。我们的可提示分割模型可以通过作为更大系统中的一个组件来执行分割任务。组合是一种强大的工具，它允许单个模型以可扩展的方式使用，潜在地可以完成在模型设计时未知的任务。我们预计，通过 prompt 工程等技术实现的可组合系统设计将使得能够实现更广泛的应用，而不是专门针对固定任务集训练的系统，SAM 可以成为 AR/VR、内容创作、科学领域和更通用的 AI 系统等领域的一个强大组件。随着我们展望未来，我们看到图像像素级别的理解和更高级别的语义理解之间将更加紧密，这将开启更强大的 AI 系统。