全球看热讯：CV圈又炸了？扎克伯格高调官宣Meta视觉大模型，分割检索无所不能-海峡印刷网

【资料图】

新智元报道

编辑：桃子拉燕

【新智元导读】Meta在CV领域又放了个大的！自监督+无需微调，计算机视觉又要不存在了？

继「分割一切」后，Meta再发DINOv2。

这还是小扎亲自官宣，Meta在CV领域又一重量级开源项目。

小扎也是高调表示，Meta一直致力于开源各种AI工具，而今天发布的DINOv2更是SOTA级别的模型。能在深度估计、语义分割、图像相似性比较等方面实现自监督训练。

小扎表示，用这个模型可以借助卫星图像生成不同大洲的森林高度。而在未来，还可以帮助医学成像、粮食产量等方面。

当然，最后小扎还不忘了自己的主打——元宇宙。他认为，DINOv2可以极大地加持元宇宙的建设，让用户在元宇宙中的沉浸体验更出色。

网友高声大呼，「计算机视觉再一次不存在了！」

效果演示

Meta在官网上放出了深度估计、语义分割和实例检索的案例。

深度估计：

对于不熟悉计算机视觉的朋友来讲，深度估计（Depth Estimation）可能是一个比较陌生的词汇。但其实，只要理解了其应用场景就能明白是什么意思了。

简单来说，对于2D照片，因为图像是一个平面，所以在3D重建时，照片中每一个点距离拍摄源的距离就至关重要。

这就是深度估计的意义。

右侧的图片中，相同的颜色代表距离拍摄点距离相同，颜色越浅距离越近。这样子整个图片的纵深就出来了。

再来看几组例子：

语义分割：

语义分割的含义比较简单。从字面上看，语义这个词在不同的语境下含义也不同。比如说，在语音识别领域，语义指的就是语音内容。而在图像领域，指的就是图片内容。

分割就是把一张图片中不同的部分用颜色标明，这样就清楚各部分之间的划分了。

有点像小时候玩过的涂鸦画本，在空白的轮廓图上给不同的部分上色。

当然还是有区别的，画本中同一部分我们也可以用不同的颜色来装饰。

如上图中，桥是一种颜色，河水是一种颜色，草地是一种颜色，远处的树又是一种颜色。

更多示例：

实例检索：

这个就更好理解了。上传图片到模型中，就可以从有茫茫多图片的库中找到类似的图片。

上图中的埃菲尔铁塔就是输入的图片，模型随后检索出了大量同题材的图片，风格各异。

DINOv2

论文地址：https://arxiv.org/pdf/2304.07193.pdf

看完了SOTA级别的演示，接下来我们来看一看藏在背后的技术突破。

要知道，自然语言处理中对大量数据进行模型预训练的突破，为计算机视觉中类似的基础模型开辟了道路。

这些模型可以通过产生多种用途的视觉特征，大大简化任何系统中的图像使用，无需微调就能在不同的图像分布和任务中发挥作用的特征。

这项工作表明，现有的预训练方法，特别是自监督方法，如果在来自不同来源的足够的数据上进行训练，就可以产生这样的效果。

Meta的研究人员重新审视了现有的方法，并结合不同的技术，在数据和模型的大小上扩展我们的预训练。

大多数技术贡献的是加速和稳定规模化的训练。在数据方面，Meta提出了一个自动管道，目的是建立一个专门的、多样化的、经过整理的图像数据集，而不是像自监督文献中通常所做的那样，建立未经整理的数据。

而在模型方面，研究人员用1B的参数训练了一个ViT模型，并将其提炼成一系列较小的模型，这些模型在大多数图像和像素级别上超过了现有的OpenCLIP在图像和像素层面上的基准。

与学习任务无关的预训练表征已经成为自然语言处理（NLP）的标准。人们可以照搬这些特征，不用进行微调，并在下游任务中取得了明显优于特定任务模型产生的性能。

这种成功被大量原始文本预训练所推动，如语言建模或单词向量，而不需要监督。

在NLP的这种范式转变之后，研究人员预计，计算机视觉中会出现类似的基础模型。这些模型能产生在任何任务中都能发挥作用的视觉特征。在图像层面，有图像分类，而在像素层面，则有分割（如上例）。

对这些基础模型的大多数努力都集中在文本指导的预训练上，即使用一种文本监督的形式来指导特征训练。这种形式的文本指导的预训练限制了可以保留的关于有关图像的信息，因为标题只包含图像中的表层信息，而复杂的像素级信息可能不会体现。

此外，这些图像编码器需要一一对应的文本&图像语料库。文本指导的预训练的一个替代方法，是自我监督学习，其特征是单独从图像中学习。这些方法在概念上更接近于语言建模等任务，并且可以在图像和像素层面上捕捉信息。

然而，自我监督学习的大部分进展都是在小型策划数据集ImageNet1k上进行预训练的。一些关于将这些方法扩展到ImageNet-1k之外的努力已经被尝试过了，但他们的特点是，专注于未经整理的数据集，导致特征的质量大幅下降。

这是因为缺乏对数据质量和多样性的控制。

Meta的研究人员关注的问题是，如果在大量的策划过的数据上进行预训练自我监督学习，是否有潜力学习所有的视觉特征。他们重新审视了现有的在图像和斑块层面学习特征的鉴别性自监督方法，如iBOT，Meta的研究人员在更大的数据集下重新考虑了iBOT的一些选择。

Meta的大部分技术贡献都集中在针对模型和数据规模扩大时的稳定和加速判别性自我监督学习等方面。这些改进使新方法比类似的鉴别性自我监督方法快2倍左右，所需的内存少3倍，这样就能利用更大的批次规模进行更长时间的训练。

关于预训练数据，研究人员建立了一个模型来过滤和重新平衡包含大量未处理的图像的数据集。灵感来自于NLP中使用的办法，使用了数据相似性而非外部元数据，且不需要手动注释。

在这项工作中，一个简单的聚类方法能出色地解决这个问题。

Meta的研究人员收集了一个由1.42亿张图片组成的多样化的语料库来验证此办法。最终提供了各种预训练的视觉模型，称为DINOv2，也就是今天我们介绍的主角。

Meta也是发布了所有的模型和代码，以便在任何数据上都可以重新训练DINOv2。

研究人员在各类计算机视觉的基准上验证DINOv2的能力，并在图像和像素层面上，还对其进行了扩展，如下图。

网友：这才是「Open」AI

DINOv2发布后，网友们也是一致好评。

「计算机视觉基础模型正在取得令人难以置信的快速进展。类似于在大规模数据和模型上的自我监督学习所推动的LLMs。感谢Meta开源DINOv2和SAM--对于~~90%的普通领域任务来说，这些模型的能力越来越强，基本上不需要微调。」

「SAM+DINO，在农业方面上应用太强了。」

「Meta 才是真正的「Open」AI 公司！」

参考资料：

https://www.maginative.com/article/meta-ai-unveils-dinov2-a-game-changer-in-self-supervised-vision-transformer-models

https://github.com/facebookresearch/dinov2

关键词：

全球看热讯：CV圈又炸了？扎克伯格高调官宣Meta视觉大模型，分割检索无所不能

新智元报道

推荐阅读

全球看热讯：CV圈又炸了？扎克伯格高调官宣Meta视觉大模型，分割检索无所不能

曹桥街道召开2023年第一季度建筑领域（在建农房）安全生产会议_头条焦点

全球信息:《黑暗之魂3》累积者入侵刷脊椎骨搞笑娱乐玩法图文详解

升温之后新一轮大风降温已在路上北京明晚北风来报到

张杰郑州演唱会什么时候抢票2023？附官网订票入口

股市刀锋新浪博客(新手炒股入门书籍)

如何去除脸上的胶水|每日讯息

小学一年级养成好习惯手抄报_小学一年级养成好习惯

英语阅读参考手册_关于英语阅读参考手册的简介动态

海南“医药特区”期待更多国际创新医疗器械引入中国-今日播报

kirs的意思_kirs

抢下宁德时代钠离子电池“头香”后，iCAR还要勇挑重担

温宿县公安局交通管理大队积极开展“新驾驶人”宣传教育活动

环球速看：专家学者齐聚湖南师大共话高校外语教育改革与发展

世界短讯！资本圆桌快讯 | 冯雄杰：不良资产重构盘活与基金投资逻辑一样

五一快递公司有放假吗2023最新消息|环球速读

当地时间4月18日，中东最大的航空公司阿联酋航空宣布，将取消往返苏丹航班的措施延长至4月30日

夏季鼻炎可能是尘螨过敏吗？尘螨性鼻炎不治会怎么样？

如何烧瓷土_女孩子11岁生日送什么礼物好

全球热推荐：这台iPhoneXR验机报告全绿，号称原装正品！其实是华强北翻新机！

亚太药业（002370）4月18日主力资金净买入207.20万元

全球微速讯：虞书欣黑粉拒不道歉被法院公告

去大连旅游住哪里好每日快讯

港股异动 | IGG(00799)再涨超5% 月内接近翻倍旗下手游跃居3月出海手游下载榜第2名

世界微速讯：龙湖24亿斩获上海地块，3月以来已布局多地，一季度新增货值超百亿

等你下课云盘_等你下课微盘下载|全球热点评

下午该如何操作?午后三大看点-世界讯息

我国新型储能累计装机首次突破10吉瓦

我发现普通人家的孩子, 如果学习不好, 真没必要太焦虑环球速讯

报道：最好的定期寿险是哪个？和增额终身寿险的区别是什么？

资讯

头条

快讯

热点

设备

纸箱