环球最新:三维ImageNet开源!港中深韩晓光团队助力计算机视觉进入三维大数据时代
机器之心专栏
机器之心编辑部随着深度学习技术的快速发展,数据驱动的方法已成为计算机视觉领域的核心。在过去的十年里,随着 ImageNet 诞生之后,计算机视觉领域见证了 “从数据中学习” 的范式的兴盛。在 ImageNet 上进行预训练,然后迁移到下游的视觉任务,都能显著提升模型性能,并且已经成为 2D 图像领域的标准化方式。
然而,由于真实世界 3D 数据(通常以点云或者 mesh 的形式)的扫描和标注非常繁琐,现有的 3D 数据集要么是合成的,要么与 ImageNet 的规模相去甚远。因此,与 2D 视觉领域不同,在 3D 领域,大多数方法都直接在特定数据集上进行训练和评估,以解决特定的 3D 视觉任务(例如,使用合成的物体或者 ShapeNet 进行新视角合成,使用 ModelNet 和 ScanObjectNN 进行物体分类,使用 KITTI 和 ScanNet 进行场景理解)。
两个关键的问题是:(1)在 3D 视觉领域,尚无一个通用数据集,可以与 2D 领域的 ImageNet 相媲美。(2)这样一个数据集能给 3D 社区带来什么好处还不为人所知。
(相关资料图)
为了解决这些问题,港中大(深圳)的研究团队提出了 MVImgNet 和 MVPNet 数据集。MVImgNet 包含超过 21 万个视频的 650 万帧图像,涵盖了 238 个类别的真实世界物体。MVPNet 包含超过 8 万个,涵盖了 150 个类别的真实物体点云,并为每个点云提供了类别标签。目前数据集已经在项目主页公开,欢迎大家一起探索!
论文地址:https://arxiv.org/abs/2303.06042
项目主页:https://gaplab.cuhk.edu.cn/projects/MVImgNet/
GitHub 地址:https://github.com/GAP-LAB-CUHK-SZ/MVImgNet
数据集属性
MVImgNet 包含由智能手机拍摄的 219,188 个真实物体视频。通过对每个视频进行物体分割、COLMAP SfM 重建以及稠密重建,得到了物体掩码、相机参数和点云数据等标注。表 1 展示了 MVImgNet 中数据的统计信息。
表 1. MVImgNet 数据统计
与 ImageNet 中的类别大多是植物和动物(以自然为中心)不同,MVImgNet 包含了 238 个日常生活中常见的物体类别(以人为中心),并且其中有 65 个类别与 ImageNet 重叠。图 1&2 展示了 MVImgNet 的类别目录及数据样例。
图 1. MVImgNet 类别目录
图 2. MVImgNet 中的多视角图片示例
对 MVImgNet 中的稠密重建结果,研究团队进行了进一步的数据清洗(例如移除掉噪音过大、过于稀疏的点云),得到了一个包含 150 类、87,200 个真实物体点云的大规模点云数据集 ——MVPNet。图 3 展示了 MVPNet 中丰富的真实物体点云。
图 3. MVPNet 中的真实点云示例
MVImgNet 能做什么?
下游任务一:3D 重建
研究团队探索了 MVImgNet 对 NeRF 重建以及 MVS 的帮助:通过在 MVImgNet 上训练 NeRF,提升了 generalized NeRF 的泛化能力;通过在 MVImgNet 上预训练自监督 MVS 方法,并将预训练模型迁移到 DTU 数据集上,获得了不错迁移性能。下表展示了直接在 DTU 数据集上训练的模型与用 MVImgNet 预训练模型微调的量化对比结果:
表 2. 直接训练 / MVImgNet 预训练模型微调的数值结果
在 MVImgNet 上预训练的 NeRF 拥有更好的泛化能力
下游任务二:视角一致的图像理解
尽管人类能够从不同视角理解一个物体,但深度学习模型并不能鲁棒地做到这一点。为此,研究团队在图像分类、自监督对比学习以及显著性物体检测等任务上做了探索实验,验证了得益于数据的多视角特性,在 MVImgNet 上预训练的模型获得了很好的视角一致性。
把 MVImgNet 加入训练提升了分类模型的视角一致性
在 MVImgNet 上预训练的模型,能提高模型对不同视角的鲁棒性
MVPNet 能做什么?
在 MVPNet 数据集上,研究团队探索了其对点云分类及自监督点云预训练的帮助。通过在 MVPNet 上预训练点云分类模型,在 ScanObjectNN 数据集上表现出了很好的迁移性能。而在 MVPNet 上预训练的 PointMAE(一种点云自监督学习方法)也超越了当前的 SOTA 方法。
在 MVPNet 上预训练的模型,展现出了很好的迁移性能
MVPNet Benchmark Challenge
在 MVPNet 的基础上,研究团队还提出了一个全新的真实物体点云分类基准测试。研究团队构建了一个包含 64000 点云的训练集以及 16000 点云的测试集。相比于 ScanObjectNN,MVPNet 的点云数量更多,分类难度更大,也更贴近于真实场景。
主流方法在 MVPNet Benchmark 上的数值结果
展望
我们相信 MVImgNet 将会为整个计算机视觉社区带来很多诸多可能性与挑战,期待与大家共同探索!
更多数据集与实验细节请参阅原论文。
©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
关键词:
上一篇:五一快评①|这个假期,“我在场”宣告了人间烟火气的回归|天天信息
下一篇:最后一页
- 广州科技活动周进入预热 明日正式启动300多场主题活动接踵而来
- 深化重点领域信用建设 广州正式出台新型监管机制实施方案
- 女童不慎掉入20米深井 18岁小姨三次下井成功营救
- 西安3个区域12月28日起每日开展全员核酸 官方提倡民众居家健身
- 浙江乐清一核酸检测结果异常人员 复采复检为阴性
- 浙江本轮疫情报告确诊病例490例 提倡“双节”非必要不出省
- 西安警方通报6起涉疫违法案件
- 西安新一轮核酸筛查日检测能力达160万管
- 西安市累计报告本土确诊病例811例
- 重庆曝光4起违反中央八项规定精神典型问题 警示党员干部清新过节
-
瘦脸减什么发型好看_减龄又瘦脸的发型有什么好的推荐吗
想必现在有很多小伙伴对于减龄又瘦脸的发型有什么好的推荐吗方面的知识都比较想要了解,那么今天小好小编就
-
观点:dnf蓝色次元精华怎么得的_dnf蓝色次元精华怎么得
你们好,最近小品发现有诸多的小伙伴们对于dnf蓝色次元精华怎么得的,dnf蓝色次元精华怎么得这个问题都颇为
-
全球新动态:在建立账套时需要在工具栏中点击a系统b权限c视图d账套_在建立账套时需要在工具栏中点击
1、进入系统管理,在工具栏的下拉菜单中,一般会有“备份”这个功能,你直接点击备份,选择要保存的帐套及
-
修曼日本语学校官网_修曼
1、每个人的体质不同,对有些食物活着药物的吸收程度也不同,也有可能是你没有控制食欲。2、在吃了减肥药后
-
全球快资讯:著名诗词歌赋_著名诗词
1、渔家傲范仲淹塞下秋来风景异,衡阳雁去无留意。2、四面边声连角起,千嶂里,长烟落日孤城闭。3、浊酒一
-
集腋成裘:豹2A7V附加装甲背后的秘密 MT-LB魔改逼死密集恐惧症 世界今日讯
很多照片都非常精美,却只有一两张,不能支撑一篇文章。总觉弃之可惜,于是汇总起来,就是所谓的“集腋成裘
-
当前速讯:镜报:英足总可能对克洛普的庆祝和对裁判的言论进行调查
镜报:英足总可能对克洛普的庆祝和对裁判的言论进行调查,镜报,若塔,利物浦,蒂尔尼,热刺队,阿森纳,英足总,足
-
证明书格式-全球看热讯
使用文档软件,先打出证明二字,中间添加空格。再点击开始里的标题和居中按钮,输入正文内容,需要证明的事
-
今热点:河南两地发布人事任免
信阳市人大常委会决定免职名单(2023年4月26日信阳市第六届人民代表大会常务委员会第二次会议通过)决定免
-
全球观速讯丨请问有人说我在外面乱搞男女关系他伟法吗?
请问有人说我在外面乱搞男女关系他伟法吗?
X 关闭
环球最新:三维ImageNet开源!港中深韩晓光团队助力计算机视觉进入三维大数据时代
五一快评①|这个假期,“我在场”宣告了人间烟火气的回归|天天信息
世界观速讯丨双色球ac值计算公式
环球观热点:阿祖啦是哪个国家的品牌_什么档次怎么样
前男友送的手机现在要要回去,必须归还吗? 环球资讯
X 关闭
得知西安疫情防控“升级” 男子夜骑共享单车回咸阳淳化
中国医生将任SIU主席背后:从追随者同行者到引领者
海南省通报政法队伍教育整顿成果
云南两地发现核酸阳性人员 西安实行最严格的社会面管控
广东梅州大埔中央红色交通线沿线发现多株百岁古树