研究思路和创新点(周五上交!急)
《3D点云语义分割——实现场景理解的关键》 1.3d点云 点云数据一般由激光雷达等3D扫描设备获取空间若干点的信息,一般包括XYZ位置信息、RGB颜色信息和强度信息等,是一种多维度的复杂数据集合。 相比于2D图像来说,3D点云数据具有无可比拟的优势,可以提供丰富的几何、形状和尺度信息;且不易受光照强度变化和其它物体遮挡等影响。因此,3D点云能够更好地了解机器的周围环境。 2.场景理解的关键 计算机视觉研究的重要内容:如何从大量的3D点云数据中获取有用的信息,更好地实现场景理解 当前解决场景理解的主要技术:基于3D点云数据的目标检测、分类、识别 这些技术的基础:3D点云语义分割 3D点云语义分割:给点云中的每个点赋予特定的语义标签(也可以说是对每个物体进行分割,赋予每个物体特定的含义) 3.应用 应用包括自动驾驶汽车、人机交互、铁路场景检测、虚拟现实 ①自动驾驶:通过3D点云语义分割技术将道路环境点云数据进行分割,可以识别出行人、汽车等物体,帮助车辆理解道路环境。 ②铁路场景检测:采用3D点云语义分割技术能够识别铁路上的侵入异物,并且准确直观,还不易受到天气及环境的影响;在车站站台、隧道口等重要区域进行异物入侵检测能有效的保证高速铁路运行的安全性 ③增强现实(AR):采用3D点云语义分割技术人们可以通过AR眼镜去感受虚拟的3D场景。够有效体现出真实世界的内容,也能够促使虚拟的信息内容显示出来,例如冰箱门上的虚拟菜单 《语义分割(Semantic Segmentation)方法》 1.语义分割 语义分割是从粗推理到精推理的自然步骤: 原点可以定位在分类,分类包括对整个输入进行预测。 下一步是本地化/检测,它不仅提供类,还提供关于这些类的空间位置的附加信息。 最后,语义分割通过对每个像素进行密集的预测、推断标签来实现细粒度的推理,从而使每个像素都被标记为其封闭对象矿石区域的类别。 2.语义分割的基础(一些网络) Alexnet:Toronto首创的Deep CNN,以84.6%的测试准确率赢得了2012年Imagenet竞赛。它由5个卷积层、最大池层、作为非线性的ReLUs、3个完全卷积层和dropout组成。 VGG-16:这款牛津型号以92.7%的准确率赢得了2013年的Imagenet竞争。它使用第一层中具有小接收场的卷积层堆栈,而不是具有大接收场的少数层。 GoogLeNet:这GoogLeNet赢得了2014年Imagenet的竞争,准确率为93.3%。它由22层和一个新引入的称为初始模块的构建块组成。该模块由网络层网络、池操作、大卷积层和小卷积层组成。 Resnet:这款微软的模型以96.4%的准确率赢得了2016年的Imagenet竞争。这是众所周知的,因为它的深度(152层)和残余块的引进。剩余的块通过引入标识跳过连接来解决培训真正深层架构的问题,以便层可以将其输入复制到下一层。 3.语义分割的方法 一个通用的语义分割体系结构可以被广泛认为是一个编码器网络,然后是一个解码器网络:编码器通常是一个预先训练的分类网络,如vgg/resnet,然后是一个解码器网络。 解码器的任务是将编码器学习到的识别特征(低分辨率)语义投影到像素空间(高分辨率)上,得到密集的分类。 基于区域的语义分割 ☆全卷积网络语义分割 弱监督语义分割 《应用于语义分割问题的深度学习技术综述》 1.迁移学习 从头训练一个深度神经网络通常是不可行的,有这样两个原因: 1.训练需要足量的数据集,而这一般是很难得到的。 2.网络达到收敛需要很长的时间。 即便得到了足够大的数据集并且网络可以在短时间内达到收敛,从之前的训练结果中的权重开始训练也总比从随机初始化的权重开始训练要好。迁移学习的一种重要的做法便是从之前训练好的网络开始继续训练过程来微调模型的权重值。 2.数据预处理与数据增强 数据增强一般包括在数据空间或特征空间(或二者均有)上应用一系列的迁移技术。在数据空间上应用增强技术最常见,这种增强技术应用迁移方法从已有数据中得到新的样本。 有很多的可用的迁移方法:平移、旋转、扭曲、缩放、颜色空间转换、裁剪等。这些方法的目标均是通过生成更多的样本来构建更大的数据集,防止过拟合以及对模型进行正则化,还可以对该数据集的各个类的大小进行平衡,甚至手工地产生对当前任务或应用场景更加具有代表性的新样本。 3.数据集 2维数据集 2.5维数据集 3维数据集 二维RGB数据、2.5维RGB-D数据、三维体数据或视频序列数据 4.方法 现阶段,最成功用于语义分割的深度学习技术均来自全卷积网络FCN,该方法的出色之处在于,其利用了现存的CNN网络作为其模块之一来产生层次化的特征。 整合上下文知识 语义分割需要对多种空间尺度的信息予以整合,也需要对局部与全局信息进行平衡。 一方面,细粒度的或者局部的信息对于提高像素级别的标注的正确率来说是关键的;另一方面,整合图像全局的上下文信息对于解决局部模糊性问题来说也是重要的。 ☆评价指标 运行时间、占用存储空间、准确率 硕士论文《基于视觉的丘陵山区田间道路场景理解和障碍物检测研究》