我的毕业论文研究自动驾驶汽车如何识别路上的行人。现在的自动驾驶汽车需要看清周围环境。它们必须准确判断哪里有人。这个任务很困难。马路上情况复杂。行人会突然出现。天气会变坏。光线会变暗。汽车必须快速做出决定。安全是最重要的。我的研究就是让汽车看得更准。
以前的方法主要依赖摄像头。摄像头像人的眼睛。它们拍摄彩色照片。计算机分析这些照片。照片里有颜色和形状信息。计算机尝试找到人的样子。但摄像头有时会出错。强光会让摄像头看不清。黑暗也会让问题变难。影子可能被认成物体。摄像头需要好的光线。这在实际路况中很难保证。
另一种方法是激光雷达。激光雷达发射激光束。它测量激光返回的时间。这样能得到物体的距离。它可以生成三维点云。点云展示物体的形状和位置。激光雷达不受光线影响。白天黑夜都能工作。但激光雷达也有缺点。它的数据很稀疏。远处目标点很少。行人细节可能丢失。下雨下雪会干扰激光。激光雷达成本很高。这对普及自动驾驶不利。
我的研究结合了摄像头和激光雷达。我想让它们互相帮助。摄像头提供丰富的颜色和纹理。激光雷达提供准确的距离。融合这两类数据是个挑战。它们来自不同的传感器。数据形式完全不一样。摄像头的数据是二维的。激光雷达的数据是三维的。我需要找到对齐它们的方法。我设计了一个新的融合网络。这个网络能同时处理两种数据。
网络的第一部分分别提取特征。对于图像数据,我使用卷积神经网络。卷积神经网络能识别图案。它找出图像中的边缘和轮廓。它学习行人的外观特征。对于点云数据,我使用另一种网络结构。这种网络直接处理三维点。它不需要把点云变成图像。它保留了原始的三维信息。它学习行人的空间形状特征。
网络的关键是融合模块。我设计了一个注意力融合机制。这个机制会动态选择信息。对于每一个空间位置,网络会查看图像特征和点云特征。网络判断哪种特征更可靠。在光线好的地方,图像特征更受信任。在光线差但点云清晰的地方,点云特征更受信任。这个选择过程是自动学习的。网络通过大量数据训练自己。它学会了在什么情况下相信哪种传感器。
我的创新点体现在三个方面。第一是融合方式。传统方法简单拼接特征。我的方法让网络自主选择。这更接近人类的判断方式。我们看东西时也会综合多种信息。大脑自动处理这些信息。我的网络模仿了这个过程。
第二是训练策略。我使用了多阶段训练方法。先让两个传感器网络单独学习。让它们各自变得强大。然后再训练融合部分。这样整个系统学得更快更好。这就像先学好单项再练习合作。
第三是针对困难场景的优化。我特别关注那些容易出错的场景。比如傍晚时分,阳光刺眼。比如行人打着伞或穿着奇怪衣服。我在数据集中加入了大量这类样本。我让网络反复学习这些难题。网络对这些困难情况的识别能力提高了。
为了验证我的方法,我进行了大量实验。我使用了公开的行人检测数据集。我也收集了一些自己的数据。我的方法和其他先进方法做了比较。在标准测试集上,我的方法准确率更高。尤其在有挑战的场景下,优势更明显。在雨天模拟数据中,我的方法误检率更低。在夜间数据中,我的方法漏检率更小。这些结果证明融合是有效的。
我的研究还有实际意义。自动驾驶技术正在发展。可靠的行人检测是安全的核心。我的方法不依赖昂贵硬件。它提升了现有传感器的能力。这有助于降低自动驾驶成本。更多汽车公司可以使用这种方案。
研究过程中我也遇到很多困难。数据标注工作量很大。我需要同时标注图像和点云中的行人。训练网络需要强大算力。我调了很多次参数。实验失败了很多回。我不断查找问题。我阅读了更多文献。我和同学老师讨论。我一点一点改进模型。这个过程让我学到很多。
我的工作还可以继续深入。未来可以加入更多传感器。比如毫米波雷达。雷达在恶劣天气中很稳定。融合三种传感器可能更好。网络结构也可以优化。让计算速度更快。这样才能满足实时驾驶的要求。我的研究只是前进了一小步。自动驾驶的完全实现还需要很多努力。我希望我的工作能为此做出一点贡献。