我的论文题目是基于深度学习的图像分类方法研究。现在论文工作完成一半了。我需要汇报一下这段时间的工作情况。
我选择的题目是因为现在图像分类很重要。手机拍照需要识别照片里的东西。医院用电脑看医疗影像。自动驾驶汽车要认识路上的行人车辆。图像分类技术帮助电脑看懂图片。深度学习让电脑学会自己找图片里的规律。这个技术越来越有用。我想研究怎么让深度学习模型在图像分类上表现更好。
这段时间我主要做了三件事情。第一件事情是看了很多相关的论文和资料。第二件事情是准备好了实验需要的数据和代码。第三件事情是做了一些初步的实验。
我看的论文主要讲深度学习怎么用在图像分类上。卷积神经网络是常用的方法。很多人研究不同的网络结构。VGG网络比较简单。ResNet网络层数很深。这些网络在ImageNet数据集上表现不错。我看了这些论文知道现在常用的方法有哪些。我还看了数据增强的方法。数据增强可以让训练数据变多。旋转图片改变颜色裁剪图片都是数据增强的方法。数据增强可以帮助模型学得更好。
我准备了实验需要的数据集。我用了两个数据集。一个是CIFAR-10数据集。这个数据集有六万张图片。分为十个类别。飞机汽车鸟猫鹿狗青蛙马船卡车。图片大小是32x32像素。这个数据集比较小训练起来快。另一个数据集是ImageNet的子集。我选了一百个类别的图片。每个类别有五百张训练图片五十张测试图片。图片大小不一样我需要调整成相同的尺寸。
我搭建了实验环境。电脑用的是实验室的服务器。服务器有四个GPU。GPU可以加速深度学习训练。我安装了Python编程语言。安装了PyTorch深度学习框架。安装了NumPy等常用的工具库。这些工具帮助我写代码做实验。
我实现了两个深度学习模型。一个是VGG模型。我按照论文里的描述写了代码。VGG模型有多个卷积层和全连接层。卷积层用来提取图片特征。全连接层用来做分类。另一个是ResNet模型。ResNet模型有残差连接。残差连接可以让深层网络训练起来更容易。我实现了ResNet-34这个版本。
我写了数据加载的代码。代码可以读取图片数据。代码可以对图片进行预处理。调整图片大小标准化图片数据。代码还可以做数据增强。随机水平翻转随机裁剪改变图片亮度。
我做了初步的实验。我用CIFAR-10数据集训练了VGG模型。训练了五十个epoch。每个epoch表示模型看过一遍所有训练数据。学习率设置为0.01。批量大小设置为128。训练损失随着训练过程慢慢下降。训练准确率从百分之十提高到百分之七十。测试准确率达到了百分之六十八。这个结果还可以但是不够好。
我训练了ResNet模型。同样的训练设置。训练损失下降更快。训练准确率最终达到百分之七十五。测试准确率达到了百分之七十二。ResNet模型比VGG模型表现好一些。
我尝试了数据增强。训练时对图片进行随机裁剪随机水平翻转。模型训练更稳定。测试准确率提高了百分之二。数据增强确实有帮助。
我遇到了一些问题。训练模型需要很长时间。有时候训练到一半程序出错。我检查代码发现是内存不够。我减少了批量大小解决了这个问题。ResNet模型训练时损失值出现波动。我调整了学习率让训练更稳定。
实验结果显示深度学习模型可以完成图像分类任务。不同模型效果不一样。ResNet模型比VGG模型好。数据增强能提高模型表现。这些结果和论文里说的差不多。
下一步我还要做更多实验。我想试试其他深度学习模型。比如DenseNet模型和MobileNet模型。我想比较这些模型在图像分类上的表现。我还想尝试不同的训练方法。改变学习率调整优化器。我想研究怎么让模型训练更快效果更好。
我计划分析模型在哪里容易出错。看看模型分错哪些图片。找出模型不擅长处理的图片类型。也许可以针对这些问题改进模型。
我还要写论文的剩余部分。介绍我的研究方法。展示实验结果。讨论实验发现的意义。说明我的工作有什么价值。
我的工作进度符合计划。前期准备完成了。初步实验做完了。接下来继续深入实验完善论文。我相信能按时完成毕业论文。