英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料
今天,人类已经向前迈进了一大步——人类工作被人工智能 (AI) 取代的领域越来越多。造成这种情况的原因有很多:重复性工作、人为因素、无法在反应速度上竞争,在某些情况下,我们的身体和我们的感官无法在不寻常的情况下工作。目前,交通是由标志、红绿灯等来调节的。然而,随着人工智能的日益发展,将需要一个完全不同的环境来控制交通。汽车销售统计表明,全球汽车数量稳步增长(2016 年被认为是创纪录的一年,销量增长了近 50%),这带来了一些严重的问题,例如交通拥堵、安全、污染以及对汽车的需求增加。流动性。大多数这些问题正在通过建造新的、更宽的、更安全的高速公路和在现有高速公路上增加车道来解决,但这样做很昂贵,而且通常不可行。城市的空间有限,在某些时候,不断增长的需求可能会超过建设能力。
交通分析系统 (TAS) 的主要目的是收集有关当前道路交通状况的数据。TAS 的基础是视频流的处理及其后续分析。目标是开发一个系统,不仅可以估计车道上过往车辆的数量,还可以考虑其在车道上的移动方向。此外,这样的系统应该能够将交通流分类为主要的车辆类别,以便在优化协调计划的同时更准确地预测交通。基于特定路线上的车辆密度,可以开发一种有效减少和预测交通拥堵的机制[1],提前采取一些行动。例如,交通信号灯和标志的精确调整。检测算法在对物体进行分类和确定其在图像中的位置时需要高精度和图像处理速度。解决这个问题的方法范围足够大,这使得人们可以选择最适合特定需求的方法。
近期工作的观点表明,许多研究人员正在研究车辆的视频检测问题。在大多数研究中,车辆搜索是通过检测车牌来进行的[2-4]。这种方法在识别算法方面是最简单的一种,因为背景和字符的对比度以及字符数量有限。但是,这种方法不允许在没有车牌(自行车)或它们位于非标准部件(如摩托车或具有临时编号的汽车)的情况下检测车辆。此外,车辆的分类需要访问交警的数据库,这并不总是必要和可能的。除此之外,还有一些研究搜索了简单的几何基元:保险杠或悬架区域的直线,以及包围车轮的圆。车辆参数的恢复是基于一组图元的相对位置以及它们在与图像相关的坐标系中的位移历史来进行的。这两种方法的主要限制是改变角度的不稳定性和模糊帧的存在(例如,由于短期风暴露),以及缺乏对一帧进行大块分类的可能性。在这方面,现有方法不允许解决评估交通流强度的问题,考虑到当车辆改变其角度时它们的定性组成。因此,开发用于解决不同类别车辆的视频检测问题的方法和算法的问题是相关的,无论摄像机角度和位置如何,都可以提供搜索和跟踪。
对象跟踪有很多不同的技术。车辆跟踪通常通过从图像的静态背景中减去动态分量(移动对象)来实现。背景减法通常与斑点分析 [5-7]、卡尔曼滤波器 [8, 9]、高斯混合模型 (GMM) [10, 11] 结合使用。依赖于粒子过滤器的跟踪器 [12, 13] 也经常用于跟踪移动的车辆。尽管如此,在密集交通条件下处理数据时,背景减法方法存在缺陷。由于处理后的图像数据中的部分遮挡,这会导致车辆融合,并且会出现错误边界框的预测。来自车辆的阴影也会导致错误的检测结果。为了解决这个问题,在[14]中,将GMM与期望最大化相结合来构建背景模型。然后,通过背景减法来检测车辆。使用颜色直方图和形态特征处理遮挡。在[15]中,有人提出通过提取明亮区域(车头灯)来计算夜间视频中的车辆,然后跟踪成对的车头灯。在[16]中,一种用于车辆检测的离线训练方法取得了很好的效果。它是使用支持向量机来计算 Haar 小波函数。在[17]中,使用了一种基于多层神经网络的方法。在这里,网络执行特征提取和分类,并且这种简单性可以实现实时应用。该网络由一种新算法训练,该算法创建一个特征空间,其中模式具有理想的统计分布。在[18]中,梯度分析和Adaboost分类被用于从后面检测车辆。在 [19] 中,提出了一种使用级联增强分类器从侧面检测车辆的算法。在[20]中,提出了一种使用高级特征选择方法教授视频序列中车辆实时跟踪的算法。在[21]中,提出了一种使用基于无监督学习的分割和对象跟踪的时空车辆跟踪框架。在[22]中,智能交通系统能够自动检测和逮捕交通违规者。至于中国,几年前,阿里巴巴电子商务公司推出了交通管理服务城市大脑[23]。使用云计算和机器学习,该服务可以减少城市道路上的交通拥堵。 City Brain 分析来自数百个交通信号灯、摄像机和公共交通系统的大量数据,以优化交通流量。它将利用大数据分析、图像分类等技术对当前的交通状况进行预测,并给出建议,例如通过实时分析路网密度确定救护车通过城市的快速自由路线.
在英国的米尔顿凯恩斯建立了一个类似的系统,称为 Vivacity [24]。它由位于城市主要路口的 400 多个智能交通摄像头组成。 Vivacity 能够对道路使用者进行计数和分类。它有传感器,可以测量车辆在某些十字路口之间行驶所需的时间。从长远来看,与邻近的十字路口共享此类信息以帮助他们了解即将发生的事情可能有助于自主决策。它存储实时照片和视频片段,以帮助制定未来规划。 Vivacity 有一个机器学习子模块,通过分析数据,学习典型的日常趋势,并将其与交通对路网某些变化的反应相结合。它不断发展和适应,提高其预测能力并减少所需的人工干预量。它预测当天的交通流量,提供历史和实时数据。
有效的交通管理不仅对城市规划很重要,对每个人也很重要。德克萨斯交通研究所进行的一项研究表明,由于交通拥堵,城市驾驶者平均每年浪费大约 42 公顷的时间陷入交通拥堵,每年造成 1600 亿美元的损失,包括生产力损失、堵车时燃烧的气体以及车辆的额外撕裂[25]。这个数字在伦敦等其他国家甚至可能更高,那里的交通拥堵比全球其他城市更严重。
除了对经济的负面影响外,交通拥堵还会造成巨大的环境破坏。 [26] 中进行的肺功能测试表明,每 6 名交警中就有 1 名有肺部问题,并且由于空气污染的迅速增加而出现呼吸问题。将人工智能应用于交通管理系统可以最大限度地减少人为干预,从而保护人们免受进一步的健康问题。
在本文中,我们提出了一种使用改进的 YouOnlyLookOnce (YOLOv3) 算法的智能车辆跟踪系统。该系统用于检测和分类监控摄像头视频中的车辆,将执行解决交通分析问题的全周期,包括准备测试数据,标记检测到的车辆和感兴趣区域的可见性百分比,收集和分析搜索结果,评估不同方向的交通流强度,可视化搜索和维护结果,确保抵抗角度和相机位置的变化,实验研究的有效性系统。
本文的结构如下。第 3 节解释了研究中采用的方法。第 3 节描述了实验。最后,教派。 4 结束论文。
2 方法论
在提议的设计中,我们使用了 Python 编程语言、用于图像处理的 OpenCV 库、Google Colab 云服务和 Anaconda 开发环境。 Python 被选为开发的编程语言。我们使用了 NumPy、Pandas 和 OpenCV 库。正在开发的系统由两个主要子系统组成——内部子系统和外部子系统。内部子系统是用于检测对象的视频流处理算法和跟踪算法。使用 You Only Look Once (YOLO) 神经网络模型执行处理。外部系统是供用户使用跟踪系统的桌面应用程序。
在系统运行的初始阶段,使用卷积神经网络逐帧处理视频流,以检测帧上的所有对象。作为卷积神经网络的模型,使用了 YOLOv3 模型 [27]。选择此模型是因为它能够识别框架上的许多对象,并指示它们的大致位置、大小和类别。此外,该模型具有开源代码和许可证,允许免费使用和修改。 YOLOv3 有一个框架,可以使用自己的数据对神经网络进行完整的再训练,以及配置现成的网络(微调)。 Darknet-53网络的一般分层结构如图1所示。
YOLOv3 的一般结构由另外 53 层组成,同样基于 Darknet-53,它们负责预测对象的坐标及其大小。因此,层数达到106。网络结构如图2所示。
对象的坐标和大小的预测是在三个不同的图像尺度上进行的。因此,网络同样能够检测帧中的大物体和小物体。 YOLOv3 架构的主要优点是对象在一次通过网络的过程中被本地化和分类。
这允许非常快速的逐帧处理,这使得实时处理视频成为可能。
对于检测对象的任务,通常使用诸如平均精度(AP)之类的度量。 AP 是从两个指标中获得的:精度和召回率。 当检测到一个特定类别的对象时,有两种可能的事件。 精度表示
在此类的所有结果中,框架窗口的真实预测(真阳性)的百分比。 一个类的精度系数由下式给出
TP
Precision (1) TP FP
其中 TP 和 FP 分别代表真阳性和假阳性。
召回率表示为该类找到的框架窗口的百分比,在该图像的基本事实中呈现的所有窗口中。 类的召回系数由以下等式给出。
TP
Recall (2) TP FN
其中 FN 表示假阴性。
为了能够评估对象的预测边界框的准确性,使用了 Intersections over Union (IoU) 度量。 指示正确检测的典型阈值是 IoUgt;50%。 IoU 是用于评估检测对象的算法的准确性的指标。 如图 3 所示,IoU 值等于预测边界框和地面实况响应框的部分交集区域对这些框的并集区域。
检测和分类算法的准确度评估不能局限于AP,因此,未来应该使用平均平均精度(mAP)的概念。 mAP 的公式在方程式中给出。
mAP 1 AP(q),
其中 Q 是查询的数量。
在这种情况下,查询的数量对应于训练算法的类的数量。基于特定模板的对象搜索假设存在具有突出特征的对象图像——模板和测试图像
匹配这个模板。在最简单的情况下,模板可以是最能代表对象的颜色强度矩阵。所考虑的组的更复杂的方法使用特征向量集(描述符)、对象的几何表示 [28] 或对象的概率模型,其中包含有关像素强度分布的信息作为模板。与模板匹配涉及将测试和模板图像的描述与一些选定的指标进行比较。应该注意的是,给定模式的搜索方法在搜索单个对象时有效,因为当发生重叠时,描述中的某些特征可能会消失。解决检测运动区域问题的另一种常见方法是计算光流 [29]。光流允许确定每个像素的偏移量。这种方法的应用需要满足两个基本条件:物体各点的亮度不随时间变化;属于同一对象的最近点在图像平面中以相似的速度移动。
概率方法使用基于状态空间概念的方法。人们认为,运动的物体具有一定的内部状态,在每一帧上都对其进行测量。在最简单的情况下,状态是指对象在图像中的位置。这种方法的典型例子是基于卡尔曼滤波器[30]和粒子滤波器[31]的方法。使用卡尔曼滤波器时,假设状态是具有正态分布的随机变量,而在粒子滤波器的情况下,分布由一组可能的状态值指定,并指示它们出现的频率.在实践中,它是通过使用基于内核的跟踪技术使用均值偏移及其连续修改(Continuous Adaptive Mean Shift,CAM Shift)[32]来实现的。
2.1 检测算法
在检测阶段,神经网络将原始图像带到给定的正方形大小,并根据超参数 H 将其划分为正方形块。它们的数量为每个block的输出,得到一个矩阵M(x1hellip;xq,y1hellip;yq,h1hellip;hq,hellip;w1hellip;wq,c1hellip;cq),其中xi,yi是第i个物体的坐标; hi, wi 是该对象的高度和宽度,以像素为单位; ci 是置信系数。
每个块还根据卷积过程中识别的特征进行类预测。根据学习过程中在网络中初始化的类的数量,输出指标的数量也会有所不同。因此,在输出处,对于图像的每个块,都有一个向量:p (p1, p2, ... pk),其中 pi 是块中第 i 个类的概率,k 是类的总数。
接下来,做出关于块内是否存在对象的决定。根据以下规则做出决定: (exist; i isin; B)ci gt;t,其中 t 是指定的置信度阈值。也就是说,如果至少有一个预测,其置信度系数超过指定的阈值 t,则做出关于块内是否存在对象的决定。该对象的类定义为:aj h;酸碱度max(pj)max(pj1,pj2,hellip;pjk);h 1,k,其中aj是第j个对象的类别。因此,每个图像块要么生成一个对象,要么不生成一个对象。最后一组对象形成一个输出矩阵:R (x1 ... xm, y1 ... ym, h1 ... hm, w1 ... wm, a1 ... am),其中 ai 是第 i 个对象的类标签。
在逐帧处理视频时,得到不断更新的检测对象序列R。进一步处理这些对象以获得每个对象的运动路径因此变成了两个连续帧Vi和Vi-1的对象的关联问题。一个例子如图 4 所示。
对象列表是不稳定的。 在考虑的车辆检测问题中,新物体不断出现在框架上,旧物体以相同的速度消失。 而且,使用神经网络进行检测还是有一定程度的误差; 该对象可能无法在其中一个帧上被识别,但会在下一个帧上再次出现。 为确保对象列表不断更新,对 Vi 进行了比较
不仅在对象不存在的连续帧数Vi-1之后,而且在不断更新的对象列表V之后。对象被从 V删除克服阈值。 下面介绍一般检测算法。
1. 收到了一个objectVi列表。
2. Vi和V的对象之间的关联。
3. 将新对象从 Vi 添加到 V。
4. 从 V 中删除旧对象。
Vi 和 V 对象之间的关联是在卡尔曼滤波器的帮助下建立的。当将检测与目标相关联时,使用检测到的边界框更新目标状态,并使用卡尔曼滤波器框架 [33] 求解速度分量。在将检测分配给现有目标时,每个目标的边界框几何形状是通过估计其在当前帧中的新位置来确定的。接下来,将分配的成本矩阵计算为从现有目标和检测中获得的所有边界框之间的 IOU 距离。此外,为了摆脱目标重叠检测低于 IOUmin 的分配,应用了最小 IOU。当车辆在图像中出现和消失时,必须创建或
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[589487],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。