“更好的数据意味着更好的决策”。这句话如今被越来越多智能驾驶领域人士提及和认可。
让汽车具备“智慧”,智能驾驶成为全球许多国家都在关注的一个重要课题。而在这一过程中,AI数据对于汽车智能驾驶而言至关重要,它是汽车变得更“聪明”的关键。
然而,关于智能驾驶引发的事故我们也已经看到太多,这些教训也在告诫我们,我们需要更加安全的智能驾驶,需要更多精准的数据为安全保驾护航,能够在汽车感知、规划、决策、控制方面进行指挥,才是真正的人工智能。
在汽车智能驾驶的过程中,汽车本身需要具备感知、策划、决策、控制等一些列能力,而数据则是培养智能驾驶AI能力的重要因素,数据标注存在的意义是让机器理解并认识世界,想要让汽车本身的算法做到处理更多、更复杂的场景,背后就需要有海量的真实道路场景数据做支撑。
算力、算法方兴未艾:高质量数据成产业落地着力点
数据、算力、算法是推动人工智能技术进步的“三驾马车”。如今,在计算机视觉、语音识别领域,AI的商业化落地突破并不明显,原因就在于算法算力的技术瓶颈。
从宏观角度来看,现有算法、算力无法准确处理复杂环境下无限可能的长尾场景,这时候AI数据的覆盖就显得更加重要。
我们看到,在现有的算法算力的基础上,越来越多的AI进化方式是通过对大量的原始数据进行框选、提取、分类,从而将复杂的原始数据标签化,转为机器学习可以识别的精准数据,以提升AI的感知能力。
对于智能驾驶技术而言,这样的数据精确化显得更为重要:一方面,现实交通场景复杂、安全威胁多,非常重视数据分析的效率和敏捷。尤其是国内路况的复杂性和国内智能驾驶起步稍晚的现状,更需要高质、更精准的数据来进行算法训练。
从安全性上来看,标注数据质量的高低将直接影响智能驾驶的安全性。例如,人像、建筑物、植物、道路、交通标志、车辆等数据标注的准确性直接决定智能驾驶AI对于路况的判断,数据标注偏差或者完成度不高会直接影响行驶安全。
2017年5月17日,美国加利福尼亚州一名车主在开启了智能驾驶状态下撞上前方转弯的卡车不幸身亡。原因是智能驾驶系统没有辨别出前方白色车辆和天空的区别,没有识别出障碍物导致智能刹车没有及时制动引发的事故。
从体验上,首先安全性的保证本身就是最佳的体验,精准的数据是确保AI智能驾驶落地的重要前提。兼备数量与质量的标注数据可以很大程度上提升汽车智能驾驶的安全性与实用性,如何解决数据质量问题,规避数据错误、保障数据质量已经成为智能驾驶领域发展的头等大事。
“当下,人工智能正加速往应用人工智能方向发展,在算法、算力没有重大突破的前提下,质量高和安全性强的数据成为人工智能商业化落地的关键点。”Testin云测CTO陈冠诚在接受媒体采访时表示。
从产业的角度来看,智能驾驶的产业化落地将成为高精度数据标注行业未来发展方向的一个重要缩影,高质量数据在促使自动驾驶产业化落地的同时,也成为数据产业商业化程度不断深入的着力点。
云测数据优势:专业定制、独立安全,方能有的放矢
数据是整个人工智能行业的燃料,数据在智能驾驶领域的重要性不容置疑。绝大部分智能驾驶企业对数据也非常重视,但现实情况是缺乏获得大量且高质量数据的渠道。
据2018年智研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》显示,近几年,数据标注与审核行业快速发展,2018年市场规模已达到52.55亿元,阿里、腾讯、百度等多家互联网巨头都拥有海量的数据标注需求。
实际上,数据标注是一个简单又困难的事情,一方面,在执行上的难度相对算法开放要低得多,但另一方面数据标注本质上是要获得更准确,更精细化的数据结果,而场景数据缺失、数据质量良莠不齐,以及隐私安全问题成为数据行业面临的三大痛点。
为解决这些行业性问题,国内AI数据服务头部企业云测数据,通过提供定制化的场景化数据,来满足业内高标准的数据需求。
以云测数据的场景化为例,为了满足智能驾驶领域不同场景的特殊需求,云测数据搭建了自己的场景实验室,为各种智能驾驶细分场景模拟无噪的专属数据,通过定制化数据采集直击特定场景化下的数据缺失、质量良莠不齐等行业问题。一方面,在场景下的定制化数据采集更加精准、数据质量更高,另一方面,定制化的数据集也与智能驾驶需求端的匹配度更高,从而最大化将数据转化为生产力。
对于智能驾驶来讲,无噪的专属数据采集完成后,数据通过标注后或者说加上标签才有意义,才能用于算法的学习和训练,最终智能驾驶的应用落地。
当前的自动驾驶所需数据需求,正向着多模态的方向发展。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。比如当前的自动驾驶需要雷达+摄像头才能跑的更稳,相对应的,就需要2D/3D融合标注工具。
在标注工具方面,云测数据自研了一套可以支持图片、语音、文本等多品类的标注平台,其中的三维标注工具,尤其是3D点云的标注工具,对雷达成像的图像中的机动车、障碍物、行人等多目标进行3D标注,并通过渲染引擎的优化,来保证整个过程的流畅和快捷,在数据质量的导向下实现更优的品控和更快的数据交付,当属业内领先。对此,数据数据总经理贾宇航表示,“我们希望通过精准高质、独立安全的数据帮助智能驾驶客户快速构建核心数据壁垒。”
值得一提的是,智能驾驶客户在选择数据供应商时,独立第三方数据标注公司更具优势。
某业内人士在接受采访时表示“考虑到大厂能也有自动驾驶的团队或业务,难免会担心自家数据被拿去训练别人的模型;再加上要价不菲,所以合作并不多。如果跟第三方数据标注公司合作,就不用担忧这种问题。他们要价合理,而且既不会把数据外泄,也不会自用。”
目前云测数据在华东、华北、华南设有数据标注基地,还有几个基地在部署中,并拥有行业内最大规模的专业数据服务全职人员,用来构建整体 AI 数据的生态。
尾声:
随着AI技术商业化的持续深入,算法、算力方兴未艾之时,场景化的数据成为推动AI深入长尾应用的关键推动力。
作为人工智能领域内最值得期待的场景,智能驾驶产业落地的大门已然开启。场景化、定制化的高质量的数据已成为智能驾驶领域最需要的基础动力之一,而数据产业也将在不断深入的产业落地中,为科技的进步和发展贡献着力量。