今年4月,一家人工智能头部企业中的几位研究员不约而同地关注到了一项新技术:SAM(SegmentAnythingModel)。研究员们很快将这一技术上报部门负责人,这家企业以机器视觉技术起家,研究员关注到的技术也与此有关。“随着SAM的出现,越来越多AI的人意识到,大模型对于他们而言是一次冲击”,其中一名研究员说。
一个月后,这家公司开始调配资源开发视觉大模型。
此后三个月,头部的机器视觉AI企业关注到这一技术的潜力,截至目前,商汤科技、云从科技等人工智能公司以及传统安防企业,纷纷开始投入这场新的技术竞争。
SAM,是一种面向通用场景的图像分割模型,在今年4月由Meta推出,就像和ChatGPT对话一样,人类可以通过一些语言指令,让SAM自主分辨和思考图片中的内容,SAM被认为是出现在视觉领域的ChatGPT。
全世界的发烧友用它画画、抠图,玩得不亦乐乎,中国研究员们却识别出SAM的威力:若用在自动驾驶、安防监控,以检测人、车和道路,它就是一个从根本上打破传统机器视觉玩法的大模型。
分割和识别图像是机器视觉的核心任务。过去,每创建一个分割图像的任务,都需要训练一次算法、标注一批数据,以叠加小模型的方式让机器“看见”图像中的各类物体。而SAM表现出了一些新的特征:无需为每一个特定任务创建小模型,机器可以自主对任何图像中的任何物体进行分割,甚至是未知的、影像模糊的场景,且操作极为简单。
这意味着SAM具有更加通用的特征,且有可能利用这种通用特征,大幅度降低机器视觉识别的成本,从而改变基于原有技术的商业模式和竞争格局。
自2016年开始,拥有巨大市场的中国涌现了上百家人工智能公司,在市场竞争和资本助推下,逐步形成了数家AI独角兽,商汤科技、云从科技、旷视科技、依图科技,这些公司将AI带入安防、政务、工业领域,并利用算法上的精进、规模上的优势建起了护城河。
但如今,随着技术的更迭,这场赛事有可能重新展开。
中国移动集团首席科学家、中国人工智能产业发展联盟副理事长冯俊兰对记者表示,AI大模型将带来一种全新的人工智能范式,过去所谓的AI领域的护城河在大模型冲击下基本不存在了。SAM的出现,证明视觉大模型的可实现性,颠覆了一直以来机器视觉的研究框架、交互和生产服务方式。
IEEE高级会员、天津理工大学教授、AR/VR技术专家罗训对记者表示,之前头部企业的AI能力优势,会因为通用大模型的兴起而被一定程度削弱。但是这些企业是否本身会变弱,取决于它们的转型。
技术路线
作为AI的一个重要分支,机器视觉的目标是让计算机模仿人类视觉系统,实现图像和视频的理解和处理。
2000年后,被称人工智能奠基人的Ge-offreyHinton、YannLeCun和YoshuaBengio突破了深度学习技术,让机器可以模糊地模拟人脑,从海量图像中自动学习并提取特征。
2012年是一个重要时间节点,斯坦福大学教授李飞飞创建的ImageNet项目,将深度学习推向主流:研究者可通过对大量图片的人工标注教会计算机识别各种各样的物体,这大幅提升了机器视觉的准确率,降低了成本,使其有了商业化的可能。
2023年4月,新的变化到来,Meta公司上线了一款名叫SAM的图像分割模型。作为一款大模型,SAM不仅为机器安上感知外界的眼睛,还赋予机器一个真正的大脑,它学会对图像进行观察、感知、思考、逻辑推理、得出结果,且操作极其简单,类似于ChatGPT用人类语言对话的方式给机器命令。
简言之,它更容易地实现了机器视觉的目标,过程中无需大量图像标注、堆叠算法,消耗的算力也更少。英伟达人工智能科学家JimFan表示,SAM大模型是机器视觉的GPT-3时刻,它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)、在模棱两可的情况下也能进行图像分割。
Meta发布SAM后,也将模型及其背后的训练数据集一并开源,并从AR、VR、内容创建等领域,介绍了SAM的应用场景。
身在中国的企业和研究人士很快判断出SAM可能具备的商业价值若将其用在自动驾驶、安防监控,以检测人、车和道路,它能从根本上打破传统机器视觉的玩法。
冯俊兰表示,大模型将改变AI的供给模式,将供给方的复杂度大幅度降低,边际成本接近于零;业务方可以用更简单的自然语言表达需求,不再需要依托工程师用代码等专业指令与机器交流,依据自身需求灵活部署到不同的模型上,提高了效率
宇视科技首席产品官朱兵对记者表示,“过去干AI的活就像是搬箱子,其实是一些技术含量相对较低的体力活,当AI赋能单点的场景,它是非常碎片化和定制化的,售前效率、售后效率、销售效率都较低,产业的上下游都比较痛苦”。朱兵举例称,厂家投入开发、收集素材、标定、针对不同场景和地区做定制算法的投入和代价非常大,研发过程中往往面临着素材紧缺、周期过长、指标优化难等等问题,对客户来说,定制开发费也是一笔不小的支出。
如今,用大模型替代原有的小模型玩法,无需堆叠算法、无需大量标注数据,过程中消耗的算力极少,可以用更简单的人类语言给机器下命令,无需用专业的计算机编程语言。朱兵表示,大模型大幅拉低了AI的研发和部署成本,它建造了一系列新的玩法,重构了行业秩序,尤其计算机视觉行业,之前的大公司构造的技术壁垒已经被抹平了,大家又回到同一个起跑线上。
涌入
围绕上一代机器视觉技术,中国诞生了一批人工智能公司,这些公司提供的技术开始被广泛用于公安、地铁、楼宇商厦的摄像监控识别和安检识别。
“AI四小龙”是指在2011年至2014年间陆续成立的四家中国人工智能企业,分别是商汤科技、云从科技、旷视科技、依图科技。他们的共同特点是以机器视觉为核心技术,此前AI在深度学习路线上的突破为这一批人工智能企业的崛起提供了技术基础,而中国的产业优势又为这些企业的发展提供了市场。
在SAM面世后,它们开始纷纷瞄准这一技术。
记者从多位业内人士处了解到,除了依图科技,“AI四小龙”中商汤科技、云从科技、旷视科技都在研发视觉大模型,号称传统安防的“海大宇”中,海康威视和宇视科技也布局相关技术研发。
4月,就在Meta上线了SAM后的几天,商汤发布“日日新”大模型。商汤智能产业研究院院长田丰对记者表示,“日日新”系列是包含自然语言生成、图片生成、视觉感知等多个大模型的集合,其中“如影”、“琼宇”、“格物”都属于视觉相关的大模型。
5月,云从科技发布了“从容”大模型,是包含视觉在内的多模态大模型,云从科技在最近的投资者会议上表示,视觉大模型是非常重要的,未来也将推出视觉主导的模型。因为公司在计算机视觉方面的储备较强,也因为要解决客户具体业务需要多模态技术。
旷视科技和依图科技尚未推出大模型。旷视科技对记者称,“正在研发大模型,但没有对客户推出和交付”。在方向上,旷视选取了通用图像大模型、视频理解大模型、计算摄影大模型和自动驾驶感知大模型四个研究方向,并获得一定突破。
研究机构Omdia人工智能首席分析师苏廉节对记者表示,在视觉大模型这一波冲击下,“AI四小龙”快速转型大模型,部署以视觉为主的多模态大模型,这样的路径相对合理。
海康威视在今年6月对投资者称,“SAM模型在发布之初我们就关注到了,也进行了系统性的评测。”朱兵对记者表示,公司正在自研的AIoT行业大模型“梧桐”,就是一款以通用大模型+行业场景+训练调优为架构的行业大模型,在5月9日首次发布,6月已经面向第一批伙伴测试。
海康威视和宇视科技是以设备生产起家的传统安防企业,在“AI四小龙”杀入安防后面临激烈竞争,一直积极拥抱机器视觉技术,但也因软件能力不足而被夺走一定的市场份额。
目前,AI企业开始在“大模型的划时代”意义上达成共识。
商汤智能产业研究院院长田丰和云从科技联合创始人姚志强,都对记者表示,AI1.0是小模型时代,企业以提供专有小模型为主,运用多点技术解决特定场景需求;AI2.0是大模型时代,企业要通过统一的大型技术底座平台,也就是打造一个对世界有通识感知和认知能力的多模态的基础模型,并在此基础上生成一系列行业小模型,以此来解决专业场景和更多海量场景的需求。
姚志强认为,如果一家AI企业还停留在上一阶段,或许能解决很多场景问题,但成本难以下降,使得规模化效应无法显现;田丰认为,两个时代是长期并存的,不是谁淘汰谁的对立关系,两者以模型协同的方式去完成。例如采用混合专家模型结构(MoE),AI2.0时代是多个模型组合成服务,1.0的模型也能嵌入进来。
在新的竞争中,原有的技术积累和硬件投入仍将发挥作用。
田丰对记者表示,“AI大装置”智算中心具备强大的AI算力,能够为千亿参数量的20个大模型提供训练算力,是研发和训练大模型的关键装备,商汤科技不仅自用,还开放给大模型创企、研发伙伴使用。
云从相关负责人对记者表示,公司的CWOS操作系统在整合ChatGPT这类超级语言模型方面有先天的优势。同时,该系统可以根据生产实际情况,反馈数据和信息到大模型中,优化模型的训练和调整,提高模型的准确性和效率。
大模型突围市场
“即便没有大模型的冲击,“AI四小龙”也处在一个转型的迷茫期,需要思考自身的价值和出路所在”。苏廉节表示。
一批人工智能企业受到了资本和市场的青睐,其中商汤科技、云从科技已登陆资本市场。商汤在2018-2022年间,每年研发投入累计超过120亿元,并在2021年IPO时募资超50亿元。云从在2018-2022年间,每年研发投入累计超过22亿元,并在2022年IPO时募资17亿元。
技术和资本的良好互动也让中国在视觉识别领域一度取得了领先的优势,在2018年前后,中国在人工智能论文发表量、人工智能融资额等多方面仅次于美国或已超过美国,特别是在视觉识别领域,中国人工智能公司屡屡在国际大赛中打破纪录,取得优良成绩。
但很快,随着市场的推动,原有技术的潜力逐渐见顶,2019年中国科学院院士张钹在接受经济观察报专访时曾提示在现有技术路线上,产业应用的潜力可能已经触碰到天花板。
更重要的是,从商业角度,AI原有技术路线始终难以突破成本瓶颈,以至于更多传统产业客户没有能力买单。朱兵表示,“多年以来,我们没有看到蓬勃向上的新秩序,大量企业在人和车牌识别这两个赛道里残酷竞争,根本原因在于更多算法无法形成规模效应”。
一位头部企业的AI研究员对记者称,按照传统玩法,一家AI企业为车厂服务,出售一套识别路障的算法,识别一种路障平均单算法需要十几万元,时间需要约2个月,还需要客户提供上万张用于标注的图片,但仅仅一个算法是不够的,实际道路场景很复杂,适用于小汽车的算法不一定适用于大卡车,换一个角度就识别不出了,当检测目标受部分受遮挡就也难识别。
为了增加设备的智能化,AI企业要叠加多个算法,简单说就是堆叠许多个小模型。根据财报,商汤科技已累计拥有6.7万个商用小模型,记者从云从科技获悉,公司也具备数千个商用小模型。
但是训练的时间和成本也翻倍上涨。
冯俊兰对记者表示,很多AI公司难以赚钱,一个重要原因在于AI服务的高成本,造成企业“挣一块钱赔五块”,“接单越多、赔的越多”这种模式让供给方难以持续,需求方也只能是少数关键行业或支付能力较强的行业。
根据财报,2018至2022年间,云从科技累计亏损31亿元,商汤科技累计亏损超过400亿元。
为了进一步降低AI成本、提升市场,“AI四小龙”战略上也出现分化。商汤选择AI大装置,云从选择操作系统,旷视选择芯片,依图选择物联网。
从这个角度,大模型可能带来的并不仅仅是对现有公司的挑战,也可能带来一个全新的商业模式和应用场景。
上述研究员称,公司曾努力在更多市场找AI的生意,比如,公司曾和一家超市谈过AI监控,检测售货员是否在场,公司派出5名算法工程师,光工资就要花30万元,但客户的十几个售货员月薪加起来不到5万元;还跟工厂主谈过AI质检,检测流水线上的包装盒是否破损,对方评估下来认为雇佣工人更经济等等。
这些需求统称为AI的长尾需求:大量的中小型客户,支付能力不强,对AI没有刚需,只是在某种场景下有一些特色需求,可用可不用,不愿意支付动辄上百万的成本。在这位研究员看来,未来,可以将某类大模型或一套多模态大模型,应用于这些视觉检测场景,利用大模型的迁移和通用能力,只需要少量数据标注和算法投入,开发周期和对算力的要求也会更低,这样费用大幅降下来,客户就有更大可能买单。