AI代替现有岗位的可能性,已经让很多白领开始觉得不安。
但实际上,一项新技术之所以有价值,不是因为它要砸掉你的饭碗,而是它将为社会带来更多的机会。
比如,目前最令人瞩目的技术---AI大模型,就会创造出一种新岗位:人工审核员。
一、AI通用大模型
随着人工智能技术的不断进步,AI大模型已经成为了当前最热门的领域之一。AI大模型是指参数量巨大的深度学习模型,通常包括千亿到万亿级别的参数量,能够处理海量的数据,并具备强大的泛化能力。目前,AI大模型已经在自然语言处理、计算机视觉、语音识别等领域取得了显著的成果。
目前,AI大模型的发展已经取得了显著的成果。其中,最具代表性的模型是GPT系列模型,包括GPT-3、GPT-4等。这些模型拥有强大的自然语言处理能力,可以生成高质量的自然语言文本,并且在多个自然语言处理任务中取得了最佳成绩。除此之外,BERT、T5等模型也在自然语言处理领域得到了广泛应用。
通用AI大模型需要海量的数据,以及巨量的算力做支撑。前者需要历史积累,后者需要资金投入,在全世界能同时拥有这两个资源的企业,寥寥无几。
在美国,微软公司和谷歌公司正在争夺通用AI大模型市场的领先地位。
在中国,百度的文心4.0已经代表了通用AI大模型的最高水平。
而更多的AI企业则将发展目标聚焦,开启了另一个市场:垂直小模型(行业小模型)。
二、AI垂直小模型
垂直小模型,或者称为行业小模型。即数据来源和应用仅限制于一个垂直行业,或者具体的某项任务,例如:医疗,就业,教育。甚至,更具体为一个任务,例如:写简历,或者解读财报。
通用大模型和垂直小模型是两种不同的模型类型。通用大模型是指可以在多个领域应用的模型,而垂直小模型则是指在特定领域应用的模型。这两种模型类型各有优缺点,适用于不同的应用场景。
通用大模型的优点在于其强大的性能和广泛的适用性,可以处理多个领域的任务。但是其缺点在于需要大量的计算资源和数据资源,训练成本较高。
而垂直小模型则可以在特定领域发挥更好的性能,需要的计算资源和数据资源相对较少,训练成本较低。但是其缺点在于适用范围较窄,只适用于特定领域的任务。
目前,垂直小模型的发展非常迅速。在各个行业中,都有针对特定任务或领域的垂直小模型被开发出来。例如,在医疗领域,有针对医学图像分析的垂直小模型;在金融领域,有针对风险评估和信贷审批的垂直小模型;在教育领域,有针对学生辅导和教学辅助的垂直小模型等。
通用大模型和垂直小模型之间存在一定的关系。
通用大模型可以作为垂直小模型的基石,为其提供更加丰富和灵活的底层能力。而垂直小模型则可以基于通用大模型进行优化和扩展,以更好地满足特定领域或任务的需求。在实际应用中,通用大模型和垂直小模型也可以相互配合使用,以实现更好的效果。
例如,虽然百度文心4.0的数据量非常庞大,但是仍然需要通过其“文心千帆开放平台”引入海量的合作伙伴,开发适合于具体行业的垂直小模型。
京东集团副总裁、京东探索研究院院长、智能服务与产品部总裁何晓冬就表示,如今的大模型,与当年的搜索引擎技术是相似的。搜索引擎出来后,也存在着通用和垂直之说,诸如谷歌、百度等通用搜索,但其实在各类垂直的头部App内,其实也都有自己的搜索引擎,包括京东、淘宝、美团等。在这些平台上,当你希望搜索与这些平台属性高度相关的产品或服务时,往往能比通用搜索取得更好的效果。
“从技术的角度而言,一个技术必须结合场景才能做得最好。大模型不仅仅是一个界面,它还会涉及许多非常专业决策,需要将各类数据、知识打通结合才能真正发挥价值,所以只有把这种技术跟具体的场景深度结合,才能更好地提供服务。”何晓冬表示。
更为重要的是, AI大模型是经由大量互联网内容训练的。而这些数据并未经过全面的“清洗”。
通过熟练正确的提示词操作,大型语言模型可以生成大量“黑暗”“虚假”“不可信赖”的有毒内容。这意味着内容审核需要发生在源头(即AI模型被训练时)以及它们大量生成的输出上。
垂直小模型则可以在大模型的基础上,只对垂直领域的知识和数据进行引入,并通过人工干预,做出可信赖、可依赖的AI应用。
三、AI人工审核员
AI无法代替人,不是因为它算力不够,而是因为它没有“立场”。
最新一部的《碟中谍7》中的“智体”,根据女杀手“被饶过一命”,从而判定“将会有可能背叛”的因果关系,进而决策直接杀掉。这个决策过程不考虑生命价值或者对错是非。
但是现实的社会,需要在理性分析之外,随时引入价值观、沉没成本、机会成本、企业文化 等是非对错的因素。
因此,在垂直小模型的训练源头,就需要引入“人工审核员”这个专业岗位,保证在数据喂食的源头,就给AI一个正确的思考架构。进而,还要在对模型输出的结果进行审核和修正,以确保数据的准确性和可靠性。同时,人工审核员还需要对模型的性能进行监控和调整,以提高模型的准确性和可靠性。
为了保证AI大模型的可靠性,需要采取一些措施来进行错误数据的删除和修正,可以采用以下几种方式:
1. 数据清洗:对数据进行预处理和清洗,以去除无效、重复、错误的数据。同时,对数据进行必要的预标注和处理,以提高数据的质量和准确性。
2. 数据扩增:通过数据增强等技术对数据进行扩增,以提高模型的泛化能力和鲁棒性。同时,也可以增加模型的多样性和准确性。
3. 多样化训练:采用多种不同的训练方法和策略对模型进行训练,以获得更加全面和准确的模型结果。例如,可以采用不同的优化器、学习率、批量大小等参数进行训练。
不同于“内容算法”时代的是,算法流的内容审核员只是“关键词”标注,即便自身对需要进行监控的关键词内容完全不理解,也不妨碍上岗和工作。
而“AI小模型”时代的审核员,需要本身是该领域的专业人士,具备强有力的专业知识和严谨素养,能确保向AI模型喂食内容的100%正确性。