从提高运营效率到实现持续创新,机器学习已经成为企业发展的关键。然而,IDC发布的《2020年人工智能战略观察:执行摘要》显示,目前全球只有约四分之一的人工智能和机器学习技术方案被应用于生产中,这表明许多企业并未从这项技术中充分受益。企业机构唯有快速实施和扩展机器学习模型,使其能够支持整个企业内的各种应用,才能充分运用机器学习挖掘实际业务价值。
然而,大规模部署机器学习模型也可能为企业带来诸多挑战。例如,规模化的部署需要实现“从数据到模型再到成果”这一复杂且反复的端到端工作流程。而且,企业也需要提高自身治理能力,合理应对模型部署可能带给终端客户服务的影响(如隐私问题),并着眼于数据应用的合规性和安全性,以及该模型是否能转化成为生产级模型等。
机器学习的实现依赖于数据
由于机器学习技术是由数据驱动的,因此不存在数据过量问题。事实上,随着数据获取量的提升,机器学习工具可以变得更加准确。随着人、企业和城市之间的联系日益紧密,全球都将持续不断地产生大量数据,这也为运用机器学习技术的企业带来了更多优势。
但由于机器学习依赖于数据,因此企业机构需要具备更好的数据管理能力,尤其是当数据需要在多个不同的平台上生成、存储和处理时更是如此。根据IDC发布的《2020年全球企业上云预测报告》显示,今年亚太地区将有超过90%的企业选择应用本地或专用私有云、多个公有云以及传统平台所组成的混合环境。因此,对于企业机构而言,数据在平台之间的迁移,以及保护和管理所有平台上的数据可能会存在挑战。
随着5G和物联网的兴起,企业需要有效管理流数据以及存储在数据库中的静止数据。由于互联设备需要根据实时洞察来做出决策,因此流数据对于运行在网络边缘的机器学习系统尤为重要。此外,目前同时具备知识和实践经验的机器学习操作人员仍然匮乏,这可能也会阻碍企业机构向数据洞察驱动转型的进程。为了应对这种情况,企业可以通过适当降低数据访问门槛,让更多员工参与进来,在各个流程中做出以数据为依据的决策。当然,这种方法需要有效的数据治理,来确保数据的一致性和可靠性,以及避免数据滥用的情况发生。
企业数据云赋能数据治理
由于机器学习系统所生成洞察的可靠性完全依赖于企业的数据质量,因此拥有强大的数据治理能力是在企业机构成功扩展机器学习的关键。只有确保数据达到准确性、及时性和相关性等特定标准,企业用户才能借助数据治理来做出明智决策。同时,这也降低了成为违规行为受害者以及违反数据隐私法等法规的风险。
由于数据分布在不同的平台上,企业可能难以使用传统或点式数据管理解决方案来有效实施数据治理。企业数据云可以提供一个从数据采集、丰富、报告、服务到分析预测的端到端互联数据生命周期解决方案,并且该解决方案可以在多云和混合云环境中运行,帮助企业进行数据治理。它还能提供一套基于元数据的集成式安全治理技术,为所有分析功能提供持久化的环境。基于以上方案,企业机构可以确保对数据的访问,同时能够确保数据的使用始终获得授权、追踪和审核。
Cloudera Data Platform为机器学习构建基础
选择合适的技术平台对于机器学习操作至关重要,Cloudera Data Platform(CDP)等企业数据云能够帮助企业机构完成基础技术平台的建立。凭借CDP,企业机构可以获得整体数据视图,以便在需要更多容量时将本地工作负载大量迁移至云端,并分析和优化所有位置的工作负载。此外,由于企业数据云可以在整个数据生命周期内实现安全治理和合规,这些企业机构还可以降低风险和运营成本。CDP的在线共享数据体验(SDX)能够提供一套基于元数据的集成式安全治理技术,通过统一的方式来管理和维护所有用户以及分析和环境(本地、私有云或公有云)的数据访问和治理策略。
在能够更好地治理数据之后,企业机构还可以在机器学习服务上建立进行机器学习操作(MLOps)层。MLOps是数据科学家和运营人员为管理机器学习生命周期而开展的协作和沟通实践,旨在减少将模型投入生产的时间和难度,减少团队之间的摩擦并加强协作,以及改善模型追踪、版本控制、监控和管理。而且,其还有助于为现代化机器学习模型创建一个真正的循环生命周期并规范机器学习流程,为日益严苛的监管和政策法规做好准备。
目前,许多企业机构选用了Cloudera Data Platform(CDP)来加强数据治理能力,进而扩展机器学习应用。以大华银行(UOB)为例,其通过运用CDP,顺利集中了合规、零售银行、资产管理和批发银行等各业务部门的数据,获得了更全面的客户数据和交易数据。此外,CDP在帮助大华银行确保数据治理的同时,还有效地将人工智能和机器学习技术快速推广至更多业务环节,支持150多个大数据分析沙盒,使得200多名用户可以测试创意和基于数据的创新。总体来讲,该解决方案带来了如缩短反洗钱检测时间、通过提供更有针对性的优惠和建议来提高客户转化率等诸多业务效益。
总结
机器学习技术必将推动企业机构的变革,而且目前许多机器学习应用已经为企业机构带来了实际的业务成果。机器学习可以实现流程自动化,发现新洞察,从而帮助企业创造新产品或增强现有产品及服务,从而提供更好的客户体验。然而,糟糕的数据质量和缺乏对相关数据的访问可能会阻碍企业对于机器学习的应用。因此,企业机构还需完成全方位运营转型,具备建立和开发机器学习模型以及部署和运营整个模型的能力,从而全方位发掘机器学习的潜力。