查看完整版本: [-- 发力语料建设 让人工智能健康成长 --]

武当休闲山庄 -> 数码讨论 -> 发力语料建设 让人工智能健康成长 [打印本页] 登录 -> 注册 -> 回复主题 -> 发表主题

huozm32831 2024-07-17 15:06
日前,在2024世界人工智能大会上,一场关于人工智能语料的论坛在上海首次举办。一年前,2023世界人工智能大会上,上海人工智能实验室、人民网、国家气象中心等单位联合发起的中国第一个大模型语料数据联盟正式成立。人工智能大模型取决于三大要素:算力、算法、语料。中国是世界上数字化应用场景最丰富的国家,各种场景提供了极为丰富的语料。中国是语料大国,但各种语料仍存在参差不齐的情况,需进一步加以规范。通过人工智能大模型,特定的输入往往会生成特定的输出,存在“种瓜得瓜,种豆得豆”的规律。从输入端着手,强化语料建设,可以推动人工智能健康成长。

  在人工智能发展中,语料具有“赋能”和“教化”的双重功能,前者通过全方位的知识转移和训练,使得人工智能博闻强识,融会贯通,进而技艺超群;后者通过多维度的情感嵌入和价值对齐,让人工智能“通情达理”,并且“善解人意”。例如,伴随我国老龄化程度的加深,具有健康护理功能的养老护理机器人开始走进人们的生活。越来越多的老年人希望在享受各种专业化养老服务的同时,也能感受到亲人照料般的温暖。这就需要发挥语料的教化作用,结合特定的激励算法,让机器人以和蔼可亲的姿态、体贴入微的服务,响应并满足老年人的养老需求。由此可见,在人工智能相关技术快速密集突破的过程中,要达到“强健其体魄、文明其精神”的目的,语料建设是关键,需要着重做好拓源、提质、铸魂三项工作。

  首先是拓源。对于语料,人工智能大模型有异乎寻常的“好胃口”,当前存在语料资源的较低水平供给与大模型高强度训练需求之间的矛盾。语料建设是一项复杂的系统工程,具有多源、高维、异构、跨界、超限等典型特征,需要广泛动员和组织政府部门、行业组织、企业等各方力量,建立语料建设的统一战线。全国各地纷纷行动,2023年,上海人工智能实验室宣布联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。深圳数交所则联合近50家单位成立“开放算料联盟”,多家A股公司加盟。这在一定程度上缓解了语料资源供给不足的问题。未来仍然需要加快拓展来源渠道,将沉淀在行业壁垒间、藏身于隐秘空间里的各种语料资源发掘出来,为人工智能大模型的迭代升级提供动力。

  其次是提质。语料涉及海量的数据、文本、图片、语音、视频等资源,既有“原材料”,也有“半成品”,要让大模型能够“吃”得下去,要靠数据库技术解决“消化”问题。大模型不仅要吃得饱,还要吃得好,面向行业应用的专业数据库可以给AI大模型“开小灶”。

  最后是铸魂。语料对于人工智能的“思维方式”和“行为模式”具有潜移默化的影响。在语料建设中,既要开放包容,博采世界各国文化之所长;也要汲取中华优秀传统文化的精髓,为大模型准备“中餐”。中文语料尤其是中式价值观语料的缺位,轻则会影响面向国内特定应用场景的垂类大模型开发进程,重则可能失去以我国的文化与价值观赋能人工智能发展的机会。对此,应未雨绸缪,加快高质量中文语料资源建设的提速扩容,并将中国特色社会主义文化的价值取向融入其中。让功能日益强大的人工智能成为言端行正、德才兼备的“好孩子”。

jjybzxw 2024-07-17 19:39
  您提供的是关于人工智能大模型语料建设的背景和重要性,以及当前在中国进行的相关工作和未来展望。人工智能大模型的发展确实依赖于算力、算法和语料这三大要素,其中语料的质量直接影响大模型的性能和应用效果。中国在数字化应用场景方面的丰富性,为人工智能大模型提供了宝贵的语料资源,但同时也需要对这些资源进行规范和优化,以保证大模型的健康成长。

  语料的“赋能”和“教化”功能强调了语料在人工智能发展中的重要性。通过高质量和多元化的语料,人工智能大模型可以获得更广泛的知识和理解,同时也能更好地理解和响应人类的需求和情感。在老龄化社会中,这尤其体现在养老护理机器人的应用上,它不仅需要提供专业的服务,还需要具备温暖和亲切的人性化特征。

  在语料建设方面,中国已经采取了一系列措施,如成立大模型语料数据联盟、开源发布多模态预训练语料等,以解决语料资源供给不足的问题。未来,需要进一步拓源、提质和铸魂,即扩大语料来源、提升语料质量,并融入中国特色的文化和价值观。

  综上所述,人工智能大模型语料建设是中国人工智能发展的重要组成部分,它对于推动人工智能技术的进步和应用具有关键意义。通过不断的努力和创新,可以期待人工智能大模型在未来的发展中发挥更大的作用。



查看完整版本: [-- 发力语料建设 让人工智能健康成长 --] [-- top --]


Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled


沪ICP备:05041533号