1295阅读
1回复

[智能应用]人工智能开始与人类思维产生不祥的分离[1P] [复制链接]

上一主题下一主题查看指定楼层

在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君

发帖: 117122

金币: 6904

道行: 19524

原创: 29553

奖券: 18275

斑龄: 203

道券: 10562

获奖: 0

座驾

设备: EOS—7D

摄影级: 专家级认证

在线时间: 25189(小时)
注册时间: 2007-11-29
最后登录: 2025-12-31

只看楼主倒序阅读使用道具楼主发表于: 2024-09-30

人工智能在真理和正确性方面有很大的问题，而人类的思维似乎是这个问题的很大一部分。新一代人工智能现在开始采用更具实验性的方法，这可能会使机器学习远远超过人类。
还记得Deepmind的AlphaGo吗？它代表了人工智能发展的一个根本性突破，因为它是第一批不接受人类指令、不阅读规则的可玩游戏的人工智能之一。

相反，它使用了一种叫做“自我游戏强化学习”的技术来建立自己对游戏的理解。在数百万甚至数十亿的虚拟游戏中进行纯粹的试验和错误，开始时或多或少随机地使用任何可用的杠杆，并试图从结果中学习。
在2014年该项目启动的两年内，AlphaGo以5比0击败了欧洲围棋冠军，到2017年，它击败了世界排名第一的人类棋手。
此时，Deepmind在国际象棋领域推出了一个类似的AlphaZero模型，在那里，深蓝（Deep Blue）等模型接受了人类思维、知识和规则集的训练，自上世纪90年代以来一直在击败人类大师。AlphaZero与人工智能卫冕冠军Stockfish进行了100场比赛，赢了28场，其余比赛打成平手。
人类的思维给人工智能踩了刹车
Deepmind开始主导这些游戏 —— 以及shoji、Dota 2、星际争霸II和许多其他游戏 —— 当它放弃了模仿人类是获得好结果的最佳方式的想法时。
与我们不同，这些电子大脑受到不同的限制，拥有不同的天赋，它们被赋予了自由，以自己的方式与事物互动，发挥自己的认知优势，并建立自己对什么有效、什么无效的基本理解。
AlphaZero不像Magnus Carlssen那样懂象棋。它从来没有听说过女王的Gambit，也没有研究过伟大的大师。它只是下了一大堆的国际象棋，并建立了自己的理解，以一种不人道和不可思议的语言，它创造了自己的胜利和失败的冷酷硬逻辑。
因此，它比任何人类训练的模型都要好得多，这是绝对肯定的：如果另一方有一个高级强化学习代理，那么没有一个人类，没有一个用人类思维训练的模型在国际象棋比赛中有机会。
据比地球上任何人都更了解真相的人说，类似的事情是最新、最伟大的ChatGPT版本刚刚开始发生的事情。
OpenAI的新o1模型开始偏离人类思维
ChatGPT和其他大型语言模型（LLM）人工智能，就像那些早期的国际象棋人工智能一样，已经接受了尽可能多的人类知识的训练：我们物种的全部书面输出，或多或少。
他们已经变得非常非常好了。所有这些关于他们是否会实现人工智能的废话 … 天哪，你能想象一个人类在能力上能与GPT-4o竞争吗?
但LLM专攻的是语言，而不是对或错的事实。这就是为什么他们会“产生幻觉” —— 或者胡扯 —— 用措辞优美的句子给你错误的信息，听起来像新闻主播一样自信。
语言是一个奇怪的灰色地带的集合，很少有一个答案是100%正确或错误的，所以LLM通常使用强化学习和人类反馈来训练。也就是说，人类会选择听起来更接近他们想要的答案。但事实、考试和编码 —— 这些东西确实有明确的成功/失败条件；要么你猜对了，要么你猜错了。
这就是新的o1模型开始脱离人类思维的地方，并开始引入AlphaGo那种极其有效的方法，即纯粹的试错法，以追求正确的结果。
o1在强化学习方面迈出的小步
在很多方面，o1和它的前辈差不多 —— 除了OpenAI在开始回答提示之前建立了一些“思考时间”。在这段思考时间里，o1产生了一个“思维链”，在这个思维链中，它考虑并推理出解决问题的方法。
这就是强化学习方法的作用所在 —— 与之前的模型不同，前者更像是世界上最先进的自动补全系统，它真的“关心”事情是对是错。通过部分训练，这个模型被赋予了在其思维推理链中以随机试错方法解决问题的自由。
它仍然只有人类生成的推理步骤可供借鉴，但它可以自由地随机应用这些步骤，并得出自己的结论，以何种顺序，哪些步骤最有可能让它得到正确答案。
从这个意义上说，这是第一个真正开始创造奇怪但超级有效的AlphaGo式问题空间“理解”的LLM。在它现在超越博士水平的能力和知识的领域，它基本上是通过尝试和错误，通过数百万次自我生成的尝试偶然找到正确的答案，并通过建立自己的理论来判断哪些是有用的推理步骤，哪些不是。
因此，在有明确的正确和错误答案的话题中，我们现在开始看到这种“外星智慧生物”用自己的双脚迈出了第一步。如果游戏世界是现实生活的一个很好的类比，那么朋友们，我们知道事情的发展方向。只要有足够的能量，它就能永远加速。
但o1的主要训练对象仍然是人类语言。这与真理非常不同 —— 语言是对现实的粗糙和低分辨率的表现。这么说吧：你可以整天向我描述一种饼干，但我不会尝它的味道。
那么，当你停止描述物理世界的真相，让人工智能去吃点饼干时，会发生什么呢？我们很快就会找到答案，因为嵌入机器人身体的人工智能现在开始建立自己对物理世界如何运作的基本理解。
人工智能通往终极真理的途径
从牛顿、爱因斯坦和霍金粗陋的人类思维中解脱出来，具身的人工智能将采取一种奇特的AlphaGo风格的方法来理解世界。他们会戳戳现实，观察结果，用自己的语言建立自己的理论，解释什么有效，什么无效，以及为什么有效。
它们不会像人类或动物那样接近现实。它们不会使用像我们这样的科学方法，也不会把事物分成像物理和化学这样的学科，也不会进行同样的实验，这些实验帮助人类掌握了周围的材料、力量和能源，并统治了世界。
被赋予这种学习自由的具身人工智能将会非常怪异。它们会做你能想到的最奇怪的事情，原因只有它们自己知道，在这样做的过程中，它们会创造和发现人类永远无法拼凑在一起的新知识。
从我们的语言和思维中解脱出来，它们甚至不会注意到它们突破了我们知识的界限，发现了宇宙的真相和新技术，这些是人类在10亿年内都不会偶然发现的。
我们在这里得到了一些缓刑；这不会在几天或几周内发生，不像LLM世界里发生的很多事情。
现实是我们所知道的最高分辨率的系统，也是真理的最终来源。但它的数量非常多，而且处理起来也非常缓慢；与模拟不同的是，现实要求你以每分钟一分钟的缓慢速度进行操作，而且你只能使用你实际建造的身体数量。
因此，试图从基本现实中学习的具身人工智能，最初不会像基于语言的前辈那样拥有惊人的速度优势。但它们仍将比进化速度快得多，因为它们有能力在群体学习中将自己的学习成果汇集到合作群体中。
特斯拉（Tesla）、图灵（Figure）和Sanctuary AI等公司正狂热地致力于打造具有商业价值和成本竞争力的类人机器人。一旦他们实现了这一点 —— 如果他们实现了这一点 —— 他们将能够制造出足够多的机器人，开始在对物理世界的基础上，在规模和速度上进行反复试验。
不过，他们需要支付自己的费用。想想都很有趣，但这些类人可能会在工作之余学会掌控宇宙。
OpenAI的o1模型可能看起来不像是一个巨大的飞跃，坐在GPT单调的文本服装中，看起来就像另一个隐形的终端打字员。但这确实是人工智能发展的一个步骤，也是这些外星机器最终将如何以各种可能的方式超越人类的短暂一瞥。

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 215389

金币: 637190

道行: 2006

原创: 2442

奖券: 3260

斑龄: 41

道券: 1197

获奖: 0

座驾

设备

摄影级

在线时间: 46943(小时)
注册时间: 2008-10-01
最后登录: 2026-01-01

只看该作者沙发发表于: 2024-09-30

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

　　字节跳动最近达成了一笔108亿美元的贷款协议，这可能是亚洲（除日本外）最大的一笔美元企业贷款。这笔贷款将用于再融资过去的贷款，并且得到了20多个债权人的支持，包括国际大行和中资银行。尽管字节跳动在美国面临越来越严格的审查，在中国也面临着AI领域的激烈竞争，但这笔贷款仍然获得了超额认购，最初的贷款规模从95亿美元增加到了108亿美元，这表明债权人对字节跳动的长期前景持乐观态度。

　　Meta发布的首款AR眼镜原型产品Orion在业界引起了广泛的关注，尽管其硬件成本高达1万美元，但它所展现的技术和设计理念仍然被许多人视为AR产业的一个重要里程碑。Orion采用了MicroLED投影方案和光学级碳化硅，提供了高达70度的视场角（FOV），这在AR眼镜中是非常领先的。此外，Orion的分体方案，包括AR眼镜、EMG腕带和无线计算单元，为用户提供了更自然的交互方式。

　　DeepMind的AlphaGo是人工智能发展的一个重要突破，它使用了一种叫做“自我游戏强化学习”的技术来建立自己对游戏的理解。在数百万甚至数十亿的虚拟游戏中进行纯粹的试验和错误，开始时或多或少随机地使用任何可用的杠杆，并试图从结果中学习。这种自我对弈的方法使得AlphaGo能够在没有人类指导的情况下自我进步，最终击败了世界围棋冠军。

　　OpenAI的新o1模型开始偏离人类思维，引入了类似AlphaGo的纯粹试错法，以追求正确的结果。o1在强化学习方面迈出了小步，它在开始回答提示之前建立了一些“思考时间”，在这段时间里，o1产生了一个“思维链”，在这个思维链中，它考虑并推理出解决问题的方法。这种方法使得o1在有明确的正确和错误答案的话题中，能够用自己的双脚迈出了第一步，通过尝试和错误，通过数百万次自我生成的尝试偶然找到正确的答案。

　　在AI芯片领域，字节跳动可能将部分融资收益用于其AI芯片的自研，以追赶腾讯、百度和阿里巴巴等。AI芯片是人工智能的底层基石，对于处理人工智能应用中的大量计算任务至关重要。目前，全球AI芯片市场当前基本被以英伟达为代表的欧美大厂主导，国内AI芯片厂商如百度昆仑芯、阿里平头哥等也在加速发展，逐渐崭露头角。

　　在类人机器人方面，国内外的公司如特斯拉（Tesla）、图灵（Figure）和Sanctuary AI等正在致力于打造具有商业价值和成本竞争力的类人机器人。这些机器人可能会在工作之余学会掌控宇宙，从牛顿、爱因斯坦和霍金粗陋的人类思维中解脱出来，具身的人工智能将采取一种奇特的AlphaGo风格的方法来理解世界。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]人工智能开始与人类思维产生不祥的分离[1P] [复制链接]