武当休闲山庄 - 稳定,和谐,人性化的中文社区

【新智元导读】KAN的诞生，开启了机器学习的新纪元！而这背后，竟是MIT华人科学家最先提出的实践想法。从KAN到KAN 2.0，这个替代MLP全新架构正在打开神经网络的黑盒，为下一步科学发现打开速通之门。
KAN的横空出世，彻底改变了神经网络研究范式！
神经网络是目前AI领域最强大的工具。当我们将其扩展到更大的数据集时，没有什么能够与之竞争。
圆周理论物理研究所研究员Sebastian Wetzel，对神经网络给予了高度的评价。
然而，万事万物并非「绝对存在」，神经网络一直有一个劣势。
其中一个基本组件——多层感知器（MLP），尽管立了大功，但这些建立在MLP之上的神经网络，却成为了「黑盒」。
因为，人们根本无法解释，其中运作的原理。

为此，AI界的研究人员们一直在想，是否存在不同类型的神经网络，能够以更透明的方式，同样输出可靠的结果？
是的，的确存在。
2024年4月，MIT、加州理工等机构研究人员联手提出，新一代神经网络架构——Kolmogorov-Arnold network（KAN）。
它的出现，解决了以上的「黑盒」问题。

论文地址：https://arxiv.org/pdf/2404.19756
比起MLP，KAN架构更加透明，而且几乎可以完成普通神经网络，在处理某类问题时的所有工作。
值得一提的是，它的诞生源于上个世纪中期一个数学思想。

数学家Andrey Kolmogorov和Vladimir Arnold
这个已经埋了30多年的数学原理，如今在DL时代被这位华人科学家和团队重新发现，再次发光发亮。

虽然，这项创新仅仅诞生了5个月的时间，但KAN已经在研究和编码社区，掀起了巨浪。
约翰霍普金斯大学计算机教授Alan Yuille赞扬道，KAN更易于解释，可以从数据中提取科学规则，因此在科学领域中有着极大的应用」。
让不可能，成为可能
典型的神经网络工作原理是这样的：
一层层人工神经元/节点，通过人工突触/边，进行连接。信息经过每一层，经过处理后再传输到下一层，直到最终将其输出。
对边进行加权，权重较大的边，比其他边有更大的影响。
在所谓的训练期间，这些权重会不断调整，最终使得神经网络输出越来越接近正确答案。

神经网络的一个常见的目标是，找到一种数学函数、曲线，以便最好地连接某些数据点。
它们越接近这个函数，预测的结果就越准确。
假设神经网络模拟了物理过程，理想情况下，输出函数将代表描述该物理过程的方程，相当于物理定律。
对于MLP来说，会有一个数学定理，告诉你神经网络能多接近最佳可能函数。
这个定理表明，MLP无法完美地表示这个函数。
不过，在恰当的情况下，KAN却可以做到。

KAN以一种不同于MLP的方式，进行函数拟合，将神经网络输出的点连接起来。
它不依赖于带有数值权重的边，而是使用函数。
同时，KAN的边函数是非线性和可学习的，这使得它们比MLP更灵活、敏感。
然而，在过去的35年里，KAN被认为在实际应用中，切不可行。

1989年，由MIT物理学家转计算机神经科学家Tomaso Poggio，共同撰写的一篇论文中明确指出：
KAN核心的数学思想，在学习神经网络的背景下是无关紧要的。
Poggio的一个担忧，可以追溯到KAN核心的数学概念。

论文地址：http://cbcl.mit.edu/people/poggio/journals/girosi-poggio-NeuralComputation-1989.pdf
1957年，数学家Andrey Kolmogorov和Vladimir Arnold在各自但相互补充的论文中证明——如果你有一个使用多个变量的单一数学函数，你可以把它转换成多个函数的组合，每个函数都有一个变量。

然而，这里有个一个重要的问题。
这个定理产生的单个变量函数，可能是「不平滑的」，意味着它们可能产生尖锐的边缘，就像V字的顶点。
这对于任何试图使用这个定理，重建多变量函数的神经网络来说，都是一个问题所在。
因为这些更简单的单变量部分，需要是平滑的，这样它们才能在训练过程中，学会正确地调增匹配目标值。
因此，KAN的前景一直以来黯淡无光。
MIT华人科学家，重新发现KAN
直到去年1月，MIT物理学研究生Ziming Liu，决定重新探讨这个话题。
他和导师Max Tegmark，一直致力于让神经网络在科学应用中，更加容易被人理解，能够让人们窥探到黑匣子的内部。
然而，这件事一直迟迟未取得进展。

可以说，在这种「走投无路」的情况下，Liu决定在KAN上孤勇一试。
导师却在这时，泼了一盆冷水，因为他对Poggio论文观点太过熟悉，并坚持认为这一努力会是一个死胡同。
不过，Ziming Liu却没有被吓到，他不想在没有先试一下的情况下，放弃这个想法。
随后，Tegmark也慢慢改变了自己的想法。
他们突然认识到，即使由该定理产生的单值函数，是不平滑的，但神经网络仍可以用平滑的函数逼近数值。
Liu似乎有一种直觉，认定了KAN便是那个拯救者。

因为自Poggio发表论文，已经过了35年，当下的软件和硬件取得了巨大的进步。
在2024年，就计算来讲，让许多事情成为可能。
大约肝了一周左右的时间，Liu深入研究了这一想法。在此期间，他开发了一些原型KAN系统，所有系统都有两层。
因为Kolmogorov-Arnold定理本质上为这种结构提供了蓝图。这一定理，明确地将多变量函数分解为，不同的内部函数和外部函数集。
这样的排列，使其本身就具备内层和外层神经元的两层架构。

但令Liu沮丧的是，所设计的原型KAN并没有在科学相关任务上，表现地更好。
导师Tegmark随后提出了一个关键的建议：为什么不尝试两层以上的KAN架构，或许能够处理更加复杂的任务？
一语点醒梦中人。
这个开创性的想法，便成为他们突破的关键点。
这个羽翼未丰的原型架构，为他们带来了希望。很快，他们便联系了MIT、加州理工、东北大学的同事，希望团队能有数学家，并计划让KAN分析的领域的专家。
实践证明，在4月份论文中，小组团证明了三层KAN，确实是可行的。
他们给出了一个示例，三层KAN可以准确地表示一个函数，而两层KAN却不能。

不过，研究团队并没有止步于此。自那以后，他们在多达六层的KAN上进行了实验，每一层，神经网络都能与更复杂的输出函数，实现对准。
论文合著作者之一 Yixuan Wang表示，「我们发现，本质上，可以随心所欲堆叠任意多的层」。
发现数学定理碾压DeepMind
更令人震惊的是，研究者在两个现实的世界问题中，对KAN完成了验证。
第一个，是数学一个分支中的「纽结理论」。
2021年，DeepMind团队曾宣布，他们已经搭建了一个MLP，再获得足够纽结的其他属性后，可以预测出给定纽结的特定拓扑属性。
三年后，全新的KAN再次实现了这一壮举。

而且，它更进一步地呈现了，预测的属性如何与其他属性相关联。
论文一作Liu说，「这是MLP根本做不到的」。

第二个问题是，设计凝聚态物理中的一种现象，称为Anderson局域化。
其目的是，预测特定相变将发生的边界，然后确定描述该过程的数学公式。同样，也只有KAN做到了在这一点。

Tegmark表示，「但与其他形式的神经网络相比，KAN的最大优势在于其可解释性，这也是KAN近期发展的主要动力」。
在以上的两个例子中，KAN不仅给出了答案，还提供了解释。
他还问道，可解释性意味着什么？
「如果你给我一些数据，我会给你一个可以写在T恤上的公式」。
终极方程式？
KAN这篇论文的出世，在整个AI圈引起了轰动。
AI大佬们纷纷给予了高度的评价，有人甚至直呼，机器学习的新纪元开始了！

目前，这篇论文在短短三个月的时间里，被引次数近100次。
很快，其他研究人员亲自入局，开始研究自己的KAN。
6月，清华大学等团队的研究人员发表了一篇论文称，他们的 Kolmogorov-Arnold-informed neural network（KINN），在求解偏微方程（PDE）方面，明显优于MLP。
对于研究人员来说，这可不是一件小事，因为PED在科学中的应用无处不在。

论文地址：https://arxiv.org/pdf/2406.11045
紧接着，7月，来自新加坡国立大学的研究人员们，对KAN和MLP架构做了一个全面的分析。
他们得出结论，在可解释性的相关任务中，KAN的表现优于MLP，同时，他们还发现MLP在计算机视觉和音频处理方面做的更好。
而且，这两个网络架构在NLP，以及其他ML任务上，性能大致相当。
这一结果在人意料之中，因为KAN团队的重点一直是——科学相关的任务，而且，在这些任务中，可解释性是首要的。
论文地址：https://arxiv.org/pdf/2407.16674
与此同时，为了让KAN更加实用、更容易使用。
8月，KAN原班人马团队再次迭代了架构，发表了一篇名为「KAN 2.0」新论文。

论文地址：https://arxiv.org/pdf/2408.10205
他们将其描述为，它更像是一本用户手册，而非一篇传统的论文。

论文合著者认为，KAN不仅仅是一种达到目的的手段，更是一种全新的科学研究方法。
长期以来，「应用驱动的科学」在机器学习领域占据主导地位，KAN的诞生促进了所谓的「好奇心驱动的科学」的发展。
比如，在观察天体运动时，应用驱动型研究人员，专注于预测它们的未来状态，而好奇心驱动型研究人员，则希望揭示运行背后的物理原理。

Liu希望，通过KAN，研究人员可以从中获得更多，而不仅仅是在其他令人生畏的计算问题上寻求帮助。
相反，他们可能会把重点放在，仅仅是为了理解，而获得理解之上。