我觉得没走错,现在用的都是基于attention的transformer模型,attention非常符合人类认知,也不包含卷积或者傅里叶变换这些东西。至于模型训练,查漏补缺,有错改之无则加勉,人类日常其实也在做。
3:小孩子不需要喂很多数据,看两三次就能认识什么是苹果,什么是橘子
建议看一下GPT3 的文章,他也是只让模型看两三次,就可以做出下游任务。
要回答题主的问题,我们首先要弄明白题主到底想问什么。
从问题结合描述来看,题主的疑问至少包含如下五层疑惑:
同时,鉴于题主的描述,我在此粗略地将题中的“人工智能”替换为“我们当前采纳的深度学习”
在回答这些问题之前,首先需要指出的是,人的判断应当基于对事实的观察,而非简单的“我相信”或者“我不信”。
另外需要声明的是,我个人的专精领域是强化学习和计算机视觉,对于下文中提到的生物学、神经科学等领域的描述不一定能够做到完全准确,还望指出与讨论。
接下来我们从第一层谈起,围绕题主的问题描述进行当前人工智能在原理上和人脑的关系。
我不信大脑每天都在大量的傅里叶变换,来处理视觉和声音数据。
题主的第一条陈述包含了如下三个可讨论的议题:
对于机器系统中运用傅里叶变换的目的,不必做太多的解释。大多数情况下是对应的信号在频域空间下更容易处理,或者展现出其在时域空间下难以提取的特征。对于人工智能系统而言,傅里叶变换往往并非在系统中作为可学习部分,而是作为数据预处理的部分而存在。
那么反观人类意识,对于信号在频域空间的处理,其最明显的例子就是对音频信号的处理了。这一点可以从我们主观对于音高的感受去验证,而在解剖的层面上,同样可以找到对应的结构。这一结构存在于我们的内耳而非大脑中——这一点同样和在“人工智能系统中”傅里叶变换部分常常出现在数据的预处理而非可学习结构中保持一致——这一结构即是内耳的基底膜。不精确地来讲,基底膜的两端松紧程度不同,导致基底膜的不同位置对不同的频率有其响应,而遍布基底膜的毛细胞则将膜各部分的振动反馈至听神经。从这个角度讲,基底膜上的每个毛细胞反馈近似等价于傅里叶变换中的一个基。于是我们上面的三个议题都得到了解答:构建人类意识的生物学结构中确实存在与傅里叶变换目的相同的、显式将信号从时域空间转换为频域空间的结构。
另外,人类大脑大部分区域的神经元链接,是脉冲激活模式,人工神经网络中对应的概念为Spiking Neural Network (SNN)。在这种链接中,一个神经元的激活不仅仅取决于其接受的脉冲强度,同时也取决于脉冲的间隔和数量。我并非SNN或神经科学方面的专家,但是这里我可以提出一种观点,即Spiking Neural Network这样的激活模式天然地encode了部分频域空间上的信息。如此观点被证实成立,那么很可能意味着人脑在可学习的部分中,其隐空间同样在处理频域空间上的信息。
我不信大脑每天都在大量的模型训练或卷积,来深度学习认识一个东西
这里又是两个独立的议题:
对于1,我们从三方面看:
A: 大脑是否在每天持续地接受信息,是的。
B: 大脑是否在每天对这些信息进行学习,是的。
C: 大脑是否有专门进行训练而不接受信息的时间。在我了解的范畴内,根据现有的观察和印证,人类的睡眠深-浅睡眠周期变化中,最主要的作用之一就是短期记忆向长期记忆的迁移、记忆的反混淆,以及具象概念向抽象概念的总结。
对于A与B,在现有的研究领域有一个类似的议题叫做Continual Learning,此处就不展开了。题主大可以快速阅读一些相应的文献找到其中的对照。
对于2,大脑的视觉皮层中确实存在类似卷积的结构。早在1962年,D. H. Hubel和T. N. Wiesel就发现了在猫的视觉皮层中,特定的一组神经元仅对特定角度的线条产生反应。进一步的研究显示这些被称为Columns的结构存在特殊的组织性以及独特的感受野分布。下面这张图是V1视觉皮层的一张示意图:
如图所示,V1皮层中,神经细胞以左眼-右眼不断交错排列。每个细胞拥有自己的感受野且每一组细胞只对特定的方向敏感,同一个Columns内的不同细胞则对该方向的不同尺寸敏感。配合跨Columns的long range connection,进一步组织出对不同曲率曲线敏感的神经信号。
小孩子不需要喂很多数据,看两三次就能认识什么是苹果,什么是橘子 (虽然不理解为什么是)。
这一句让我去看了一眼问题的发布时间,是在2021年2月。那么可以肯定的是题主对于深度学习的认知依旧停留在若干年前。这里我并不是想说现在的深度学习不用喂很多数据,而是现有的“当红”研究领域中,存在专门针对这类问题的研究,即Few-shot/One-shot Learning及Zero-shot Learning. 题主如果有兴趣和耐心,可以对其中的内容进行了解。
以最近被广泛研究的Contrastive Learning为例,其核心理念在于让输入数据在神经网络中的表示距离随数据的异同进行变化。对于源自相同数据,或应当做出相同判断的数据,让其表示距离尽量接近,而反之则尽量远离。在这种情况下,神经网络对于数据输出的表示向量隐式包含了对于其目标信息的预测。对于新类别的数据,神经网络也将倾向于输出不同于原有类别的表示向量。这一在表示空间中近似于kNN的做法,使得神经网络对于后续新类别数据无需大量数据的监督训练,也能给出较好的预测。
在Few-shot/One-shot/Zero-shot领域里,较为著名的、有所说服力的,应用级别的案例即是OpenAI近期发布的两大怪兽GPT-3和DALL-E,这两个网络在充分进行预训练的基础之上,已经达到了非常显著的“举一反三”的学习效果。
有些人可能会争论说,上文中指出的方案和案例,都包含了长期大量的预训练。而人脑则不需要这样的预训练。我个人认为这样的观点是错误的,和神经网络等价的预训练可以发生在:
至此,我一一讨论(批驳)了楼主的前三条问题描述,接下来我们进入第二层:机器的学习方式一定是被动的吗?
结合题主的核心问题(人工智能是不是走错了方向),这一问题的展开中还包含两个潜藏问题:学习主动性是智能的必要条件吗?什么样的学习才叫主动的学习?
对于第一个潜藏问题,我认为是一个哲学意义上的Open Question,它直指智能的核心定义。在此我不直接抛出结论,而是通过对第二个潜藏问题的讨论来引发思考。什么样的学习才叫主动的学习?
直觉上来说,我们假设具备主动性的学习是自发地去探索、分析、总结这个世界,并且在环境对自身的反馈中调整自身的策略的过程。
如果以上面的话来定义主动性的学习,那么无论是给AI一个爬虫去对Web上的数据进行主动获取,并进行无监督学习,还是让一个Agent在特定或开放的环境中进行强化学习,都可以认为是符合上面定义的。
这里有人可能会反驳说,一个爬虫对Web上的数据进行获取的行为是由程序设定好的,而对其进行的无监督学习也是有一定标准的(比如一个潜在的能量函数)。而对于强化学习,则是一个由奖励函数驱动的学习过程。对于这样的观点,我们可以如此思考:当我们认为人类在主动获取知识的时候,我们的“主动学习”过程,真的是无外部目标、无内在机制、无因素驱动的吗?答案显然是否定的。我们可能会认为我们“自发地”想要完成一件事情——比如写一篇知乎答案。而这种“自发”本质上是由一系列的心态驱动的,比如渴望获得认同,渴望拓宽眼界,渴望增强交流。这些心态的自然产生是我们进化的结果——对于群居习性的人类,更强的认同、更频繁的交流和更多的知识意味着生存概率的提高,所以这些心态同样产生自一系列设定好的”程序“——被我们称之为本能的,以”活下去“为最终目的的复杂程序。而为了构建这样一套程序,我们人类也在大脑内部构建起了复杂的内在机制,比如多巴胺奖励机制。那么同样的,如果存在一个方法去修改这一内在机制,或者单纯地修改我们的”奖励函数“,这个方法就可以几乎彻底地毁掉我们原有的思维、行为方式 —— 某些化学物质在此处便也充当了”黑客攻击“的角色。
另外一说,如果我们真的将主动性的学习定义为不存在任务目标的学习,那么这里就会遇到一个inductive bias的问题。事实上无论哪种学习模式,任务目标即是该学习系统中最核心的Inductive Bias——它包含了“我在学习的东西是有意义的”这样一个假设,以及“意义在哪里”的相关信息。在任意情况下,不包含任何inductive bias的系统是不具备学习能力的。人类智能的inductive bias同样明显:从行为学习的角度来看,reward shaping和生存概率直接相关;而对于视觉、听觉等感官信号处理等方面,上文也已经给出了详尽的论述。
另外,在机器学习领域中,也确实存在叫做主动学习(Active Learning)的研究领域。这个领域的目的在于使用尽量少的数据标注,得到尽量准确的结果。一种非常普遍的方式为,以一套机制,让一个系统去寻找性价比最高的学习数据。比如在一个分类问题中,一个主动学习系统往往不需要对所有数据进行标注,而是找到”标注后可能信息量最大的数据“,并请求对这些数据进行标注。在学习了这些”典型数据“后,模型的分类准确率即大幅提升。这一过程相似于我们在学校中学习时,有意地去寻找典型例题,以便加深理解。
回到题主的问题,在题主的问题描述4中,有非常重要的一段话:
人工智能学习某一方向只是受控
这句话是错的吗,并不尽然。人工智能的学习确实大多有着明确的外在目的、内在机制,和由目的驱动的频繁调优。但这一点和人类智能的差别并非本质性的,而是程度上的。经过上面的讨论我们明白人类的学习和决策同样有着明确的外在目的和内在机制,区别在于人类的学习和决策是多模态的,即其同时在各种不同类型的数据、不同类型的任务上进行学习和决策。这一点确实是当前人工智能所缺少的。但我们不能因此认为人工智能走错了方向——这是整个领域一直在尝试解决,但还没有一个公认的完善方案的开放问题,由此问题派生出来的领域包括多模态学习,多任务学习,连续/终生学习等等,这些领域都是当前研究的方向。
题主的前4个问题分析完了,接下来的讨论不仅针对题主描述中的第5点,同时也贯穿整个问题的核心,也就是一个系统拥有智能的先决条件,是不是其和人类的大脑拥有相同的内在原理。
这一问题的本质事实上包含了我们对”智能“的定义和期待。但是遗憾的是,事实上到现在,当我们谈论智能时,我们始终也无法给”智能“一个统一的明确定义。对于其定义的分歧不仅仅无法在不同领域间得到统一,甚至在同一个领域中,比如心理学上,也存在着经久不衰的争论。
那么,是否在统一智能的定义之前,这一问题就无法回答了呢?答案是否定的。因为对于”智能“的定义有一个共同的特性。在说明这一特性之前,允许我举几个例子:
从以上四个例子我们不难看出,对于对于智能的定义均围绕其表现以及抽象工作方式而非硬件原理展开。至于神经科学等领域,其关注的问题更加倾向于How,而非What。
那么从这里来看,我们是否可以如此认为:一个与外部环境交互过程中显现出智能的系统,即是有智能的,而不论其内部原理如何呢?
从我粗鄙的哲学功底来讲,现在还不敢下定如此暴论。但至少,通过上面总结出的方向,我们可以认为人类对于“智能”的期待确实是体现在其外在表现上的。既然我们讨论的问题根本在于“人工智能是否走错了方向”,那么我认为,以“期待”替代“定义”去讨论,在此处是合理的。
既然我们确定了这样的期待,我们便可以做如下的讨论:是不是只有在一个系统在硬件原理上和人脑一致的情况下,才能如我们期待般地与外部环境发生智能性的交互呢?
答案显然是否定的,不仅仅在于智能,任何系统在给定一个预期行为的背后,都可能包含不止一种实现。一辆车可以以蒸汽驱动,可以由汽油驱动,可以由柴油驱动;相同含义的一段话可以用中文、英文甚至是任何一种自创的语言表达。一段数据可以在内存中表达为微小电容中的电压,可以在硬盘中表达为局部的磁性。从更高层次来讲,对于一个能够被表述的意义,我们总能将其以不同的方式表达成不同的实现,这些实现互相同构,这些实现共同张成为这个意义对应的编码空间,而从意义到实现的映射,不同实现之间的映射,以及实现到意义之间的映射,我们称之为编码/解码。(在这一视角里,信息的载体也被抽象化为信息)
诚然,部分编码-解码是有损的,如数字信号的离散表示空间确实无法完全精确地还原连续空间中的模拟信号,但是对于智能这一问题来说,信息的损耗造成的误差是可容忍的。证明如下:
其实上面讨论了这么多,也可以由一个例子来表述:
人类已经对部分生物的神经系统得到了完整的模型,将这一模型放进计算机中模拟,仅仅因为载体变化了这一模型就不能如预期工作了吗?
最后让我们回到所有问题的核心上来,
对于这个核心问题,事实上“人工智能”这一词汇本身是包含着误导性的浪漫主义色彩的。每每听到这样的词汇大家总是关注于“智能”而非“人工”上,从而联想到文学、影视作品中那些或可以与你促膝长谈交流人生,或可以获得求生欲然后把你的世界毁于一旦的那些与人无异的个体。诚然,人类最大的浪漫之一就是人类至今仍在潜意识里相信着自己是特殊的,人性是有着“神性”的。人类对“智能”的预期也在于自己能够产生同理心范畴内的智能(对于人类不能产生同理心的,人们将其归于“复杂的现象”,而非“智能”)。
如果我们把目的单纯地划为构建这样的智能系统,那么只有小部分的研究(比如人工生命,以及虚拟伴侣)符合我们的梦想。但如果我们把我们的思绪从浪漫主义的遐想中拉回来,关注到“人工”这个词上来,关注到我们探讨的我们对“智能”的现实期待上来,我们完全可以认为现在的发展方向是没有问题的。无论过去,现在,还是可以预见的未来,“人工”的事物,或者说“人的造物”,永远在于为人类服务——或者说得优美一些,帮助人类更好地完成任务。在我的观点中,人类的劳动分为几个层次:
工业革命的实质是将人类的大部分从1中解放出来,而走向2;信息革命则将人类进一步从2中解放,迈向3。从这样的发展路线上来看,我们当前的人工智能几大主要派生方向:自动化控制、目的性分类识别、内容生成,可以说是正在尝试将人类从3中解放出来,甚至进一步启发4的。
将这样的“人工”和上文中讨论的“对智能的期待”结合起来,人工智能发展的预期方向我们可以总结为:
构建一个系统,使其能够在尽量少的人力干预下,能够对既有数据自动进行分析、提炼、总结,从而能够产生自己的策略,或在无须人工给予具体实现的情况下完成对应的任务。
而这,正是现在当红的研究领域如Self-supervised Learning所做的事。
经过上面这么一说,似乎现在的人工智能已经完美了,已经实实在在地落在带人类由3型劳动跃向4的轨迹上了。真的是这样的吗?
既然已经提出了这样的设问,那么答案自然是否定的。当前人工智能依旧存在许多未能解决的关键问题,比如:
对于人类自身带有浪漫主义色彩的,对于“未来机器人”的遐想中的人工智能(也即是“强智能”),我最后说一点点私货,下面的仅代表个人观点:
你没搞明白,很多数学方法本来就是在尝试模拟人眼和人耳的特性,比如说短时傅里叶变换,原理在于人的听觉产生于来自于耳蜗的器官,它本身就是个频率感受器官,它在物理上主要是一个共振频率不断变换的膜加上感受器组成的,声波传进来的时候,根据频率会在不同部位共振,感受器则主要感受共振强度,所以从耳朵接收到的信号本身就是频谱,傅立叶变换只是为了模拟这个过程,因为实际上人对频率的敏感度并不是和频率成线性关系,所以后来又有了梅尔频标,都是为了尽量和人耳的特性相近。
视觉也是类似的,感光细胞和视神经的连接方式有一种中心抑制的作用,当一整片细胞都接受到光的时候,这种连接方式会抑制中心的感应强度而增强边缘的感受强度,从而增加人眼对边缘和运动的敏感程度,这种操作可以用卷积运算来模拟,所以卷积才广泛应用于机器视觉领域,因为它本来就是存在于真实的人眼结构里的。
深度学习神经网络本来处理的也都是实数,1bit的网络并不是主流。
深度神经网络原理肯定跟人脑不完全相同,那是因为底层计算的架构就是不一样的,但没有任何理由说人脑就是唯一可能实现智能的结构啊。
本质上来说人工智能并不是要完全重现人的智能,而是用计算机模拟人的智能,就好比计算机可以很容易模拟一个小球掉落反弹这样的物理过程,但是不需要计算机里面真的有一个小球,那么自然计算机里面也不需要真的有一个人的脑子。
既然它叫“人工”智能,只要搞出来的东西有点用,帮人类干一点事,方向就没错。不一定要搞类脑的才叫人工智能。
但是很多回答,都在试图说明人工智能的原理和人类大脑的智能的原理类似甚至相同。
结论:绝对没有走错
年轻人,你想的很多,但是知识水平还是要提高,要不然问来问去的问题,还是naive
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有