近日,在2015中国人工智能大会(CCAI 2015)上,中国工程院院士、中国人工智能学会理事长李德毅发表题为《脑认知的形式化——从研发机器驾驶脑谈开去》的主题报告。他表示,要想解释脑认知之谜有两条路:脑认知的神经学方法,和脑认知物理学方法。结合脑认知物理学方法研究生物脑的形式化,主要是三个问题:脑认知的形式化可以不可以先关注脑认知的社会属性,作为主管世人脑是如何反应客观物理世界的?人脑是如何从外部环境中获得知识和技能的?人脑是如何根据已知解决未知的?人脑的想象力即如何形成创新的?
李德毅认为,脑认知的内涵包括记忆力、计算认知和交互认知。记忆比计算更重要。他解释说,脑认知的本质是统计认知,对世界的认知不是一次完成,需要多次反复,在不停的感知、认知行动过程中形成不确定性,这就是进化。动态演化过程从时间上看是积分,就变成记忆。计算认知方面,人脑没有多种计算,只有一个计算方法——相似计算。交互认知具有二重性,除了脑认知的另外一个重要特点是脑通过感知系外部世界交互。后者受到冯·诺伊曼计算机的局限。
基于上述三个方面,李院士分享了“驾驶脑”的研究,他认为要懂得忽略和聚焦,懂得抽象和分离。具体而言,机器驾驶选择性忽略脑认知对人体内分泌系统,对躯体神经系统、对心肺机能、对自身生存相关行为的控制和调节等,只关注安全驾驶这个特定注意。用机器模拟人脑对安全驾驶的自学习和驾驶技能积累能力,尤其重要的是驾驶脑并不模拟在驾驶过程中与安全驾驶无关的驾驶员的其他认知活动,如对路边美女、对周边车辆品牌得的认知,都不会有任何兴趣。他演示了2012年设计成功的北京到天津高速公路全程的无人驾驶,全称没有人工干预。设计上包括感知、认知和行动三个功能,其中长期记忆、工作记忆和动作记忆非常重要,采用GPU加CPU加FPGA加ASIC的技术。
李德毅最后表示,如果人脑特定问题域的认知能力可以先局部地形式化,哪怕在微观上不具有组织结构的相似形。
以下为李德毅院士演讲速记整理:
李德毅: 好几位远道而来的专家,让我们大会蓬荜生辉。我们今天进入大会第二天,我报告的题目是《脑认知的形式化》,从脑认知到人的智能,显然就是评估。所以我们现在这个时代到了人工智能的时代。我这个报告还有副标题叫从研发机器驾驶脑。跟Google一样搞无人驾驶,无人驾驶怎么搞,到底是搞机器人,还是搞个轮式机器人,隐性的帮着我们开车,还是搞一个双驾双控的轮式机器人,让人和我们机器人和谐相处,这里涉及到人和机器人如何打交道。
解释脑认知之谜的两种方法
这个形式化有很多方法,从目前人们最关心的各个学科交叉点谈,要想解释脑认知之谜,我个人认为有两条路,一种是脑认知的神经学方法,这个现在非常火,像奥巴马的脑计划,东盟的及日本的,中国的脑计划,还有李彦宏的中国大脑计划等等。我记得李彦宏讲你不大,作为中国脑认知小脑和大脑,所以你看搞生命科学的人搞IT是小脑。人的想法,脑认知能不能从生理或者身体上找到原因?我这个IT人有一个正常的本能,遗忘、排斥,拒绝接受,这是人的脑的本能。当一个人对一个事情认识了,对另外一个事情认知度不够。讲到生理和身体学,人的意识,性格,和思维,能不能在人脑中找到定义,用什么样的尺度去刻划特定记忆,这就变成了一个基本问题,就是脑认知的形式化。
脑子里有多少尺度?北京大学院长说脑组织机构图,我说无人驾驶脑画一个功能机构图,他说老李,你要给我画一个脑认知图,一百年也画不出来,你看到底分多少块?18世纪最早的颅相学,他把颅骨中的26个骨和认知建立一一对应干系,后来被认知为伪科学。大脑神经区域与认知行为相关性研究,晚源于癫痫病人脑手术,不同区域不同频率的脑电波涌现为整个大脑服从同一振荡,病人表现为抽搐。这可认为是认知神经学的起点。当今有人通过FMRI观察,将人脑可以分为116和252个功能区加以研究。人脑不2千克,其中有一小办在小脑内,以不同拓扑形态分布在不同区域,每个神经元平均和7千多个神经元,构建在人脑中最复杂的图。我看我们这个图有一个毛病,不同的颜色代表不同的神经组,这是对的,它起码画着红颜色、白颜色、蓝颜色,但是它的拓扑结构没有多样性。就是人脑有的地方是不同的网,是不同的拓扑形态。有一条,世界上没有微观组织完全相同的两个人脑。生来就可以控制你的功能核磁共振图,你如何辨认。你今天的脑变化不一样。
脑认知是被感知和记忆的编码表达以及对感知的理解和想象,它和脑胜利以及脑成长史相关。大家说看到一个人和认出一个人,可能代表不同的脑神经功能回路,大脑中很多部位可能都参与了对绒毛影响性格的信息处理,成人脑中有记忆功能的大脑皮层大约有22平方厘米。世界上专门有人研究爱因斯坦脑,脑子大,脑子大就聪明吗?不一定。我们说脑子进水了,那就是有问题了。
神经生物学家试图用精神病患者细胞在培养皿中种出一个大脑皮层,器官在培养皿中被有道成为能够长成任何细胞的多能干细胞,又进而通过干细胞诱导技术使其成为脑细胞。同时造出神经元和胶质细胞,极具挑战性,当时生物神经回路和大规模神经网络成为脑认知神经学研究的热点,所以我认为脑认知的形式化第一个方法就是认知神经学。任何学科在什么尺度上形式化至关重要。尺度越细,结构越复杂,形式化越难。例如生命科学在胰岛素和消化酶的水平上用数百万细胞来研究胰岛素的运作过程其难度远远小于研究单一胰岛素细胞尺度的运作过程。我们这个世界宏观更宏观,微观更微观,尺度可以说相当大的尺度,怎么把这个尺度画出来?我自己画一个台阶,底下是基因,比基因大一点是分子大图,有神经网络,有脑区域图,有是你的认知行为,基因,我们从微观或者介观或者宏观程度上研究神经元。我们看到奥巴马2013年启动的脑计划,大脑中有9个点,我们看一看,我认为这9个点有不同的选择策略。比如说大脑认知统计显然是介观层面。我这里拿了奥巴马的9个点6个点打出来,好像有的靠近微观,有的靠近宏观,基本上介观。这个方法有风险,我们做个评估,我说据称黑猩猩、长颈鹿和海豚脑与人脑的生物结构组成较为接近,但认知水平迥然不同。如果仅在微观和介观尺度上研究生物脑,会不会研发粗一个长颈鹿脑不具备人脑的认知嫩里。无论是人造个长颈鹿脑还是婴儿绦或者爱因斯坦脑,使劲人们的梦境、睡眠依然认知任重道远。
第二个脑认知物理学方法。我在想认得想法和智慧导带从何而来?是天生就有还是后来的学习积累?我们经常把人脑比成一个小块,为什么不基于物理学的研究方法研究脑认知?因为我们把它叫做大众的物理学,人脑中的物理学。哪个不是从物理学出来?电子学会,计算机学会,后来产生人工智能学会,归根到底还是物理世界。我举一个典型的案例,1920年在印度米德纳波效果城附近人们在狼窝里发现两个裸体女孩,大的七八岁,小的约两岁,分别被取名Kamala和Aamala,送到孤儿院抚养小的第二年就死了,大的两年后才会直立,也只活到16岁,4年学会6个单词及智力相当于三四岁的孩子。所以在座的年轻的父母们建议你们回家一定要做儿童脑成长示例,除了狼羊,熊样,猴养,养的最成功的就是狼养,百度查一查,说的比我还生动。狼孩在狼群里长大,无法具有人的心理,错过了大脑学习语言和文字的最佳生长发育期。因此我们研究人脑成长和认知的群居性和社会性,如果研究人脑社会学,只研究了一半。
我1944年出生,读毛泽东红论长大,毛主席1936年就写的《实践论》,新三论老三论,尤其是1963年说的《人的正确思想是从哪里来的》,这是取决于由于你看到什么,就想看到什么。有的时候我们看开车,他不看路看美女,所以你看脑还不行,看脑还得认识脑。毛主席感官的东西你不一定能够深刻认识,只有深刻认识才能很好的感觉它。那就是《毛泽东语录》。
Google公司最近的一则报道谈起,Google无人驾驶汽车有上百万盈利的测试经验,大致相当于人类75年的驾龄,一个美国成年人15岁开车,到90岁开车,也不高啊,90岁眼睛也花了,也不方便了。所以人类75年驾龄的水平是什么?你把它上升到更到一层就是脑认知如何度量。世界上人类张三李四王五,他们总称叫人类。
脑认知是生物属性和社会属性,先天属性和后天属性相互结合而产生的整合行认知过程。研究生物脑叫形式化,脑认知的形式化可以不可以先关注脑认知的社会属性,作为主管世人脑是如何反应客观物理世界的?人脑是如何从外部环境中获得知识和技能的?人脑是如何根据已知解决未知的?人脑的想象力即如何形成创新的?就是这后面三条是全部内容。我们想办法把脑认知形式化,脑认知物理学习法,以物理学为基础的神经成像技术,如核磁共振,脑袋天,扫描,电位变化、信号分析等使得人类不再需要开颅才能认识大脑。还是在符号级?这就到我们讲的语言概念,语义或行为级,我是把物理学当中也画了一张图,那就是信号级别,符号级别,语义级别,行为级别。像FMIR这个设备我把它叫做宏观设备,或者叫微观设备。或者我们理解语义编码那就是符号级别。以后不同力度的概念图像、信息,语义,就是不同的情节和动物。
我有一本书叫《不确定性人工智能》,解决的就是数据和语义之间的能力。我们希望用定型概念和定量数据之间的等量关系,发现的元云模型、云推理、云数据、云变化等。
脑认知的物理学方法我们将客观世界的认知隐身到主观世界,将物理学中的场引入到认知空间,填补数据模型和认知模型之间的鸿沟,用数据场描述个体,神经元,结合予或者智能体,之间的相互作用。我跟一个人说让他看我们的书,不要一定想洋文是好的,中文也是一种语言表达。如果把我们的语言翻译成英语我们也很骄傲。
脑认知的三个内涵
大脑成像技术、人脑数据搜集、知识传播与培训,这三大块是奥巴马讲的。当然纳闷在脑数据科学化有九个点。认知神经学和认知物理学的研究方法不同的侧重。这个是叫隐言,脑认知的形态和拓扑。脑认知的主要外在表现是听和说和如何看。因此我们要研究语言认知,图像认知。当然语言也是一种特殊的图像,脑认知的内涵怎么想?我个人认为很重要,这是我今天的话题。第一个,记忆力,第二个计算认知,第三个交互认知。
请大家注意,我把记忆放在认知之前,这是我主要表达的观点,我认为计算固然重要,记忆更重要。脑认知的本质是统计认知,对世界的认知不是一次完成,需要多次反复,在不停的感知、认知行动过程中形成不确定性,这就是进化。因此动态演化过程从时间上看是积分,就变成你的记忆。核心是记忆认知,记忆是脑认知的核心,是人类智能的显着表现,记忆力强,记忆力大是认知。图灵科学家说脑认知的核心是记忆认知。
下面这一段也很重要,这是我们IT人跟生命科学家们取得的共识,脑认知是核心,是人类智能的显着表现,记忆力力,记忆量大,记忆力强,这三个动态感知。记忆不是简单的存储,它伴随有一定的取舍,取舍过程就是计算、就是简约和抽象。你拿一本书放一百年,那个书里面还有一点点痕迹,它是个抽象,是个简约。记忆和计算总是同时发生的亿通常时间越长丢失信息越多,记忆常常有联想和搜索,联想和搜索也是计算。看Google,越长期反复的信息越难以往。无论语言记忆还是图像记忆本质上就是通知记忆。这是我今天讲的最重要的数据,记忆的度量。假如H是个函数,它应该是认知函数跟遗忘函数的卷积,我问到一个问题,卷积神经网络多宽?为什么多宽?这个很科学。我不知道有多少人跟我一样。有麻省,也香港大学的。几分对套积分就是图量,F卷积等于卷积F乘以F的马斯乘以F的马斯。
人在周边环境世界里经常有瞬间的、丰富的感觉记忆,短期的、较丰富的工作记忆,以及反复多次的简约的长期记忆,海马题在工作记忆和学习中具有重要作用,瞬间的、丰富的初次感觉记忆在前脑中很快以往,较丰富的偶尔短期记忆在丘脑中容易忘却,反复的简约的长期记忆留在大脑皮质中难以以往,相对短期的记忆如果反复被检索可演变为更长期的记忆。感觉记忆前馈是工作记忆,工作记忆反馈回来是感觉记忆,工作记忆前亏馈是长期建议,长期记忆反馈过来是工作记忆。这个是抽象和演绎的。我们就把感觉记忆、工作记忆和长期记忆来形式化的力度,用不同的力度来表述它,形式化是这样的。所以你们看看这个字符,如果再融合到一起,它就是卷积的神经网。这太让我兴奋了。
计算认知,从感知到认知是抽象,从认知到感知是理论。我们专家说认知计算只有一种算法,我们计算机里做算法做的很多,我认为人脑没有多种计算,只有一个计算方法——相似计算,所有的计算都是相似计算。所以我在另外一个会议上讲到聚类是大数据的认知拓扑。实际上我们做的就是相似计算,无论是排序算法还是广告位置四退位算法,只不过在不同力度上做的算法。
第三个要素叫交互认知,不是简单的张三负责张三李四负责李四,他们之间要交换,不同的交换他们有不同的现象。我记得十几年前讲一个报告,我在讲不同的异构频率没有人同步指挥情况下怎么同步,这是神经网络里的交互。当然我个人认为交互认知的二重性,除了脑认知的另外一个重要特点是脑通过感知系外部世界交互,这是另外一种交互。用这种观点来看冯·诺伊曼计算机的局限性,他把计算分成两大部分:计算和存储。如果我们能找到一个基本的单元又能够既计算又交互又存储,这就叫新进计算机。
驾驶脑的研究进展
有了三个奠基,我们就做机器驾驶,机器识别。我个人认为脑认知的形式化也许一开始就纠结脑的微功能、微结构大脑内各种连接关系的复杂组织,不必一开始就纠结高并发、大流量、大数据信息编码以及脑精细组织跨区域的关联,我认为要懂得忽略和聚焦,懂得抽象和分离。我看一个图想出别的事情你知道吗,这是经常发生的。忽略脑认知对人体内分泌系统,对躯体神经系统、对心肺机能、对自身生存相关行为的控制和调节等。我的驾驶要注意力集中。如果一个机器人不代表主人的行为性格好像不太好,全世界一个德行实在太单调,所以我认为要自学习。强调了机器驾驶选择性注意,只关注安全驾驶这个特定注意。那你这样把它做到一个板卡上,能做吗?我知道频分多址等技术体现了并行通信的机理。如果微电子器件和装置的反应表现为纳秒级串行,人的感知和认知的反应表现为亚秒并行,可先利用微电子技术生产转用芯片和板卡,在一个知道微秒的合适尺度级并行,模拟人脑的记忆认知、计算认知和交互认知,体现出三位一体应该是可行的,同时寻找新的替代物,如忆阻器,回忆计算机的发生。
从人的视听觉感知切入研究脑认知,尤其是模拟人脑中的记忆智能、计算智能和交互智能,用机器模拟人脑对安全驾驶的自学习和驾驶技能积累能力,尤其重要的是驾驶脑并不模拟在驾驶过程中与安全驾驶无关的驾驶员的其他认知活动,如机器驾驶脑对路边美女、对周边车辆品牌得的认知,都不会有任何兴趣。一定要注意力选择,没有注意力选择就会有事情发生。精细动作技能是人的认知和行为反复执行和学习的特定能力表现,对于熟练技工、手术师、舞者、司机、杂技因缘、魔术师、体操运动员等,他的小脑一定有过人之处。我们认为大脑小脑既有协同也有分工,用我的口语说大脑出智能小脑出技能,大脑出战略,小脑出战术。因此我们看看,驾驶员开车开到小学旁的操场的时候,我们看小孩并没有在大脑中建立模型。它实际上本能甚至是个技能,所以司机开车如同自己左路一样,你左路需要大脑和小脑思考吗?本能是生下来就有的,开车是后来的。所以我们就形成新的本能,开车作为本能。这句话很重要,我们做了形式化分工,把驾驶协调性技术和相关的小脑自动化,驾驶脑承担驾驶这个特定问题域视觉听觉认知、注意、记忆、思维决策、交互等任务。在长期的智能驾驶试验活动中我们将控制模块归于智能车的动力学试验,尝到了甜头,你不懂得脑认知,不懂得微积分,那怎么行为如果把脑认知分为长期记忆、工作记忆、性格、冬季、学习和市委、瞬间行为,我们不断的认知、感知、行动,再知再感知。动态感知,态势分析,自主侧,精准控制,在线执行。这三个启动,感觉记忆,工作记忆和长期记忆。因此我们中国形成驾驶车的传感图,一个是雷达,包括机关雷达,毫米波雷达,我们做各种摄像头,再加上我们有看录音里面的汽车本身自带的技术,再加上导航数据,以及我们地图数据,这四大传感器,你说我们把它放到哪个领域中?我们看这是不同的态势图。这一块是感知。而人的头脑包括哪个动作好找,哪个动作不好找,我们有记忆。比如说路口记忆,驾驶困境记忆,驾驶显型记忆,我们有路口记忆,其他的记忆。也就是说我们把我们脑功能跟地图对接,同时定位和映射,这样子形成当前工作区的实况,根据最近这一端刚刚发生过去的驾驶态势图,根据这个态势图来形成决策,为了避免不同的传感器采样不同,我们就做驾驶态势CT图,不同的更换记忆信息,不同的保持长期意义。这就是功能记忆。感觉记忆交互。所以这样一来就形成我们整个的自动驾驶的板卡一个机构功能图。当时我找院长要图要不到,我自己做了一个自动驾驶。
大概就是三大块,一块叫做感知,一块叫做认知,尤其最重要的就是长期记忆,工作记忆,动作记忆,思维,小脑,这些动作形成了纵向和横向的记忆不同的感知、认知、行动,再感知、再认知再行动。我们把这个形成50万的知识产权。它还是在感觉记忆里和工作记忆和长期记忆如何发展的问题。
你看前面这一块我们把它叫侦查图,前面叫感知理解,认知理解是工况理解,长期记忆是大脑中。不同的时间我们有不同的重复区域去跟它进行关联分析。好比说正确理解和感知理解和认知理解,我们叫做态势分析。当然这是驾驶图,如果你云感知,假如说我们放无人机,那就是放跟云计算和人工智能结合,我的这个车水平和张三和李四的两个水平相当,但是我没有办法代表人类,只能代表几个人的驾驶情况,或者驾驶超脑。我们利用微电子技术,采用GPU加CPU加FPGA加ASIC,这就是我们做的。2012年我们成功的设计了北京到天津高速公路全程的无人驾驶,无一次人工干预,由中央电视台全程报道,这是2012年报道的。这就是我们车,大家都知道我们从北京到天津,不知道我们用多少雷达,我们最高的雷达是四千雷达,这个相对来看比较好做。北京和天津的车道画的清楚的很,所以我们讨了点巧。另外没有人行横道线。
无人车人机交互,他累了就自己驾驶。这是我们2015年4月420日开展的上海汽车博览课题组做的无人驾驶轿车演示,18米绕撞,形成雷达导航,在这个导航当中速度越高驾驶水平越高,如果一个驾驶员从起点到重点它是13分钟,我开了12分钟,我就说我的水平比它差很多,就这么简单,这就叫测试。你看有一个地方离锥形道很近,管道块就形成弯道超车。这个车子到整机场,你看美国车贵,70万,老百姓买不起。所以我们现在基本上用时间发现。
最近我们做了郑州无人驾驶客车演示,公共汽车,42公里,他们工厂的员工,该停就停,该开就开,周边其他的车还在开。这辆车是我们制造我们国内第一辆大车。你说大车和小车有什么不同?差别大海了去了,你们快过大车吗?大车和小车电通道和传动方式不一样,去委内瑞拉打了1200台,习近平亲自站台。我们在今年在郑州开,现在已经在做试验了。
从机器驾驶谈开去
最后讲一讲从机器驾驶谈开去,机器脑认知形式化的普适性。你刚才讲的驾驶脑有普遍性吗?如果有不同的特定问题,或者是不同的结构,你的脑驾驶形式化能够可行吗?我们做一个农业的苗圃栽培管理,苗圃栽培大概是这几个环节,第一个墒情、气候、病虫害等环境感知,然后就是苗圃植物长势分析,然后就是灌溉施肥,杀虫等自主决策。喷洒精准控制,在线执行。我们现在用云计算,你手上加四个APP,你在这里开会就可以控制家里。所以我觉得把驾驶问题又改成典型苗圃智能管理,这个图是可以用的。我们就不开始做一个试验,这是机器人在做花卉的批处理,于是我们把刚刚那个图用不同的传感器又形成这样一张图,形成苗圃的生长态势图,有工作记忆和长期记忆,什么叫长期记忆?去年的今天你浇水怎么浇的,前年你怎么浇的,就这么算。而且差别问题不大,所以那个图好做。所以我们得到一张图,我们现在在园博园,有一个花卉,各省的花卉在那里,我们想在那里搞一个智能交互系统,想把摄像头用智能脑袋控制起来。所以看起来如果我们把这个弄清楚了,好像这个还是可行。就是感知、认知、理解。这样一来机器换人的时代就到来了,一个农场,多少农民工他们将来就修机器人。
咱们再换一个问题,对于医疗问题而言,以认知障碍病人的治疗为例,研发一个典型的痴呆病人语疗机器人,老年痴呆很正常,因为脑子不行,怎么样延缓他的痴呆,或者怎么样测试他的痴呆?假如说把痴呆分成十度,一个年轻人跟老人聊天一会儿就八度痴呆,三度痴呆。用一个语疗机器人,看他怎么反应,我根据他的长期工作经验,也有我的决策。也变成我的机器人的发音。很多人都看他们的系统,叫问题回答系统,全是文字。我说你得有声音,声音有语调,语调里有情感,这才行。有文字有图像有声音最好,咱们搞个机器人,我有个观点,中国搞机器人,不要搞人型机器人,中国人太多了,家里机器人住不够啊。机器宠物,代替生物宠物,这就完了,多好啊。所以我觉得市场很大。
你们看看医疗机器人,我们又把这个图弄上面,还可以做。我参加上海神经组和中国科学院自动化组国一个瑞疗,他们要在商业杂志上发表文章,我说为什么要在商业杂志发表,但是商业杂志也不差,也不排斥。我说老百姓要看到的是怎么样延缓我们的老年痴呆。我跟他们讲一个故事,我的母亲93岁去世,老年痴呆,他区分不出哪个人。但是他说一句话,你们都一样。他还没有完全痴呆。这个问题要研究。所以我认为脑科学家一定要跟人工智能科学家站在同一道战线上来研究老年痴呆人,小孩,病人,这三个解决了。
脑科学和人工智能交叉研究载体的建议,利用大数据模拟从正常认知到认知障碍。我们医学有那么多的老年痴呆人,把这些数据搜集起来,用我们的感觉记忆、工作记忆和长期记忆表现出来,反应它的动态演化,就可以研发一个痴呆机器人,研发一个抑郁症机器人,这多好。你找一个医生他看不出来这个是痴呆机器人还是痴呆病人,这个机器人干啥?第一用来诊断,第二是用机器人。利用大数据模拟从认知障碍到正常认知,老年痴呆机器人如何延缓痴呆?这是我们的长项。为什么在商业杂志发表文章,老百姓没有获得利益。再一个你发表文章要靠关系。
如果人脑特定问题域的认知能力可以先局部地形式化,哪怕在微观上不具有组织结构的相似形,所以我不主张人像的机器人,当千千万万的特定机器认知脑,逐步形式化之后,通过移动互联网、云计算和大数据,是否可以倒逼并逼近一个人造生物脑吗。你叫他讲什么他就讲什么,这不就是人造生物脑吗。
凡悠久强大的学科,如生命科学和物理学,一定都是有个性的学科,学科壁垒森严,存在生殖隔离现象,长期以来脑科学研究和人工智能研究犹如两条平行线,没有发生实质性的交集,就是证明。然而一旦碳基生物研发出来,势不可当。谢谢大家!
来源:中国学网