20世纪90年代以来,尽管人工智能学科的研究遇到的严重的困难,但还是出现了一系列至今对计算科学有重要影响的研究结果,其中最为重要的是,1991年,Minsky出版了他的著作,《Society of Mind(思维的社会)》,这本著作关于“智慧由一些小的无智慧的独立功能单元组合后产生”的建议,以及创造的新术语“Agent”,已引起理论与应用研究者的关注。Agent已成为计算机科学很多领域广泛使用的概念,据此还发展成为知识表示的方法论———本体论(Ontology)。
进入20世纪90年代,统计机器学习逐步开始引领人工智能研究的主流。这时,对人工智能十分重要的表示与推理的研究,由于基于优化的学习算法大多数采用给定基函数。因此,其表示变得单一,且由此导致推理成为计算模型函数的简单问题,表示与推理在统计机器学习中失去了研究价值。
统计机器学习在以后的20年间,并没有沿着BP的非线性算法的路线发展。反之,回归线性感知机是其特点,在Valiant的概率近似正确(Probability Approximation correct,PAC)学习理论意义下Vapnik提出了支持向量机(Support Vector Machine,SVM)。尽管统计方法在这个时期占据了主流地位,但是,人工智能的研究者并没有忘记“智能”的含义,因此,在这个时期,发展了大量不同的学习方式。这些方式大多来自对人类学习的研究,例如,流形学习、主动学习、集成学习、多示例学习等。 这个时期,这类研究分为两个不同的研究路线:一是以PAC为基础,强调学习过程可以基于有限样本,并使得对误差的分析以1-δ概率成立,这个路线的最重要的贡献是强调建立模型的算法应该在线性空间设计。即,强调返回线性感知机,这是对BP算法设计的反叛。由此,导致至今还是重要的研究课题———核函数。 另一个有趣的路线是遵循传统统计学理念。根据热力学的“系综(Enseble)”、神经科学的“集群(Enseble)”,以及统计学的重采样(Resampling)等原理发展了现在称为“集成学习(Enseble Learning)”的方法,其本质是,对实际问题随机采样并建立模型。采样次数进行多次,由此获得多个模型。然后,在这些模型张成的空间上建立实际问题的模型。在统计学上证明,如果采样次数趋于无穷,由此建立的模型的均方差与一次采样建立的模型的均方差相等。这就是已被广泛应用于各个不同领域的Bootstrap原理。与此同时,1991年人们证明了弱可学习定理,由此发展了算法Boosting,它与上述随机采样的区别:一是对给定样本集合的采样,二是下一次采样尽量包含上一次采样建立的模型不能准确描述的样本。因此,Boosting需要建立在PAC基础上。 此期间最广为人们所喜爱的研究结果是“最大间距(Margin)”算法,其误差界依赖样本集合两个闭凸集之间的距离(Margin)。即,距离越大,泛化性能越好。由于这个原理的几何解释十分清晰,由此设计的算法简单易懂。因此,被很多研究者所喜欢。
人工智能研究已经有50多年的历史,发展是曲折的。从制造具有智能的机器梦想来看,相距甚远。从计算机应用的角度来看,其成果甚丰。不夸张地说,它已经成为计算机应用发展的原始动力之一,甚至更长。