几个月之前,Slashdot转载了Robert Harper教授的一篇博客,说卡内基梅隆大学计算机系把”面向对象编程“从大一新生的必修课中删掉了,其原因是
Object-oriented programming … is both anti-modular and anti-parallel by its very nature.
这两个原因(anti-modular和anti-parallel)都是很重的指责了;尤其是anti-modular,因为OO的基本思想通常被理解成“封装”,从而实现模块化。
我是在1995年第一次听说“面向对象”(Object Oriented)这个说法。当时在学习正在成长过程中的C++,用的是Borland C++ 1.0。从那时开始的很多年里,”类“(class)、“对象”(object)和“方法”(methods),以及在这些概念之上构建的”继承“(inheritance)和”多态“(polymorphism)都是我理解中OO最核心的思想。我猜大多数程序员在这方面的认识都和我差不多。
但是“封装”真的是OO的本质嘛?直到最近为了给iPhone写个玩具程序而学习Objective-C(一种非常古老和原始的面向对象编程语言)的时候,才注意到早在1998年,OO之父Alan Kay就曾经在一篇邮件中说,他很后悔发明了“object”这个词,从而误导大家,把注意力都集中到“封装”,而忽视了OO的本质——messaging(消息传递)。Alan Kay的原话是:
The big idea is “messaging”…. The key in making great and growable systems is much more to design how its modules communicate rather than what their internal properties and behaviors should be.
Objective-C的设计是非常强调“消息传递”(messaging)的——对一个object的method的调用,被称为“给这个object发了一个消息”。为了突出调用method时指定的参数(parameters)实际上是消息中的一些内容,Objective-C不惜把method的定义方式都做了相对于C的很大的修改,从而把参数嵌入在method的名字里。比如在一个叫做myWebView对象中搜索一段文字,要求不区分大小写,从前往后搜索,用Objective-C来描述是:
[myWebView searchFor:myString direction:YES caseSensitive:NO wrap:YES]
而用C++或者Java来描述,则是
myWebView.searchFor(myString, YES, NO, YES)
乍看上去,C++或者Java的方式更简短,但是Objective-C的方式更强调“发消息”。实际上,上面Objective-C语句会被翻译成如下C函数调用:
objc_msgSend(myWebView, searchFor:direction:caseSensitive:wrap:, myString, YES, NO, YES)
从强调messaging的角度看,Objective-C确实比C++和Java更符合Alan Kay对OO思想的描述。
OO中的messaging思想不仅体现在Objective-C语言以及在其上构建的NextSTEP/Cocoa GUI编程套件上。在Cocoa因为Mac OS X和iPhone流行起来之前,很多人都接触过Qt(一种基于C++语言的GUI开发套件)。Qt对messaing的支持比Objective-C/Cocoa更彻底——每个object可以发出若干signal,每个signal可以触发这个object自己的或者其他objects的若干个slot。
有意思的是,为了支持messaging,Qt对C++语言做了扩展,而Objective-C对C语言做了扩展。这两套扩展都利用了起源于C语言的“宏”机制(macro)。类似的做法也可以用于Java,前提是我们在调用Java编译器之前,先调用一下cpp宏展开程序来预处理一下我们的Java程序。这事儿可以留待Java爱好者们来搞?
不管是Objective-C还是Qt,都会“尽力”去检查一个object是否支持一个method(或者叫message),但是并不禁止程序员向一个object发送一个它不认识的message(或者调用一个object没有的method)。说“尽力”检查,是因为两者都不能保证检查的完备性。这是因为Objective-C和Qt都支持多态;具体的说,接受message的object可能是表示为一个指针(指向object),所以直到运行时候,当一个message抵达某个object的时候,系统才能(通过查这个object对应的message list)知道这个object是否认识这个message。
这种灵活性在Google新推出的Go语言中也同样实现了,而且做的很极致——Go语言中没有class的概念;换句话说,不需要是class类型的object才能有对应的方法(methods)——Go允许给几乎任何类型附上methods。而且程序中可以很方便的检测一个object是否支持(一组)methods,比如:
type Stringer interface {
String() string
}
s, ok := v.(Stringer)
// Test whether object v implements "String()"
【和Go的这种灵活性类似的,Objective-C允许给已经定义了的class增加一些methods,而不需要derive subclass;Objective-C的这种机制被称为category。和Go不同的是,一个category是对某个class的一个扩展,而Go语言里完全没有class了(但是有interface的概念)。】
说到这里,我觉得差不多可以反过来理解Robert Harper教授对OO的评价了——其实Robert不是在藐视OO,而是在指责很多imperative OO languages(我理解包括Java和未经Qt扩展的C++;详见后述),认为这些语言没有完成实现OO中object messaging的核心思想,从而不算实现了“模块化“(modulization)的思想。
上述都是关于程序的模块化。实际上,模块化的另一个主要方面是对“数据”(data)的模块化。从图灵机和lambda-calculus开始,计算机科学家们就注意到程序和数据是统一的;比如在冯诺依曼的“二进制存储电子计算机”模型里,程序和数据都是bit stream。即时我们在讨论高级编程语言的时候,程序和数据也不应该被分开。因为现代数据操作和模块化的基础是并行程序(parallelism),而有效实现并行的基础是程序的first-class表达,也就是把程序作为一种基本数据类型。
鉴于这篇帖子已经很长了,这段话就作为下一篇帖子的提纲吧。下一篇帖子里,我们来说说XML、JSON、MessagePack、Protocol Buffers这些persistent data structure,以及用源于古老的functional programming paradigm的Go语言和MapReduce实现的并行数据操作。