2009年9月1日星期二

做一次生活科学家-科学松鼠会

来自"科学松鼠会"的最新文章,如果您不希望再收到此邮件,请退订;如果您需要更换其它邮箱接收邮件,请点击这里

做一次生活科学家

Tue, 01 Sep 2009 15:13:25 +0800

曾几何时,谎话要用甜言蜜语做包装,加上小恩小惠的糖衣,添一点楚楚可怜的好味道,就能让人神魂颠倒。结果,我们这些生存竞争之下的幸存者多少丧失了天真,不会被单纯的漂亮话弄迷惑。先不要得意,现在,似是而非的"科学结论"、复杂的统计数据,开始出现在了从特效疗法到金融产品上,没有点专业知识,我们似乎又要被忽悠了。别急,学一点科学方法,可以帮我们理清真相。


salesman

实验,厘清混淆的变量

一位保健品推销员正在这么向你介绍他的产品:"这补脑剂效果可好了,我儿子吃了一个月,学习成绩明显提高了。"好吧,作为一个久经沙场的消费者,你根本不信。推销员可能会有一个儿子,可学习成绩有没提高就未必了,更有可能的是,他儿子根本不吃这种东西。你心里暗想,在拿自家人举例方面,推销员和相声演员有一拼啊。可现在,推销员改变了战术:"我们的研究表明,在吃了我们的保健品半年后,学生的记忆力显著提高。"那么,信,还是不信呢?

我们首先假设,推销员不会伪造数据,说的都是有据可查。这样能否证明他的保健品就真的有效呢?如果问一个受过科学训练的人,他会告诉你,不一定。在这个例子里,学生的记忆力可能受很多个因素的影响。比如,儿童的记忆力在小学阶段是逐步提高的,即使什么都不做,三年级学生的记性也比一年级好;在这半年里,老师的教育也在帮助学生学习识记;当然,保健品也许真的有效。

一个科学家要想检验这个假设——"服用该保健品一段时间可以提高学生记忆力",该如何做呢?答案是:控制变量。

我们关心的数据可能受许多因素的影响,所谓控制变量,指的就是把额外的因素控制住,使它们尽量少地影响数据,从而让我们能集中观察需要研究的因素产生了什么影响。比如,针对这种保健品,科学家不会简单说有效还是无效,而是要进行实验,把年龄、教学方法之类额外的因素影响去除,单独针对保健品来检验。他会选取一个班级,先测试一下孩子的记忆力,然后把孩子随机分成两半,一半服用保健品,一半服用相同量的面粉压成的药片,即安慰剂。三个月或半年半年以后回来再次测试,看看两组的成绩有没有差异。

为什么要搞得这么麻烦?让我来解释一下。把学生分成两组,一组实验组,一组对比组,为的是保证除了服用保健品之外,两组的其他情况尽可能一样。同一个班级,避免了因为年龄差异、教学方法不同等因素造成的学生记忆力的差别;随机分配,使两组间的记忆力平均成绩在没有服药前基本一致。最后,他还会给没有服药的孩子开安慰剂。这些面粉片里根本不含任何影响记忆力的成分,却会导致人们心理状态的变化。我们也不知道服药后感觉记忆力提高是不是只是一种心理作用,因此只有使用安慰剂来平衡两组在这方面受到的影响。如果实验结束后,学生们的记忆力确实比半年前有所提高,可两组之间没有差异,我们就知道,这提高并非来自保健品的功效了。

把准实验伪装成实验,已经足够令人困扰了,而另一个烟雾弹则是统计数据。还是以上面的例子,记忆力"显著提高"是什么意思呢?是以前每天能背记十个单词,现在提高到了二十个了呢?还是从一百个提到了一百一十个?这两者都是每天提高十个,但难度却不可同日而语。在表述上,前者可以说成记忆力提高百分之百,而后者却只是提高百分之十。

相关,广受误解的概念

统计学诞生之初,作用之一就是提供各种数据以供参考。许多隐藏在混乱数据下的现象被它揭示了出来;许多含混的说法也得以澄清。但与此同时,新的麻烦也随之而来。媒体很早就学会了使用统计数据这一招,浑水摸鱼者当然也不甘落后。理解统计数据多少需要一点专业知识,而呈现清晰的数据恐怕还需要一点良心。于是可以想象,貌似科学的数据成了骗子的新法宝。

早在1954年,美国记者达莱尔·哈夫就写了一本《统计陷阱》,专门谈使用统计学撒谎的种种伎俩。将相关说成因果,就是其中一种利用统计的谎言。

事物之间的关系多种多样,统计上关心的两种关系是因果和相关。前者不难理解,比如说缺水导致歉收;后者对大众却有点生疏,它指的是两者有着相同和相异的变化趋势。相同的趋势叫做正相关,比如一组孩子的身高和体重往往是正相关的,身高越高体重相应越重;相异的则是负相关,比如吃高脂肪食物越多,保持健康的几率越小。请记住,这些关系并不是因果关系,我们还不能确定其中一个变量的变化导致了另一个变量的变化。很有可能存在另一个变量影响了它们两个。比如,生长发育导致了身高体重的增长,又兴许存在肥胖基因,才是暴食和血管疾病的罪魁祸首。

然而,将相关当作因果确实屡见不鲜。某调查显示,常去网吧和学习成绩低下呈高度正相关,就是说学生去网吧越频繁,学习成绩越差。这不免让人推论,去网吧使成绩变差,但事实情况可能并不存在这种因果关系,而是厌学情绪或者学习障碍导致了学生成绩差和喜欢去网吧。在这个例子中,去网吧的频率和学习成绩可能都受厌学情绪的影响。学生厌学情绪越强烈,去网吧越频繁,同时学习成绩越差。但如果我们不作进一步研究,就可能仅仅把相关的两者看作因果,从而将学习不好完全归因于网吧。而禁止学生去网吧,起到的作用很可能十分有限。

一个收费昂贵的训练班宣称,他们的学员在毕业后三年都获得了极高的收入。我们是否该马上报名参加,好早一点学会这致富经呢?且慢,我们仔细检查这些数据,兴许会发现这么一个悚然一惊的事实——这些学员在入学前已有一定的经济基础,正因为如此他们才担负得起高昂的学费,则他们增长的收入很大程度上来自于已有的基础。如果你本来不富有,恐怕训练班也不能教会你什么让你变得有钱。

另一个相关研究这样宣布:收入和智商呈现正相关。不用怀疑,在某些情况下这很可能是真的。我们知道,孩子的智力发展和家庭教养环境高度相关,那些家境良好的孩子往往能接受很好的医疗和早期教育。出身良好往往确实意味着拥有高智商的机会增加了。但这个例子并非说高收入导致了高智商,而是提醒我们,亟需帮助那些家境不好的孩子获得良好的教育。

这些例子告诉我们,轻易归因是隐患重重的。世界上有联系的事物甚多,但确定因果关系却需慎而又慎。

3352295863_3633042c37抽样,你的数据代表谁?

最常见的统计数字误导恐怕就是来自抽样的问题了。试想这么一个问题:中国成年男性的平均身高是多少?按照平均数的计算方法,我们应该测量所有成年男性,然后将身高加在一起再除以人数,这显然是不可能的。可是,我们设计家居时,人类工效学的工程师却告诉你,这个数字是170厘米。这是怎么得出的呢?

要计算这个数字就需要进行抽样。从所有成年男性中抽出一个样本,计算样本的平均身高,以这个数值作为中国所有男性平均身高的估计。只要样本选取得当,这个估计值就非常可信。

如何才能算作得当?首先是需要样本足够大,尽可能减少随机误差带来的干扰。这个"大"在不同的情况下是很不一样的。如果我们研究的是一所学校,可能选取一到两个班就可以了。可如果涉及的问题是全国性质的,可能人数就要达到数千、数万甚至更大。样本容量有保证是一方面,另一方面是样本选取不能有偏,就是样本能很好的代表总体。

我们知道,中国各地的人身材是有一定差异的,如果仅仅选取某些地区进行测量,就可能得出一个和真实情况差别很大的结果。最后,还有一点,很多调查受到社会赞许倾向的影响,例如,恐怕很少有人愿意填写问卷承认自己歧视农民工,但实际言行显然是另一回事。

看到这里,读者可能已经想到了网上常见的所谓民意调查。且不论是否可能造假制造所谓"民意",这些结果是否能够采信都值得存疑,其原因就在于样本构成大有问题。

某网站将调查放出,最可能看到这个调查的是这个网站的常客,而他们参加调查的动机各有不同。某些话题更能引发人的兴趣,有些则只是很少的人关心。这都会导致最终参加调查的人是一个有偏的样本。结论可能代表了这些人群,却不能推广到全体。不妨试试,在高档消费网站投放一个增加税收以补助农村医疗的调查,看一看能回收哪些意见。

如果我们现在做一个调查,看一看最初恢复高考的三年中几所名牌大学入学学生如今的年收入,你一定会得到一个高得吓人的数字。我敢如此肯定并不是我熟悉他们的社会成就,而是因为我了解调查的缺陷。可以想见,当年的那些大学生虽然有案可查,但能够准确联系调查的却只有一部分较为成功的人了。其中有一些人虽然联系上了,却不一定愿意接受调查。最后,还不能排除一些人受赞许倾向的影响,有意无意地提高报告自己的收入水平。最终,调查员只回收了那些成功人士的数据,而沉默的大多数却被"统计式"地忽视了。

还不得不考虑,平均数也有一个小小的麻烦,它特别容易受极端数据的影响。回忆一下小学时老师对一个差生拉下全班平均分的愤懑表情。以及,一个月收入五万的老板和五个月收入两千元的员工享受着一万元的月平均工资,而这个平均数居然是一个员工月收入的五倍之多。

结语,科学方法,现代公民的必修课

只要伎俩足够精巧,学习过统计学的人都有可能被暂时蒙蔽。还记得讲到实验时所说的保健品吧?保健品公司宣称,在所有考试成绩优异的学生中,有68%服用了他们的产品。我们就要问问,这些接受调查的学生是怎么样选取的呢?为什么不调查在所有服用产品的学生中,有多少感到成绩提高?而公司又可以宣称,他们发现,保健品使用量与学生的英语成绩正相关。好吧,他们没告诉你的是,他们调查了30个学生,其中只有5个人吃了保健品,从将及格到中等成绩,确实是吃得多成绩好一点。更不用提当这些结果登载在报上时,精明的广告人设计的图案了——形成鲜明反差的柱状图将服用者的优势凸显出来。其实这只是增大了图像的对比,并没有真正显著的差异,却给我们强烈的印象——买一瓶吧!

凡此种种,不一而足。看来,我们的确有必要学习一点简单的统计学,这并不能让你成为精算师,但却能使你少落入大众传媒的陷阱。

现代社会的问题从信息不足转变为信息太多,匮乏的危机让位给了甄别的困难。科学方法可能会成为每个人的必修课。爱因斯坦说:"想象力比知识更重要",那么面对海量的信息,批判思维也比知识更重要吧。

图片来源:google Planetrussell

文字编辑:小庄

已发表在《读者》原创版

你也许会喜欢

返回顶部

此邮件由系统自动发送,请不要直接回复该邮件,该服务由Feedsky提供技术支持,祝您使用愉快。

没有评论:

发表评论