迄今为止还没有一种CPU散热系统能保证永不失效。失去了散热系统保护伞的“芯”,往往会在几秒钟内永远停止“跳动”。值得庆幸的是,聪明的工程师们早已开发出有效的处理器温度监控、保护技术。以特殊而敏锐的“嗅觉”随时监测CPU的温度变化,并提供必要的保护措施,使CPU免受高温下的灭顶之灾。
在我们看来,探索这项技术如同开始一段神秘而有趣的旅程,何不与我们同行? 微处理器功耗和温度随运行速度的加快而不断增大,现已成为一个不折不扣的“烫手山芋”。如何使处理器安全运行,提高系统的可靠性,防止因过热而产生的死机、蓝屏、反复重启动甚至处理器烧毁,不仅是处理器所面临的困境,也是留给主板设计者的一个重要课题。
为此,Intel率先提出了温度监控器(Thermal Monitor,以下简称TM)的概念,通过对处理器进行温度控制和过热保护,使稳定性和安全性大大增加。但是,由于电脑爱好者和普通用户对处理器温度监控系统了解不多,而且介绍这方面知识的中文资料也难以获得,遇到相关问题时会感到不知所措,所以有必要将处理器温度监控技术系统地介绍给大家。
一、温度测量:从表面深入到核心
建立微处理器温度监控系统,首先要选择一种合适的温度测量器件。能够测量温度的器件有很多种,如热敏电阻、热电偶和半导体温度传感器等。电脑中最早使用热敏电阻作为测温元件,微处理器插座下竖立的球状或带状的小元件,就是热敏电阻。
处理器插槽下的热敏电阻
热敏电阻(Thermal Resistor ,简称Thermistor)体积小、价格低,使用方便,但用于检测微处理器温度时存在着先天不足:
1、热敏电阻是接触式测温元件,如果热敏电阻与微处理器接触不够紧密,微处理器的热量不能有效地传送到,所测量温度会有很大误差。有些主板上采用SMD贴片热敏电阻去测量微处理器温度,其测量误差比直立式热敏电阻误差更大,因为这种贴片元件很难紧密接触到微处理器。
2、微处理器的核心(die)发出热量由芯片封装向外部散热,微处理器的表面温度和核心温度之间约有15℃~30℃的温差,同时因芯片封装形式不同,及环境温度的不同而难以确定。至今还没有一种技术能够把热敏电阻埋进芯片内部去,导致现在热敏电阻只能测量微处理器的表面温度,而无法测量核心温度。
总之,热敏电阻不仅测量精度难以保证,更重要的是无法检测到热源的真实温度。
由于热敏电阻先天不足带来了一个十分严重的问题∶表面温度不能及时反映微处理器核心温度变化,用专业术语说就是存在一个时间滞后的问题。因为核心温度变化之后要经过一段时间才能传送到微处理器表面。
下图反映了采用核心测温方式下保护电路起作用的情况,当核心温度达到微处理器极限温度T2时,控制电路及时切断微处理器的供电,否则只需几秒钟时间便会到达烧毁温度T3。相比之下,表面温度反应十分迟钝,其升温速度远不及核心温度,当核心温度发生急剧变化时,表面温度只有“小幅上扬”。
表面温度的时间滞后特性
Pentium 4和Athlon XP等最新的微处理器,其核心温度变化速度达30~50℃/s,核心温度的变化速度越快,测量温度的延迟误差也越大。在这种背景之下,如果再以表面温度作为控制目标,保护电路尚未做出反应,微处理器可能已经命归黄泉了。
为了解决热敏电阻无法测量微处理器核心真实温度的问题,Intel在Pentium Ⅱ和Celeron处理器中植入了热敏二极管(Thermal Diode,或简称作Thermodiode)直接测量处理器核心温度,开创了半导体测温技术的先河。此后的Pentium Ⅲ和Pentium 4芯片中都植入了热敏二极管,AMD在Athlon和Duron处理器中也植入了热敏二极管。现在许多主板都在监控芯片内设置有热敏二极管,用于检测芯片所在位置的环境温度。
小知识:如何知道BIOS或测试软件显示的微处理器温度是表面温度还是核心温度?
目前来看,无论使用Intel还是AMD的微处理器,已很少使用热敏电阻测量微处理器表面温度了,所以BIOS与检测软件所显示的微处理器温度都是指微处理器的核心温度。而在Pentium Ⅱ以前,微处理器温度通常是指表面温度;Pentium Ⅱ及以后的微处理器内都集成有热敏二极管,所测量温度就是核心温度。
不过,在过渡期内许多主板上仍在微处理器插座下面保留了热敏电阻,这样就同时能检测到两个不同的微处理器温度值,通常BIOS中显示的是微处理器的外部温度,而检测软件所测试的是核心温度。
热敏二极管又叫热敏PN结(Thermal PN junction),基于硅基PN结正向电压和温度的关系,其测温范围在-55℃~+150℃之间。与热敏电阻一样,热敏二极管属于变阻器件,其等效电阻值是由其工作温度所决定。
二、温度监控:从单纯显示到温度监控
在热敏电阻为主要测温手段时期,测得的微处理器表面温度经放大器将微弱信号放大后经A/D转换,将模拟信号转换成数字信号后再通过数据线发送给BIOS芯片,数据进入BIOS芯片后,BIOS或监控软件就能在屏幕上显示了。
温度信号处理电路
温度显示系统是一种被动的体系,无法对温度进行调节。一旦测得微处理器温度超出设定温度,电脑可以发出声光报警,以提醒电脑用户进行人为干预。这种系统用于目前发热量大的微处理器基本上没有安全可言。如果散热系统发生问题后,没等用户反应过来,微处理器就已经烧毁了。因此,Intel提出了温度监控的概念,让系统具有自我调控能力,一旦微处理器温度超出所设定的极限温度,系统将通过降低供电电压、降低芯片工作频率和加强冷却等手段进行主动降温,甚至自动关机,以确保微处理器安全。
温度监控技术有两个鲜明的特点:一是微处理器内置热敏二极管直接测量核心温度。二是主板上设置监控芯片。
Intel首先在Pentium Ⅱ及Celeron微处理器中植入热敏二极管,并公开了具有温度监控技术的主板设计指南,这一举措得到主板制造商的积极响应,各具特色的所谓的“智能主板”如雨后春笋,一时精彩纷呈。一些有实力的主板制造商还自行开发监控芯片(如MSI的CoreCell等),温度监控技术在短短几年内便有了很大进步,不断完善温度监控功能。
各种硬件监控芯片
实际监控系统所采取的主动降温措施中,哪种方法更有实际意义呢?下面我们进行一个简短的分析。
芯片的功耗(发热量)由静态功耗和动态功耗两部分组成,静态功耗是因为漏电流引起的。由P=V2/R可知,在芯片等效电阻R不变的情况下,功耗P与电压V的2次方成正比,降低供电电压可以极大地降低静态功耗。所以这些年来芯片工作电压从5V降到3.3V,甚至降到目前的1V以下。
我们当然希望这个数值进一步降低,但如果没有k值更高的栅极材料,就无法保证在低电压下完成晶体管开启和关闭动作。所以,降低电压的手段毕竟还是有限的。而且由于微处理器内集成的晶体管数量的按摩尔定律逐年增加,众多晶体管并联后使得等效电阻值不断减少,集成电路内层与层之间的绝缘层变薄也使得层间泄漏电流增加,所以微处理器的静态功耗一直趋于上升态势。
芯片工艺进步,泄漏功耗增加
芯片的动态功耗P = CV2f,其中C表示电路负载大小,V表示供电电压,f为工作频率。可见f与芯片的动态功耗成正比,频率愈高则消耗的功率也愈高。降低微处理器的时钟频率虽然是降低动态功耗的有效手段,但是,电脑用户总是希望程序能够执行得更快,通过降低频率来降温的手段是难以被用户所接受的。
既然降低电压和频率的降温方法都有很多现实困难,所以利用风扇带走热量就成了一种最简便可行的方法。近几年来,CPU风扇的尺寸越来越大、转速越来越高,使得排气量越来越大,这在一定程度上缓解了微处理器温度高居不下的问题。但是风扇扇叶尺寸过大、转速过高,又带来了噪音问题,而且环境温度过高也会影响散热效果,所以又必须增加机箱风扇,使得噪音问题进一步加剧。
为了降低噪音和节省能耗,在处理器温度不太高的时候让风扇保持低速运转,在不得已的情况下才提高转速,就成了一个被大家普遍认可的温度控制方案。因此,大多数温度监控系统实际上就是一个“温度-转速控制系统”,很多温度监控芯片也是针对这种需要而设计的。
三、第一代温度监控系统,并不可靠
微处理器温度监控系统根据控制电路所处的位置,可分为外部控制型和内部控制型两种基本结构。外部控制型监控系统,现在被称为第一代温度监控技术,它有三种基本存在形式:一种是采用独立的控制芯片,如WINBOND的W83627HF、ITE的IT8705、IT8712等,这些芯片除了处理温度信号,同时还能处理电压和转速信号;第二种形式是在BIOS芯片中集成了温度控制功能;第三种形式是南桥芯片中集成温度控制功能。在现行的主板中,三种形式同时存在,如果主板说明书中没有特别说明,我们一时难以判断监控硬件的准确位置。
第一代热量监控系统框图
下图是一个以MIC284为核心微处理器温度监控电路,该电路只能控制微处理器风扇的转速,但它可以将温度信号通过SMBus端口传送给BIOS芯片,以实现更多控制功能。
一个实际的监控电路
小知识:什么是SMBus?
SMBus是System Management Bus(系统管理总线)的缩写,是1995年由Intel提出的。SMBus只有两根信号线:双向数据线和时钟信号线。PCI插槽上也给SMBus预留了两个引脚(A40为SMBus 时钟线,A41为SMBus 数据线),以便于PCI接口卡与主板设备之间交换信息。
SMBus的数据传输率为100kbps,虽然速度较慢,却以其结构简洁造价低廉的特点,成为业界普遍欢迎的接口标准。Windows中显示的各种设备的制造商名称和型号等信息,都是通过SMBus总线收集的。主板监控系统中传送各种传感器的测量结果,以及BIOS向监控芯片发送命令,也是利用SMBus实现的。
监控芯片通常是可编程的ASIC微控制器,应用软件经BIOS将控制命令和数据经接口电路发送给监控芯片,修改其控制参数,一些监控软件正是通过这种途径来显示和调整微处理器电压和风扇转速的。
监控芯片是温度监控系统的核心,其质量优劣对控制性能有很大的影响。但由于监控芯片种类繁多,在功能和性能上有很大差异,给使用和鉴别带来一定困难。
首先,各种监控芯片在控制功能上有很大差异(譬如某个芯片可以控制两个风扇,多数则只能控制一个风扇),通常引脚数越多,功能越强。
其次,即便功能相同的芯片,性能上也会有差别,其中一个重要的区别在数据位的不同(譬如MAX6682的分辨率是10位,TC1024为9位,FMS2701为8位),位数少的芯片输出的数据精度自然也就降低了(8位芯片温度转换误差为±3℃)。另一个性能差别在采样速率上,如果采样速率低(例如FMS2701的采样速率为1s),必然增加信号延迟,无法及时跟踪微处理器温度的变化。
第一代微处理器温度监控技术建立在依靠外援的基础上,当微处理器过热而超过极限温度时,由系统向微处理器发出HLT命令,让系统暂停。因为热量可能导致系统不稳定,如果电脑死机或程序进入死循环,就会失去监控作用,也就无法保护微处理器了。
同时,由于构成监控系统的元器件较多,战线拉得很长,导致反应速度慢,无法及时跟踪微处理器温度变化。而现在的微处理器不仅核心温度高,而且升温速度快(最高可达50℃/s),一旦灾难来临必有“远水不解近渴”之忧患。
四、第二代温度监控技术,Pentium 4烧不死的秘密
为弥补了第一代温度监控技术的缺陷,提高监控能力,Intel开发了第2代温度监控技术。第二代温度监控系统的一个突出特点是在微处理器内部集成了温度控制电路(Thermal Control Circuit,TCC),由微处理器自身执行温度控制功能,同时,微处理器内设置了两个相互独立的热敏二极管,D1是本地热敏二极管,所测信号提供给TCC,D2则为远端热敏二极管,其测量结果用于实现主板控制功能及显示核心温度。
第2代温度监控系统框图
我们先看看TCC是如何发挥作用的。TCC定义了两种工作状态:激活态和非激活态。TCC的状态与PROCHOT#信号的电平高低相对应,PROCHOT#为低电平时,TCC为激活态,否则处于非激活态。当微处理器核心温度达到警戒温度(Warning Temperature)时,温度检测电路将PROCHOT#信号置为低电平,从而激活TCC。TCC激活后,采取“抑制任务周期”(Throttle duty Cycle)的方式,使微处理器有效频率下降,从而达到降低功耗的目的。当微处理器的温度降低后(低于警戒温度1℃以上),TCC回到非激活态,微处理器恢复到“标称频率”。可见,TCC实质上是一个由微处理器温度控制的频率调节器。
|
||
|