评测简介:毫不夸张地说,GTX460显卡可谓NVIDIA在2010年最成功的产品之一。纵观整个2010年度,NVIDIA的GF100架构迟迟不能同步应对AMD的HD5800系列显卡在DX11领域的竞争,使得自身处境十分不利。几经波折之后,NVIDIA于3月份发布了第一款DX11显卡,但因为高能耗和高发热NVIDIA并没有打响第一枪,随后的7月份里NVIDIA推出的GTX460总算是一举成为明星产品,也一洗NVIDIA早前的颓气。
参与测试的GTX460显卡一览
GTX460的成功有一种霸者的气息,这张NVIDIA的DX11王牌一出,就让整个千元级显卡重新洗牌。HD5830从得宠到失宠,HD5850岌岌可危;再到NVIDIA自家的GTX470不再高贵,乃至GTX465突然死亡,这些都出自GTX460显卡超高的性能以及让人大开眼界的超频能力。即使后来HD6800系列的推出,也不阻GTX460的热卖。当然,热门芯片也会导致众多显卡厂商的进入,面对琳琅满目的GTX460显卡,谁才是消费者的最佳选择呢?考虑到实际性价比与主流玩家的预算,这次横评我们选用了768MB版本的GTX460显卡进行评测。
17款GTX460显卡主要规格与价格汇总
本次横评的GTX460显卡均采用768MB显存,以便统一测试条件。至于频率方面,NVIDIA开放非公版设计策略使得公版频率的GTX460显卡反而成为了“稀客”,17款GTX460显卡的默认频率可谓各不相同,甚至有850MHz超高默认频率的GTX460显卡出现,当然这也是强悍超频能力的体现。
至于价格方面,GTX460 768MB显卡在上市半年后已下调并突破了1299元的价格,甚至有999元的GTX460显卡出现。从下面表格可以看到,最低价的GTX460已经低至1099元,性价比十分高。此外,华硕、技嘉这些顶尖一线板卡商还是维持了高价,但是高价的回报当然是高品质设计与极强稳定性,不过微星的仅需1199元,同样是一线大厂可见微星的GTX460性价比之高。
下面是规格与价格汇总表:(注:价格采集于2010年11月28日,仅供参考)
GTX460均内置单个SLI接口与双个6pin电源接口(翔升GTX460单8pin供电)
在这次评测中我们更加着重于显卡自身做工的水准,因为GTX460显卡普遍千元以上,性能固然重要但是做工用料带来的稳定性,是这份千元投资能否得到回报的重要因素。值得一提的是,由于GTX460的横评都是采用768MB的显存,所以PCB上有2个空焊的显存位置。
GTX460显卡参数及架构介绍
GTX460采用的GF104核心虽然在SM上可以称得上是GTX480的一半,但是与GF100核心每组32个CUDA核心不同的是GF104核心每组为48个CUDA核心。
从上面的显卡参数简明图表中,我们可以看到GTX460 1GB版和GTX460 768MB版在核心方面基本上是一样的,它们除了在显存大小方面的不同外,显存位宽和显存带宽也有一定的差别。
完整GF104核心架构
从上面的显卡架构图中我们能看到完整的GF100核心采用16组SM组成,每组SM共有32个CUDA核心,这样总共构成512个完整的CUDA核心,而GTX460说采用的GF104核心看上去想是在GF100核心基础上减半,不过虽然完整的GF104核心确实是8组SM,但是与GF100核心每组SM内含32个CUDA核心不同的是GF104每组SM有48个CUDA核心,也就是说完整的GF104核心的CUDA核心为384个,而非256个。
与GF100核心不同的是GF104核心删掉主要用于科学计算的嵌入式缓存和双精度浮点单元,而增加了用于3D计算的CUDA核心,与GF100核心相同的是GF104核心依然为每组SM配备了一个多形体引擎以应付DX11的需要。这次我们测试的GTX460显卡并非基于完整的GF104核心,而是在完整GF104核心基础上屏蔽一组SM得来,也就是说GTX460的CUDA核心为7组SM*48CUDA核心。
另外,我们都知道DX11一个很重要的特点就是细分曲面,细分曲面把游戏画面切割成更小的三角形,这样使得整个画面更加逼真细腻,而细分曲面的实现则需要用到多形体引擎,多形体引擎的数量也直接关系到显卡在DX11游戏中的表现。AMD在实现细分曲面时是整个核心共用一个多形体引擎,例如上图NVIDIA也可以在GT200的基础上加上一个多形体引擎来达到变身DX11显卡。
NVIDIA这次并没有直接在GT200核心的基础上直接加入一个多形体引擎以达到DX11显卡要求,而是为了不使单一的多形体引擎成为显卡性能瓶颈在每一组SM中都加入了一个多形体引擎,这也是NVIDIA一直推迟GTX400系列显卡发布的重要原因。
多形体引擎(PolyMorph Engine)介绍
光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。
多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。GF100中有16个多形体引擎,每组SM一个,亦即每组GPC四个。需要说明的一点是AMD显卡在多形体引擎方面的设计采用的是所有SM共用一个多形体引擎,而NVIDIA采用的是每组SM一个,这样也就避免了多形体引擎称谓显卡性能瓶颈。
多形体引擎绝非几何单元改头换面、增强15倍而已,它融合了之前的固定功能硬件单元,使之成为一个有机整体。虽然每一个多形体引擎都是简单的顺序设计,但16个作为一体就能像CPU那样进行乱序执行(OoO)了,也就是趋向于并行处理。NVIDIA还特地为这些多形体引擎设置了一个专用通信通道,让它们在任务处理中维持整体性。
在每一组SM阵列里,纹理单元、一二级缓存、ROP单元和各个单元的频率也都完全不同于以往。每组SM里四个纹理单元,合伙使用12KB一级纹理缓存,并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样,并支持DX11新的压缩纹理格式。
ROP单元总共48个,分为六组,分别搭配一个64-bit显存通道。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。
除了ROP单元和二级缓存,几乎其他所有单元的频率都和Shader频率(NVIDIA暂称之为GPC频率)关联在一起:一级缓存和Sahder单元本身是全速,纹理单元、光栅引擎、多形体引擎则都是一半。对于GF100来说,想超频的话很多地方都要重新来过了。
从NV30 GeForce FX 5800到GT200 GeForce GTX 280,NVIDIA显卡的几何性能只提高了不到3倍,而Shader性能提升了150多倍,但仅仅是从GT200到GF100,几何性能的增长倍数就达到了8x。
有了如此强大的几何性能,NVIDIA就可以使用细分曲面和置换贴图创建更复杂的人物、物体和场景,并保持和对手同样水平的性能,所以才有了16个多形体引擎和4个光栅引擎。
细分曲面是AMD DX11产品的宣传重点,但NVIDIA要做得复杂得多,而且理论上说效果更出色。接下来NVIDIA要做的就是让游戏开发商充分挖掘GF100架构的潜力,在保证性能的基础上做出更精致的游戏画面。
抖动采样(Jittered Sampling)实现更逼真画面
DX11详细定义了显卡需要提供的特性,但对渲染后端的工作涉及甚少,所以NVIDIA做了多形体引擎,还有抖动采样。抖动采样不是新技术,长期用于阴影贴图和各种后期处理,通过对临近纹素(Texel/纹理上的像素点)进行采样来创建更柔和的阴影边缘。它的缺点也是非常消耗资源。
DX9/10上抖动采样是分别拾取每一个纹素,DX10.1开始改用Gather4指令,NVIDIA则在硬件上使用单独一条矢量指令。NVIDIA自己的测试显示,这么做的性能大约是非矢量执行的两倍。
改进抗锯齿最高可实现32AA
CSAA是在G80 GeForce 8800 GTX上引入的,当时最高支持16x,如今不但提高到了32x,而且将色彩取样和覆盖取样分离开来,在32x CSAA中分别有8个和24个,无论性能还是画质都有明显提升。NVIDIA宣称,GF100 CSAA从8x到32x的平均性能损失只有区区7%。
在GF100上,Alpha to Coverage可以使用全部采样点(最多32个),而且有33个透明级别,透明多重采样抗锯齿(TMAA)的质量也因此得到了改进。
游戏计算(Compute for Gaming)
首先,CUDA架构的实现途径就多种多样,CUDA C、CUDA C++、OpenCL、DirectCompute、PhysX、OptiX Ray-Tracing等等不一而足。这其中既有NVIDIA自己似有的开发方式,也有开放的业界标准规范,开发商可以自由选择。
在游戏中,NVIDIA CUDA计算架构可以执行画质处理、模拟、混合渲染等等,实现景深、模糊、物理、动画、人工智能、顺序无关透明(OIT)、柔和阴影贴图、光线追踪、立体像素渲染等大量画面效果。值得注意的是NVIDIA这次新加入了队C++的原生支持。
《Metro 2033》里的景深效果
光线追踪演示DEMO
NVIDIA还宣称,GF100的游戏计算性能相比GT200有了大幅提高,比如PhysX流体DEMO演示程序3.0倍、《Dark Void》游戏物理2.1倍、光线追踪3.5倍、人工智能3.4倍。
立体多屏环绕技术3D Vision Surround
ATI Eyefinity可以支持六屏输出,而3D Vision Surround最多只能达到三屏,但它支持3D立体效果,是3D Vision技术的扩展增强版。遗憾的是,AMD Radeon HD 5000系列能单卡支持六屏输出,NVIDIA GF100却仍然只能同时驱动两台显示器,三台或者更多的话就需要两块GF100组建SLI系统。这样一来,双卡系统的性能当然会好很多,但成本也急剧增加。
但也正因为不是GF100架构的全新技术,GT200 GeForce GTX 200系列同样可以支持3D Vision Surround。事实上,NVIDIA在CES上展示的系统使用的就是两块GeForce GTX 285。
显示设备支持方面,3D立体系统需要三台同样支持3D Vision技术的液晶显示器、投影仪或者DLP,单个分辨率最高1920×1080;如果是非立体系统(此时叫作NVIDIA Surround),任何普通显示设备均可,单个分辨率最高2560×1600。
铭鑫 视界风GTX460-768D5中国玩家版赏析
铭鑫 视界风GTX460-768D5中国玩家版的整体设计十分张扬,大尺寸双风扇的散热十分抢眼,可见该卡采用了非公版的散热设计。
铭鑫 视界风GTX460-768D5中国玩家版 图片 评测 论坛 报价 网购实价
铭鑫 视界风GTX460-768D5中国玩家版内置了双DVI+Mini-HDMI的接口布局,与公版一致。用户如需使用VGA或者HDMI接口则需要转接头或者线。
接口布局
为了防止安装机箱时的变形,铭鑫 视界风GTX460-768D5中国玩家版安装了一条金属固定条,这样有利于提升显卡的物理稳定性。此外,铭鑫 视界风GTX460-768D5中国玩家版还内置了双6针供电与单个SLI接口。
供电与SLI接口
散热器设计
铭鑫 视界风GTX460-768D5中国玩家版采用了大尺寸双风扇的散热设计,配合数量多达4个的热管配备,可见该卡的散热设计显得十分的不遗余力。当然这是为显卡默认850/4000MHz的超高频率而考虑的,毕竟这种频率之下对显卡整体设计要求提升了不少。
显卡PCB
在拆开散热器后我们可以发现,铭鑫 视界风GTX460-768D5中国玩家版采用的是非公版的PCB设计,这从供电用料数量的大幅度提升可以看出。当然,如果还采用公版的PCB设计,那么很难达到850/4000MHz频率的出厂标准的。
核心与显存颗粒
铭鑫 视界风GTX460-768D5中国玩家版基于40nm制程的GF104-300-KA-A1架构,区别于采用了1GB显存GTX460的GF104-325-A1,内建336个流处理器,支持最新的DirectX 11与Shader Model 5.0特效,还支持NVIDIA自身的CUDA、PhysX物理加速、3D显示与3D眼镜支持以及PureVideo高清硬件加速技术。该卡自带768MB容量显存,显存位宽为192bit,默认频率设定在850/1700/4000MHz(核心/Shader/显存),比公版高出不少。
供电部分自带了散热片
供电设计方面,该显卡内置了4+2相的供电布局,由于显卡默认频率达到了850/4000MHz,这对供电的用料与核心体质提出了新要求,所以相数上相比公版有了较大的提升,并且8针的MOS管数量上有所增加、依然内置了三洋的固态电容,使得铭鑫敢为该卡设置成如此高频也是有它合理地方的。
》》》下一页《《《