|
2006年11月8日,全球图形巨头NVIDIA发布首款支持DirectX10的显卡Geofrce8800系列, 也就是我们通常说的G80。( `, q0 F9 R6 j$ I9 D
2005年6月22日,NVIDIA发布了令人瞩目的新一代旗舰产品G70(GeForce 7800GTX),揭开了高端显卡大战的序幕。2005年10月5日另一位显卡巨头ATI发布全新架构的RadeonX1000家族系列,以RadeonX1800XT争夺显卡性能宝座;实力强大的NVIDIA于2005年11月14日拿出了早已准备的武器7800GTX 512M重夺王者地位,至此2005年的显卡王者之争告一段落。 2 a3 i: ]( h* A* T( j" Z6 |4 H
- X3 X4 N! k3 w; K/ ~: z% |+ V5 d2 Z
最高性能级别产品的对撼总是那么引人入胜,拥有业界最强显卡的称号对于NVIDIA与ATI来说不仅是身份的象征,更是实力的体现。2006年王者地位的竞争更为激烈,2006年01月22日ATI发布了X1900系列,以强劲的实力打败7800GTX 512M。当然在2006年3月9日发布的7900GTX让NVIDIA重登性能王座,先进的90nm制程,24管线设计、超高核心频率和极速GDDR3显存都让人热血沸腾。, o( |) ~+ r8 w0 N9 `: Z
如今采用革命性统一架构(Unified Shader)的G80已经来到我们面前。4 \0 L7 O/ x6 Q- y+ Y: \ X7 J8 g$ w
(革命性统一架构设计的8800GTX和8800GTS)
# o; n! @2 g/ F$ K5 ?; {1 _" m G80带来前所未有的设计,统一Shader架构(Unified Shader)带来强劲的性能。G80完全硬件支持DirectX10的各项先进特性,例如Geometry Shaders、stream out、Improved instancing和Shader Modle4.0,支持这些特性使得Geforce8800 GPU拥有极高性能。所有的DirectX9、OpenGL和先前的DirectX程序和游戏在Geforce8800 GPU的Unified 设计都有高性能的演出。! o4 E+ n3 L$ p7 o
具备128个Unified Shader的8800GTX具备万亿浮点处理能力(Teraflops of floating point)。GigaThread技术应用在G80,支持数千个线程并行运行。高品质的各向异性过滤、高效的Early-Z技术和动态分支、86.4GB/S的恐怖显存带宽……. q! U0 i+ z* W9 w0 ]5 E4 D& L# e/ _
G80拥有足够强大马力应付在XHD分辨率和高画面质量设定下畅快进行游戏,16xAA所带来的效果也仅仅是带来相当于4xAA所带来的系统花销。SLI技术会带来接近翻倍性能的提升的表现。128bit精度的HDR和16x抗锯齿的结合带来顶级画质。内建的PureVideo HD功能的G80可以在低CPU占用率上面确保流畅完美的HD和SD Playback回放。有效的功耗占用和管理给Geforce8800带来更好的Performance per watt(每瓦特性能)和Performance per square millimeter(每平方毫米效能)表现。
2 B5 m& f4 t! R: Q2 S( u# f) l9 g
2 S+ R) d' Z* z一、Geforce8800 GPU技术分析:
+ J- T5 j8 O, R4 j9 v- D. v+ z 1.Geforce8800采用Unified Shader架构:' @0 S) ^3 c$ O8 C3 ^1 ~7 H
DirectX 10最大的革新就是统一渲染架构(Unified Shader Architecture)。目前的GPU架构还是沿用的分离式渲染架构,目前NVIDIA的G71和ATI的R580都是采用这样的架构,顶点渲染和像素渲染各自独立进行,而且一旦当架构确定下来,顶点和像素shader单元的比例就会固定下来。不过分离式渲染架构设计更为简便而且经验丰富,例如NVIDIA的NV40发成到后来的G70/G71,又或者是R420到R580,性能都得到显而易见的提升。$ t# m% J( |3 y. ^" C* Y0 i- s* W& M
微软认为这种分离渲染架构不够灵活,不同的GPU,其像素渲染单元和顶点渲染单元的比例不一样,大大限制了开发人员自由发挥的空间。不同的应用程序和游戏对像素渲染和顶点渲染的需求不一样,导致GPU的运算资源得不到充分利用。微软在DirectX 10中提出了统一渲染架构,在通用和独立的shader单元中可以执行不同的shader程序,包括vertex、pixel和在DirectX 10中首次提出的geomery shader。而且随着这些通用独立的shader单元功能的不断完善,日后有望执行更多的shader程序,例如物理效果。3 O2 u) R" R( p, C% k# ~
相对顶点渲染来说,像素渲染将面临大规模使用纹理所带来的材质延迟,这是统一渲染架构急待解决的问题。不过在Geforce880 GPU里面,这种情况得到很大的改善,分组的steam processor都用联立一定数量的texture单元和L1/L2高速缓存。$ A6 f0 h4 l3 A- n3 e
(更多的纹理意味着物体表面精度更真实)0 k3 v1 I; s- @! |, @1 v+ x5 u7 y
Shader Modle 4.0无论是vertex还是pixel指令,最大指令长度相当于Shader Modle 3.0的128倍(64K),越长越复杂的指令可以产生越真实的画面,Shader Modle 4.0的寄存器也激增到4096个,Constant寄存器采用16×4096阵列。input寄存器采用16/32规格等,上述指标都比以前的DirectX有明显的改进。Shader Modle 4.0允许程序员在渲染物体时使用128个纹理,而DirectX 9只提供4/16规格,更多的纹理意味着物体表面精度更真实,游戏开发者拥有更广泛的选择。9 p" ^6 f1 S* j: D
$ Q( K: `1 s. |; o9 I( j: T: T& ]; J
三、测试平台和测试方案:
% F" J: d: E; { }1 j% Y测试平台
) D0 \/ {! }* ?% q# o8 ?) S. l' o6 @. S | CPU
, ]1 {& P. q( e$ _- R, | | Intel Conroe X6800(LGA775、2.93G、4096K SmartCache L2)/ {: ~6 v1 R! P# I' _
266 x 11=2930MHz(DDR2 800 4-4-4-12)
8 y4 G% q: w- S/ W" V' F | 主板 j5 q; \1 D+ D4 y& M5 E
| Intel 975XBX -304(LGA775 i975X)0 j& l2 K+ a |; u1 T8 ^5 z
4 T6 {! K( |- v( P; U
| 内存 ; R7 k: N% M* \7 K& a. `$ l3 d7 {
| 镁光D9 512Mx2& `! Z4 S8 h% q! d
. U0 U/ i2 Q0 S3 z; a: b% T, I' Q- O | 硬盘
: m( h3 ]. G( i6 I& y$ B% R9 `, v( o9 Q | 日立7K250 SATA 250G (7200转、SATA300) # x* A. b1 `0 f2 O* n
| 显卡 6 L' p- h6 T8 c8 i
| 8800GTX 768M(575/1800) 8 ?) H; Z2 f$ i* F0 R) `. l
|
软件平台 ) ^% ^' }: K$ W4 `, a" h
| 系统软件 % H. H7 I: [' x z' j# t( z
| WindowsXP Professional SP2 英文版 + DirectX 9.0C& P/ v( ^: v, r: p0 F
1 I2 M, h- ?) x6 N3 Q# W' R
| 驱动程序
! c" |' ]- G1 i" X7 U" U+ d3 G" b | 主板:Intel 8.0.0.1006 9 ]. z& t: j" I }8 v% T; o1 P) l
显卡:ATi CATALYST 6.10
2 v$ d5 f& \" X% W: q: Z) B+ A?????Forceware96.94 Beta
6 U; \- r; @8 }5 q- H" F | 测试软件+ g6 s, R; K7 z! |% \2 c3 W. c+ G4 H
+ [) V3 I$ Q, V$ M2 a, x
| , n/ T" u; p) Y# g4 F% p. @: h4 }
- Futuremark 3DMark 2003 Ver:360
- Futuremark 3DMark 2005 Ver:120
- Futuremark 3DMark 2006 Ver:102
0 D, h" h6 {7 [
- Farcry
- Doom3
- Half Life2
- Serious Sam 2
- Quake 4(自录Demo)
- Tom Clancys Splinter Cell Chaos Theory(细胞分裂3)
- The Elder Scrolls IV:Oblivion(上古卷轴4:湮没)
; e; R+ ?% D9 B- _# _9 I* ^
| 为了避免系统瓶颈,我们本次G80测试采用了游戏性能最强的Core 2 Extrme X6800,并搭配旗舰的975x和DDR2 800内存。十分遗憾,根据NVIDIA的计划,在G80发布的当天才会发布SLI驱动和全新的nForce680i芯片组,到时候我们也会第一时间奉上详细的测试。
% \+ s' f* r) R2 ?2 m 测试项目主要由3Dmark理论测试、HDR新游戏和经典游戏组成,当然本次G80测试也会加入目前最热门的极品飞车10 Carbon峡谷作为测试项目。根据G80的reviewer's guide,1600x1200已经成为G80系列显卡的Low end入门级分辨率,因而我们测试图表尽量采用2048x1536的分辨率,并且开启4xAA 16xAF选项来考察G80的性能。" P- _8 A; O- |8 o6 o: L
由于内置的DirectX10的Windows Vista尚未发布,而真正支持DirectX10的游戏也是迟迟未能出现,因而本次测试并没有测试G80在DX10环境下的性能。
9 c/ u& F% _; Q0 t# X0 _4 \5 r# f7 Z I7 d% _" X* b
四、测试成绩和结果 8 ~" |) p W; i+ X! Q5 s7 z8 a' i
1.3Dmark03和3Dmark05: $ o5 }+ v$ J! [5 e
2 E) L1 z" h( s0 G9 b
3Dmark 03 7 f- w) @5 m0 J+ W9 ]' [
| 1024x768
. g+ p F5 G/ Z# I0aa 0af
+ T' Y$ w9 R5 J | 1280x1024: L! u' }+ M& ?$ `) F. h
0aa 0af
* ~, K$ ?9 w" a! ?, s5 Z | 1600x1200% @+ k1 A8 v' E" S) f5 N: f
0aa 0af + A( k* E% \% x; c
| 1024x768
4 `- h" v1 [0 _0 W9 Q4aa 16af 3 T ?! a, F) M* V4 T; l% J! R
| 1280x1024' d0 N- \; S+ j7 @8 Q7 N% f3 S0 y6 i
4aa 16af : f, Z7 `6 ~' ^6 m4 I) L0 S k
| 1600x1200
$ ]5 C, o' J& ^6 v4aa 16af
1 C/ L, n0 T2 a( X | 8800GTX
+ s2 Y5 T6 t3 g. p | 32752 | 25885 | 20893 | 31869 | 25213 | 20334 | 8800GTS
1 t8 U, |' b5 j) X | 24344 | 18737 | 15621 | 15384 | 13302 | 9404 | X1950 XTX
1 ~, z4 e3 v4 o2 Y1 }5 U% h | 21885 | 18087 | 14919 | 15440 | 12077 | 9617 | 7900GTX 7 A$ H' _' x3 }8 f) l( h {* t
| 25785 | 20478 | 16538 | 16301 | 12259 | 9482 | 在1600x1200 4xAA 16xAF细节,8800GTX是其他显卡的两倍成绩;而8800GTS则跟7900GTX和1950XTX处于相同级别,稍感意外。
) G+ ~+ J& Q9 c/ U9 @8 s/ M
. ^/ O. E. Y5 E4 I
# z' @1 |5 C; f+ s+ ^
% |, J& w3 n! a3 |) G9 G4 M 3Dmark 05
1 g' X2 m0 {, G# R( w, ] | 1024x768
- U( ^6 K4 Y w5 `3 v0aa 0af $ T% @$ O% G% ^5 O. i) |8 K
| 1280x1024; I5 u# Y2 g! \( j* m$ a( V- N
0aa 0af - Q' Q+ G* P+ z3 j9 y1 |: F
| 1600x1200; N9 }7 t3 p8 ?* |/ [1 F0 g
0aa 0af : h- R3 P# `; v! l
| 1024x768
( H( s' I' F# q7 [* @ b# A4aa 16af
! ]* H" j( z; X: Z0 r3 @6 n | 1280x1024# D w. _8 Q# T9 ^
4aa 16af
0 Y4 H. K: E& C9 ]5 H, k | 1600x1200- F" F2 p; f9 o* V
4aa 16af 3 ]2 N' \4 ]# k& ?4 D- N6 t# _2 I
| 8800GTX
% P1 P/ q4 L- x2 C2 T' j- \ | 16712 | 15872 | 14859 | 16631 | 15659 | 14593 | 8800GTS
9 x R Q) s* H) W* H g | 12681 | 12104 | 11344 | 12586 | 11917 | 10995 | X1950 XTX
+ {! A$ G. R& v" W$ z! n a | 13054 | 11611 | 10256 | 11322 | 9682 | 8387 | 7900GTX 4 v8 T4 ]& H* I1 H: B
| 11464 | 9961 | 8595 | 11068 | 9534 | 8179 | 在3Dmark05测试的1600x1200 4xAA 16xAF情况下,8800GTX仍然是跑得最快的显卡,而8800GTS紧跟气候。3 w1 Q% |/ y; T1 k) i9 u
五、总结: 4 ]4 I( k" ~2 S
经过四年的研发,晶体管数目达到6.81亿、拥有128个unified shader的Geforce8800GTX性能并没有令我们失望。1600x1200成为8800GTX的入门分辨率这种说法并不过分,专门为满足XHD分辨率(2560x1600)流畅游戏而生的8800GTX即使是在1600x1200分辨率已经拉开跟7900GTX和X1950XTX拉开足够的距离。当然这种优势随着分辨率和AA/AF选项的打开而扩大。1600x1200 4xAA 16xAF环境,8800GTX在Farcry、Half life2和Doom3这三个经典FPS游戏中,相当于7900GTX的197%、 152%和162%。在2048x1536 HDR环境下,上古卷轴4:湮灭和细胞分裂两个游戏中,8800GTX拥有7900GTX 220%和159%的性能;最令人恐怖的则是在新近发布的极品飞车Carbon峡谷中,8800GTX拥有268%的7900GTX性能(1600x1200 4xAA 16xAF)。目前大屏幕液晶显示器的持续降价也迎合了高端显卡的显示需求。
7 g# h! w; t8 b$ q 同样采用G80图形核心的8800GTS这是NVIDIA的高端产品,无论unified shader数量、时钟频率、ROP数目、显存带宽和显存容量都跟旗舰的8800GTX拉开了足够的距离。虽然8800GTS 500Mhz/1200Mhz的时钟频率较低,但是仍然拥有96个运行在1200Mhz的unified shader,性能自然不俗,在2048x1536的分辨率大幅领先于前代的7900GTX和X1950XTX,这种优势随着AA/AF选项打开而扩大。( W0 b$ a' b4 t) {2 j) F1 e' d3 Z
不过不能否定,ATI的RadeonX1950XTX仍然保持不错的实力,基本上都能以10%附近的幅度压制7900GTX。其实无论是ATI还是NVIDIA,都十分注重的pixel shader, 虽然前代的R580并没有采用unified shader设计,但是固定配备48个pixel shader的设计仍然使R580在繁复的shader运算中受益不浅。目前G80的unified shader只是运行在兼容模式,执行逻辑起着分派vertex、pixel和geomery shader的作用,即使是在DirectX9.0C环境下,复杂的指令、密集的顶点/几何预算和的高负荷的像素渲染都能一定程度体现unified shader的威力。
8 c- M/ B) h# v2 t( [6 v& @+ c2 \0 q NVIDIA的G80 GPU显然显得相当超前,就像当年的ATI R300一样,都超前支持了尚未发布的DirectX版本;事实上已经证明这种做法早已经为日后的成功打下坚实的基础。作为首款支持DirectX10的图形芯片,拥有128个steaming processors和64 pixels texture过滤每时钟的8800GTX需要一个均衡的架构, 如果显存子系统不能及时足够的数据,或者是ROP系统在pixel操作时候遇到瓶颈,又或者是其他子系统并不是十分匹配,那么后果将会是不堪着想。
3 z4 Y+ `2 c0 y2 A2 f" h- M Unified Steam proccessors可以处理各种多样的shader程序,瞬时就能迎合需求而达到平衡,内建的高速缓存拥有极高性能和命中率,和高速的显存子系统相结合。和前代texture fetch和过滤的延迟相比,GIGAthrad技术可以迅速向texture unit派送有效的工作,texture unit进行的操作并不需要过多的等待。在复杂的vertex和pixel shader程序中,有相当多的时钟用来将这些shader合成,并进行Z运算,ROP子系统的总容量也要考虑在内,而900Mhz的时钟频率的显存子系统让更高阶的分辨率进行高质量过滤更加有效。除了硬件架构方面,NVIDIA的Forcware驱动也起了重要的作用,我们相信随着驱动的完善,Geforce8800系列的性能也会不断提高 。
z* s8 w7 c% L
/ G* u/ C& D9 ?! ^. S0 {3 d L: d
6 f! M! H' x1 o1 J3 w- u |
|