精品亚洲日本在线观看_黑人美女被操晕出白浆糊视频在线观看免费_国产极品视觉盛宴在线观看_久久免费无码高潮_久久人精品12_亚洲精品第一页_国产在线精品一区二区三_ 一二三四视频在线观看韩国 _精子擦在乳房上有丰胸效果吗_欧美午夜福利激情,久久99精品久久久久久国产,在线亚洲AV成人无码,日夜啪啪一区二区三区

Tegra4 GPU分析測試——末代GeForce ULP給力否

高通吧 ?

?

閱讀

  感謝文章作者ioncannon,,該文章僅代表作者觀點,,不代表安兔兔官方態(tài)度。

  首先介紹下架構(gòu):

  簡單看,,T4的GPU在shader上,,是Tegra3的6倍擴充,,依舊采用分離的shader渲染架構(gòu),并且vertex shader和pixel shader數(shù)目保持在1:2,??偟膩碚f,就是6個VLIW4 (128bit) 頂點ALU,加上12個VLIW4(80bit)像素ALU單元,。但是pixel shader部分的ALU組織采用了3-deep的形式,,這個3-deep具體會咋樣,我們看下面的測試,。

  

 

  

 

  

 

  算是頻率的提升,,T4相比T3,,shader性能達到了原來的8倍,。像素和紋理填充率是原來的2.6倍。三角形生產(chǎn)率的部分則完全來自頻率提升的貢獻,。T4i的話,,規(guī)格上進一步縮水,并且VS和PS比例也不再是1:2了

  

 

  

 

  老黃偷偷把對比的T3換成了416MHz的版本,。包括pixel fillrate和texel fillrate的部分,,全部來自頻率提升的貢獻。

  

 

  shader性能看上去還是挺高

  實測的像素填充率,、紋理填充率和三角形生成率

  

 

  

 

  填充率方面,,相比T3的提升還是很明顯的,但是考慮到頻率優(yōu)勢,,全部歸一化到500MHz時,,可以發(fā)現(xiàn)T4在像素和紋理填充率方面,基本是T3的2倍,。當(dāng)然,,在像素填充率的測試中,Adreno 320確實能到3000M,,接近3200M的理論值

  但Adreno 320的紋理填充率,,實測只有像素填充率的一半,比T4和高頻Mali-400 MP4都低!雖然官方說紋理填充率也是3200M(每周期8個像素或者紋理),,但估計有問題,。個人感覺320的render backend確實能輸出8像素/周期,但TMU還是只有4個,。

  

 

  三角形生成率測試:

  請注意,,三角形的setup性能跟vertex shader并沒有直接關(guān)系……

  

 

  盡管T4的vertex shader比起T3擴充了6倍,但三角形生成的能力,,在同頻下是一樣的,。當(dāng)然我們可以看到,Mali-400是很弱的,,即使跑600MHz,,三角形生成率實際也只有10M——對于一個每幀畫面0.6M頂點的跑分測試,Mali是無論如何都到不了20FPS的——在頂點成為瓶頸的時候,720p onscreen和1080p offscreen就無所謂了—— 這就是GLbenchamrk 2.5/2.7里的現(xiàn)象,。

  Vertex shader性能測試

  以下測試為 每個頂點4,、8、16 ... 128個Vec4計算

  測試頂點輸出數(shù)量,,單位為M

  

 

 

 

 

  

 

  很明顯,,T4同頻是頂點shader性能是T3的6倍——還是很強勁的,至于Mali-400,,同頻下的vertex shader性能只有Tegra3的一半:既然T3的頂點是1個vec4,, 那我們只能認為,Mali-400的GP的頂點ALU,,是個vec2的(64bit),。所以Anandtech是對的Mali的像素部分是vec4,而頂點部分只有vec2,。

  注意T4和Adreno 320曲線前面的平臺,,是因為Vertex shader的計算能力超出了三角形生成率,所以在計算量比較小的時候,,基本是由三角形生成率來決定到底能輸出多少三角形,。只有當(dāng)計算量較大時,vertex shader計算才會成為三角形輸出的瓶頸

  當(dāng)然,,Mali-400無論是三角形生成率,,還是vertex shader計算能力,都很弱!

  Fragment shader計算能力

  每個pixel使用1,、2,、3、...128的Vec4 計算,,計算量逐漸增加,,精度為FP16 (mediump)

  Adreno 320還使用了highp精度(FP32)

  而Tegra、Mali-400都不支持FP32,, 所以不測試(用FP32測試會發(fā)現(xiàn)不管計算量多大,,輸出都是最大值——完全沒算!

  

 

  

 

  畫成對數(shù)坐標(biāo)后容易看

  

 

  很神奇的是,Tegra4 在1-3個vec4計算/像素,,其輸出能力是一樣的,。4-6個也是一樣,沒有下降——(曲線上的平臺),。換句話說,,這個3-deep ALU,在同一條pipeline里,,只能為同一個像素的計算服務(wù),。這樣效率似乎并不是很高……

  同樣,,基本可以看到到,F(xiàn)P16下,,adreno 320的shader輸出性能是FP32的2倍……都算到1GHz的頻率下

  

 

  T4的同頻性能基本也是T3的6倍

  

 

  最后,,我們根據(jù)這次的實測值,計算下這幾個GPU的實際輸出shader計算能力,,并且跟理論值比較下

  

 

  統(tǒng)一渲染架構(gòu)加上scalar shader(實際VLIW)的Adreno 320符合的還是比較好的,。

  Tegra系列也還算接近,打八折吧,??偟膩碚f,Tegra4我覺得表現(xiàn)一般……shield滿血風(fēng)扇核彈都只有這樣平淡的表現(xiàn),,還是720p屏幕,,很難想象手機里的Tegra4帶1080p屏幕會是啥表現(xiàn)——

  能比現(xiàn)在的S600 Adreno 320+ 1080p好多少?至于Adreno 330和Mali-T628 MP6,,我想是打不過的,。

原創(chuàng)文章,作者:hejie,,如若轉(zhuǎn)載,,請注明出處:http://hzkljs.com/doc/106035.htm

相關(guān)推薦

登錄后才能評論

評論列表 ( )

返回
頂部