写在开头
就在前两天,RTX 50系的70级终于来了!全新服务器级别的Blackwell架构,TSMC 4N工艺打造,还有DLSS 4、Reflex 2等诸多黑科技集于一身!现在参数和定价上更为主流的GeForce RTX 5070来了。
那么GeForce RTX 5070将会通过什么样的表现回应玩家们的期待,在游戏,内容制作,以及时下大热的AI创作上的性能表现如何,4599元的定价又能否与性能搭配出让人满意的性价比?随着性能解禁,现在就让我们奉上公版NVIDIA GeForce RTX 5070 Founders Edition首发评测。
规格介绍
开始前,照例讲讲新显卡的规格。GeForce RTX 50系显卡采用了此前NVIDIA在AI领域推出的Blackwell架构,以大卫·布莱克威尔命名,其是一名受人尊敬的数学家和统计学家,在博弈论和统计学领域留下了不可磨灭的贡献,NVIDIA用其名字命名这一架构反映了新平台的开创性和先进的计算能力。Blackwell可以说是NVIDIA近年来更新幅度最大的GPU架构了,相比起之前的架构来说,划时代的引入了神经网络着色器,力图为游戏开创先进、高效更有逼真的渲染方式,带给玩家全新的游戏体验。
相比前代Ada架构,Blackwell的升级聚焦于四大方向:分别是AI算力的爆发、光线追踪技术的革新、显存能效的提升以及划时代的神经网络渲染。
第五代Tensor核心
其中AI算力的爆发就不得不提到Blackwell架构上的第五代Tensor核心,新一代Tensor核心添加了对FP4浮点运算精度的支持。FP4是一种较低的量化方法,类似于文件压缩,可以减小模型推理过程中数据存储和计算量大小,提高计算效率,降低该过程对显存的要求。与大多数模型默认使用的FP16相比,FP4使用的显存不到其一半,并使GeForce RTX 50系列GPU的性能相比上一代提升高达2倍。
第四代RT核心
而光线追踪技术的革新则仰赖于第四代RT核心的加持,相较于第三代RT核心来说,Blackwell架构的第四代RT核心主要提升了检测光线、路径与三角形相交的效能,过往在检测时往往只能检测单个三角形,一旦场景复杂,检测能力不足就容易导致渲染出错等问题,而现在检测能够以簇集方式进行,检测效率更高。同时还有三角形簇集解压缩引擎加持,其新增了Linear-swept Spheres(LSS)功能,可以减少渲染毛发所需的几何图形数量,并使用球体代替三角形以获得更准确的毛发形状拟合,能够让显卡发挥更好的性能但只消耗较小的显存占用。
综合来看,Blackwell架构的光线追踪多边形相交效率是上一代Ada架构的2倍,是Turing架构的8倍,同时还可以节省25%的显存使用率。
第四代RT核心的改进主要是为实现更好的光追效果。其中有两项新技术能够受益,第一项是RTX Mega Geometry技术。随着光线追踪游戏场景的几何复杂性不断增加,游戏画面中几何图形的计算量也呈现出快速增长的趋势。而RTX Mega Geometry技术能够加速构建边界体积层次结构(BVH),使得在实时渲染中可以处理多达100倍的三角形数量。
该技术的出现,也使得开发者能够在游戏场景中使用更复杂的几何图形,而不会影响游戏帧率。过去需要一个个算BVH,现在RTX Mega Geometry能够智能地在GPU上批量更新三角形簇,减少了的负担,既保证了性能,也兼顾了图像质量。相信随着这些技术的不断发展和应用,未来的游戏将能够呈现出更加逼真和细腻的视觉效果,同时保持高效的性能表现。
另外一个能够受益的技术则是Curve Primitive,方便光追在曲面中的应用,例如一位男士的头发可能需要多达400万个三角形,再加上光线追踪技术,画面所需要的运算负载极大。NVIDIA则通过第四代RT核心中的Linear- Swept Spheres(线性扫描球体)技术有效减少了渲染头发所需的几何体数量,以球形代替多边形,更贴合头发的形状,从而将占用量大幅缩减至三分之一,并进一步提升了实际帧数,让头发的渲染效果更加自然流畅。
GDDR7显存
第三点改变则是显存效率的提升,Blackwell架构中还首次加入了对GDDR7显存的支持,此前GDDR6显存的信号编码为NRZ/PAM2,而RTX 40系上的GDDR6X则是PAM4编码。最新的GDDR7显存,信号编码改成了PAM3,NRZ/PAM2每周期提供1位的数据传输,PAM4每周期提供2位的数据传输,而PAM3每两个周期的数据传输为3位。说人话就是,新的编码机制可以使杂讯失真比减小,信号品质更清晰,同时还能带來更高的显存运行频率以及更低的电压,根据NVIDIA的介绍,使用GDDR7显存后,数据传输速率可达GDDR6时的2倍,并且功耗接近GDDR6的一半,经典加量还减价。
神经网络着色器
接着我们再细说一下这一代架构最大变化,NVIDIA这次将Blackwell架构的SM单元直接称为神经网络着色器。相比较于之前的可编程着色、CUDA统一着色、通用计算着色来说,其最大的变化就是引入了AI,AI将会彻底改变GPU的着色方式。
在Blackwell架构中,NVIDIA 进一步拓展了神经网络渲染的范畴,引入了诸多创新元素,包括神经网络纹理压缩(Neural Textures)、神经网络材质(Neural Materials)、神经网络体积(Neural Volumes)、神经网络辐射场(Neural Radiance Fields)以及神经网络辐射缓存(Neural Radiance Cache)等,这些元素共同构成了神经网络渲染中神经网络着色的重要呈现方式。
这里举个例子让大家能够更简单的理解神经网络渲染,过去复杂的物品或大量异材质的贴图往往会占用相当大的内存空间,如果叠加光追的话,计算量将会更大。然而,得益于神经网络渲染技术中的神经网络材质功能,这一问题得到了显著改善。开发者可以先在离线渲染出物品的光照数据,然后再用这些数据训练一个小的AI模型,游戏运行时只要实时调用这个AI模型当场推理就好了,这样就能还原出想要的光照效果了,再配合神经网络纹理压缩技术,就能显著降低实际生成的材质数据量,从而在占用更少显示内存的同时,实现了细节更丰富的材质表现,达到了实时生成如电影般细腻素材的效果。
目前神经网络渲染技术已经得到了微软的大力支持,未来也将会加入到DirectX中,玩家能够体验到更真实的游戏世界。
而在硬件层面,由于神经网络渲染的加入,Blackwell架构的SM单元相较于RTX 40系的Ada架构还是有不小变化的,Ada架构内的SM内,SM单元会拆分成一半的CUDA专门用于处理FP 32(单精度浮点数),另一半则依需求动态调整去处理FP32和INT32(32位整数)。而在Blackwell架构上,SM单元则改成了CUDA核心可以完全依需求动态处理FP32和INT32的形式。
另外一个改进是,过往的着色工作往往只有SM单元的Shader在处理,而Blackwell架构上引入了神经网络渲染以后,使得Blackwell架构上的第五代Tensor核心也能共同分担着色工作,大大提高了着色效率。
这样改进的好处是,Blackwell架构能够进一步针对神经网络渲染工作进行排序,即把传统的着色工作分配给Shader,而需要动用神经网络渲染的工作负载则可以给到Tensor核心上,两种核心同时运用,效率最高可以提升2倍之多。并且得益于Tensor核心也加入了可编程渲染管线,现在开发者或API也能更好的调用Tensor核心,未来游戏内我们能见到的AI技术势必越来越多。
先进的AI管理处理器
此外,AI的应用也越来越多,不仅游戏中应用AI技术,现在连可编程渲染的过程里也引入了AI,因此如何去分配显卡内部多样化工作就成了一个问题。如过往显卡在开启DLSS玩游戏时,其中应用到的语言模型和游戏引擎需要同时与GPU的不同核心交互,生成游戏帧,但是往往很难做到每一帧都有一致的生成时间,亦或者是游戏AI对话的响应不够及时,这些情况都会造成游戏体验不友好。
而Blackwell架构为了解决这一问题,引入了AI管理处理器(AMP)。它能够实时调度资源,确保在神经网络渲染、帧生成和 AI 驱动的游戏交互中实现智能化的任务分配。这种设计不仅带来了更高效的性能输出,还让显卡在游戏渲染和 AI 运算之间实现了绝佳的平衡,确保帧的间隔均匀,对话类型的AI能够及时响应,玩家的游戏体验一致性能够比较好的保障。
GeForce RTX 5070规格
说了这么多,接下来给大家介绍一下GeForce RTX 5070的硬件规格。这款显卡的核心采用的是一颗新的核心——GB205,规格上,拥有5个GPC,每个GPC包含的TPC并不相同。GeForce RTX 5070上总共集成了24个TPC,相比上代RTX 4070多了一个。整卡共有48个SM单元,192个TMUs纹理单元,80个ROPs光栅化处理单元,6144个CUDA核心。CUDA核心数量对比上代的5888个,小幅上涨,增加了约4%。
在工艺制程方面,新的GB205核心沿用了TSMC 4nm 4N NVIDIA Custom Process工艺。核心面积为263mm2,相比RTX 4070的AD104核心小了10%,内部晶体管数量也少了一些,不过规格倒是高了5%,可以说是制程工艺的进步所带来的。另一个对比RTX 4070升级的点在于显存的配置,上代RTX 4070的显存为192-bit的12GB GDDR6X,而全新的GeForce RTX 5070则升级为GDDR7显存,显存等效频率由原来的21 Gbps提升至28 Gbps,这已经是上代旗舰才有的水准了。
除此之外,GeForce RTX 5070还提升了基础频率、Boost频率以及TDP设定,为的是能够释放更多的性能,带来更极致的体验。同时视频输出接口也进行了升级,其中DP接口终于升级2.1b,能够兼顾高分辨率与高刷新率,后续开箱显卡时我们会详细介绍。
最后一个变化则是售价了,上代RTX 4070的售价为4799元,而全新的GeForce RTX 5070 售价4599元!对比上代直接便宜了200!这么一看,再结合一下新架构新技术,瞬间就有性价比了。事不宜迟,让我们开始测试这款显卡吧~
外观赏析
在外包装上,公版显卡还是有自己的特色在的。与其他AIC花里胡哨的外包装不同,GeForce RTX 5070 FE延续了过往RTX 40系的设计风格,主打一个简约。整个外包装简单而不失质感,同时还做了不少易拆设计,细节十分到位。
沿包装盒底部的纸条撕开,好像平时拆苹果产品一样,仪式感拉满。
拆开包装后,第一眼就能看到“Inspired by Gamers,Enhanced By AI,Built by NVIDIA“。意识是NVIDIA专为游戏玩家以及AI打造。
继续拆开包装就能看到显卡被放在一个充满设计感的包装盒中。包装盒表面再度注明了“GEFORCE RTX 5070“字样。
包装盒内共有三样产品,分别是显卡本体、电源转接线以及使用说明书。
取出上层的显卡包装,底下是说明书以及2×8Pin转16Pin的电源转接线,还没升级ATX3.0电源的玩家也能第一时间用上GeForce RTX 50系显卡。
值得注意的是,这次搭配的这个电源转接线改为了极软的材质,同时外层还有绳套包裹,质感非常不错,同时也能避免像RTX 40系时由于线材过硬导致的接触不良而烧显卡的情况。
让我们将视线回到显卡,内部包装盒没有任何装饰性的图案,并且外部可以看出它是由瓦楞纸板堆叠而成,主打一个环保。并且这个包装盒的形状神似显卡,这一点还是非常有意思的。
想要打开包装盒,需要先取下两侧的纸质固定架,按照箭头所指的方向取出即可。
打开包装盒以后,显卡就安静的躺在其中,中间的开孔完全是按照显卡造型所设计,无论是细节还是质感,都有种开箱奢侈品的感觉。
整张GeForce RTX 5070非常低调,一眼就能看出这是公版显卡,正面是8字形的铝框,环绕着整张显卡,两边则是散热风扇,不过一改之前的前后双风扇设计,这回风扇全都安装在正面,气流可以直接吹透整张显卡。
再细看显卡,表面采用黑化处理,由阳极氧化工艺打造,与RTX 40系的比较接近,对比RTX 30系的话,颜色偏灰黑色一些,整体更加沉稳低调。并且正面没有了RTX 40系的鳍片,而是改成了金属遮罩,观感更佳。
与前段时间我们测试的GeForce RTX 5080 FE对比,此次上手的GeForce RTX 5070明显小了一圈,整张显卡在老大哥面前显得非常袖珍,不过这对ITX玩家还是非常友好的,能够轻松打造性能小钢炮了。
散热部分,GeForce RTX 5070采用的是「Double Flow Through」的散热器设计,根据NVDIA介绍,该设计可以更有效的将积热带离显卡,同时还能维持较低的风扇转速。
显卡的背面两侧则布满了大面积的格栅,均为同一方向垂直排列。内部散热设计则是由3D均热板+复合热管组成,能够显著提升导热性能。
另外,如果你仔细看背部的散热鳍片的话,你还会发现这两处的鳍片其实在造型上做了内凹的设计,在视觉效果上能够让整张显卡看起来更加纤薄。同时PCB的位置也移到了散热器的中间,因此正面的双风扇才能吹透鳍片,迅速带离热量,这个设计还是非常有创造性的。
风扇部分,查询得知其采用的是NIDEX直流无刷风扇,大小已经几乎快撑破整个导风罩了,不过大风扇能够起到加强散热效能,加快机箱内部风道气流的作用。
继续开箱,这代FE显卡还有不少小设计,例如经典的浮雕刻印装饰没有缺席,RTX 5070 字样出现在背面中央靠外侧的黑色金属遮罩上,同时正面的8字形铝框上也有相似的落款,设计感满满。
同时显卡正中央8字型的铝制框架上还藏有小小的NVIDIA LOGO,质感还是非常不错的,不得不说公版设计确实不一样,总能在这些小细节带给你惊喜。
显卡顶部则是电源接口,与上代RTX 40系列一样,GeForce RTX 5070采用的是12VHPWR接口,也就是我们常说的16Pin,单口可以提供最高600W的供电能力。
并且改回了如RTX 30系显卡时的斜插形式,这样不容易导致线材弯曲,从而也能降低烧显卡的风险。电源接口旁边则是标志性的“GEFORCE RTX“字样,进一步提升辨识度。
看完顶部再看看显卡底下的PCIe金手指,这一代的PCIe接口升级成为了5.0速率,这也是首次在RTX 50系显卡上应用,能够带来更高的传输速率,并且金手指的形状和上一代的显卡有些微的变化。
显卡I/O接口部分,视频输出接口还是常规的3个DP加1个HDMI的配置,不过规格上有了升级,GeForce RTX 5070采用的是DP 2.1b与HDMI 2.1b规格。理论上,这一代显卡的视频输出接口可以轻松实现4K 480Hz和8K 240Hz超高分辨率与超高刷新率的需求。
整张GeForce RTX 5070 FE显卡,从包装开始可以说细节拉满、质感拉满、用料规格拉满,相应的成本也会更高。不过作为一件“艺术品”来说,它的实用价值更高过观赏价值。
测试平台介绍
开始性能测试前介绍一下本次的测试平台, CPU使用的是目前毫无争议的游戏神U—— Ryzen R7-9800X3D,则是来自微星的MPG X870E CARBON WIFI 暗黑主板。内存为G.Skill的幻锋戟Z5 RGB DDR5,在这块主板上能轻松达成DDR5-8000 C38的成绩,并且我们这次选用的是24G×2的套条,确保这张显卡能够释放全部性能。
完整测试平台配置如下:
理论性能测试
开始测试前,照例还是要“认识”一下这张显卡。由于GPU-Z还没适配最新的显卡,因此部分信息还不能显示,不过从目前的信息中可以看到GeForce RTX 5070的基准频率为2325MHz,Boost频率为2512MHz,并且ROPs也是80组,CUDA数量为6144个,并没有出现缺失。其他方面则是这张显卡的TDP为250W,并且还配备了战未来的PCIe 5.0接口。
理论性能部分,3DMark启动!在FireStrike系列测试中,GeForce RTX 5070表现非常亮眼,领先RTX 4070约40%以上。而在以DX12为代表的Time Spy测试中,新显卡得分22389,对比RTX 4070显卡也能做到领先约28%,性能提升还是非常可观的。即便是到了SpeedWay中,GeForce RTX 5070的领先幅度还是在30%以上,可以说牙膏又挤爆了!
光追项目也是RTX 50系提升的重点项目之一,GeForce RTX 5070也是相当亮眼,成绩遥遥领先于RTX 4070,二者性能差距足足有29%。而在最新的Solar Bay测试里,这项测试主要看整体硬件的水平,因此可以直观的对比出GeForce RTX 5070对比上代RTX 4070的提升,实测与其他项目的表现类似,性能提升约25%以上。
DLSS 4专项测试
看完了理论性能部分的测试,接着我们再来看看本次RTX 50系显卡最“顶”的升级,DLSS 3在RTX 40系显卡上引入了帧生成技术,能够依靠AI在两帧之间生成一帧AI帧,从而实现帧数的翻倍,用过的玩家都说好!不过由于每生成一个新的帧都需要光流加速器和 AI 模型参与,因此生成多帧的开销相当高昂,而过高的性能开销会带来瓶颈,导致帧率提升受限。
而这次DLSS 4全新升级,引入了多帧生成技术,它可以利用 AI 为每个渲染帧额外生成多达3帧!相比传统渲染的方式,能够最多实现8倍的性能提升。无论是对性能、显存的开销还是延迟都比之前要好了许多。
另外,由于多帧生成技术,输出的帧多了,要给每一帧都安排一个合理的间隔刷新才能让观感更好。因此NVIDIA还引入了专属的Flip Metering来代替CPU Pacing,它将帧节奏逻辑转移到显示引擎,让GPU能够更精确地管理显示时间,尽可能的将每一帧画面的生成时间保持一致,从而提高整体游戏视觉的流畅感。不过由于Flip Metering是硬件级的控制器,因此DLSS 4的多帧生成目前只有RTX 50系显卡支持。
同时DLSS 4 还引入了图形行业首个 Transformer 模型实时应用。熟悉AI的应该对它很熟系了,它在AI生成领域已经应用多年了。基于Transformer架构的 DLSS 超分辨率和光线重建模型,相比之前DLSS使用的卷积神经网络(CNN)模型来说,具备2倍的参数量和4倍的计算量。在游戏场景中,能够提供更高的稳定性、更少的拖影、更高的细节和更强的抗锯齿能力,使画面更加清晰、流畅和逼真。
不过虽然DLSS 4的多帧生成功能是RTX 50系显卡的独占功能,但新的Transformer模型将会逐步下放至DLSS 3、DLSS 2等,将适用于所有GeForce RTX显卡。并且根据NVIDIA的说法,超过75款游戏和应用将在GeForce RTX 50系列开售时支持DLSS 4的全新DLSS多帧生成功能,包括《赛博朋克2077》《战神:诸神黄昏》《心灵杀手2》《霍格沃兹之遗》等,《黑神话:悟空》也将于今年晚些时候升级支持 DLSS4的多帧生成。随着时间的推移,支持DLSS 4的游戏和应用数量将不断增加。
简单介绍完,我们再看看DLSS 4的理论表现如何,还是经典的3DMark测试。不得不说GeForce RTX 5070搭配上DLSS 4后,帧数就跟打了鸡血一样,开关前后的性能简直天壤之别!其中2K分辨率下,开关前后性能差距接近5倍之多。4K分辨率下就更离谱了,开关帧数差距得有6倍,即便是对比DLSS 3的话,帧数也能提升70%以上,这已经快做到翻倍了,看来游戏要变天了。最离谱的还要属8K,要知道RTX 40时代,8K游戏在大多数玩家看来还不太实际,8K更像是高端旗舰的专属,但是现在GeForce RTX 5070在DLSS 4加持下可以做到105 FPS,只能说未来可期,说不定不久的将来,主流显卡也能有8K体验。
接着我们看看DLSS 4在实际游戏中的表现,我们实测的第一款游戏是《霍格沃兹之遗》,支持DLSS 4技术以后可以在设置看到帧生成部分多了一些选择,其中×2则是原本DLSS 3的帧生成,而×4则是RTX 50系独有的多帧生成功能,另外你也可以选择插2帧的方式,也就是所谓的×3选项。
体验下来,《霍格沃兹之遗》这款游戏优化还是不错的,2K分辨率画质光追均设置最高的情况下,GeForce RTX 5070在不开任何超分的情况下,平均帧为67 FPS,流畅玩绝对没问题。如果开启DLSS 3质量档,此时帧数已经能够做到141 FPS了,体验已经相当丝滑了,基本达到了2K@144Hz的标准。开启DLSS 4以后,帧数就更夸张了,209 FPS已经不能算高刷了,应该叫丝滑。对比原生2K时,性能提升了约3倍以上。同时实际游戏过程中,无论是1%Low还是延迟都不错,特别是延迟,相比原生分辨率还要低不少,跟手感更好。
第二款游戏我们测试的是《星球大战》,一样你能在设置中看到其帧生成功能已经支持4x的选项,也就是DLSS 4多帧生成功能。不过这项功能是RTX 50系独占,如果你是RTX 40系显卡,则只有2x的选项,即传统的帧生成。因此想要体验最强的游戏性能,那就赶紧升级最新的GeForce RTX 5070!
实测这款游戏对显卡的压力还是不小的,不开任何超分技术,几乎不可玩。在2K原生分辨率下,GeForce RTX 5070的平均帧仅有可怜的27 FPS,不单止卡成PPT,延迟也是高得吓人。此时开启DLSS 4质量档以后,游戏平均帧直接暴增至150 FPS,妥妥的2K高刷3A体验,对比原生2K的表现,足足有5.5倍左右的提升。即便是对比DLSS 3的82 FPS,那也是接近翻倍的性能提升,还是挺不错的。同时延迟表现也几乎下降了一半,非常可观。
接下来请出的则是有“显卡杀手”之称的《赛博朋克2077》。这款游戏可以说是NVIDIA黑科技的试验场了,不少新技术都是第一时间列装,这次的DLSS 4也不例外。并且《赛博朋克2077》的设置页面更丰富,除了能够设置DLSS 4的多帧生成外,还可以切换DLSS 4的另一个特性——Transfomer 模型,据说能够让画质更清晰,同时还能改善此前的拖影问题,对玩家可以说是一大利好。
下面我们来看DLSS 4的性能表现,毕竟是“显卡杀手”,对显卡的压力确实不一般,在最高画质+路径追踪的情况下,GeForce RTX 5070只能跑23.58 FPS,几乎不可玩。开启DLSS 3以后,游戏帧数可以来到83.93 FPS,体感已经非常流畅了。而开启DLSS 4以后,GeForce RTX 5070能够做到2K分辨率151.76 FPS,已经是高刷级别的体验了。对比原生分辨率,性能足足提升了6.4倍。1%Low也非常出色,64 FPS的表现已经能够保障你的游戏足够流畅了,掉帧的情况少之又少,稳定性拉满。
最后一款游戏是我们的老熟人《漫威争锋》,这款游戏在我们测试RTX 5090 D、RTX 5080以及RTX 5070 Ti之时,它还没有完全适配DLSS 4,玩家想要体验多帧生成功能还需要依靠NVIDIA app的DLSS 4优设功能。不过现在《漫威争锋》也正式支持DLSS 4了,与上面的游戏一样,玩家在游戏设置中就能直接开启,并且提供了2x、3x以及4x选项,玩家可以随意选择是插一帧、插两帧还是插三帧。
我们测试则是直接选择4x的档位,即插三帧的DLSS 4。实测GeForce RTX 5070在2K全高设置下,不开超分,帧数为98 FPS,有一说一,这个帧数畅玩已经没有问题了。不过FPS游戏追求的就是极致的帧数!开启DLSS 3后,帧数可以达到198 FPS,相比原生分辨率已经提升了一倍以上,如果再开启DLSS 4多帧生成,那性能对比原生分辨率的话,更是提升3-4倍,327 FPS直接晋级电竞3A。同时延迟表现也非常出色,原生分辨率下,其延迟为42 ms,而开启DLSS 4以后,延迟甚至能够降低至25 ms,游戏会更加跟手,体感更佳。
当然,如果你想玩的游戏还不支持DLSS 4,那也不用担心,NVIDIA app还提供DLSS 4优设功能,说人话就是能够让游戏强开DLSS 4,像此前的《漫威争锋》,在未更新前,玩家可以直接在NVIDIA app中简单设置,就能将帧生成调至“4×”,一键实现多帧生成。目前也有不少游戏支持DLSS 4优设功能,感兴趣的玩家可以前往体验。
总的来说,DLSS 4多帧生成让最新的主流级显卡也能有过往旗舰级显卡的游戏性能,毫无疑问让玩家的游戏体验又上了一个台阶。就好像我们现在上手的GeForce RTX 5070,对比上代RTX 40系的DLSS 3帧生成功能,几乎是帧数的飞跃。同样的画质设置,RTX 5070的表现遥遥领先于RTX 4070,实测在上面提到的四款游戏中,开启DLSS 4的GeForce RTX 5070,帧数几乎是RTX 4070的翻倍!看来老黄吹嘘的RTX 5070有RTX 4090的性能确实不假!
另外,值得一提的是,与DLSS 4一起到来的还有全新的NVIDIA Reflex 2技术。延迟一直是电竞中绕不开的话题,玩家的每个动作都会经过复杂的计算,再在屏幕上渲染,这其中的每一步都会增加延迟。虽然延迟往往只有几十毫秒,但是你却能明显的感觉到游戏的不流畅、卡顿。
为了尽可能的降低延迟所带来的不良游戏体验,NVIDIA发布了NVIDIA Reflex技术,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。目前NVIDIA Reflex已集成到超过100款游戏中,可以将PC延迟降低50%。
而GeForce RTX 50系显卡再度升级,带来了NVIDIA Reflex 2技术。它结合了Reflex低延迟模式与frame Warp技术。它可以把最新的鼠标输入指令同步给渲染帧,及时更新渲染的游戏帧并在渲染帧被发送到显示器之前获取最新的鼠标信息,通过刷新渲染的游戏帧以进一步减少延迟,将PC延迟进一步降低多达75%。
另外,frame Warp的加入,能够进一步将延迟降低。当一个帧被GPU渲染时,CPU会根据最新鼠标或手柄输入计算工作流中下一帧的视角位置。frame Warp从CPU采样新的视角位置,然后将GPU刚才渲染的帧扭转到最新的视角位置。在渲染帧被发送到显示器之前,在尽可能最新的时间进行扭转操作,确保屏幕上反映最新鼠标输入。
而当frame Warp转移游戏像素时,图像中可能会产生缝隙撕裂、镜头位置的变化会让游戏场景中显示新的部分。NVIDIA则开发了一种优化了延迟的预测渲染算法,该算法使用来自先前帧的视角、颜色和深度数据,对这些撕裂空白的像素进行准确的图像修复。玩家可以通过更新的视角看到没有撕裂的渲染帧,并降低了改变游戏内视角位置而产生的延迟。说人话就是现在NVIDIA Reflex 2还可以根据上一帧的信息去脑补一些空白的像素,有种无中生有但你又看不出来的感觉。
首发支持NVIDIA Reflex 2技术的游戏是《THE FINALS》以及《无畏契约》,后续我们也会第一时间带给大家该技术的详细评测。
游戏性能测试
了解完DLSS 4的“逆天”表现以后,我们再关注一下常规的游戏性能表现,还是老样子,先跑3DMark的DLSS 3性能测试。GeForce RTX 5070在2K分辨率下,对比RTX 4070性能提升幅度也非常大,大概在32%左右,4K分辨率下,开启DLSS 3以后性能领先也基本维持在30%以上,考虑到两张显卡的CUDA核心差距并不大,还是不禁赞叹一句Blackwell架构确实强。
当然理论性能终归是纸上谈兵,还得进游戏里实际测试一下才知道GeForce RTX 5070的实力。这里我们选取了12款游戏进行测试,包含光追及光栅性能方面的测试,而游戏画质方面均全部选择最高画质,光追设定部分,如有则采用最高。
实测2K分辨率下,GeForce RTX 5070应对绝大多数游戏都轻轻松松,甚至不少3A大作跑到了200+FPS,远超高刷的需求。即便是压力比较大的,像全高设置的《黑神话:悟空》,这款显卡也能有69 FPS的表现,畅玩绝对没有问题,后续如果有DLSS 4想必帧数提升会更加迅猛。具体到性能上,在这么多款游戏里,GeForce RTX 5070整体比RTX 4070强约25%左右,部分优化出色的游戏中,这个差距甚至可以拉大至50%左右,例如《巫师3:狂猎》。
图像视频创作性能测试
游戏测完,下面就来看一下创作者们比较关心的生产力性能,在PCMark10 Extended测试, GeForce RTX 5070在游戏、数位内容创作方面的表现更佳,基本上要比RTX 4070高20%,即便与RTX 5070 Ti的差距也不大,二者相差10%左右,整体可圈可点。不过生产力方面的成绩则比较低,与我们之前测试的其他RTX 50系显卡类似,推测是目前驱动还不完善所致。
再关注一下不同场景的性能表现,首先是UL Procyon办公软件测试,GeForce RTX 5070表现也不错,整体性能可以领先3%左右,其主要领先在Excel、PPT以及Word三项,不过有一说一,这三张卡用来办公只能说确实有些浪费了,用它们打开这些软件,差距应该都是微乎其微的。
上点强度,看看UL Procyon的图像编辑以及视频剪辑的测试,实测三款显卡在图像编辑上几乎不分伯仲,而在视频剪辑方面,情况就有些不一样了。果然最新的RTX 50系显卡优势还是非常明显的,GeForce RTX 5070对比RTX 4070,提升了足足20%,与老大哥RTX 5070 Ti的差距也缩小至5%左右。
在Adobe以及达芬奇的Benchmark测试里,GeForce RTX 5070的表现也差不多,整体相比RTX 4070有小幅提升,不过提升比较大的还是视频编辑部分,究其原因还是因为这一代RTX 5070再度对编码器进行了升级,不仅编解码的效率更高,同时支持的格式也更丰富。例如在达芬奇和PR的测试中,GeForce RTX 5070领先RTX 4070约9-25%,还是非常夸张的。同时在PS以及AE里也有小幅的性能提升,总体来说就是内容创作的效率更高了。
3D渲染创作性能测试
看完了图像视频方面的创作,我们再把目光投向3D渲染以及工业领域的软件中,看看RTX 50系显卡又有怎样的精彩表现。还是熟悉的朋友Blender以及V-Ray,在这两款软件中,GeForce RTX 5070的表现也是技惊四座,其中前者基本上能领先RTX 4070达14%-31%,而后者就夸张了,对比RTX 4070,甚至可以领先至48%。不过与RTX 5070 Ti比起来,还是有30%的差距,果然RTX 50系最具性价比卡确实不一般。
再看看另外一款渲染器,D5 Render是一款基于DXR和光线追踪技术构建的GPU渲染器。正因为其有光线追踪技术,其渲染的画面相当出色。这款软件在RTX 40系显卡测试时支持了DLSS 3帧生成,而现在随着RTX 50系显卡的发布,它也可以通过NVIDIA app的方式支持最新的DLSS 4多帧生成功能。
实测在开启DLSS 4以后,整个渲染预览的界面变得丝滑流畅,帧数基本都在200 FPS附近,而对比不开DLSS时,仅57 FPS的表现来看,性能几乎是提升了4倍以上。即便是面对RTX 40系的DLSS 3,也一点不虚,翻倍的性能表现,就是它最大的优势所在,带给你全新的渲染体验。
再看看工业领域的表现,SPEC2020能够反应显卡的工业能力,在多项测试中GeForce RTX 5070依旧傲视群雄,对比RTX 4070平均有30%的提升,这个性能提升还是很可观的,甚至有些超乎想象。并且不少项目中,它跟RTX 5070 Ti的差距也没有很大,基本都是10%左右的幅度。
NVIDIA编解码测试
接下来的测试则是介绍RTX 50系显卡的编解码器,GeForce RTX 50系列显卡上换装了第9代NVENC编码器与第6代NVDEC解码器,在视频规格上支持AV1 UHQ(超高画质 AV1)与MV-HEVC(多视角HEVC)编解码。同时由于GeForce RTX 50系列显卡还升级支持DisplayPort 2.1 UHBR20输出,单一通道支持20Gbps带宽,因此用户可以体验到令人惊叹的HDR视觉效果、超高分辨率和更流畅的游戏体验。
这里我们直接使用NVIDIA提供的4K60片源与工程文件分别测试AV1、H.265以及H.264下的编码导出时间。实测同一段素材下,GeForce RTX 5070导出三段视频的时间分别是16秒、15秒以及16秒,效率分别比RTX 4070快了63%、73%以及69%,接近翻倍的效率提升。
同时,我们也对导出的不同格式的视频进行了画质对比,实测AV1编码的视频在画质上与H.265或H.264也没有明显差距,无论是在文字、人像还是建筑等画面里,三者的画质可以说是伯仲之间,如果不特地标注其格式,一般人很难用肉眼分辨出来。随着目前越来越多视频网站、剪辑软件和硬件厂商的推动,未来AV1势必会成为下一个最受欢迎的格式。
值得一提的是,GeForce RTX 50系显卡还能够支持4:2:2色度取样的视频编解码,这将节省CPU的负担,加快创作速度。上面的图表里也可以看到我们的测试成绩,实测导出时间会比上代显卡快不少,毕竟RTX 40系显卡不支持该功能,仅支持4:2:0色度采样,如果一定要4:2:2导出只能靠CPU软解。
4:2:2色度采样的视频文件采用的是YUV颜色格式,与存储红色、绿色和蓝色(RGB)值不同,颜色被存储为亮度Y、蓝差色度U和红差色度V。在这类视频中,视频的完整亮度将被保留,而原始色度信息只保留一半,因此相比4:4:4的视频,其视频帧数据量仅有不到三分之二,而相比4:2:0的视频又能提供两倍的颜色分辨率,因此创作者采用这种格式拍摄,能够在保留更多色彩信息的同时还能减少文件大小和带宽需求。
AI性能测试
AI是老黄在CES上谈及的重点,而RTX 50系显卡上针对AI性能的改进则是加入了对FP4精度模型加速处理的支持,它相比此前RTX 40系上的FP8精度,能够实现更快的生成速度,同时显存占用也更低。
我们用UL Procyon的FLUX.1 AI Image Generation Demo For NVIDIA进行测试。在使用FP4精度模型时,GeForce RTX 5070能够做到13.176s生成一张图,而RTX 4070则要50秒以上,性能差距有3倍之多,同样的设置,生成4张图片,RTX 5070只需要52秒,而前代显卡则要足足3分钟以上。
值得一提的是,FP4精度模型生成的图片也非常能打,从下图就能看出来,其与FP8生成的图片几乎没有区别,无论是对关键词的理解还是图像的质量,都非常有保障,新时代AIGC玩家的最佳选择了。
在AI文本生成测试中,GeForce RTX 5070也带给我们不小的惊喜,我们用MLPerf Client v0.5大语言模型进行测试,它是基于meta的Llama 2 7B开源LLM打造,涵盖了四项AI任务,分别是内容生成、创意写作以及对两份不同长度文本进行总结摘要。实测GeForce RTX 5070在每一项中都表现出了绝对的统治力,各项领先幅度均在13-14%左右。
接着我们又用UL Procyon的AI Text Generation测试了更多的大语言模型,GeForce RTX 5070的优势依旧十分明显,在以Llama 3.1 7B LLM打造的Phi-3.5测试中,新一代显卡取得3538分的成绩,相比RTX 4070提升了9%,将参数扩大至Llama 2 13B的测试中,GeForce RTX 5070的表现更加亮眼,可以领先RTX 4070约104%,非常夸张。
功耗与温度表现
最后一项测试烤机,这也是许多玩家关注的重点,实测Furmark烧机10分钟后,得益于GeForce RTX 5070 FE出色的设计语言,以及卓越的制造工艺。烤机10分钟下GPU核心仅有73.4度,显存温度也是66度,此时显卡的最大功率为250.3W,已经完全顶着TDP的上限了。
横向对比RTX 4070时可以看到,GeForce RTX 5070的TDP小幅上涨了,不过整体的烤机功耗并不算高,核心与显存的温度控制确实不错,满载时GPU核心比上代高了不到5℃,但是性能提升足足有30%之巨,属于是非常惊喜了。
评测总结
一直以来,60和70两个后缀的显卡都是相当受玩家欢迎的,毕竟它们在符合预算的前提下,各方面的表现都不错,特别像70后缀的卡,更是凭借其"跨代不落伍"的特质,使其可以在相当长一段时间内确保游戏的流畅运行。因此,对于全新推出的GeForce RTX 5070来说,它要面临的考验就很多了,既要通过革命性的架构升级打动追求极致性能的新世代玩家,还要让持有前代70后缀显卡的玩家动心。
经过这段时间的测试,可以说GeForce RTX 5070确实能够完成上面提及的考验。首先在游戏体验上,GeForce RTX 5070就给到我们不少惊喜,在只开DLSS 3的情况下,这款显卡就能够领先上代显卡约30%。更不用说新的RTX 50系显卡还支持逆天的DLSS 4,实测性能提升巨大,与2K原生分辨率对比,性能差距最大可以去到5倍以上!随着支持DLSS 4的游戏越来越多,届时RTX 5070的性能又将迎来一次飞跃。
而在内容创作上,GeForce RTX 5070也发挥出了不错的性能,特别是新一代编解码器加持,让视频、渲染速度成倍提升,配合NVIDIA Studio平台的不断发力,即使不玩游戏的内容创作者们,也有了很多升级到GeForce RTX 5070的理由。除此之外,AI性能也是这一代提升的重点,支持FP4精度加速,AI生图速度甚至可以做到RTX 4070的三倍甚至四倍!并且它还有GDDR7显存加持,能够提供惊人的数据传输效率,轻松应对高分辨率渲染及AI创作。
最后是价格方面,NVIDIA GeForce RTX 5070 MSRP的定价为549美元,国内售价4599元起,单从定价上看就知道,这无疑是一款集高性能、高性价比于一身的显卡产品。考虑到它的性能提升幅度,GeForce RTX 5070也确实值得持有前代同级或更低显卡的玩家升级,全新的架构配合极致的黑科技,无疑能够让你的体验更进一步。