流处理器是直接将多媒体的图形数据流映射到流处理器上进行处理的,有可编程和不可编程两种。流处理器可以更高效的优化Shader引擎,它可以处理流数据,同样输出一个流数据,这个流数据可以应用在其它超标量流处理器(Stream Processors,简称SPs)当中,流处理器可以成组或者大数量的运行,从而大幅度提升了并行处理能力。
起源
流处理器是直接将多媒体的图形数据流映射到流处理器上进行处理的,有可编程和不可编程两种。流处理器可以更高效的优化Shader引擎,它可以处理流数据,同样输出一个流数据,这个流数据可以应用在其它超标量流处理器(Stream Processors,简称SPs)当中,流处理器可以成组或者大数量的运行,从而大幅度提升了并行处理能力。
流处理器这个名词第一次出现在人们的视线中还要上溯到2006年12月4日, NVIDIA在当天正式对外发布新一代DX10显卡8800GTX,在技术参数表里面,看不到惯常使用的两个参数:Pixel Pipelines(像素渲染管线)和Vertex Pipelines(顶点着色单元),取而代之的是一个新名词:streaming processor,中文翻译过来就是流处理器(也有叫SP单元的,一个意思)它的作用就是处理由CPU传输过来的数据,处理后转化为显示器可以辨识的数字信号。
原理
1995年公布的名为Cheops中的流处理器,是针对某一个特定的视频处理功能而设计的一种不可编程的流处理器。但为了得到一定的灵活性,系统中也包含一个通用的可编程处理器。
从1996年到2001年,MIT和Standford针对图像处理的应用,,研制了名为Imagine 的可编程流处理器。Imagine流处理器没有采用cache,而是采用一个流寄存器文件SRF(Stream Register File),作为流(主)存储器与处理器寄存器之间的缓冲存储器,来解决存储器带宽问题的。流存储器与SRF之间的带宽是2GB/s,SRF与处理器寄存器之间的带宽是32GB/s,ALU簇(ALU Cluster)内寄存器与ALU之间的带宽是544GB/s,三种带宽的比例关系为1:16:272。
抗锯齿是3D特效中最重要的效果之一,它经过多年的发展,变为一个庞大的家庭,有必要独立开来说明一下。
效果
每个流处理器当中都有专门高速单元负责解码和执行流数据。片载缓存是一个典型的采用流处理器的单元,它可以迅速输入和读取数据从而完成下一步的渲染。
流处理器多少对显卡性能有决定性作用,可以说高中低端的显卡除了核心不同外最主要的差别就在于流处理器数量,但是有一点要注意,就是NV和AMD的显卡流处理器数量不具有可比性,他们两家的显卡核心架构不同,不能通过比较流处理器多少来看性能,一般情况下NV的显卡流处理器数量会明显少于AMD,要从流处理器多少来看性能,只能自家的与自家的比,比如3850与3450相比,8600与8800相比 。
当然,就像你的CPU主频高低一样的道理.一般显卡流处理的多少都会影响视频与高清视频的解码功能,不过最主要的还是你的显卡核心.现在最好的核心应该是G92的.不过,光这些还不够,你的显卡架构也决定性能.就像专业显卡和游戏显卡的区别一样,即使东西都完全一样但不是一个概念.8800GTS还不如一张普通的G92核心的专业显卡性能强悍.
这是显卡的一个参数,2006年由NVIDIA公司首先提出的一个概念,也就是以前常说的两个显卡参数Pixel Pipelines(像素渲染管线)和Vertex Pipelines(顶点着色单元),简称SP,其作用就是处理CPU传过来的信号,直接变成显示器可以识别的数字信号。
一般来说,流处理器数量越多,显卡性能越强劲,比如拥有640个流处理器的显卡要比拥有80个流处理器的显卡高出几个档次。
作用
去除物体边缘的锯齿现象,广州话称之为“狗牙”,大家可以想像一下狗牙是如何的凹凸不平。
过程
我们在真实世界看到的物体,由无限的像素组成,不会看到有锯齿现象,而显示器没有足够多的点来表现图形,点与点之间的不连续就造成了锯齿。
抗锯齿通过采样算法,在像素与像素之间进行平均值计算,增加像素的数目,达到像素之间平滑过渡的效果。去掉锯齿后,还可以模拟高分辨率游戏的精致画面。它是目前最热门的特效,主要用于1600 * 1200以下的低分辨率。理论上来说,在17寸显示器上,1600 * 1200分辨率已经很难看到锯齿,无须使用抗锯齿算法。如此类推,在19寸显示器上,必须使用1920 x 1080分辨率,总之,越大的显示器,分辨率越高,才越不会看到抗锯齿1920 x 1200。由于RAMDAC(Random Access Memory Digital to Analog Converter,随机存储器数/模转换器)频率和显示器制造技术的限制,我们不可能永无止境地提升显示器和显卡的分辨率,抗锯齿技术变得很有必要了。
超级采样抗锯齿
最早期的全屏抗锯齿,方法简单直接。首先,图像创建到一个分离的缓冲区,缓冲区图像分辨率高于屏幕分辨率,假设是2*1(或2x),那么缓冲区场景的水平尺寸比屏幕分辨率高两倍,若是2*2(或4x)抗锯齿,缓冲区图像的水平和垂直均比显示图像大两倍。像素计算加倍之后,选取2个或4个邻近像素,此过程称为采样。把这些采样混合起来后,生成的最终像素,拥有邻近像素的特征,那么像素与像素之间的过渡色彩,就变得更为近似,整个图像的色彩过渡趋于平滑。再把最终像素输出到帧缓冲,作为一幅图像存储起来,然后发到显示器,显示出一帧画面。每帧都进行抗锯齿处理,游戏过程中的所有画面都变得带有抗锯齿效果了。
游戏卡曼奇四中采用的4X抗锯齿算法,Commanche 4 4xs
边缘超级采样抗锯齿
超级采样效果很好,但效率极低,严重影响显卡性能。新的4x抗锯齿方法,只把抗锯齿应用于物体边缘,避免占用过大的缓冲区。工作过程比超级采样稍为复杂,几何引擎生成多边形后,光栅单元会进行描色工作,同时检查当前的纹理,看看它是否需要用2x2采样的方式填充到多边形边缘。如果不是,GPU只计算一种色彩,在中间插入纹理像素,然后用单色填充这个块。这些就是非边缘像素,无须进行抗锯齿处理。