图形处理器
2025-07-01 02:44:24图形处理器处理器类型上级分类协处理器、并行向量处理机 所属实体显示卡、系统单芯片 简称GPU Stack Exchange标签https://stackoverflow.com/tags/gpu
此条目介绍的是微处理器。关于GPU的其他含意,请见“GPU (消歧义)”。
提示:此条目的主题不是图像处理器或视频处理器。
图形处理器(英语:Graphics Processing Unit,缩写:GPU),又称显示核心(display core)、视觉处理器(video processor)、显示芯片(display chip)或图形芯片(graphics chip),是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上执行绘图运算工作的微处理器。以图形处理器为核心的主板扩展卡也称显示卡,或简称显卡。
图形处理器是NVIDIA在1999年8月发表GeForce 256绘图处理芯片时首先提出的概念,在此之前,电脑中处理视频输出的显示芯片,通常很少被视为是一个独立的运算单元。而对手冶天科技(ATi)亦提出视觉处理器(Visual Processing Unit)概念。图形处理器使显卡减少对中央处理器(CPU)的依赖,并分担部分原本是由中央处理器所担当的工作,尤其是在进行三维绘图运算时,功效更加明显。图形处理器所采用的核心技术有硬件坐标转换与光源、立体环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等。
图形处理器可单独与专用电路板以及附属组件组成显卡,或单独一片芯片直接内嵌入到主板上,或者内置于主板的北桥芯片中,现在也有内置于CPU上组成SoC的。个人电脑领域中,在2007年,90%以上的新型台式机和笔记本电脑拥有嵌入式绘图芯片,但是在性能上往往低于不少独立显卡。[1]但2009年以后,AMD和英特尔都各自大力发展内置于中央处理器内的高性能集成式图形处理核心,它们的性能在2012年时已经胜于那些低端独立显卡,[2]这使得不少低端的独立显卡逐渐失去市场需求,两大个人电脑图形处理器研发巨头中,AMD以APU产品线取代旗下大部分的低端独立显示核心产品线。[3]而在手持设备领域上,随着一些如平板电脑等设备对图形处理能力的需求越来越高,不少厂商像是高通(Qualcomm)、PowerVR、ARM、NVIDIA等,也在这个领域“大显身手”。
传统的CPU,如Intel Core i5或i7处理器,其内核数量较少,专为通用计算而设计。相反,GPU是一种特殊类型的处理器,具有数百或数千个内核,经过优化,可并行运行大量计算。虽然GPU在游戏中以3D渲染而闻名,但它们对运行分析、深度学习和机器学习算法尤其有用。GPU允许某些计算比传统CPU上运行相同的计算速度快10倍至100倍。
历史[编辑]
1970年代[编辑]
ANTIC和CTIA芯片为Atari-8位电脑提供硬件控制的图形和文字混合模式,以及其他视频效果的支持。ANTIC芯片是一个特殊用途的处理器,用于映射文字和图形数据到视频输出。ANTIC芯片的设计师,Jay Miner随后为Amiga设计绘图芯片。
1980年代[编辑]
Commodore Amiga是第一个于市场上包含映像显示功能在其视频硬件上的电脑,而IBM 8514图形系统是第一个植入2D显示功能的PC显卡。
Amiga是独一无二的,因为它是一个完整的图形加速器,拥有几乎所有的影像产生功能,包括线段绘画,区域填充,块图像传输,以及拥有自己一套指令集(虽然原始)的辅助绘图处理器。而在先前(和之后一段时间在大多数系统上),一般用途的中央处理器是要处理各个方面的绘图显示的。
1990年代[编辑]
S3 Graphics ViRGE 显卡
1990年代初期,Microsoft Windows的崛起引发人们对高性能、高清晰度二维位图运算(UNIX工作站和苹果公司的Macintosh原本是此领域的领导者)的兴趣。在个人电脑市场上,Windows的优势地位意味着台式机图形厂商可以集中精力发展单一的编程接口,图形设备接口。
1991年,S3 Graphics推出第一款单片机的2D图像加速器,名为S3 86C911(设计师借保时捷911的名字来命名,以表示它的高性能)。其后,86C911催生大量的仿效者:到1995年,所有主要的PC绘图芯片制造商都于他们的芯片内增加2D加速的支持。到这个时候,固定功能的Windows加速器的性能已超过昂贵的通用图形辅助处理器,令这些辅助处理器续渐消失于PC市场。
在整个1990年代,2D图形继续加速发展。随着制造能力的改善,绘图芯片的集成水准也同样提高。加上应用程序接口(API)的出现有助执行多样工作,如供微软Windows 3.x使用的WinG图像程序库,和他们后来的DirectDraw接口,提供Windows 95和更高版本的2D游戏硬件加速运算。
在1990年代初期和中期,中央处理器辅助的即时三维图像越来越常见于电脑和电视游戏上,从而导致大众对由硬件加速的3D图像要求增加。早期于大众市场出现的3D图像硬件的例子有第五代视频游戏机,如PlayStation和任天堂64。在电脑范畴,显著的失败首先尝试低成本的3D绘图芯片为S3 ViRGE、ATI的3D Rage,和Matrox的Mystique。这些芯片主要是在上一代的2D加速器上加入三维功能,有些芯片为了便于制造和花费最低成本,甚至使用与前代兼容的针脚。起初,高性能3D图像只可经设有3D加速功能(和完全缺乏2D GUI加速功能)的独立绘图处理卡上运算,如3dfx的Voodoo。然而,由于制造技术再次获取进展,影像、2D GUI加速和3D功能都集成到一块芯片上。Rendition的Verite是第一个能做到这样的芯片组。
OpenGL是出现于90年代初的专业图像API,并成为在个人电脑领域上图像发展的主导力量,和硬件发展的动力。虽然在OpenGL的影响下,带起广泛的硬件支持,但在当时用软件实现的OpenGL仍然普遍。随着时间的推移,DirectX在90年代末开始受到Windows游戏开发商的欢迎。不同于OpenGL,微软坚持提供严格的一对一硬件支持。这种做法使到DirectX身为单一的图形API方案并不得人心,因为许多的图形处理器也提供自己独特的功能,而当时的OpenGL应用程序已经能满足它们,导致DirectX往往落后于OpenGL一代。
随着时间的推移,微软开始与硬件开发商有更紧密的合作,并开始针对DirectX的发布与图形硬件的支持。Direct3D 5.0是第一个增长迅速的API版本,而且在游戏市场中获得迅速普及,并直接与一些专有图形库竞争,而OpenGL仍保持重要的地位。Direct3D 7.0支持硬件加速坐标转换和光源(T&L)。此时,3D加速器由原本只是简单的栅格器发展到另一个重要的阶段,并加入3D渲染流水线。NVIDIA的GeForce 256(也称为NV10)是第一个在市场上有这种能力的显卡。硬件坐标转换和光源(两者已经是OpenGL拥有的功能)于90年代在硬件出现,为往后更为灵活和可编程的像素着色引擎和顶点着色引擎设置先例。
2000年到现在[编辑]
随着OpenGL API和DirectX类似功能的出现,图形处理器新增可编程着色的能力。现在,每个像素可以经由独立的小程序处理,当中可以包含额外的图像纹理输入,而每个几何顶点同样可以在投影到屏幕上之前被独立的小程序处理。NVIDIA是首家能生产支持可编程着色芯片的公司,即GeForce 3(代号为NV20)。2002年10月,ATI发表了Radeon 9700(代号为R300)。它是世界上首个Direct3D 9.0加速器,而像素和顶点着色引擎可以执行循环和长时间的浮点运算,就如中央处理器般灵活,和达到更快的图像数组运算。像素着色通常被用于凸凹纹理映射,使对象透过增加纹理令它们看起来更明亮、阴暗、粗糙、或是偏圆及被挤压。[4]
随着绘图处理器的处理能力增加,所以他们的电力需求也增加。高性能绘图处理器往往比目前的中央处理器消耗更多的电源。[5]
2017年3月10日后由于适用于个人研究使用的GPU发布,近年来也逐渐受到许多研究者及公司的关注并广泛用于深度学习。
绘图处理器公司[编辑]
现时有许多公司生产绘图芯片。以台式机与笔记本电脑为例Intel、AMD和NVIDIA都是目前市场的领导者,分别拥有54.4%、24.8%和20.%的市场占有率。手机、平板电脑等移动设备方面,高通等公司有较高市占率。另外,硅统科技和Matrox等公司过去也曾生产图像芯片。[6]
类型[编辑]
独立显卡[编辑]
主条目:显卡
Nvidia GeForce GTX 260独立显卡
独立显卡(Discrete Graphics Processing Unit,dGPU,简称独显)透过PCI Express、AGP或PCI等扩展槽界面与主板连接。
所谓的“独立(专用)”即是指独立显卡(或称专用显卡)内的RAM只会被该卡专用,而不是指显卡是否可从主板上独立移除。基于体积和重量的限制,供笔记本电脑使用的独立绘图处理器通常会透过非标准或独特的接口作连接。然而,由于逻辑接口相同,这些端口仍会被视为PCI Express或AGP,即使它们在物理上是不可与其他显卡互换的。
一些特别的技术,如NVIDIA的SLI、NVLink和AMD-ATI的CrossFire允许多个图形处理器共同处理影像信息,可令电脑的图像处理能力增加。
优点[编辑]
相对集成显卡,独立显卡一般拥有更强劲的性能;
消耗的系统资源更少(目前的独立显卡都有独立的显示内存);
拥有例如CUDA一类的在部分领域(例如影视后期等)可以起到辅助工作作用的处理单元。
缺点[编辑]
购置计算机需要更多金钱;
消耗的功率更多,使电脑功率增加;
体积更大;
部分低端独立显卡性能可能不如核芯显卡。
集成图形处理器[编辑]
Intel GMA X3000 集成绘图芯片(被散热片覆盖)
集成图形处理器(Integrated Graphics Processing Unit,iGPU)(或称集显)是集成在主板或CPU上的图形处理器,运作时会借用部分的系统存储器。2007年装设集成显卡的个人电脑约占总出货量的90%[7],相比起使用独立显卡的方案,这种方案可能较为便宜,但性能也相对较低。从前,集成图形处理器往往会被认为是不适合于执行3D游戏或精密的图形运算。然而,如Intel GMA X3000(Intel G965 芯片组)、AMD的Radeon HD 4290(AMD 890GX 芯片组)和NVIDIA的GeForce 8200(NVIDIA nForce 730a 芯片组)已有能力处理对系统需求不是太高的3D图像[8]。当时较旧的集成绘图芯片组缺乏如硬件坐标转换与光源等功能,只有较新型号才会包含。[9]
从2009年开始,集成GPU已经从主板移至CPU了,如Intel从Westmere微架构开始将Intel HD Graphics GPU集成到CPU至今,Intel将之称为处理器显示芯片。Intel Core极致版并没有集成绘图芯片。将GPU集成至处理器的好处是可以减低电脑功耗,提升性能。随着集显技术的成熟,目前的集显已经足够应付基本3D的需求,不过仍然依赖主板本身的RAM。AMD也推出了集成GPU的AMD APU、AMD Athlon和AMD Ryzen with Radeon Graphics。[来源请求]
用于人工智能学习[编辑]
人工智能要用GPU的主要原因是因为GPU拥有强大的并行计算能力,适合处理大规模的矩阵运算和向量计算,而这些计算在人工智能算法中非常常见。
在传统的中央处理器(CPU)中,每个核心通常只能处理一个任务,因此在处理大量数据时速度会相对较慢。而GPU拥有大量的计算单元(例如CUDA核心),可以同时执行许多相似的计算任务,因此能够在短时间内处理大量的数据。这对于机器学习和深度学习等人工智能任务来说非常重要,因为它们通常涉及大量的矩阵运算和向量计算。
另外,人工智能算法中经常使用到深度神经网络,这些网络拥有大量的参数需要进行训练。传统的CPU在处理这些大规模神经网络时效率较低,而GPU能够通过并行计算加速神经网络的训练过程,从而大大缩短了训练时间。
参考文献[编辑]
^ Denny Atkin. Computer Shopper: The Right GPU for You. [2007-05-15]. (原始内容存档于2007-05-06).
^ PConline最新CPU/显卡天梯图 (页面存档备份,存于互联网档案馆) - PConline.com.cn
^ IT棱镜:坑爹的入门显卡为何还会热销? (页面存档备份,存于互联网档案馆) - pconline.com.cn
^ Søren Dreijer. Bump Mapping Using CG (3rd Edition). [2007-05-30]. (原始内容存档于2010-01-20).
^ 存档副本. [2012-09-25]. (原始内容存档于2011-09-04). X-bit labs: Faster, Quieter, Lower: Power Consumption and Noise Level of Contemporary Graphics Cards
^ http://chinese.engadget.com/2011/05/05/nvidia-losing-ground-to-amd-and-intel-in-gpu-market-share/ (页面存档备份,存于互联网档案馆) NVIDIA正逐渐流失GPU市场的占有率...
^ AnandTech: µATX Part 2: Intel G33 Performance Review. [2008-12-26]. (原始内容存档于2009-02-03).
^ Intel G965 with GMA X3000 Integrated Graphics - Media Encoding and Game Benchmarks - CPUs, Boards & Components by ExtremeTech. [2008-12-26]. (原始内容存档于2011-06-07).
^ Bradley Sanford. Integrated Graphics Solutions for Graphics-Intensive Applications (PDF). [2007-09-02]. (原始内容存档 (PDF)于2002-11-17).
参见[编辑]
处理器
显卡
计算机图形学
显示器
物理处理器
通用图形处理器
ATI显示核心列表
NVIDIA显示核心列表
Intel GMA
Intel HD Graphics
AMD APU
行动PCI_Express模块
外部链接[编辑]
维基共享资源上的相关多媒体资源:图形处理器
查论编处理器技术模型顺序模型
图灵机
通用
波斯特-图灵机
量子
传动带机器(英语:Belt machine)
堆栈结构机器
有限状态机
具数据通路(英语:Finite state machine with datapath)
分层(英语:Hierarchical state machine)
队列(英语:Queue automaton)
寄存器机
计数器
指针(英语:Pointer machine)
随机存取机
随机存取存储程序机
函数式模型
递归函数
Λ演算
组合子逻辑
细胞自动机
架构
微架构
冯·诺伊曼结构
哈佛架构
修正哈佛架构(英语:Modified Harvard architecture)
资料流架构(英语:Dataflow architecture)
传输触发
元胞(英语:Cellular architecture)
字节序
异构(英语:Heterogeneous System Architecture)
Fabric(英语:Fabric computing)
多元处理
认知计算
神经形态(英语:Neuromorphic engineering)
内存访问
非均匀访存模型(NUMA)
均匀访存模型(UMA)
加载/存储(英语:Load/store architecture)
寄存器/存储器(英语:Register memory architecture)
缓存层级(英语:Cache hierarchy)
缓存层级(英语:Cache hierarchy)
存储器层次结构
虚拟内存
第二级存储器
指令集架构类型
复杂指令集(CISC)
精简指令集(RISC)
专用指令集处理器
显式数据图像并行(英语:Explicit_data_graph_execution)(EDGE)
TRIPS(英语:TRIPS architecture)
超长指令集(VLIW)
显式并发指令运算(EPIC)
最小指令集(英语:Minimal_instruction_set_computer)(MISC)
单一指令集(OISC)
无指令集(英语:No instruction set computing)(NISC)
零指令集(ZISC)
比较(英语:Comparison of CPU architectures)
指令集
x86
ARM
MIPS
LoongArch
PowerPC
SPARC
IA-64
Unicore(英语:Unicore)
MicroBlaze(英语:MicroBlaze)
RISC-V
LMC(英语:Little man computer)
其他(英语:List of instruction sets)
执行指令流水线
流水线停顿
操作数转发(英语:Operand forwarding)
经典 RISC 流水线(英语:Classic RISC pipeline)
危障
数据依赖
数据危障
结构危障
控制危障
伪共享
乱序执行
托马苏洛算法
保留站
重排序缓冲区
寄存器重命名
推测执行
分支预测
存储相关性预测(英语:Memory dependence prediction)
并行计算并行层次
位级并行
位串行(英语:Bit-serial architecture)
字
指令级并行
流水线
标量
超标量
任务并行
线程
进程
数据并行
向量
存储器
分布式
线程
多线程
同时多线程
超线程
超线程
超级线程(英语:Super-threading)
预测多线程(英语:Speculative multithreading)
抢占式
协作式
费林分类法
单指令流单数据流(SISD)
单指令流多数据流(SIMD)
寄存器内(英语:SIMD within a register)
单指令多线程(英语:Single instruction, multiple threads)(SIMT)
多指令流单数据流(MISD)
多指令流多数据流(MIMD)
单程序多数据(英语:SPMD)
电脑性能
晶体管数量
每周期指令(IPC)
每指令周期(CPI)
每秒指令(IPS)
每秒浮点运算次数(FLOPS)
每秒事务处理量 (TPS)
性能功耗比(PPW)
类别(维基数据:Q124996351)
中央处理器(CPU)
图形处理器(GPU)
图形处理器通用计算(GPGPU)
向量处理器
桶状(英语:Barrel processor)
流处理
辅助处理器
特殊应用集成电路(ASIC)
现场可编程逻辑门阵列(FPGA)
复杂可编程逻辑器件(CPLD)
多芯片模块(MCM)
封装内系统(SiP)
按应用
微处理器
单片机(MCU)
移动处理器(英语:Mobile processor)
笔记本电脑处理器(英语:Notebook processor)
超低电压(英语:Ultra-low-voltage processor)
专用指令集处理器(ASIP)
片上系统
片上系统(SoC)
多处理器片上系统(英语:Multi-processor system-on-chip)(MPSoC)
可编程片上系统(PSoC)
片上网络(英语:Network on a chip)(NoC)
硬件加速
人工智能加速器
视觉处理单元(VPU)
物理处理器(PPU)
数字信号处理器(DSP)
张量处理器(TPU)
安全加密协处理器
网络处理器
基带处理器
字长
1位
4位
8位
12位
15位
16位
24位(英语:24-bit computing)
32位
48位(英语:48-bit computing)
64位
128位
256位
比特分割(英语:bit slicing)
其他
可变字长
核心数量
单核
多核
众核(英语:Manycore processor)
异构
组件
核心
缓存
CPU缓存
置换机制
一致性
总线
时钟频率
定时器信号
先进先出算法(FIFO)
功能单元
算术逻辑单元(ALU)
地址生成单元(AGU)
浮点运算器(FPU)
内存管理单元(MMU)
加载-存储单元(英语:Load–store unit)
转译后备缓冲器(TLB)
内存控制器(IMC)
逻辑门
组合逻辑电路
时序逻辑电路
Glue(英语:Glue logic)
逻辑门
量子闸
逻辑门阵列(英语:Gate array)
寄存器
寄存器
状态寄存器(英语:Status register)
栈寄存器(英语:Stack register)
寄存器堆
存储器缓冲区
程序计数器
总线
地址总线
控制总线
后端总线
控制单元
指令单元(英语:Instruction unit)
缓冲器
写入缓冲区(英语:Write buffer)
微程序ROM
计数器
数据通路
数据选择器
数据分配器
加法器
乘法器
CPU倍频器
译码器
地址解码器(英语:Address decoder)
加和寻址解码器(英语:Sum addressed decoder)
桶式移位器
电路
集成电路
3D
混合信号
电源管理
布尔(英语:Boolean circuit)
数字
模拟
量子
开关
电源管理
电源管理单元(英语:Power Management Unit)(PMU)
高级电源管理
高级配置与电源接口(ACPI)
动态时钟频率调整
动态电压调节
时钟门控
性能功耗比(PPW)
空闲竞争(英语:Race to sleep)
相关内容
通用CPU历史(英语:History of general-purpose CPUs)
微处理器年代表(英语:Microprocessor chronology)
处理器设计
数字电路
硬件安全模块
半导体制造
Tick-Tock
推测执行漏洞集合
查论编图形处理器GPU桌面
英特尔
Xe
GT
Arc
英伟达
GeForce
Quadro
Tesla
Terga
AMD
Radeon
Pro(英语:Radeon Pro)
Instinct(英语:Radeon Instinct)
Matrox
InfiniteReality
µPD7220
Voodoo
S3
Apple芯片
手机
Adreno
Apple芯片
Mali
PowerVR
VideoCore
图芯技术
Intel 2700G
架构
内核函数
半导体器件制造
CMOS
FinFET
MOSFET
绘图流水线
几何
顶点
乘积累加运算
栅格化
光线跟踪硬件
镶嵌
基于图块渲染
变换,裁剪和照明
统一着色器模型(英语:Unified Shader Model)
组件
着色器
纹理映射单元
渲染输出单元
张量
流处理
几何处理
视频显示控制器
图形处理器
显示内存
DMA
Framebuffer
GDDR SDRAM
GDDR3
GDDR4
GDDR5
GDDR6
GDDR7
HBM
HBM2
HBM2E
HBM3
HBM4
内存带宽
内存控制器
共享显存
纹理存储器
视频随机存储器
形式规格
IP核
显卡
独立显卡
集成显卡
系统芯片
性能指针
时钟频率
显示标准
填充率
Pixel/s
Texel/s
FLOP/s
帧率
性能功耗比
晶体管数量
其它
2D
3D
ASIC
GPGPU
Cluster
图形库
硬件加速
图像处理
并行计算
SIMD
并行向量处理机
视频编解码器
超长指令字
另见:SoC品牌
查论编硬件加速理论
通用图灵机
并行计算
分布式计算
应用
图形处理器(GPU)
GPGPU
DirectX
音频
数字信号处理器
随机数生成
人工智能
密码学加速(英语:Cryptographic accelerator)
SSL加速
视觉处理器(英语:Vision processing unit)
定制硬件攻击(英语:Custom hardware attack)
scrypt
网络处理器
实现
高级综合
C-HDL 转换(英语:C to HDL)
现场可编程逻辑门阵列(FPGA)
特殊应用集成电路(ASIC)
复杂可编程逻辑器件(CPLD)
片上系统(SoC)
片上网络(英语:Network on a chip)(SoN)
架构
数据流(英语:Dataflow architecture)
传输触发
多核心
众核(英语:Manycore)
异构
内存内计算(英语:In-memory processing)
脉动阵列
神经形态处理器(英语:Neuromorphic engineering)
其他
可编程逻辑器件
微处理器
设计
年代表(英语:Microprocessor chronology)
数字电路
虚拟化
硬件模拟
综合
嵌入式系统
查论编电子计算机基本部件输入设备
键盘
数字键盘
影像扫描仪
显卡
图形处理器
麦克风
定点设备
数字绘图板
游戏控制器
光笔(英语:Light pen)
鼠标
光学
指点杆
触摸板
触摸屏
轨迹球
盲文显示机
声卡
声音处理器(英语:Sound chip)
摄像头
虚拟(英语:Softcam)
输出设备
显示器
屏幕
盲文显示机
打印机
绘图仪(英语:Plotter)
扬声器(英语:Computer speakers)
声卡
显卡
移动存储
磁盘组(英语:Disk pack)
软盘
光盘
CD
DVD
BD
闪存
存储卡
闪存盘
机箱
中央处理器
微处理器
主板
存储器
随机存取
BIOS
数据存贮器
硬盘
固态硬盘
混合固态硬盘
电源供应器
开关模式电源
金属氧化物半导体场效应管
功率
电压调节模块
网卡
传真调制解调器(英语:Fax modem)
扩展卡
接口
以太网
FireWire
并行
串行
PS/2
USB
Thunderbolt
DisplayPort/HDMI/DVI/VGA
SATA
TRS
规范控制数据库:各地
德国
以色列
捷克