AI算力芯片行业深度:主流芯片、驱动因素、产业链及相关公司深度梳理(二)(慧博出品)

来源:雪球App,作者: 慧博,(https://xueqiu.com/3966435964/331869571)
作者:慧博智能投研
六、AI算力芯片国产替代情况1.美国对高端算力芯片供应限制不断趋严,国内厂商迎来黄金发展期美国商务部在2022、2023、2025年连续对高端AI算力芯片进行出口管制,不断加大英伟达及AMD高端GPU芯片供应限制,国产AI算力芯片厂商迎来黄金发展机遇,但国产厂商华为海思、寒武纪、海光信息、壁仞科技和摩尔线程等进入出口管制“实体清单”,晶圆代工产能供应受限,影响国产AI算力芯片发展速度。
2.国产厂商不断追赶海外龙头厂商,但在硬件性能上仍有差距随着AI应用计算量的不断增加,要实现AI算力的持续大幅增长,既要单卡性能提升,又要多卡组合。从AI算力芯片硬件来看,单个芯片硬件性能及卡间互联性能是评估AI算力芯片产品水平的核心指标。国产厂商在芯片微架构、制程等方面不断追赶海外龙头厂商,产品性能逐步提升,但与全球领先水平仍有1-2代的差距。
3.AI算力芯片生态壁垒极高,国产领先厂商有望突破在软件生态方面,英伟达经过十几年的积累,其CUDA生态建立极高的竞争壁垒,国产厂商通过兼容CUDA及自建生态两条路径发展,国内领先厂商华为昇腾、寒武纪等未来有望在生态上取得突破。
华为基于昇腾系列AI芯片,通过模组、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案。昇腾计算是基于硬件和基础软件构建的全栈AI计算基础设施、行业应用及服务,包括昇腾系列AI芯片、系列硬件、CANN(异构计算架构)、Al计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。昇腾计算已建立基于昇腾计算技术与产品、各种合作伙伴,为千行百业赋能的生态体系。
七、AI算力芯片相关公司1.海光信息海光信息成立于2014年,2016年获得AMD技术授权启动CPU产品研发,通过持续推进高端处理器产品的迭代升级,成长为国内CPU和DCU双领军企业。2014年海光信息成立,成立后不久,公司获得中科曙光、国科控股等参投的天使轮融资。2016年,公司与AMD合资成立海光集成和海光微电子两家子公司,并分别于2016年和2017年与AMD签署《技术许可协议》,约定AMD为两家合资公司提供高端处理器技术授权和技术支持,包括处理器核心和外围电路设计技术以及内置到处理器中驱动处理器硬件执行的微码系统等。基于AMD的授权技术和海光的自研能力,2016年以来公司秉承“销售一代、验证一代、研发一代”的策略,持续进行海光系列CPU和深算系列DCU产品的迭代,目前公司已发展成为国内CPU和DCU领域的领导者。
海光信息的主营产品分为通用处理器(CPU)和协处理器(DCU)两类。其中:1)海光CPU兼容国际主流的x86技术路线,具有丰富的软硬件生态优势,其核心组成包括处理器核心(Core)、片上网络和各类接口控制器,同时集成了复杂的微码系统。海光CPU按照代际进行升级迭代,目前已从海光一号迭代至海光四号,而每代际产品基于不同的产品定位,可细分为高端的7000、中端的5000和低端的3000系列,其中7000系列面向对计算能力、扩展能力、吞吐量有高要求的领域,包括大数据、人工智能等,3000系列主要应用于入门级服务器、工作站、工业控制等市场,5000系列面向边缘计算、云计算、分布式存储等应用场景。2)海光DCU属于GPGPU的一种,采用“类CUDA”通用并行计算架构,能够较好地适配国际主流商业计算软件和人工智能软件。从组成上看,计算单元是DCU的最主要部件,以深算一号为例,其最大集成64个计算单元。目前公司DCU产品包括深算一号和深算二号,主要部署在服务器集群或数据中心,支撑高复杂度和高吞吐量的数据处理任务。
CPU性能和生态持续领跑国内市场,信创加速推动国产化率持续提升。公司基于AMDZen1架构授权,初代产品海光一号较同期的国产CPU实现代际领先,且主力产品海光三号性能较前代产品全方位提升,综合产品性能持续领跑国内市场。同时在生态方面,公司CPU采用x86架构,相比于ARM和自研指令集架构,生态成熟度更高,可实现上层系统软件、应用软件等的无缝切换。目前国内服务器及桌面CPU市场合计达千亿规模,国产化替代空间广阔。随着财政对信创的支持力度不断加强以及行业信创临近中期节点,两大因素有望共同推动行业信创加速,同时CPU作为信创关键领域,国产化率有望实现快速提升。
AI芯片跻身国内第一梯队,充分受益国产AI算力产业浪潮。公司DCU芯片深算一号和深算二号过去主要应用于超算中心等高性能计算领域,是国内超算芯片领域领导者。为补齐DCU在大模型训练和推理场景下的短板,公司正在研发最新一代DCU产品深算三号,预计较深算二号在AI性能上将有数倍提升,并有望跻身国内AI芯片第一梯队。公司DCU采用GPGPU架构,并且软件平台DTK高度兼容CUDA生态,能够广泛适配国际主流AI框架和应用软件,同时大量采用国际主流开源组件,降低生态拓展难度。随着国内互联网及智算中心AI算力投入的持续增加,叠加美国芯片出口管制政策持续加码,公司有望充分受益AI算力的国产化浪潮。
不同于华为昇腾、摩尔线程等厂商自行开发软件库、框架兼容程序等,海光充分利用开源社区,大量采用国际主流开源方案,较大程度上降低了生态拓展难度。海光DTK软件平台中MIOpen、Eigen、RCCL等软件库均来自于开源社区,且均为目前使用较广泛的方案,一方面能够降低软件开发工作量,提升用户吸引力,另一方面也方便用户进行二次开发,从而提升用户体验。
2.龙芯中科公司主营处理器及配套芯片、基础软硬件解决方案,业务崭新突破开创未来。为解决中国信息产业“缺芯少魂”的问题,公司通过十余年的自主研发和市场化运作,在处理器研发、基础软件研发、生态体系建设等方面已具备充足的技术和经验积累的条件下,于20年推出了自主指令系统LoongArch(龙芯架构)。此前,公司的产品主要基于MIPS指令系统,公司于20年推出的LoongArch自主指令系统,该架构具有自主知识产权、技术先进、兼容生态等特点。其融合了X86和ARM等主流指令系统的特点,经过高效二进制翻译,可以实现对X86、ARM应用软件的兼容。
2025年2月7日,龙芯中科宣布推出搭载龙芯3号CPU的设备成功启动运行DeepSeek-R17B模型。2月23日,龙芯中科发布基于DeepSeek大模型的软硬全栈推理一体机,产品实现从芯片、系统到框架的全栈国产化支持。与此同时,《北京市2025年终端设备集中带量采购项目需求公示公告》发布,本次共采购21180台信创终端设备,龙芯loongArch占比63%。
大模型:全栈自主技术,国产芯片与AI大模型协同突破。龙芯中科基于自主LoongArch架构的3A6000/3C6000系列处理器,成功实现DeepSeekR17B大模型的本地化部署,仅用2小时即完成与太初元碁T100加速卡的适配,可提供更快、更强、更省的训练推理体验。与此同时,采用龙芯3A6000处理器的诚迈信创电脑和望龙电脑已实现DeepSeek本地部署,此后无需依赖云端服务器,避免了因网络波动或服务器过载导致的服务中断,可高效完成文档处理、数据分析、内容创作等多项工作,显著提升工作效率。当前,国产芯片与AI大模型的协同适配取得实质性进展,为构建自主可控的人工智能技术生态奠定基础。
一体机:龙芯DeepSeek推理一体机发布,政企AI部署迈入安全可控新阶段。龙芯DeepSeek软硬全栈推理一体机可搭载2颗龙芯3C5000处理器,支持最多4张太初元碁T100加速卡;支持DeepSeek全系(7B/8B/14B/32B/70B)模型,用户可以根据实际应用场景和性能要求,进行灵活的一体机配置调整;通过自研以及引入第三方,支持实现常见AI智能体应用,例如代码编写插件、文档生成工具、会议质检、智能政务、智慧审批、金融数据分析、合规审查、企业客服、办公助手、企业内部知识咨询等AI智能体,满足教育、政务、企业、金融等各领域业务场景需求。龙芯中科正与太初元碁、寒武纪、天数智芯、算能科技、openEuler等合作伙伴,实现从芯片、系统到框架的全栈国产化支持,彻底摆脱对国外技术的依赖,政企AI部署迈入安全可控新阶段。
3.纳芯微十年磨剑铸就传感器、信号链、电源管理三大产品线。自2013年成立以来,公司专注于围绕下游应用场景组织产品开发,聚焦传感器、信号链和电源管理三大产品方向,提供丰富的半导体产品及解决方案,广泛应用于汽车、泛能源及消费电子领域,截至2024年中报,公司已能提供2100余款可销售产品型号。公司历史沿革分为以下三阶段:
1)初创期:2013-2015年,专注于消费电子和信号感知。2013年推出三轴加速度传感器信号调理ASIC芯片,并于2014年推出压力传感器信号调理ASIC芯片和电流传感器信号调理ASIC芯片,2015年发布首款压力传感器信号调理ASIC芯片。2015年底之前,公司产品主要为应用于消费电子领域的传感器信号调理ASIC芯片。
2)拓展期:2016-2017年,进军工业及汽车。2016年,公司开始向工业及汽车领域发展,同年推出面向工业控制领域以及汽车前装市场的压力传感器信号调理ASIC芯片(AEC-Q100标准)。同年也推出了硅麦克风和红外传感器信号调理ASIC芯片,进一步扩充产品品类。为扩展在汽车中高压压力传感器的应用,公司入股襄阳臻芯,襄阳臻芯是一家陶瓷电容压力传感器敏感元件生产商,公司2017年与之合作推出面向中高压压力传感器市场的陶瓷电容压力传感器核心器件级解决方案。
3)快速上升期:2018-至今,积极拓展品类,逐步形成现今三大产品线。2018年以来,公司积极扩展产品品类,三大产品线不断丰富。2018年推出了标准数字隔离芯片与隔离接口芯片,2020年成功推出集成电源的数字隔离芯片、隔离驱动芯片以及隔离采样芯片,2021年全品类车规隔离产品量产、发布并量产首款霍尔电流传感器,2022年发布汽车马达驱动和汽车电源芯片,2023年发布车用小电机驱动SOC。
重新分类后,公司产品主要分为传感器、信号链和电源管理三大产品线,主要应用于汽车电子、泛能源和消费电子。
汽车电子产品持续放量,公司营收成长性强。根据公告,2024年公司营收增长主要系1)汽车电子领域相关产品持续放量;2)消费电子领域景气度持续改善;3)泛能源领域的工业自动化和数字电源领域大部分客户恢复正常需求。2024年11月,纳芯微联合芯弦推出NS800RT系列实时控制MCU,从中端市场入手,为未来进入高端市场打通客户渠道。受益于汽车智能化及国产化拉动,汽车整体需求及车规国产芯片需求有望持续提升,公司已切入主要汽车客户,在拓展份额方面具备先发优势。
4.寒武纪专注人工智能芯片产品研发,提供行业场景算力底座。寒武纪成立于2016年,专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片,让机器更好地理解和服务人类。寒武纪提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。寒武纪产品广泛应用于服务器厂商和产业公司,面向互联网、金融、交通、能源、电力和制造等领域的复杂AI应用场景提供充裕算力,推动人工智能赋能产业升级。
芯片产品为公司核心业务支撑,以思元370芯片为例:基于7nm制程工艺,思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片,集成了390亿个晶体管,最大算力高达256TOPS((INT8),是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03,思元370实测性能表现更为优秀。思元370也是国内第一款公开发布支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。搭载MLU-Link™多芯互联技术,在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。全新升级的寒武纪基础软件平台,新增推理加速引擎MagicMind,实现训推一体,大幅提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
厚积薄发,打造人工智能产业核心引擎。寒武纪作为中国智能芯片领域的标杆企业,专注于人工智能芯片的研发与技术创新,产品矩阵覆盖云、边缘和终端三大场景,逐步构建出完整的生态体系。公司股权结构稳定,核心管理层具备深厚的行业经验,同时通过激励机制保障团队活力,展现出对市场拓展和业务规模增长的信心。2024年公司预计实现营业收入10.7-12.0亿元,同比增长50.8%到69.2%。
国产算力腾飞在即,寒武纪迎来黄金发展期。在政府政策支持和企业需求激增的双重推动下,国产算力市场空间广阔。2025年或将成为政府和运营商算力采购的大年,六部门定调到25年建设105EFlops智能算力,中国移动计划24-25年采购AI服务器7994台。互联网企业,特别是字节跳动等公司,在资本开支和AI推理需求上持续加码,这为国产算力厂商提供了历史性机遇。字节CapEx自24年800亿元飙升至25年1600亿元,对比北美云厂商24年平均CapEx约合3800亿人民币左右。我们预计国内云厂商CapEx上升空间依然广阔,有望带动算力芯片需求增长。寒武纪凭借技术优势和产品布局,有望在新一轮增长周期中获得显著市场份额。
智算未来先锋,寒武纪引领国产算力新格局。寒武纪在技术路径上采取通用型智能芯片的开发路线,兼具高性能和低功耗,适配多场景应用,与国内外竞争者相比具备显著优势。具体体现在1)“领跑者“计划推动数据中心算力国产替代;2)公司通过不断推出高性能芯片,强化产品迭代能力,进一步巩固其在国产算力领域的领先地位;3)差异化设计架构,凭借多样化运算的高效适配能力,与GoogleTPU对比各有千秋。
5.复旦微电公司FPGA产品线技术领先,目前已可提供千万门级、亿门级和十亿门级FPGA产品和PSoC产品,具备全流程自主知识产权FPGA配套EDA工具ProciseTM,以及面向人工智能应用的融合现场可编程(FPGA)和人工智能(AI)的可重构芯片(FPAI)。目前该产品线正在推进基于1xnmFinFET先进制程的新一代FPGA和PSoC产品,新一代FPGA产品完成样片测试,已针对部分导入客户小批量销售,并同步开展良率提升工作,产品谱系化工作也正在推进。
存储产线协同发展,上半年销量大幅增长。公司已形成EEPROM、NORFlash、NANDFlash三大产品线,建立了完整的利基非挥发存储器产品架构,拥有包括FLOTOX、ETOX、SONOS等多种技术平台的研发储备。经过2023年的调整,2024年上半年由于终端及渠道库存消化,存储产品逐步回暖。公司存储产品线受益于行业变化,销量有较大增长,消费及工业级SPINAND、NOR产品线价格止跌回升。目前阶段,存储产品的价格比较稳定。公司丰富的存储器产品线,与FPGA、MCU、安全与识别等产品线相结合,产品满足商用、高工规和车规等客户需求,为工控仪表、医疗、通讯、汽车、消费电子等应用领域提供一站式解决方案。
6.紫光国微紫光国微是国内领先的综合性集成电路芯片产品和解决方案提供商。紫光国微聚焦特种集成电路、智能安全芯片两大主业,并涵盖石英晶体频率器件、功率半导体等重要业务,以芯片、系统解决方案赋能千行百业,产品深度布局移动通信、金融、政务、汽车、工业、物联网等领域,为数字经济高质量发展提供坚实的基础支撑。公司在研发能力、核心技术、供应链和客户资源等方面竞争优势明显,于2021年入选工信部第三批专精特新“小巨人”企业名单。
根据Wind数据,新紫光集团通过其全资孙公司紫光春华持有紫光国微26.0%股权,为上市公司控股股东。2022年紫光集团完成重整后,“智路建广联合体”(即北京智广芯控股)成为紫光集团的重整战略投资人。目前由新紫光集团董事、联席总裁陈杰任紫光国微董事长。
特种业务持续产品研发。24年公司特种集成电路业务受市场下游需求不足影响,面临部分产品价格下降和去库存压力,仍坚持技术创新,在特种FPGA、特种存储器、AI智能芯片及模拟领域均保持市场领先地位。新一代更高性能FPGA产品推广进展顺利,已取得多家核心客户订单。新开发的特种新型存储器已向用户供货,HBM存储芯片已处于样品系统集成验证阶段;新研发的交换芯片已开始批量供货,并累计完成十余系列研发工作。以特种SoPC平台产品为代表的四代系统级芯片、RF-SOC产品、通用MCU整体推进情况良好,均已获用户订单。图像AI智能芯片、数字信号处理器DSP已完成研发并在推广中实现用户选用;中高端MCU、视频芯片等领域的产品研制进展顺利。模拟产品领域,公司完成了高性能射频时钟、多通道开关电源、高性能运算放大器、以太网PHY、大功率片上隔离电源的设计并流片成功,并推出了射频采样收发器、超高速射频ADC、超低噪声线性电源以及功率监控电路等产品。
汽车电子等领域全面布局,提供新动能。24年公司智能安全芯片业务总体保持平稳,持续完善以信息安全和功能安全为基础,逐步覆盖周边配套产品的汽车电子业务布局,打造了汽车控制芯片、汽车安全芯片、功率器件等产品。紫光同芯发布了国内首颗通过ASILD产品认证的R52+内核车规MCU—THA6系列产品,其中THA6206在产品安全性、可靠性、算力、实用性方面全面对标国际大厂,多家主机厂和Tier1正基于该芯片进行开发测试;高端旗舰级产品THA6412适应动力底盘域控场景需求,特别是多合一电驱控制器、发动机、底盘域控、区域控制等应用。
7.景嘉微景嘉微成立于2006年4月,作为国内首家实现图形处理器芯片(GPU)产业化应用的上市企业,公司构建了从架构设计、算法优化到芯片量产的全栈式技术能力。深耕专用领域十八载,已形成覆盖图形显控、小型专用化雷达、GPU芯片三大业务板块的立体化布局,2023年研发投入占营业收入比重为46.44%,获得专利授权142项(其中国家发明专利107项),构筑了深厚的核心技术壁垒。公司凭借深厚的技术积淀与领先优势在国内图形处理芯片研发领域处于领先地位。
主营三大业务板块:图形显控领域、小型专用化雷达、GPU芯片业务。图形显控领域产品是公司的主要营收来源,始终占公司总营收45%以上。GPU芯片近年来占比逐渐增加,2023年营收占比14%。GPU芯片业务是公司的主要发力点,目前产品主要为JM5系列,JM7系列与JM9系列,公司最新一代JM11系列芯片已经完成流片、封装以及初步测试阶段,根据公司公布测试结果来看,JM11系列可以满足各种云端应用场景,同时可广泛应用于服务器、图形工作站、台式机以及笔记本等设备。
积极导入民用市场,定增布局高性能GPU芯片打造第二曲线。公司近年来大力研发且向市场积极推广,成功打开并拓宽了民用市场空间,同时在高性能GPU领域定增投入打造第二成长曲线。7系列与9系列GPU芯片在信创行业广泛落地,应用领域涵盖游戏、媒体处理、地理信息系统、CAD设计辅助等多种使用场景。公司积极与国内厂商建立合作,与包括龙芯、飞腾、银河麒麟等国内主要的CPU厂商和操作系统厂商展开适配工作,并与十余家国内主要计算机整机厂商建立合作关系,共建国产化计算机应用生态。同时,公司重点布局高性能GPU与通用GPU,打造第二成长曲线。
八、未来展望:DeepSeek有望推动国产AI算力芯片加速发展以ChatGPT为代表的生成式AI大模型在训练和推理方面对GPU等算力芯片的性能有一定高程度的要求,这让在性能方面落后的国产GPU芯片难以入局,然而DeepSeek的问世改变了GPU芯片市场的格局。
GPT-4的训练成本超过1亿美元,使用成本百万token输入2.5美元,百万token输出10美元。而DeepSeek-V3的训练成本仅为557.6万美元,DeepSeek-V3的API服务定价为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens价格为8元。
1.DeepSeek通过技术创新实现大模型训练极高的性价比2024年12月26日,DeepSeek正式发布全新系列模型DeepSeek-V3,DeepSeek-V3为自研MoE模型,总参数量为671B,每个token激活37B参数,在14.8Ttoken上进行了预训练。DeepSeek-V3在性能上对标OpenAIGPT-4o模型,并在成本上优势巨大,实现极高的性价比。DeepSeekV3的技术创新主要体现在采用混合专家(MoE)架构,动态选择最合适的子模型来处理输入数据,以降低计算量;引入多头潜在注意力机制(MLA)降低内存占用和计算成本,同时保持高性能;采用FP8混合精度训练降低算力资源消耗,同时保持模型性能;采用多Token预测(MTP)方法提升模型训练和推理的效率。
2.DeepSeekMoE架构通过动态组合多个专家模型提升模型的性能和效率DeepSeek的MoE架构通过将传统Transformer中的前馈网络(FFN)层替换为MoE层,引入多个专家网络(Experts)和一个门控网络(Gating Network)。专家网络包括多个独立的专家模型,每个专家模型负责处理特定类型的数据。门控网络负责决定每个输入数据应该由哪些专家模型处理,并分配相应的权重;通过门控机制,模型能够动态选择最合适的专家来处理输入数据。DeepSeekMoE架构采用稀疏激活策略,每次训练或推理时只激活部分专家,而不是整个模型;在DeepSeek-V3中,模型总参数为6710亿,但每次训练仅激活370亿参数,从而提高计算效率。传统的Transformer架构采用固定的编码器-解码器结构,所有输入数据通过相同的多层自注意力机制和前馈神经网络处理;模型的参数是静态的,无法根据输入数据的特性动态调整。
多头潜在注意力机制(MLA)的核心思想是对KV进行低秩压缩,以减少推理过程中的KV缓存,从而降低内存占用及计算成本。在传统的Transformer架构推理过程中,在进行生成式任务时,模型需要逐步生成序列,每次生成一个新token时,模型需要读入所有过去Token的上下文,重新计算之前所有token的键(Key)和值(Value)。KV缓存通过存储这些已计算的Key和Value,避免重复计算,从而提高推理效率。MLA的方法是将KV矩阵转换为低秩形式,将原矩阵表示为两个较小矩阵(相当于潜在向量)的乘积,在推理过程中,仅缓存潜在向量,而不缓存完整的KV。这种低秩压缩技术显著减少了KV缓存的大小,同时保留了关键信息,从而降低内存占用及计算成本。
多token预测(MTP)是一种创新的训练目标,通过同时预测多个未来token来提升模型的训练和推理效率。MTP技术基于主模型(Main Model)和多个顺序模块(MTP Module),主模型负责基础的下一个Token预测,而MTP模块用于预测多个未来Token。传统的模型通常一次只预测下一个token,在生成文本时,模型按照顺序逐个生成下一个Token,每生成一个Token都要进行一次完整的计算,依赖前一个生成的Token来生成下一个;而MTP能够同时预测多个连续的Token,模型通过改造增加多个独立输出头,利用多token交叉熵损失进行训练,一次计算可以得到多个Token的预测结果,显著增加了训练信号的密度,提升模型的训练和推理效率,并且MTP生成的文本更加连贯自然,适合长文本生成任务。
3.DeepSeek采用FP8混合精度训练技术在训练效率、内存占用和模型性能方面实现了显著优化传统大模型通常使用FP32或FP16进行训练,精度较高,但计算速度慢,内存占用较大。而FP8数据位宽是8位,与FP16、FP32相比,使用FP8进行计算的速度最快、内存占用最小。DeepSeekFP8混合精度将FP8与BF16、FP32等结合,采用FP8进行大量核心计算操作,少数关键操作则使用BF16或FP32,提高效率的同时确保数值稳定性,并显著减少了内存占用和计算开销。
4.DeepSeek实现大模型训练与推理成本优势巨大,助力AI应用大规模落地DeepSeekV3的训练成本具有极大的经济性,根据DeepSeek-R1TechnicalReport的数据,在预训练阶段,每处理1万亿tokens,训练DeepSeek-V3仅需18万H800GPU小时,即在2048块H800GPU的集群上需要3.7天;因此,DeepSeek-V3的预训练阶段在不到两个月内完成,耗时266.4万(2664K)GPU小时;加上上下文长度扩展所需的11.9万GPU小时和后训练所需的5千GPU小时,DeepSeek-V3的完整训练仅需278.8万GPU小时;假设H800GPU的租赁价格为每小时2美元,DeepSeek-V3的总训练成本仅为557.6万美元。2025年1月20日DeepSeek-R1正式发布,其API定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元;OpenAlo1定价为每百万输入tokens55元(缓存命中)/110元(缓存未命中),每百万输出tokens438元;DeepSeek-R1API调用成本不到OpenAlo1的5%。DeepSeek-V3性能对标GPT-4o,DeepSeek-R1性能对标OpenAIo1,并且DeepSeek模型成本优势巨大,有望推动AI应用大规模落地。
5.DeepSeek有望推动推理需求加速释放,国产AI算力芯片或持续提升市场份额随着大模型的成熟及AI应用的不断拓展,推理场景需求日益增加,推理服务器的占比将显著提高;IDC预计2028年中国AI服务器用于推理工作负载占比将达到73%。根据的IDC数据,2024上半年,中国加速芯片的市场规模达超过90万张,国产AI芯片出货量已接近20万张,约占整个市场份额的20%;用于推理的AI芯片占据61%的市场份额。DeepSeek-R1通过技术创新实现模型推理极高性价比,蒸馏技术使小模型也具有强大的推理能力及低成本,将助力AI应用大规模落地,有望推动推理需求加速释放。由于推理服务器占比远高于训练服务器,在AI算力芯片进口受限的背景下,用于推理的AI算力芯片国产替代空间更为广阔,国产AI算力芯片有望持续提升市场份额。
6.国产算力生态链全面适配DeepSeek,国产AI算力芯片厂商有望加速发展DeepSeek大模型得到全球众多科技厂商的认可,纷纷对DeepSeek模型进行支持,国内AI算力芯片厂商、CPU厂商、操作系统厂商、AI服务器及一体机厂商、云计算及IDC厂商等国产算力生态链全面适配DeepSeek,有望加速AI应用落地。华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、寒武纪、云天励飞、燧原科技、昆仑芯等国产AI算力芯片厂商已完成适配DeepSeek,DeepSeek通过技术创新提升AI算力芯片的效率,进而加快国产AI算力芯片自主可控的进程,国产AI算力芯片厂商有望加速发展。
九、参考研报中原证券-半导体行业深度报告:AI算力芯片——AI时代的引擎
中原证券-半导体行业:AI算力芯片是“AI时代的引擎”,河南省着力布局
东吴证券-电子行业点评报告:GPGPU与ASIC之争—算力芯片看点系列-
招商证券-半导体行业月度深度跟踪:DeepSeek推动国内AI生态发展,算力芯片适配、端侧创新等加速
国投证券-电子行业周报:美新规加速算力芯片国产替代,高通展望端侧AI落地趋势
国泰君安-电子元器件行业事件快评:国内政策驱动自主可控,国产算力芯片加速渗透
中原证券-通信行业专题研究:算力基建带动光芯片需求持续增长,河南省“追光逐芯”助力国产芯片突围
山西证券-海光信息-688041-国产CPU和DCU双领军,信创+AI驱动高速成长
华福证券-龙芯中科-688047-自主指令集踏波逐浪,信创+开放市场双轮驱动
申万宏源-纳芯微-688052-国产稀缺车规模拟芯片厂商
中泰证券-纳芯微-688052-内生外延两翼齐飞,聚焦汽车等高壁垒市场持续深化产品矩阵
国盛证券-寒武纪-688256-国产算力核心,时代的主角
东吴证券-寒武纪-688256-寒武破晓,算力腾飞
华鑫证券-复旦微电-688385-公司动态研究报告:盈利能力短期承压,新一代FPGA产品稳步推进
广发证券-紫光国微-002049-维持行业领先地位,持续布局重点领域
东方证券-紫光国微-002049-汽车电子领域全面布局,特种行业持续拓展
华西证券-景嘉微-300474-国产GPU先驱者,定增加码高性能GPU
浙商证券-景嘉微-300474-深度报告:国产GPU先锋,技术积淀与研发优势驱动未来
慧博公众号
慧博APP
慧博PC版
慧博官网:网页链接
电话:400-806-1866
邮箱:hbzixun@126.com
免责声明:以上内容仅供学习交流,不构成投资建议。
以上相关研报原文可在“慧博智能策略终端”PC版或“慧博投资分析”APP中查看。