几种推测cdna编码的蛋白质的方法

几种推测cdna编码的蛋白质的方法,第1张

利用互联网预测cDNA蛋白质产物的结构和功能3

王涤平综述 童坦君审校

(北京大学医学部生物化学与分子生物学系 北京100083)

摘要 人类基因组计划预计近两三年内即可完成,我们将会得到许多序列已知但未知功能的cDNA。本文简单介绍利用互联网上信息资源分析cDNA序列和预测它所编码的蛋白质的结构和功能的方法和常用工具。

关键词 互联网,cDNA,蛋白质,结构和功能预测

The protein product of cDNA:Predicting its structure and function using internet

W ANG Di2Ping,T ONG T an2Jun

(The H ealth Science Center,Peking Univer sity,Beijing100083,P.R.China)

Abstract The Human G ene Project will be completed in tw o or three years,biologist will obtain many cDNA sequences which functions are unknown.This article introduces s ome methods and tools in internet,by which we can analysis cDNA sequences and predict the structure and function of the proteins that are coded by them.

K ey w ords internet,cDNA,protein,structural and functional prediction

人类基因组计划(Human G ene Project,HG P)进展非常迅速。1999年11月人类第22条染色体的测序全部完成,这是第一条完整测序的染色体[1]。2000年5月人类第21条染色体的测序也宣布完成[2]。到1999年底约有1P3的基因组序列已经测出,目前保守估计不迟于2003年底将全部完成,人类即将步入后基因组时代。(编者注:本文发排时HG P已全部完成)。然而HG P只是一个以测序为主的结构基因组学的研究,该计划完成之后的任务更加艰巨,要阐明整个基因组基因的功能可能是21世纪整个生物学界的中心任务。为了阐述新基因的功能,科学家已经提出了功能基因组学(functional genomics)、转录子组学(transcriptomics)、蛋白质组学(proteomics)的概念。但是目前由于各方面技术的限制其速度远远跟不上潮水般涌现的新基因的步伐。近年来cDNA 克隆和测序工作进展也很快,一方面短序列片段(EST)在数据库中大量涌现,另一方面越来越多的全长cDNA得以克隆和测序,许多新型cDNA文库也被大量构建,极大地扩展了cDNA文库的应用。这样,分子生物学工作者经常会遇到一个问题:在获取一条cDNA部分或全长序列后如何判断它是属于已知或未知的某个基因、如何知道它所编码的蛋白质的结构和功能。随着计算机网络技术和生物信息学的飞速发展,利用互联网上生物信息资源对cDNA序列及其蛋白质产物的结构和功能进行分析和预测已经成为一个快速、简单可行的方法。1 常用序列数据库

G enBank由NC BI(美国国立卫生研究院生物技术中心)创建并管理,是NC BI众多数据库中最重要的一个,能提供超过55000种不同生物的所有已知的核酸及蛋白质序列和相关文献及生物学注释[3]。它与E M BL P E BI(欧洲分子生物学实验室P欧洲生物信息学研究所)的E M BL数据库及日本国立遗传学研究所的DDB J数据库是最主要的3家DNA和蛋白质序列数据库。它们分别收集各自所在区域的序列信息,每天交换各自数据库新建立的记录,每隔两三个月完整地更新一次数据库信息,这样就保证了它们几乎包括了所有已知的核酸及蛋白质序列。dbEST数据库是G enBank的一部分,它包含了cDNA片段或EST的序列数据和其它相关信息。为了管理重复的EST数据和便于信息的提取,NC BI创建了Unigene系统,它能自动地将G enBank中包括EST序列在内的DNA序列进行系统分析,形成无重复的同一基因起源的序列簇(gene2oriented clusters),每一个簇代表一个基因。NC BI现有人类、大鼠和小鼠三个Unigene库。至1999年末在人类的Unigene库中包含有超过150万个EST所形成的约83000个序列簇[4]。G S DB(G enome Sequence Database)是由NCG R(Na2 tional Center for G enome Res ources)创建管理的基因组数据库。从1999年秋开始G S DB不再接受个人实验室递交的数据,数据库的所有权转交给了G enBank。目前G S DB仍然能够提供

3国家自然科学基金重点项目(项目号39930170)与国家重点基础研究发展规划(项目号G2000057001)资助课题

7

4

1

生物技术通讯

LETTERS I N BI OTECH NO LOGY V ol.12 N o.2 May2001

© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.

序列分析和查询服务。G DB (G enome Database )是约翰・霍普金斯大学医学院的人类基因组数据库,它包括人类基因组各方面的信息如基因、克隆、断裂位点(breakpoints )、细胞遗传学标志、脆弱位点、EST 、重复序列和重叠群,另外还有人类基因组图谱、基因组突变多型性以及等位基因组频率数据的信息。

PIR (Protein In formation Res ource )和SWISS 2PROT 因收录全

面、注释详尽、重复率低和与相关数据库的广泛连接等特点而成为最常用的蛋白质序列信息综合数据库。SWISS 2PROT 创建于1987年,现在由E M BL 和SI B (瑞士生物信息学研究所)联合管理,到1999年11月SWISS 2PROT 已有约81000条序列。在SWISS 2PROT 中每个序列条目下都有参考文献、分类数据和相关注释的信息,这些信息主要包括蛋白质的功能、翻译后修饰、结构域和位点、二级和四级结构、与其它蛋白质的同源性、相关疾病及序列变异等方面的信息。由于核酸序列爆炸性的增加而数据库的注释速度有限,E M BL 和

SI B 在1996年推出了SWISS 2PROT 的补充数据库T rE BM L ,T rE BM L 是由计算机将E M BL 数据库中除了编码SWISS 2PROT

中已有序列以外的所有编码序列(C DS )翻译并注释而形成的,所以其注释的准确性比SWISS 2PROT 低

[5]

现在互联网上生物信息数据库种类繁多,可谓五花八门,除上述的大的综合性数据库外还有许多专业方向特异的数据库如RNA 、酶、载体、转录因子、翻译信号及各种物种的数据库等等。由于生物信息学数据库的急剧增多,专门收集生物信息学数据库目录的数据库也应运而生。Dbcat (http :P P

w w w.in fobiogen.fr P services P dbcat )有500个按不同领域(DNA 、RNA 、蛋白质、文献等)分类的生物学数据库以供检索。E BI P E M BL 新推出的SRS (Sequence Retrieval System )5.1版中也增

添了DAT ABANK S 数据库,其中含有约1300个生物学数据库,用户进入SRS 的主页(http :P P w w w.ebi.ac.uk P )选择“SRS

W orld Wide ”后即可检索DAT ABANK S

[6]

2 全长cDNA 的获取

在进行序列分析和结构功能预测时最好能利用全长

cDNA 序列。若只有部分cDNA 序列或EST 片段,传统方法

是通过RACE 法或重新筛选新的cDNA 文库。简单快捷的方法是通过硅片克隆(sililo cloning )的方法拼接出cDNA 全长。基本过程如下:从EST 开始利用同源性比较工具(BLAST 、

FAST A 等)在公共EST 数据库(如dbEST )中找出高度同源的EST ,通过EST 拼接,形成重叠群(contig ),然后将重叠群再次

进行BLAST 拼接直到没有新的重叠群发现即得到了完整的编码框。进入Unigene 数据库中只要输入EST 登录号就可以得到属于同一转录起始位点的其它序列。欲直接得到EST 簇及其重叠群可以登录T igem 网站(http :P P gcy.tigem.it P cgi 2

bin P uniestass.pl )的EST assembly machine ,利用EST 拼接程序(EST assembly program )即可。同样的程序还有ESTblast ,它更

为复杂和完善,该程序在HG MP 2RC (human genome mapping

project )服务器(http :P P w w w.hgmp.mrc.ac.uk P ESTblast P )上可以

提供。将含重叠群的EST 与数据库反复比较延伸就可能获得cDNA 全长。利用它就可以进一步进行序列分析和结构与功能预测。在得到cDNA 全长后就可以将其序列或数据库位名输入相应数据库或服务器进行检索、查询相关注释和预测其编码的蛋白质的结构和功能。在ESTblast 输出结果的界面上有与这些数据库和程序的超级链接,使用极为方便[7]。

3 网上序列分析和基因定位的工具

当得到一个完整的cDNA 序列后首先要进行对序列数据库的类似性检索,以鉴定是否为新基因及对基因的结构、定位及其编码的蛋白质的结构、功能进行研究。NC BI 的

BLAST 是目前广泛应用的同源性比较工具。BLAST 有5个

应用程序:Blastp 、Blastn 、Blastx 、tBlastn 、tBlastx ,应依照所需检索的和所检索的数据库是核酸或氨基酸序列及阅读框架的不同而使用,具体见表1。值得一提的是尽管许多服务器能把核酸与氨基酸序列互相转换,但是若已知氨基酸序列最好用氨基酸序列进行分析。因为DNA 序列存在阅读框架和非编码区等问题,而且氨基酸种类多,特异性识别容易。

BLAST 能对十几种指定的数据库(包括nr 、dbSTS 、dbEST 、PDB

等)进行比较。BLAST 的新版本有G apped BLAST 、PSI 2BLAST

(P osition S pecific Iterated BLAST )、BLAST 2sequences 、PHI 2BLAST (Pattern Hit Initiated BLAST )。与传统的BLAST 比较,G apped BLAST 允许在序列对排(alignment )中有部分插入或缺失,有

利于得到较大的同源片段,同时运行速度也提高了。PSI 2

BLAST 首先进行一次传统的BLAST 搜索产生序列对排从而

构建一个位置特异的轮廊(profile ),然后用此轮廓的矩阵

(matrix )代替起初的序列进行同源性搜索。PSI 2BLAST 大大

提高同源性搜索的敏感性,有助于发现蛋白质家族中的变异成员和确定新基因的功能[8]。BLAST 2sequences 通过产生一个代表序列对排的点状图(dot 2plot )来显示两个DNA 或肽序列之间的相似性。PHI 2BLAST 要求将所需查询的氨基酸序列和相应的模体一起输入,能够获得序列和结构都相对应的序列对排。另外,FAST A 和SSE ARCH 也是相似性比较程序,与BLAST 相比运行速度慢一些但效果更好。

Locus Link (http :P P w w w.ncbi.nlm.nih.g ov P Locus Link P )和RefSeq (http :P P w w w.ncbi.nlm.nih.g ov P Locus Link P reseq.html )是NC BI 新提供的方便快速的获取基因及其产物的详细信息及

基因定位的服务器。用户可以通过多种途径(基因的名称、缩写及序列等)搜索数据库就可以得到相应基因的LocusI D

(数据库位名)、简述及染色体定位。点击LocusI D 即能得到

关于该基因的更为详尽的说明,更方便的是每个基因都与P

(PubMed )、O (OMI M )、R (Refseq )、G (G enBank )、U (UniG ene )、V (dbS NP )数据库相连接,以利进一步查询和分析。其中Refseq

能提供该基因的名称、G enBank 中的I D 、详细的说明和所编码蛋白质的信息,并与相应的蛋白质数据库相链接[10]。

841・生物技术通讯

LETTERS I N BI OTECH NO LOGY  V ol.12 N o.2 May 2001

表1 BLAST的5种程序[9]

程序查询序列数据库比较用 途

blastn blastp blastx tblastn tblastx DNA

蛋白质

DNA

蛋白质

DNA

DNA

蛋白质

蛋白质

DNA

DNA

DNA水平

蛋白质水平

蛋白质水平

蛋白质水平

蛋白质水平

寻找同源DNA序列和剪接模式

发现同源蛋白质

分析新DNA以寻找同源基因和蛋白质

在未注释的DNA中寻找基因

发现基因结构

4 蛋白质结构分析和同源性模建

PDB(Protein Data Bank)是由BN L(Brookhaven National Lab2 oratories)建立的蛋白质结构数据库,1998年10月管理权移交给了RCS B(Research C ollaboratory for S tructure Bioin formatics)。现在PDB除收集蛋白质和多肽的三维结构外,还收集酶、病毒、碳水化合物和核酸的晶体结构数据。新的PDBsum内容更加广泛,是几乎所有核酸和蛋白质结构数据的总集[11]。虽然Marcotte和Enright分别提出通过综合进化相关、表达类型、代谢途径以及复合物结构之间的联系和结构域融合的方法来分析和预测蛋白质功能的新方法[12,13],网上常用蛋白质结构和功能分析方法的基础仍然是依据氨基酸序列的相似性,通过结构域和模体的比较进行分析。PROSITE、P fam、BLOCK S、PRI NTS是常用的结构域或模体数据库。PROSITE 收集的是有生物学意义的蛋白质模型和序列对排。P fam收录了一系列的多重序列对排和H M M(Hidden Markov M odel)模型。BLOCK S存储的是模体和profiles。PRI NTS是收集蛋白质家族指纹(fingerprint)的数据库,指纹是指一群模体的线性整合,运用它来比较、运算比单个模体更准确有效[14]。C ATH 也是一个蛋白质分类数据库,它把蛋白质按不同等级水平分成Class、Architecture、T opology、H om olog ous(C ATH)超家族。SC OP(S tructural Classification of Proteins database)按照家族、超家族、普通折叠和类分层次地组织蛋白质结构数据。SC OP BLAST2sequences现在可以通过以下途径检索:其一是通过浏览SC OP的树状分类结构;其二是利用氨基酸序列检索;其三是关键词检索;其四是通过PDB identifier,最后也可以通过PDB收录或出版的日期检索[15]。

从结构数据库中检索得到的只是原子坐标数据,必须用图像显示软件才能将三维结构呈现出来。RAS M O L是常用的显示蛋白质三维结构的软件之一,利用它可以显示各种不同的图像,包括棍棒、空间填充、α2碳原子骨架折叠和带型等等,各部分可以单独或组合显示,原子、亚基、残基可以着色,图像可以旋转,结果可以存盘。2000年8月最新推出的Pro2 tein Explorer(PE)是从RAS M O L的基础上发展而来,功能更加强大、使用起来更加方便、图像更加形象直观、具有更多的解释说明。两者均可以从RAS M O L主页免费下载后安装在用户的计算机上使用。其它如M AGE和NC BI的C D3n也是很好的三维结构显示软件,也可以从相应的站点下载。了解蛋白质的四级结构对于完整地理解蛋白质的结构和功能是十分必要的,蛋白质四级结构预测服务器PQS能提供PDB中所有蛋白质可能的四级结构的信息[16]。ExPASy服务器是瑞士日内瓦大学开发的专家蛋白分析系统。它可以进行几乎所有的蛋白质序列分析作业,包括理化特性分析、氨基酸组成和分子量分析、序列统计学分析、序列类似性检索、双重和多重序列对排、模式和位点分析、二级结构预测及跨膜区和蛋白质定向的预测。

S wiss2M odel是一个能自动进行蛋白质模型构建的服务器,它能把用户输入的氨基酸序列根据序列同源性模拟构建成蛋白质模型。由于运算系统仍然有许多难以克服的缺陷,并不是所有模建都能得到完美的结果,特别是在靶蛋白质与模板序列之间的相同率较低的区域。事实上,当相同率低于40%时预测的准确率很低。因此,S wiss2M odel提供了两种模式供用户选择。First Approach m ode界面简单,只有当靶蛋白质与模板序列之间的相同率大于25%时自动模建过程才能进行,否则结果将完全不可靠。这时就应选择Optimise m ode,它能修正和优化第一种模式的结果。模建过程一般需要15~60分钟,模建结果(包括最后模型的原子坐标及3D2 profiles)将通过电子邮件发送给用户。需要提醒的是任何一种模建方法的结果都是非实验性的,与该蛋白质的真实结构可能会有出入[17]。

网上各种数据库数据来源不同、丰度不一、数据分类处理方法各异,服务器计算方法也不尽相同,它们各具优缺点,同一序列通过不同数据库或服务器往往会得到不尽相同的结果[18]。因此最好先根据所需信息的类型选择合适的数据库和程序,另外尽量多用几个不同数据库和程序以获取最准确的信息。表2是一些常用的生物学数据库和服务器的网址。虽然生物信息学的方法能预测基因及其蛋白质产物的结构、功能和定位,但是所有预测在未被实验证实以前都是不可靠的。因此必须把二者有机地结合起来,在生物信息学方法提供的信息的基础上指导实验设计,实验所得结果才是最准确的。

9

4

1

王涤平等:利用互联网预测cDNA蛋白质产物的结构和功能

表2 常用的生物学数据库和服务器的网址

数据库或服务器

 网址

G enBank http :P P w w w.ncbi.nlm.nih.g ov P W eb P G enbank P E M BL http :P P w w w.ebi.ac.uk P DDB J http :P P w w w.nig.ac.jp P

G S DB http :P P w w w.ncgr.org P tdb P tdb.html Unigene http :P P w w w.ncbi.nlm.nih.g ov P Unigene P G DB http :P P w w w.gdb.org

PIR

http :P P w w w.gdb.nbrf.georgetown.edu P pri P SWISS 2PROT P T rE M BL http :P P w w w.expasy.ch P sprot PDB http :P P w w w.rcsb.org P pdb P

PDBsum http :P P w w w.biochem.ucl.ac.uk P bsml P pdbsum P PROSITE http :P P w w w.expasy.ch P prosite P P fam http :P P w w w.sanger.ac.uk P s oftware P P fam P BLOCK S http :P P w w w.blocks.fhcrc.org

PRINTS http :P P w w w.biochem.ucl.ac.uk P bsm P dbbrower P PRINTS P printscontents.html SCOP http :P P w w w.mrc 2lmb.cam.ac.uk P scop P CATH http :P P w w w.biochem.ucl.ac.uk P bsm P cath P BLAST http :P P w w w.ncbi.nlm.nih.g ov P BLAST P FAST A http :P P w w w2.ebi.ac.uk P fasta3P SSE ARCH http :P P sss.stan ford.edu P sss P

RAMS O L http :P P w w w.umass.edu P microbio P rasm ol P

SWISS 2M ODE L http :w w w.expasy.ch P swissm od P SWISS 2M ODE L.html ExPaSy http :P P expasy.hcuge.ch P PQS

http :P P w w w.pqs.ebi.ac.uk P

参考文献

1 Dunham I ,Shimizu N ,P oe BA et al .The DNA sequence of human

chrom os ome 22.Nature ,1999,402:489

2 H ottori M ,Fujiyama A ,T aylor T D et al .The DNA sequence of human

chrom os ome 21.Nature ,2000,405:311

3 Bens on DA ,K arsch 2M izrachi L ,Ostell J et al .Nucleic Acids Res ,

2000,28:15

4 Wheeler D L ,Chsppey C ,Lash AE et al .Nucleic Acids Res ,2000,28:

10

5 Bairoch A ,Apweiler R.The SWISS 2PROT protein sequence database

and its supplement T rE M BL in 2000.Nucleic Acids Res ,2000,28:456 K reil DP ,E tzx old T.DAT ABANK S 2a catalogue database of m olecular

biology databases.T rends Biochem S ic ,1999,24:155

7 Banti S ,G u ffaniti A ,Borsani G.H ow to get the best of dbEST.T rends

G enetic ,14:81

8 Altschul SF ,K oonin E V.Iterated profile searches with PSI 2BLAST 2a

tool for discovery in protein databases.T rends Biochem Sci ,1998,23:358

9 Brenner SE.Practical database searching.T rends G uide to Bioin format 2

ics (T rends suppl ),1998,910 Puitt K D ,K atz K S ,S icotte H et al .Introducing Refseq and Locuslink :

curated human genome res ources at the NC BI.T rends G enetic ,2000,16:44

11 Puitt K D ,K atz K S ,S icotte H et al .Introducing Refseq and Locuslink :

curated human genome res ources at the NC BI.T rends G enetic ,2000,16:44

12 M arcotte E M ,Pellegrinim M ,Thom ps on M J et al .A combines alg o 2

rithm for genome 2wide prediction of protein function.Nature ,1999,402:83

13 Enright A J ,Illopoulos I ,K yrpides NC et al .Protein interaction maps

for com plete genomes based on gene fusion events.Nature ,1999,402:86

14 Attw ood TK,Croning M DR ,Flower DR et al .PRINTS 2S :the database

formerly known as PRINTS.Nucleic Acids Res ,2000,28:22515 C onte LC ,Ailey B ,Hubbard T JP et al .SCOP :a structural classifica 2

tion of proteins database.Nucleic Acids Res ,2000,28:257

16 Henrick K Thornton JM.PQS :a protein quaternary structure file server.

T rends Biochem ,Sci ,1998,23:358

17 G uex N ,Diemand A ,Peitsch MC.Protein m odeling for all.T rends

Biochem Sci ,1999,24:364

18 Bouck J ,W ei Y u ,G ibbs R et al .C om paris on of gene indexing databas 2

es.T rends G enetic ,1999,15:159

(2000209225收稿)

051・生物技术通讯LETTERS I N BI OTECH NO LOGY  V ol.12 N o.2 May 2001

5.9

百度文库VIP限时优惠现在开通,立享6亿+VIP内容

立即获取

利用互联网预测cDNA蛋白质产物的结构和功能

利用互联网预测cDNA蛋白质产物的结构和功能3

王涤平综述 童坦君审校

(北京大学医学部生物化学与分子生物学系 北京100083)

摘要 人类基因组计划预计近两三年内即可完成,我们将会得到许多序列已知但未知功能的cDNA。本文简单介绍利用互联网上信息资源分析cDNA序列和预测它所编码的蛋白质的结构和功能的方法和常用工具。

关键词 互联网,cDNA,蛋白质,结构和功能预测

第 1 页

The protein product of cDNA:Predicting its structure and function using internet

W ANG Di2Ping,T ONG T an2Jun

(The H ealth Science Center,Peking Univer sity,Beijing100083,P.R.China)

Abstract The Human G ene Project will be completed in tw o or three years,biologist will obtain many cDNA sequences which functions are unknown.This article introduces s ome methods and tools in internet,by which can analysis cDNA sequences and predict the structure and function of the proteins that are coded by them.

展开全文

如果说英伟达的Grace CPU超级芯片的架构是CPU+GPU是巧合,那么英特尔和AMD推出的Falcon Shores XPU芯片、Instinct MI300芯片同样是CPU+GPU结构时,CPU+GPU一体的架构就很难称之为巧合了。

更为“碰巧”的是,以上三种芯片其都是用于数据中心的场景,这就意味着在未来两年内,AMD、英伟达和英特尔都将拥有混合CPU+GPU芯片进入数据中心市场。

可以说CPU+GPU的形式已经成为未来芯片设计的趋势。

英特尔推出XPU

英特尔宣布了一款特殊的融合型处理器“Falcon Shores”,官方称之为XPU。其核心是一个新的处理器架构,将英特尔的x86 CPU和Xe GPU硬件置入同一颗Xeon芯片中。

Falcon Shores芯片基于区块(Tile)设计,具备非常高的伸缩性、灵活性,可以更好地满足HPC、AI应用需求。

按照英特尔给出的数字,对比当今水平,Falcon Shores的能耗比提升超过5倍,x86计算密度提升超过5倍,内存容量与密度提升超过5倍。

Falcon Shores芯片将在2024年推出。

AMD推出APU

在数据中心领域,AMD同样展示其野心。

APU是AMD传统上用于集成显卡的客户端CPU的“加速处理单元”命名法。自2006年Opteron CPU的鼎盛时期以来,AMD一直梦想着使用APU,并于2010年开始推出第一款用于PC的APU。随后在索尼Play Station4和5以及微软Xbox XS中推出了定制APU系列 游戏 机,也推出了一些Opteron APU——2013年的X2100和2017年的X3000。

最近,AMD公布的路线图中显示,其将在2023年推出Instinct MI300芯片,这是AMD推出的第一款百亿亿次APU,AMD将其称为“世界上第一个数据中心APU”。

而这个APU是一种将CPU和GPU内核组合到一个封装中的芯片,仔细来说是将基于Zen4的Epyc CPU与使用其全新CDNA3架构的GPU相结合。

AMD表示Instinct MI300预计将比其Instinct MI250X提供超过8倍的AI训练性能提升,与支持Instinct MI200系列的CDNA2 GPU架构相比,用于Instinct MI300的CDNA3架构将为AI工作负载提供超过5倍的性能功耗比提升。

Instinct MI300将于2023年问世。

英伟达Grace超级芯片

一直专注于GPU设计的英伟达,在去年宣布进军基于Arm架构的CPU时引发了一阵轰动。在今年3月,英伟达推出解决HPC和大规模人工智能应用程序的Grace Hopper超级芯片。这款芯片将NVIDIA Hopper GPU与Grace CPU通过NVLink-C2C结合在一个集成模块中。

CPU+GPU的Grace Hopper核心数减半,LPDDR5X内存也只有512GB,但多了显卡的80GBHBM3内存,总带宽可达3.5TB/s,代价是功耗1000W,每个机架容纳42个节点。

英伟达同样承诺在2023年上半年推出其超级芯片。

从推出的时间节点来看,英特尔Falcon Shores芯片、AMD Instinct MI300、英伟达Grace Hopper超级芯片分别在2024年、2023年、2023年上半年推出。

CPU+GPU的形式,为什么引起了三大巨头的兴趣,纷纷将其布局于数据中心?

首先,在数字经济时代,算力正在成为一种新的生产力,广泛融合到 社会 生产生活的各个方面。数据中心是算力的物理承载,是数字化发展的关键基础设施。全球数据中心新增稳定,2021年全球数据中戏市场规模超过679亿美元,较2020年增长9.8%。因此,具有巨大市场的数据中心早已被 科技 巨头紧盯。

其次,数据中心会收集大量的数据,因此需要搭建于数据中心的芯片具有极大算力,将CPU与GPU组合可以提高算力。英特尔高级副总裁兼加速计算系统和图形(AXG)集团总经理Raja Koduri的演讲中提及,如果想要成功获得HPC市场,就需要芯片能够处理海量的数据集。尽管,GPU具有强大的计算能力,能够同时并行工作数百个的内核,但如今独立的GPU仍然有一大缺陷,就是大的数据集无法轻松放入独立GPU内存里,需要耗费时间等待显存数据缓慢刷新。

特别是内存问题,将CPU与GPU放入同一架构,能够消除冗余内存副本来改善问题,处理器不再需要将数据复制到自己的专用内存池来访问/更改该数据。统一内存池还意味着不需要第二个内存芯片池,即连接到CPU的DRAM。例如,Instinct MI300将把CDNA3 GPU小芯片和Zen4 CPU小芯片组合到一个处理器封装中,这两个处理器池将共享封装HBM内存。

英伟达官方表示,使用NVLink-C2C互连,Grace CPU将数据传输到Hopper GPU的速度比传统CPU快15倍;但对于数据集规模超大的场景来说,即使有像NVLink和AMD的Infinity Fabric这样的高速接口,由于HPC级处理器操作数据的速度非常快,在CPU和GPU之间交换数据的延迟和带宽代价仍然相当高昂。因此如果能尽可能缩短这一链路的物理距离,就可以节约很多能源并提升性能。

AMD表示,与使用分立CPU和GPU的实现相比,该架构的设计将允许APU使用更低的功耗;英特尔同样表示,其Falcon Shores芯片将显着提高带宽、每瓦性能、计算密度和内存容量。

整合多个独立组件往往会带来很多长期收益,但并不只是将CPU与GPU简单整合到一颗芯片中。英特尔、英伟达及AMD的GPU+CPU均是选择了Chiplet方式。

传统上,为了开发复杂的 IC 产品,供应商设计了一种将所有功能集成在同一芯片上的芯片。在随后的每一代中,每个芯片的功能数量都急剧增加。在最新的 7nm 和 5nm 节点上,成本和复杂性飙升。

而使用Chiplet设计,将具有不同功能和工艺节点的模块化芯片或小芯片封装在同一芯片,芯片客户可以选择这些小芯片中的任何一个,并将它们组装在一个先进的封装中,从而产生一种新的、复杂的芯片设计,作为片上系统 (SoC) 的替代品。

正是由于小芯片的特性,三家巨头在自己发展多芯片互连的同时,还展开了定制服务。

英特尔在发布Falcon Shores时介绍,其架构将使用Chiplet方法,采用不同制造工艺制造的多个芯片和不同的处理器模块可以紧密地塞在一个芯片封装中。这使得英特尔可以在其可以放入其芯片的CPU、GPU、I/O、内存类型、电源管理和其他电路类型上进行更高级别的定制。

最特别的是,Falcon Shores可以按需配置不同区块模块,尤其是x86CPU核心、XeGPU核心,数量和比例都非常灵活,就看做什么用了。

目前,英特尔已开放其 x86 架构进行许可,并制定了Chiplet策略,允许客户将 Arm 和 RISC-V 内核放在一个封装中。

最近,AMD同样打开了定制的大门。AMD首席技术官Mark Papermaster在分析师日会议上表示:“我们专注于让芯片更容易且更灵活实现。”

AMD允许客户在紧凑的芯片封装中实现多个芯粒(也称为chiplet或compute tiles )。AMD已经在使用tiles,但现在AMD允许第三方制造加速器或其他芯片,以将其与x86 CPU和GPU一起包含在其2D或3D封装中。

AMD的定制芯片战略将围绕新的Infinity Architecture 4.0展开,它是芯片封装中芯粒的互连。专有的Infinity结构将与CXL 2.0互连兼容。

Infinity互连还将支持UCIe(Universal Chiplet Interconnect Express)以连接封装中的chiplet。UCIe已经得到英特尔、AMD、Arm、谷歌、Meta等公司的支持。

总体而言,AMD的服务器GPU轨迹与英特尔、英伟达非常相似。这三家公司都在向CPU+GPU组合产品方向发展,英伟达的GraceHopper(Grace+H100)、英特尔的Falcon Shores XPU(混合和匹配CPU+GPU),现在MI300在单个封装上同时使用CPU和GPU小芯片。在所有这三种情况下,这些技术旨在将最好的CPU和最好的GPU结合起来,用于不完全受两者约束的工作负载。

市场研究公司Counterpoint Research的研究分析师Akshara Bassi表示:“随着芯片面积变得越来越大以及晶圆成品率问题越来越重要,多芯片模块封装设计能够实现比单芯片设计更佳的功耗和性能表现。”

Chiplet将继续存在,但就目前而言,该领域是一个孤岛。AMD、苹果、英特尔和英伟达正在将自研的互连设计方案应用于特定的封装技术中。

2018 年,英特尔将 EMIB(嵌入式多硅片)技术升级为逻辑晶圆 3D 堆叠技术。2019 年,英特尔推出 Co-EMIB 技术,能够将两个或多个 Foveros 芯片互连。

AMD率先提出Chiplet模式,在2019年全面采用小芯片技术获得了技术优势。Lisa Su 在演讲时表达了未来的规划,“我们与台积电就他们的 3D 结构密切合作,将小芯片封装与芯片堆叠相结合,为未来的高性能计算产品创建 3D 小芯片架构。”

今年 3 月 2 日,英特尔、AMD、Arm、高通、台积电、三星、日月光、谷歌云、Meta、微软等十大巨头宣布成立 Chiplet 标准联盟,推出了通用小芯片互连标准 (UCIe),希望将行业聚合起来。

迄今为止,只有少数芯片巨头开发和制造了基于Chiplet的设计。由于先进节点开发芯片的成本不断上升,业界比以往任何时候都更需要Chiplet。在多芯片潮流下,下一代顶级芯片必然也将是多芯片设计。

PIR数据库按照数据的性质和注释层次分四个不同部分,分别为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加以检验,也未加注释而PIR4中则包括了其它各种渠道获得的序列,既未验证,也无注释。除了PIR外,另一个重要的蛋白质序列数据库则是SwissProt。该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,简称SIB)和欧洲生物信息学研究所 EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,,简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。PIR和SwissProt是创建最早、使用最为广泛的两个蛋白质数据库。随着各种模式生物基因组计划的进展,DNA序列特别是EST序列大量进入核酸序列数据库。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年[Bairoch, 2000],意为“Translation of EMBL”。该数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分,SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列,包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大的冗余度。另一个常用的蛋白质序列数据库是已知三维结构蛋白质的一级结构序列数据库NRL-3D[Namboodiri, 1990]。该数据库的序列是从三维结构数据库PDB中提取出来。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/500369.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-16
下一篇2023-06-16

发表评论

登录后才能评论

评论列表(0条)

    保存