此博客是对我之前草稿博客:
https://blog.csdn.net/weixin_62528784/article/details/144159378?spm=1001.2014.3001.5501
的补充,
能快速回答下面问题,检验自己检索PDB数据库的能力

PDB蛋白质结构数据库(Protein Data Bank,PDB)(http://www.rcsb.org/)是美国Brookhaven国家实验室于1971年创建的,由结构生物信息学研究合作组织(Research Collaboratory for Structural Bioinformatics,RCSB)维护。PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。


三级结构数据有PDB格式和cif格式,在RCSB数据库中有的大的结构只有cif格式的文件,所以一般采用下载cif格式。在
https://www.rcsb.org/docs/programmatic-access/file-download-services
可以批量用脚本批量下载PDB数据和cif数据,也可以同步rsync数据同步到本地,保持实时更新。

对于刚使用PDB的初学者,了解PDB数据格式在菜单栏learn-》Guide to PDB data下有初步的介绍,要了解PDB格式和cif格式的文件详细信息在下面网址
http://www.wwpdb.org/documentation/file-format
中可以下载和查询帮助文档。
PDB格式文件可以下载对应的pdf帮助文档,cif则没有

cif格式的文件介绍在
https://mmcif.wwpdb.org/

uniprot是蛋白质信息汇总,其中PDB是存储晶体结构的数据库
==================》
首先需要搜索蛋白质:以CTCF为例
左侧栏:









根据左边的条件缩小范围,主要关注3点:

以6QNX为例,
https://www.rcsb.org/structure/6QNX
一,structure summary结构摘要:


右上角的数据下载链接:


其他的:

点开完整报告之后是:

1,下方是文献引用:关于该蛋白质晶体结构的原始文献出处:

2,左侧栏:


分子质量

异三聚体,3条链,且为A1B1C1各1条链
3,最下方:大分子各subunit亚基结构的分析


如果点击右下方的uniprot链接


紧接着的是对该蛋白的domain分布信息,类似与uniprot中的区域信息

同样可以找到chain B的亚基,对应B1,以及chain C的亚基


4,最后面就是实验数据收集的summary:晶体学方面的

以及版本信息:
二,structure结构
蛋白质结构的图形化界面

三,annotation注释
基本上就是结合其他数据库信息

1,domain区域注释:

2,蛋白家族注释:

3,GO基因本体论注释:类似于富集分析
还是分A1/B1/C1链



4,蛋白家族分类:

5,疾病关联:表型分析
同样是分A1B1C1各链



四,实验细节:
数据来源:x射线衍射





至于这里晶体结构上游处理的软件,可以参考我之前的博客:
https://blog.csdn.net/weixin_62528784/article/details/144698291?spm=1001.2014.3001.5501
五,蛋白质aa序列浏览器:
同样结合多种信息


六,对应编码gene的基因组浏览器:
就是基因组浏览器,类似于ucsc以及WashU

七,最后一个条目:发布版本信息

八,结合其他参考:







参考:
https://mp.weixin.qq.com/s/uzU6B8WewBYqBkA6jKL8XQ
