科研星球

医学生实用医学数据库整理

如今,无论是医学文献,还是真正的医疗数据,无不在飞速发展。前不久「不识知网」的故事一时传为笑谈。然而,知也无涯;说不定哪一天我们也会面对类似的问题懵然不知而贻笑大方呢。本文可以算是扫盲。

No.1

医学文献数据库


中文数据库

中国知网、维普网和万方数据是国内三个主要的文献全文数据库,也涵盖了医学文献。中国生物医学文献服务系统 (SinoMed, http://www.sinomed.ac.cn) 则是常用的医学文摘数据库之一。这里只对中国知网进行简要介绍。

中国知网 (China National Knowledge Infrastructure / CNKI , https://www.cnki.net) 由清华大学和清华同方创建,内容非常全面,纳入的文献类型包括期刊、报纸、会议论文、学位论文、年鉴、图书等。除医疗卫生领域的文献外,也包括经济、文化、教育等多领域。中国医院数字图书馆  (CHKD, https://chkd.cnki.net) 为知网下的医学类平台,除了查询期刊论文、学位论文、会议论文等之外,CHKD 医学工具书库也是非常全面和方便的工具。CHKD 的外文文献库包括 Elsevier、Springer 和 Directory of Open Access Journals (DOAJ) 出版的文献数据,提供第三方链接和部分免费全文下载。

英文数据库

Medline / PubMed

美国国立医学图书馆 (National Library of Medicine / NLM, https://www.nlm.nih.gov) 下属的数据库有很多,比如基因序列数据库 GenBank,毒理学数据库 TOXNET 等等。Medline 则是 NLM 所属的综合生物医学信息书目数据库。Medline 收录全球超过 5200 种期刊的 2500 万份文献,是目前最大的医学文摘数据库,使用 MeSH 主题词检索。PubMed (https://www.ncbi.nlm.nih.gov/pubmed) 是 NLM 所属国家生物技术信息中心 (NCBI) 开发并维护的面向公众开放的检索系统,就文献检索而言,既可以检索 Medline 的文献,也可以检索其他来源的文献。

虽然 Medline 是文摘数据库,但是 PubMed 可以链接到 Sciencedirect、Springer、Ovid 等全文数据库获得全文,是医生和医学生最熟悉的文献检索工具。另外,通过 PubMed 主页上「RESOURCES」的链接还可以访问 NCBI 的分子生物学、基因、遗传学等数据库。

Embase

Embase (Excerpta medica database, https://www.embase.com) 是 Elsevier 出版集团所属的医药文献数据库,收录 1947 年以来的药物及医学文献,含有 2000 余项Medline 未收录的杂志,尤其以药物相关的文献为其特点。检索使用 EMTREE 主题词,包含了 MeSH 主题词。

Web of Science

Web of Science (https://clarivate.com/products/web-of-science) 多学科文摘数据库,不仅包括生物医学文献,也包括人文社科等学科。Web of Science下包含多个子库,如 SCI、SCIE、ESI、SSCI、JCR 等,很多国内的大学都已经开通全部或部分子库的接入。这三个数据库是英文文献检索的常用门户且文摘收录各有侧重,做荟萃分析或系统综述常常都需要查到[1]。鉴于检索方式彼此有些不同,因此精通检索的专业人士的建议还是非常有用的。

Cochrane图书馆
说到荟萃分析和系统综述,就必须提到 Cochrane 图书馆 (Cochrane Library, https://www.cochranelibrary.com)Cochrane 系统综述数据库 (Cochrane database of systemic review, CDSR) 向来以高质量的研究数据整合闻名,Cochrane 的系统综述方法严谨,内容详实,是高质量的循证医学证据。CDSR 就是 Cochrane 图书馆的基石,在 Cochrane 图书馆可以查询所有 Cochrane 综述和系统综述研究方案。除此之外,Cochrane 图书馆还有 Cochrane 对照研究注册中心 (Cochrane Central Register of Controlled Trials) ,可以查询随机以及准随机对照研究的报告,这些报告来自 PubMed, Embase 等文献数据库以及 ClinicalTrials.gov 等的注册数据。

No.2

临床研究注册数据库


ClinicalTrials.gov 

ClinicalTrials.gov (https://clinicaltrials.gov) 是美国 NLM 所属的临床研究注册数据库,由 NIH 和 FDA 共同开发,涵盖全世界各种干预性或观察性研究的注册、设计以及结果信息。可以从主页上的Find a study直接按专题搜索,比如输入某个药物的通用名,即可搜索出所有与此药物相关的、在此网站上登记的临床研究的信息和数据,包括已结束(已发表或未发表)、已终止、以及正在进行的研究。不仅可以看到研究的基本信息、设计和进度,有些研究还会开放结果以供查阅。不够理想的是,并不是所有研究都开放结果;另外并不能查到(即使是 de-identified)受试者个体的临床信息。对于病人和家属来说,可以从这里查到是否有药物正在进行受试者招募,可以看到研究的地点、单位、设计和入组标准,同时网站上也提供了相应的联系人。

我国临床研究注册数据库

我国的临床研究注册数据库包括中国临床试验注册中心 ChiCTR (Chinese Clinical Trial Registry, http://www.chictr.org.cn/index.aspx) 及数据管理系统 ResMan (http://www.medresman.org/login.aspx) 。在这里就不详细介绍了。

No.3

人群数据及医疗数据类数据库


这类数据库是医学和公共卫生研究的宝藏,由一个良好建立、长期随访的人群队列中所产出的数据是不可多得的优质研究资源。比如 Framingham 心脏研究队列(https://www.framinghamheartstudy.org) ,自 1948 年建立至今已逾 70 年,贡献颇丰。对于医学生来说,即使没有机会接触到这样的队列数据,同样可以有高质量的面向公众开放的免费数据供研究用。仅举几例如下:

SEER

美国国立癌症研究所肿瘤监测、流行病学及结局项目数据库 (Surveillance, Epidemiology and End Results Program, https://seer.cancer.gov) 简称 SEER,是美国国立癌症研究所 (NCI) 的肿瘤患者登记项目。SEER 数据库是肿瘤研究领域较常用的数据资源,包括了美国部分州县的肿瘤患者登记数据,始于1973年,约涵盖了美国人口的34.6%。SEER 收集肿瘤患者的人口学资料、肿瘤部位、形态、诊断分期、治疗以及随诊信息等。全球的肿瘤研究者均可以在线申请部分数据的使用权,已有大量的文章发表。数据可以直接使用 SEER 自己的统计软件 SEER*Stat 进行分析,也可以导出之后使用常用的统计软件(如SAS)进行分析。对于缺乏数据资源的研究者来说,SEER 数据库是一个很好的研究对象,但是就像所有观察性数据一样,难以避免混杂和偏倚,在进行分析的时候需要注意控制。

美国 CDC 数据
美国疾病预防控制中心 (Center for Disease control and Prevention, CDC) 网站有丰富的数据资源。比如:
·NCHS (国家健康统计中心, National Center of Health Statistics,https://www.cdc.gov/nchs/index.htm) 提供的大量全美健康调查统计数据、出生及死亡数据(https://www.cdc.gov/nchs/data_access/ftp_data.htm)
·CDC BRFSS (Behavioral Risk Factor Surveillance System, https://www.cdc.gov/brfss/index.html)的行为与健康调查数据
·CDC WONDER (Wide-ranging Online Data for Epidemiologic Research,https://wonder.cdc.gov) 的诸多公共卫生相关数据

·WISQARS (Web-based Injury Statistics Query and Reporting System,https://www.cdc.gov/injury/wisqars/index.html) 的创伤、暴力伤害及死亡的数据 ……

CDC网站的很多数据都免费向公众开放下载。NCHS 的调查数据为全国抽样,既有人群调查,如健康与营养状况的调查 (National Health and Nutrition Examination Survey, NHANES),也有医疗机构的调查,如门诊医疗调查 (National Ambulatory Medical Care Survey, NAMCS) 和医院门(急)诊医疗调查 (National Hospital Ambulatory Medical Care Survey, NHAMCS) 等,这些数据多为全国性多年连续的横断面调查数据,具有较好的代表性,如果对流行病学研究、公共卫生和医疗卫生服务研究、卫生政策研究有兴趣,这些数据具有较高的价值,也有大量的文章发表,但应该注意到中美两国公共卫生和医疗体系的差别。对于临床研究而言,虽然有患者的疾病和治疗信息,由于不能提供临床治疗的细节、临床指标(如化验结果)以及病人的随访,具有一定的局限性。另外,调查数据会有相应的偏倚,在分析的时候应当注意。

MIMIC 数据库

说到临床治疗数据,就不能不提到 MIMIC (Medical Information Mart for Intensive Care, https://mimic.physionet.org)。虽然它仅仅是 ICU 数据,但它可能是目前对全球研究者免费开放的最好的院内治疗及监测的真实世界数据库了。现在的数据库是 MIMIC-III,由麻省理工学院开发,数据来自波士顿 BIDMC (Beth Israel  Deaconess Medical Center,贝斯以色列女执事医疗中心) 的ICU患者(包括内外科ICU、CCU、心脏术后监护 CSRU 和创伤术后监护 TSICU),囊括了从 2001 年到 2012 年 53423 例次的住院病人信息。数据库的基本情况可以参考 Scientific Data 上的简介[2]。MIMIC 记录了患者的生命体征、化验检查、治疗用药等临床数据(波形数据在另外单独的数据库中),资源非常丰富,既可以用传统的统计学方法研究治疗与预后的关系,也可以用数据挖掘和机器学习算法进行相应课题的研究。在 Github 上有 MIMIC 分析编程的交流社区 (https://github.com/MIT-LCP/mimic-code)MIMIC 是单中心的数据库,在病人的代表性上有些欠缺,仅基于 MIMIC 得出的结论需要考虑外部真实性的问题。另外,观察性数据都难以避免混杂和偏倚,在进行分析的时候应格外注意。

中国人群数据库
国家人口与健康科学数据共享平台 (http://www.ncmi.cn/column/INDEX) 及公共卫生科学数据中心 (http://www.phsciencedata.cn/Share) 是我国目前能够提供部分公开数据或统计报告的数据库。

另外,就中国人群数据而言,北卡罗莱纳大学的中国健康与营养调查 (China Health and Nutrition Survey, https://www.cpc.unc.edu/projects/china) 是一个开放的数据库,由北卡罗莱纳大学教堂山分校和中国疾控中心合作,包括中国 15 个省的 30000 余名个体。该调查旨在研究改革开放之后中国社会经济变化对人群的营养及健康的影响。数据从 1989 年到 2015 年,可以免费下载,为SAS格式。另外调查所用问卷亦可从网站上获得 (https://www.cpc.unc.edu/projects/china/data/questionnaires)。

最后需要说的是,使用上述开放数据时一定要认真看使用规范和数据说明,除了使用权限以及引用方式之外,变量的描述和定义、分类变量各个值的定义、缺失数据的定义和在数据集中的显示方式、数据有无权重、以及如何计算权重等等,都需要了解清楚。失之毫厘,谬以千里。虽然数据说明动辄几十页上百页,但是和历尽艰辛之后做出不知所云的结果相比,这些时间花得还是值得的。

参考文献

[1] Bramer WM, et al. Optimal database combinations for literature searches in systematic reviews: a prospective exploratory study. Syst Rev. 2017 Dec 6;6(1):245.

[2] Johnson AE, et al. MIMIC-III, a freely accessible critical care database. Sci Data. 2016 May 24;3:160035.


作者:阿拉巴马大学伯明翰分校公共卫生学院 刘晔 


没有账号?