交流合作
数据共享常见问题解答

数据共享常见问题解答

一、CKB是什么项目?

中国慢性病前瞻性研究(China Kadoorie Biobank, CKB,以下简称“项目”)是北京大学与英国牛津大学联合开展的慢性病国际合作研究项目。项目旨在通过建立中国健康人群队列和基于血液标本的基础健康数据库,从遗传、环境和生活方式等多个层次和水平深入研究危害中国人群健康的各类重大慢性病的主要致病因素、保护性因素、发病机理及流行规律和趋势,为有效地制定我国慢性病防控的策略和措施,开发新的治疗和干预手段,提供中国人群的科学证据。

2004年6月-2008年8月,项目完成了包括问卷调查、体格检查、采集用于现场检测和长期储存的血样等内容的基线调查,共调查51.2万余人。2008年6月-10月、2013年8月-2014年9月、2020年7月-2021年12月,项目又分别对5%队列人群开展了三次重复调查,调查内容在基线调查的基础上略有增减。除重复调查以外,项目建立并完善了针对队列人群的死亡以及主要慢性病发病的长期随访监测体系,并通过各地已建立的医保系统获取项目人群的所有住院事件。

项目秉承开放共享的理念,积极探索适合我国科研现状的科学数据开放共享路径,以支持国内外学者开展相关科学研究。2015年,项目开发了数据共享平台(CKB Data Access System,CDAS;平台网址:https://www.ckbiobank.org/CKBDataAccess/),研究人员可通过该平台注册账号并提交数据申请,以获取相应项目数据。

参考文献

1. Chen Z, Lee L, Chen J, Collins R, Wu F, Guo Y, Linksted P, Peto R. Cohort profile: the Kadoorie Study of Chronic Disease in China (KSCDC). In J Epidemiol 2005; 34 (6): 1243-1249.

2. Chen Z, Chen J, Collins R, Guo Y, Peto R, Wu F, Li L. China Kadoorie Biobank of 0.5 million people: survey methods, baseline characteristics and long-term follow-up. In J Epidemiol 2011; 40 (6): 1652-1666.

3. 李立明, 吕筠, 郭彧, Collins R, 陈君石, Peto R, 吴凡, 陈铮鸣. 中国慢性病前瞻性研究: 研究方法和调查对象的基线特征. 中华流行病学杂志, 2012;33(3):249-255.


二、项目数据库中包括哪些内容?

项目数据库目前包含Physical Exam、Background、Tea Consumption、Alcohol Consumption、Biochemistry Data、Smoking、Diet、Pollution、Medical History、Physical Activity、Reproductive History、Mental Health、Questionnaire Quality、Psychological、Section Timings、Meteorological Data、Validation、Endpoints等多项内容。具体可参见网站介绍:https://www.ckbiobank.org/data-access/data-overview。 


三、我可以通过数据共享平台申请哪些数据?

目前,项目向科研同行开放共享项目51.2万余人的基线数据及截至2017年12月31日的死亡、发病、住院等终点事件,约2万人的第一次重复调查数据,2.5万人的第二次重复调查数据,约2万人的临床血生化数据,7300人的NMR代谢组学数据,400人的MS代谢组学数据,以及1400人的蛋白质组学数据。

项目目前暂未开放共享基因组数据、表观遗传数据、外显子测序数据、部分代谢组数据及蛋白质组学数据,后续将分阶段逐步开放共享。


四、我可以申请项目已发表的遗传学研究的结果数据吗?

对于CKB项目已发表的遗传学研究的结果数据,根据国家相关法规要求,申请者可以在指定网站上提交所需结果文件的申请,经批准后可以下载指定数据:

1. 文章题录:Genotyping and population characteristics of the China Kadoorie Biobank. Cell Genom. 2023;3(8):100361. PMID: 37601966.

涉及表型:208个新发疾病的GWAS

申请网站:https://ngdc.cncb.ac.cn/gvm/getProjectDetail?project=GVP000017


五、申请项目数据的整体流程是什么?

undefined


、我想申请项目数据,需要支付费用吗?

项目数据目前对我国研究人员免费开放,不收取任何费用。数据申请者在数据申请、结果分析、文章撰写及投稿过程中产生的相关费用由申请者本人承担。


、哪些人员可以注册数据共享平台?

项目数据共享平台目前对医疗机构、科研院所、高校等单位的正式研究人员(含博士后)开放。不接受学生(含本科生、硕士/博士研究生)、商业公司(包括但不限于医药健康领域)职员等人员的注册申请。在读研究生如想申请项目数据,需经导师同意后以导师名义注册申请。


、我想在数据共享平台上注册,需要如何操作?

申请者需准备好个人简历,并确保注册邮箱可正常收发邮件。申请者必须使用所在机构邮箱注册(示例:张三,来自北京大学。本人机构邮箱zhangsan@pku.edu.cn,通过该邮箱可识别申请者姓名及机构),使用纯数字邮箱(示例:1398888@pku.edu.cn, 1398888@qq.com, 1398888@163.com)的注册申请均不予以通过。请使用与注册机构相符的邮箱进行注册,使用其他机构邮箱的注册申请不予通过。

如申请者确无符合以上要求的机构邮箱,可出具由单位相关部门盖章的证明材料,与简历合并(文件可命名为“XXX简历+证明”)一起上传至数据共享平台。

申请者需根据页面提示逐项、如实、认真填写相关信息。申请者完成注册后,项目审核人员将对申请者资质进行审查,合格者方可通过。


、注册及登录常见问题

问题1:我应该如何设置平台密码?

根据系统要求,系统密码设置规则如下:

· 密码只能包含字母(A-Z或a-z)和数字(0-9);

· 密码必须至少包含1个小写字母、1个大写字母和一个数字;

· 密码不少于10个字符、不多于31个字符;

· 密码不能包含您的用户名、您的前一个密码,更不能和用户名一样;

· 密码中不能包含既往设置过的旧密码;

· 密码中不能包含连续的三个数字,比如123、321;

· 密码中不能包含三个重复数字,比如111、222等;

· 密码中不能包含'test'、'password'等短语。

问题2:我登录平台时如何填写密码?

示例,假设密码设置为CKBckb2024,登录时页面提示输入密码位数:3、6、9,意思是输入密码的第3位、第6位、第9位,即,输入B  b  2即可。

问题3:页面反复提示验证码输入不正确,如何处理?

验证码具有时效性,建议输入前多次刷新并尽快输入相应验证码。

问题4:忘记密码,如何找回?

申请者可点击页面“忘记密码”,通过页面提示,按照操作步骤找回密码。


、我在填写数据申请时,应当注意什么?

请仔细阅读数据申请注意事项,按照建议的方法,按需勾选,可提高申请效率。如数据申请存在问题,将被退修,延迟获取数据进程。

1. 提交详细研究计划

① 申请者需要提交详细的研究计划(包括但不限于研究背景、研究假设、明确的暴露因素及结局事件、拟进行的分析及预期结果),研究内容避免过于宽泛。建议每项数据申请以完成1-2篇发表论文的研究内容为宜。

②项目目前的数据共享模式暂不支持全暴露组关联研究(exposome-wide association studies,ExWAS)或全表型组关联研究(phenome-wide association study,PheWAS)等数据驱动的分析,请您明确研究假设后提交研究计划。

③项目目前暂未开放共享基因组数据、表观遗传数据、外显子测序数据。请勿提交需使用这些未开放共享数据的研究计划。如研究设计中涉及遗传分析的部分拟利用其他研究数据库,请于研究计划中注明。

2. 变量勾选

① 数据共享遵循与研究计划直接相关且必要的最小数据集的原则,请根据研究计划申请所需数据,避免勾选无关变量。

② 多数研究只需要申请基线数据,如果确实需要申请利用重复调查数据,请详细阐明申请重复调查数据的原因(包括但不限于研究背景、研究假设、拟进行的分析及预期结果)。

③ 关于结局变量all events detailed/first event basic的选择

first event basic指队列人群随访过程中对应结局首次出现的那条记录,即新(首)发疾病事件。all events detailed指随访期间所有记录的发病和住院事件。绝大多数研究目的分析的是新(首)发疾病事件,应选择first event basic。项目目前的数据共享模式不鼓励同时申请每名参加者所有记录的发病和住院事件;如果确定申请,需在研究计划中详细阐明申请所有发病事件数据的原因(包括但不限于研究背景、研究假设、拟进行的分析及预期结果)。

④ 结局变量拟使用自定义的ICD-10编码时,请在研究计划中补充说明所申请的ICD-10编码对应的疾病诊断名称。

⑤ 不要申请尚未开放共享的调查数据

请勿勾选项目尚未对外开放共享的调查数据,已经开放共享的数据范围详见以下网址:https://www.ckbiobank.org/data-access/data-overview


十一、签署《数据使用协议》常见问题

问题1:我可以修改协议内容吗?

《CKB项目数据使用协议》已由CKB项目数据委员会审核定稿,申请者不得修改协议内容。请申请者认真阅读协议模板,确认接受协议内容后再申请项目数据。

问题2:协议上需要盖章吗?盖什么章?

协议需加盖申请者所在单位公章。如加盖单位公章确实存在困难,可申请加盖二级学院或相关管理部门印章(如XX大学公共卫生学院、XX医院科研处)。印章须为圆章,椭圆章/方章不予接受。

问题3:协议由谁来签字?

协议需申请者本人亲笔签名。若所在单位要求负责人同签,则申请者本人可在一旁补签本人姓名。


十二、数据传输

问题1:签署协议后,我如何获取数据?

项目生成数据后,将通过数据共享平台传输数据。请申请者关注邮件通知,并根据提示下载解压数据。

问题2:获得数据后,如何打开数据文件?

数据文件为加密压缩文件,文件解压密码分为两个部分,一部分将通过邮件方式发送至您的邮箱,另一部分在数据共享平台下载页面,请申请者认真查找并将两部分密码组合后进行文件解压。


、我拿到数据后,如果发现少勾选了一些变量,怎么办?

申请者如发现少选、漏选一些变量,影响研究继续开展,可以申请补充数据。具体操作方法为:登录系统后选择初始数据申请,点击“修改”,系统将自动生成一个新的申请,原申请已有的内容不能修改,只能增加勾选新的数据变量。补充申请流程与初审申请的整体流程、所需时间相同。


、论文投稿及发表常见问题

问题1:拿到数据后,在进行数据分析和论文撰写期间,是否需要向CKB项目定期报备进展?

申请者自项目申请批准日起计时,需每6个月向项目提交进度报告(具体可见《CKB项目数据统计分析报告要求》)。项目周期不足6个月者,则无须进行中期报告。

问题2:如果完成的论文分析内容与申请时的内容不一致,怎么办?

根据CKB项目相关管理规定,每份协议的签署仅对应一个研究内容/方向。如在分析过程中,研究内容/方向发生变化,需重新递交数据申请。

问题3:完成论文后需要如何向CKB项目报备?

数据申请者投稿论文前,需提前30个工作日(摘要发表则提前15个工作日)向CKB项目数据委员会(E-mail:pdc@kscdc.net)提交论文稿全文、论文摘要、变量清单及统计分析语句备案。文章发表后,申请者需将论文全文电子版发送至同一邮箱再备案。


十五、其它

申请者有任何疑问,可随时联系pdc@kscdc.net/010-82805983。



联系方式 / CONTACT US

邮       编:100191

联系电话:010-82805983

邮       箱:news@kscdc.net

地       址:北京市海淀区学院路38号北京大学医学部医学科技楼(西楼)6层

微信公众号

版权所有©中国慢性病前瞻性研究