国内生物数据共享会碰到哪些困难？？_问答_开发者

s625826868 2021-09-30 16:47

楼主的问题，生物数据大多指基因组、蛋白质组等，但我更想说的一个生命科学领域整体的数据共享，应该包括以上数据、健康表型数据、还有样本资源。因为，仅仅有以上生物数据的共享，实质开发者_如何学Python上在科研方面的作用会大打折扣。那么，在理清了我们共享的“标的”后，我们可提出共享的问题。

1、机制问题：
如上一楼笔者所说，美国鼓励数据的共享，甚至以强制性措施来要求数据共享。而在国内，大多项目在结项之后就是项目“die”的时候，没有后续性，更多是游击战的节奏。另，国内没有NCBI这样子的平台，提供国内科研工作者把数据上传、共享、供别人使用。（大多数的发英文文章都会发在上面吧~~）OK！回到刚才，既然项目停了，那么老师自然就没有能力来建立个数据库来持续性为其他研究者服务啦！大家可以看看人类遗传资源平台，就是这么一回事，项目结项后好好的平台就没法运营了！

2、意识问题：
在国内大多数老师，都认为这个“样本、表型信息、组学信息”是自己辛辛苦苦去收集，花钱（国家的钱）的去搞回来的，意识上认为是自己的财产，具备该“标的”的所有权！但我们跟国外的某些老师聊过，人家认为这个更应该是人类的东西，就应该共享出去。甚至国内有一部分保守的老师认为，共享数据会引起什么基因战、什么生化危机balabala。我们自己做样本的共享平台E-BioBank，就深刻理解这一点。老师视这个为宝，没有可预见可获得利益的时候，坚决握在手里。

3、激励措施：
“天下熙熙，皆为利来；天下攘攘，皆为利往。”虽说我们走的社会主义道路，但是还是需要搞市场化手段。所以，我觉得在数据共享过程中，应该有利益上的激励措施。如果，数据共享是个尽花钱、尽花心思、没有利益回报的事情，估计这个事情不持久！至于激励措施，应该科学界有个顶层的制度出来。

4、技术问题：
数据是多元化、很泛化的东西，那么如何明确化数据的共享？那就必须给数据清晰的定义，如元数据，还需要确定数据格式内容。如data harmonization，这个问题全世界都在面临。另，大数据的共享，硬件、软件、人才都成问题，如何让如此大数据从A点传输到B点，谁成为大数据的管理者、协调者，这都是个技术活。现在，国家基因库想做这个事情，但是水平自然就远远不及格啦！（我实话实说！）
最后，Share大家一份我们收到的材料：《Framework for Responsible Sharing of Genomic and Health-Related Data》，P3G联合相关联盟搞的材料，值得我们了解！

如有讲得不对，请大家指正！
数据共享、资源共享，都是为了科学发展，为了人类健康事业，为了资源的价值最大化，你我他有责！

浅浅艺谈 2021-09-30 16:48

最大的困难是只给看论文，无法看数据。国内的政府科研项目一直没有强制性的数据公开和共享要求。生命科学的数据零散地掌握在各个科研单位和研究小组内部，对国家的科研投入来说，这是一种巨大的浪费。

据了解，在我国，这样的现象时有发生：国家向某个重大研究课题投入巨资，支持其从基因组层面研究若干重要的遗传疾病。最终，虽然该研究发表了一系列高水平论文，但却从未将详细数据公开。

李亦学认为，这样的研究本可以整体提升中国相关领域学术水平，但“只给看论文、无法看数据”的做法，极开发者_运维技巧大限制了国家级课题的带动效应。

美国是生命科学大数据产出和应用的领先者，不仅数据量和分析技术领先，而且在数据共享方面也是如此。

李亦学告诉记者，美国国立生物技术信息中心（NCBI）存储了分子生物学、生物化学、遗传学领域的海量数据，一大批计算机专家和生物学家维护着这个庞大的数据库和自动分析系统。这个平台对支撑起美国在生命科学领域的地位至关重要。NCBI的数据是科学家无偿提供的。根据规定，美国科学家要想拿到政府经费，必须在申请课题时就承诺在课题完成后，将详细的研究数据提供给NCBI；如果违背承诺，这名研究者将被列入黑名单，可能再也无法得到资助。这是NCBI获得大量数据的根本保证。