迷茫的椰子
2021-05-27 06:40
没人提picard和gatk嘛。
我看过一些开源项开发者_开发技巧目的源码,在我看过的源码中,私以为picard和gatk的架构和测试和异常处理和代码质量相当之高,可以说达到了it级别。完爆类似varscan,mirdeep这种二三流的好几条街。想想mapsplice的索引居然还要一个染色体一个文本我也是醉了。gatk是个框架,在该框架下只需要很少的代码就可以实现一系列的工作譬如查找snp之类的--当然这个人家已经实现了。
话说c的我看不懂不然很想去观摩李恒大神的bwa,估计那个也是神作,一点点大小性能不输n倍大的bowtie2。
以上,这几个货都是broad institution的啊,膜拜broad中,个人认为是业内最强生物信息。
话又说回来,如果不局限于生物信息,spring-io和hadoop也是不错的开源项目哦,特别是Hadoop yarn,那个实现的真是,好吧其实我看不懂啦:)
迷茫的椰子 2021-05-27 06:45
生物信息领域值得参与一下的开源项目我觉得挺多的,没整理过,说两个我比较熟悉的Bioconductor和Cytoscape。
Bioconductor: 这玩意其实是很多生物相关的R语言扩展包的集合,在国内外的生物信息学术界和工业界都有广泛的使用。Bioconductor中一些核心的包构建了关键生物数据的类,于是各种分析方法都基于这些类开发出来,各种生物实验数据和注释注释以这些类的形式导入到Bioconductor中,既方便处理生物数据,也方便方法学开发者测试方法。所以,参与Bioconductor项目也有很多形式:
1.1 自己开发一个包,提交给Bioconductor:这个事情对于非生物或生物信息背景的人来说,麻烦在于得先找到需求。然后就是开发和维护了。@elemenTY 同学ggbio包就是这个情况。
1.2 参与某个包的开发。鉴于还没有fork和pull的机制,只能自己发邮件找开发者了。
1.3 整理注释数据或者经典的实验数据导入到Bioconductor项目——这事情似乎不是楼主擅长的。
1.4 翻译:Bioconductor不仅仅是个软件包的集合,还有很多教程和学习资料,非常值得传播。
参与Bioconductor项目R语言是必须得,最好还能整整C++,C,Java之类的。
其实,我觉得参与R语言项目本身也是不错的:)
Cytoscape:一个Java开发的开源的复杂网络可视化和分析软件,最初是用于生物网络分析的。可以参与软件本身的开发,也可以为其开发插件。核心开发团队还为Cytoscape开发了App Store~~读书的时候开发过一款Cytoscape上用于网络聚类分析的插件,还有用户用这个插件作分析,发了Nature Genetics的论文。
我觉得,参与开源软件本来就是要靠兴趣。但如果不了解需求,或者没有遇到需求,就很难有兴趣。所以,最好的办法应该是找个生物信息相关的项目或工作,然后去理解其中的任务和需求,再看看是否能改进其中的开源软件或者是自己发起一个开源项目。生物信息领域的主流软件几乎都是开源的。
更新一下:这个领域的开源除了贡献代码,还有一开发者_运维问答种方法是贡献数据——把自己的基因组测了,连同一些表型信息一起开放出来:)@西贝 在准备干这个事情
单车旅行猫 2021-05-27 06:58 开发者_如何学Python
Python 的计算生物学处理包 Biopython: http://biopython.org/wiki/Main_Page
还是 Google Summer of Code 项目,值得参与
另,如果觉得代码能力不足的话,可以先贡献翻译
比如 Biopython 文档的中文版:https://github.com/bigwiv/Biopython-cn
M22****1982 2021-05-27 07:04
接@unionx 所说,Google Summer of Code是一个很好的参加开源项目的机会,当然包括生物信息开源项目。项目只针对学生申请,顺利完成项目会有数千美刀的奖励(14年好像是6000$)。我13年的时候参加了GSoC,搞了一个biopython的小项目。下面根据我的了解大概介绍一下GSoC的情况,希望能帮到想参加的童鞋:
-----------
项目参与:1. 谷歌:参与组织,提供平台,提供奖金;
2. 开源组织:提供项目(一般是某个大型开源项目里面的某个具体化的小任务)给学生申请,因为每个项目都需要学生在大概三个月的时间内多带带完成,所以不会太大;
3. 学生:和开源组织接触,独立完成开源组织提供的项目。
具体流程1. 开源组织申请:开源组织提供相应的项目(一个或多个)向谷歌进行申请,谷歌筛选并公布最终的参与结果。这个阶段包括阶段前后的间隔时间,可以先了解各个组织所提供的项目,寻找感兴趣和有把握的项目,当然你如果有idea,还可以提供自己的项目。找准项目之后,尽早和项目提供者接触,在社区里面进行交流,自我介绍,说明对项目的想法,展示自己的能力,总之让组织者觉得你有能力完成该项目。另外需要注意的,这里的组织和开源项目最终可能不在一个。需要注意的是:虽然申请时,谷歌只会让你参与一个项目,但是你可以选择和多个项目接触。因为,这些项目所对应的组织可能会被谷歌淘汰,说不定就包括你想参与的项目。当然,某些项目也会在自己的组织被淘汰后加入进别的组织。如Bioperl、Biopython、Biojava等项目每年会以OBF组织进行申请,但如果OBF被淘汰,某些项目会加入NESCent,反之亦然。
2. 学生申请:在官网填写表格申请,完善个人信息,教育背景,邮寄地址等等,当然需要能提供学生证或相应证明,只要是在申请时还未毕业就行(我就是这种情况)。提交一个完整的Proposal,大概写的内容是:准备参与的项目,为什么想参加,为什么你而不是别人能完成,计划怎样完成(具体的工作时间表)。这个Proposal需要在申请开始之前就和对应的项目组去交流,那些老师会帮助你完善。不要想着申请多个项目,一个是没那么多时间和精力,另外谷歌在这个阶段也会有一个严格的查重步骤。
3. 接触交流:这个阶段是项目导师和学生交流的阶段,也是申请筛选和公布结果的阶段。每个项目的导师会和申请的学生一个一个接触,使用Skype、谷歌hangout之类的视频聊天工具,最终每个项目选择一个学生。当然会问一些完成项目相关的技术问题,以及是否希望完成项目后继续为社区做共享的问题。好好准备吧,之前详细了解过项目,精心准备过proposal应该问题都不大。
4. 编写代码:按照计划写代码吧,定期在社区更新项目进展。当然计划赶不上变化,实现方式的更改、计划的变更及时在线更新,保证充足的时间,遇到问题和导师交流。整个阶段持续大概三个月时间,中间会有中期考核,最后有个终期考核,考察项目的完成情况。会上传一些资料到GSoC官网,但过不过都是由导师和项目组来决定。
可以看到整个流程中基本上是和开源项目组织在交流,学生申请和项目通过与否都决定于项目组,谷歌只是提供平台和资金,申请条件审核也不会存在什么大问题。所以,早点去接触哪些开源组织吧。下面列出一些常参加GSoC的开源组织和他们的项目页面。
常见生物信息开源组织OBF: 开源生物信息基金会,各种Bioxxx项目,BioPerl、BioPython、BioJava、BioRuby、BioSQL。
GSOC地址: http://www.open-bio.org/wiki/Google_Summer_of_Code ;NESCent: 项目多与进化相关,由世界各地的实验室项目加入、常参与的有 OpenTreeofLife 、PhyML、JalView、PhyloGeoRef、NeXML、TreeBASE等等,许多小工具。
GSOC地址: http://informatics.nescent.org ... _Code;Bioconductor: 这个就不用介绍了。
GSOC地址: http://master.bioconductor.org ... 2014/ ;NRNB: 也不用说了,Cytoscape。
GSOC地址: http://nrnb.org/gsoc.html;Gnome Informatics: 许多有名的项目,Galaxy、GMOD、GBrowse、JBrowse、Biomart、Chado、Wormbase。
GSOC地址: http://gmod.org/wiki/GSoC;Bio4j: 基于图的生物信息数据库平台。
GSOC地址: https://github.com/bio4j/gsoc14/wiki/ideas;Biojs: EBI出的生物数据可视化JS库。
GSOC地址: https://rostlab.org/services/biojs/gsoc.html;Biomedical Informatics, Emory University: 项目比较杂,但貌似年年中。
GSOC地址: https://docs.imphub.org/display/PS/Google Summer of Code - 2014;Crowdsourcing Biology: BioGPS项目。
GSOC地址: http://sulab.org/gsoc;
包裹与奖金 谷歌会分两次发包裹,三次发奖金。Coding开始后寄过来银行卡、笔和笔记本、活动贴纸,银行卡发放500$;中期考核通过发放剩下奖金的一半,否则没有;最终考核通过,发放最后一半奖金,并邮寄通过的证书与纪念衫。
----------
就写这么开发者_开发技巧多,希望有点用处。今年的GSoC还有一个月就要开始了,感兴趣的赶紧行动吧。 https://www.google-melange.com ... c2015
没人提picard和gatk嘛。
我看过一些开源项开发者_开发技巧目的源码,在我看过的源码中,私以为picard和gatk的架构和测试和异常处理和代码质量相当之高,可以说达到了it级别。完爆类似varscan,mirdeep这种二三流的好几条街。想想mapsplice的索引居然还要一个染色体一个文本我也是醉了。gatk是个框架,在该框架下只需要很少的代码就可以实现一系列的工作譬如查找snp之类的--当然这个人家已经实现了。
话说c的我看不懂不然很想去观摩李恒大神的bwa,估计那个也是神作,一点点大小性能不输n倍大的bowtie2。
以上,这几个货都是broad institution的啊,膜拜broad中,个人认为是业内最强生物信息。
话又说回来,如果不局限于生物信息,spring-io和hadoop也是不错的开源项目哦,特别是Hadoop yarn,那个实现的真是,好吧其实我看不懂啦:)
迷茫的椰子 2021-05-27 06:45
生物信息领域值得参与一下的开源项目我觉得挺多的,没整理过,说两个我比较熟悉的Bioconductor和Cytoscape。
Bioconductor: 这玩意其实是很多生物相关的R语言扩展包的集合,在国内外的生物信息学术界和工业界都有广泛的使用。Bioconductor中一些核心的包构建了关键生物数据的类,于是各种分析方法都基于这些类开发出来,各种生物实验数据和注释注释以这些类的形式导入到Bioconductor中,既方便处理生物数据,也方便方法学开发者测试方法。所以,参与Bioconductor项目也有很多形式:
1.1 自己开发一个包,提交给Bioconductor:这个事情对于非生物或生物信息背景的人来说,麻烦在于得先找到需求。然后就是开发和维护了。@elemenTY 同学ggbio包就是这个情况。
1.2 参与某个包的开发。鉴于还没有fork和pull的机制,只能自己发邮件找开发者了。
1.3 整理注释数据或者经典的实验数据导入到Bioconductor项目——这事情似乎不是楼主擅长的。
1.4 翻译:Bioconductor不仅仅是个软件包的集合,还有很多教程和学习资料,非常值得传播。
参与Bioconductor项目R语言是必须得,最好还能整整C++,C,Java之类的。
其实,我觉得参与R语言项目本身也是不错的:)
Cytoscape:一个Java开发的开源的复杂网络可视化和分析软件,最初是用于生物网络分析的。可以参与软件本身的开发,也可以为其开发插件。核心开发团队还为Cytoscape开发了App Store~~读书的时候开发过一款Cytoscape上用于网络聚类分析的插件,还有用户用这个插件作分析,发了Nature Genetics的论文。
我觉得,参与开源软件本来就是要靠兴趣。但如果不了解需求,或者没有遇到需求,就很难有兴趣。所以,最好的办法应该是找个生物信息相关的项目或工作,然后去理解其中的任务和需求,再看看是否能改进其中的开源软件或者是自己发起一个开源项目。生物信息领域的主流软件几乎都是开源的。
更新一下:这个领域的开源除了贡献代码,还有一开发者_运维问答种方法是贡献数据——把自己的基因组测了,连同一些表型信息一起开放出来:)@西贝 在准备干这个事情
单车旅行猫 2021-05-27 06:58 开发者_如何学Python
Python 的计算生物学处理包 Biopython: http://biopython.org/wiki/Main_Page
还是 Google Summer of Code 项目,值得参与
另,如果觉得代码能力不足的话,可以先贡献翻译
比如 Biopython 文档的中文版:https://github.com/bigwiv/Biopython-cn
M22****1982 2021-05-27 07:04
接@unionx 所说,Google Summer of Code是一个很好的参加开源项目的机会,当然包括生物信息开源项目。项目只针对学生申请,顺利完成项目会有数千美刀的奖励(14年好像是6000$)。我13年的时候参加了GSoC,搞了一个biopython的小项目。下面根据我的了解大概介绍一下GSoC的情况,希望能帮到想参加的童鞋:
-----------
项目参与:1. 谷歌:参与组织,提供平台,提供奖金;
2. 开源组织:提供项目(一般是某个大型开源项目里面的某个具体化的小任务)给学生申请,因为每个项目都需要学生在大概三个月的时间内多带带完成,所以不会太大;
3. 学生:和开源组织接触,独立完成开源组织提供的项目。
具体流程1. 开源组织申请:开源组织提供相应的项目(一个或多个)向谷歌进行申请,谷歌筛选并公布最终的参与结果。这个阶段包括阶段前后的间隔时间,可以先了解各个组织所提供的项目,寻找感兴趣和有把握的项目,当然你如果有idea,还可以提供自己的项目。找准项目之后,尽早和项目提供者接触,在社区里面进行交流,自我介绍,说明对项目的想法,展示自己的能力,总之让组织者觉得你有能力完成该项目。另外需要注意的,这里的组织和开源项目最终可能不在一个。需要注意的是:虽然申请时,谷歌只会让你参与一个项目,但是你可以选择和多个项目接触。因为,这些项目所对应的组织可能会被谷歌淘汰,说不定就包括你想参与的项目。当然,某些项目也会在自己的组织被淘汰后加入进别的组织。如Bioperl、Biopython、Biojava等项目每年会以OBF组织进行申请,但如果OBF被淘汰,某些项目会加入NESCent,反之亦然。
2. 学生申请:在官网填写表格申请,完善个人信息,教育背景,邮寄地址等等,当然需要能提供学生证或相应证明,只要是在申请时还未毕业就行(我就是这种情况)。提交一个完整的Proposal,大概写的内容是:准备参与的项目,为什么想参加,为什么你而不是别人能完成,计划怎样完成(具体的工作时间表)。这个Proposal需要在申请开始之前就和对应的项目组去交流,那些老师会帮助你完善。不要想着申请多个项目,一个是没那么多时间和精力,另外谷歌在这个阶段也会有一个严格的查重步骤。
3. 接触交流:这个阶段是项目导师和学生交流的阶段,也是申请筛选和公布结果的阶段。每个项目的导师会和申请的学生一个一个接触,使用Skype、谷歌hangout之类的视频聊天工具,最终每个项目选择一个学生。当然会问一些完成项目相关的技术问题,以及是否希望完成项目后继续为社区做共享的问题。好好准备吧,之前详细了解过项目,精心准备过proposal应该问题都不大。
4. 编写代码:按照计划写代码吧,定期在社区更新项目进展。当然计划赶不上变化,实现方式的更改、计划的变更及时在线更新,保证充足的时间,遇到问题和导师交流。整个阶段持续大概三个月时间,中间会有中期考核,最后有个终期考核,考察项目的完成情况。会上传一些资料到GSoC官网,但过不过都是由导师和项目组来决定。
可以看到整个流程中基本上是和开源项目组织在交流,学生申请和项目通过与否都决定于项目组,谷歌只是提供平台和资金,申请条件审核也不会存在什么大问题。所以,早点去接触哪些开源组织吧。下面列出一些常参加GSoC的开源组织和他们的项目页面。
常见生物信息开源组织OBF: 开源生物信息基金会,各种Bioxxx项目,BioPerl、BioPython、BioJava、BioRuby、BioSQL。
GSOC地址: http://www.open-bio.org/wiki/Google_Summer_of_Code ;NESCent: 项目多与进化相关,由世界各地的实验室项目加入、常参与的有 OpenTreeofLife 、PhyML、JalView、PhyloGeoRef、NeXML、TreeBASE等等,许多小工具。
GSOC地址: http://informatics.nescent.org ... _Code;Bioconductor: 这个就不用介绍了。
GSOC地址: http://master.bioconductor.org ... 2014/ ;NRNB: 也不用说了,Cytoscape。
GSOC地址: http://nrnb.org/gsoc.html;Gnome Informatics: 许多有名的项目,Galaxy、GMOD、GBrowse、JBrowse、Biomart、Chado、Wormbase。
GSOC地址: http://gmod.org/wiki/GSoC;Bio4j: 基于图的生物信息数据库平台。
GSOC地址: https://github.com/bio4j/gsoc14/wiki/ideas;Biojs: EBI出的生物数据可视化JS库。
GSOC地址: https://rostlab.org/services/biojs/gsoc.html;Biomedical Informatics, Emory University: 项目比较杂,但貌似年年中。
GSOC地址: https://docs.imphub.org/display/PS/Google Summer of Code - 2014;Crowdsourcing Biology: BioGPS项目。
GSOC地址: http://sulab.org/gsoc;
包裹与奖金 谷歌会分两次发包裹,三次发奖金。Coding开始后寄过来银行卡、笔和笔记本、活动贴纸,银行卡发放500$;中期考核通过发放剩下奖金的一半,否则没有;最终考核通过,发放最后一半奖金,并邮寄通过的证书与纪念衫。
----------
就写这么开发者_开发技巧多,希望有点用处。今年的GSoC还有一个月就要开始了,感兴趣的赶紧行动吧。 https://www.google-melange.com ... c2015
精彩评论