hisat2, 基于图的对齐( 分层图调频索引)

分享于 

3分钟阅读

GitHub

  繁體 雙語
Graph-based alignment (Hierarchical Generalized FM index)
  • 源代码名称:hisat2
  • 源代码网址:http://www.github.com/infphilo/hisat2
  • hisat2源代码文档
  • hisat2源代码下载
  • Git URL:
    git://www.github.com/infphilo/hisat2.git
    Git Clone代码到本地:
    git clone http://www.github.com/infphilo/hisat2
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/infphilo/hisat2
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    hisat2

    HISAT2是一个快速而灵敏的校准程序,用于将下一代序列读取( 整个基因组,transcriptome和exome序列数据) 映射到人类基因组( 以及一个单一的参考基因组)。 基于图 [1]的扩展,设计并实现了一个图形调频( GFM ),原始方法及它的最初实现。 in使用一个代表总体总体的全球GFM指数,HISAT2使用一组小的GFM指数来共同覆盖整个基因组的( 每个代表 56 Kbp基因组区域的指数,需要 55,000索引来覆盖人类群体)。 这些小索引( 称为本地索引) 结合几种对齐策略,可以有效地对排序进行排序。 这种新的索引方案称为分层图FM索引( HGFM )。 我们已经开发了基于 HISAT [2] 和 pearl 2 [3] 实现的HISAT2. 有关详细信息,请参阅 HISAT2网站

    请注意以下几点:

    人工参考基因组和 12.3万个常见hisat2的( HGFM ) 大小指数为 6.2 GB。 snp由 11 million单核苷酸多态性。728,000缺失和 555,000插入组成。 这里索引中使用的插入和删除是小型( 通常 <20bp )。 我们计划将结构变量( SV ) 合并到这个索引中。

    HISAT2还允许映射直接映射到 transcriptome,类似于 TopHat2.

    HISAT2的内存占用相对较低,6.7 GB。

    估计HISAT2的运行时间比 HISAT ( 30 -100%对于某些数据集较慢) 慢一些。

    HISAT2提供了更精确地对齐包含snp的读取。

    我们在September发布了第一个( 测试版) 版本的HISAT2,。

    参考:

    计算生物学和生物信息学 11的ieee/acm事务: 375 -388.doi: 10.110 9/tcbb.2013. 2297101

    [2] Kim,Langmead B 和 Salzberg SL HISAT: 具有较低内存要求,自然方法和 2015的快速拼接器

    [3] Langmead B,Salzberg SL: 带领结 2的快速间隙读取。 Nat方法 2012,9: 357-359


    BASE  index  Hiera  align  对齐  
    相关文章