lijj 发表于 2022-07-19 11:39

gff文件的utr的合并排序

合并两个gff3一个是EVM整合三方预测(重头预测、同源预测、转录组预测)得来的 evm.gff3,该文件格式如下:含有gene,mrna,exon,cds的信息,且按照染色体和位置信息进行的排序。chr14   EVM   gene    271   990   .       -       .       ID=evm.TU.chr14.1;Name=EVM%20prediction%20chr14.1
chr14   EVM   mRNA    271   990   .       -       .       ID=evm.model.chr14.1;Parent=evm.TU.chr14.1;Name=EVM%20prediction%20chr14.1
chr14   EVM   exon    876   990   .       -       .       ID=evm.model.chr14.1.exon1;Parent=evm.model.chr14.1
chr14   EVM   CDS   876   990   .       -       0       ID=cds.evm.model.chr14.1;Parent=evm.model.chr14.1
chr14   EVM   exon    499   676   .       -       .       ID=evm.model.chr14.1.exon2;Parent=evm.model.chr14.1
chr14   EVM   CDS   499   676   .       -       2       ID=cds.evm.model.chr14.1;Parent=evm.model.chr14.1
chr14   EVM   exon    271   406   .       -       .       ID=evm.model.chr14.1.exon3;Parent=evm.model.chr14.1
chr14   EVM   CDS   271   406   .       -       1       ID=cds.evm.model.chr14.1;Parent=evm.model.chr14.1

chr14   EVM   gene    43465   47546   .       -       .       ID=evm.TU.chr14.2;Name=EVM%20prediction%20chr14.2
chr14   EVM   mRNA    43465   47546   .       -       .       ID=evm.model.chr14.2;Parent=evm.TU.chr14.2;Name=EVM%20prediction%20chr14.2




另一个是从转录组预测提取的UTR.gff3,格式如下:只含有UTR信息
chr10   transdecoder    three_prime_UTR 20357313      20358140      .       +       .       ID=asmbl_10002.p1.utr3p1;Parent=asmbl_10002.p1
chr10   transdecoder    three_prime_UTR 20359576      20359752      .       -       .       ID=asmbl_10003.p1.utr3p1;Parent=asmbl_10003.p1
chr10   transdecoder    three_prime_UTR 20359576      20359752      .       -       .       ID=asmbl_10004.p1.utr3p1;Parent=asmbl_10004.p1
chr10   transdecoder    five_prime_UTR20365069      20365102      .       +       .       ID=asmbl_10005.p1.utr5p1;Parent=asmbl_10005.p1
chr10   transdecoder    three_prime_UTR 20367505      20367513      .       +       .       ID=asmbl_10005.p1.utr3p1;Parent=asmbl_10005.p1
chr10   transdecoder    five_prime_UTR20371655      20371704      .       -       .       ID=asmbl_10007.p1.utr5p1;Parent=asmbl_10007.p1
chr10   transdecoder    five_prime_UTR20370885      20370904      .       -       .       ID=asmbl_10007.p1.utr5p2;Parent=asmbl_10007.p1




问题:如何将两个文件合并,按照染色体顺序排列,同时第四列按从小到大的序列排列,最终格式类似于evm.gff3那种,一个基因为分割区,每个基因分割区依次的第三列依次为"gene,mRNA,exon,CDS,UTR".
页: [1]
查看完整版本: gff文件的utr的合并排序