gff文件的utr的合并排序
合并两个gff3一个是EVM整合三方预测(重头预测、同源预测、转录组预测)得来的 evm.gff3,该文件格式如下:含有gene,mrna,exon,cds的信息,且按照染色体和位置信息进行的排序。chr14 EVM gene 271 990 . - . ID=evm.TU.chr14.1;Name=EVM%20prediction%20chr14.1chr14 EVM mRNA 271 990 . - . ID=evm.model.chr14.1;Parent=evm.TU.chr14.1;Name=EVM%20prediction%20chr14.1
chr14 EVM exon 876 990 . - . ID=evm.model.chr14.1.exon1;Parent=evm.model.chr14.1
chr14 EVM CDS 876 990 . - 0 ID=cds.evm.model.chr14.1;Parent=evm.model.chr14.1
chr14 EVM exon 499 676 . - . ID=evm.model.chr14.1.exon2;Parent=evm.model.chr14.1
chr14 EVM CDS 499 676 . - 2 ID=cds.evm.model.chr14.1;Parent=evm.model.chr14.1
chr14 EVM exon 271 406 . - . ID=evm.model.chr14.1.exon3;Parent=evm.model.chr14.1
chr14 EVM CDS 271 406 . - 1 ID=cds.evm.model.chr14.1;Parent=evm.model.chr14.1
chr14 EVM gene 43465 47546 . - . ID=evm.TU.chr14.2;Name=EVM%20prediction%20chr14.2
chr14 EVM mRNA 43465 47546 . - . ID=evm.model.chr14.2;Parent=evm.TU.chr14.2;Name=EVM%20prediction%20chr14.2
另一个是从转录组预测提取的UTR.gff3,格式如下:只含有UTR信息
chr10 transdecoder three_prime_UTR 20357313 20358140 . + . ID=asmbl_10002.p1.utr3p1;Parent=asmbl_10002.p1
chr10 transdecoder three_prime_UTR 20359576 20359752 . - . ID=asmbl_10003.p1.utr3p1;Parent=asmbl_10003.p1
chr10 transdecoder three_prime_UTR 20359576 20359752 . - . ID=asmbl_10004.p1.utr3p1;Parent=asmbl_10004.p1
chr10 transdecoder five_prime_UTR20365069 20365102 . + . ID=asmbl_10005.p1.utr5p1;Parent=asmbl_10005.p1
chr10 transdecoder three_prime_UTR 20367505 20367513 . + . ID=asmbl_10005.p1.utr3p1;Parent=asmbl_10005.p1
chr10 transdecoder five_prime_UTR20371655 20371704 . - . ID=asmbl_10007.p1.utr5p1;Parent=asmbl_10007.p1
chr10 transdecoder five_prime_UTR20370885 20370904 . - . ID=asmbl_10007.p1.utr5p2;Parent=asmbl_10007.p1
问题:如何将两个文件合并,按照染色体顺序排列,同时第四列按从小到大的序列排列,最终格式类似于evm.gff3那种,一个基因为分割区,每个基因分割区依次的第三列依次为"gene,mRNA,exon,CDS,UTR".
页:
[1]