StringTie enables improved reconstruction of a transcriptome from RNA-seq reads
- 概要 Abstract, Method's skeleton 方法の骨格
- RNA seqによるトランスクリプトバリアントの配列同定のための方法
- A method for RNA seq data to identify transcript variant set
- 従来法の中でもよいパフォーマンスを示していたCufflinksより全般によいパフォーマンスを示し、コンピュータ負荷も小さい(メモリ・時間)
- StringTie method showed better performance in general than the so-far-the-best, Cufflinks, with shorter time and smaller memory requirement.
- RNA readsをレファレンスゲノムにマップした上で、トランスクリプトに現れる配列をセグメントに分解し、それらの間の連結関係をグラフ表現する。そのグラフは転写開始側から終了側へのフローグラフと見立て、その中の最大流パスを見出し、順次最大流パスを取り除きつつ、次の最大流パスを見つける、という繰り返し
- RNA reads should be mapped on reference genome. The mapped transcripts are divided into segments and their concatenation-relation is realized as a flow-graph, starting from the upper-most and ending at the down-most. In the flow graph, the maximum flow path can be identified and the path is identified as a real transcript and the path is removed from the flow graph and the next maximum flow path should be searched. This should be iterated.
- フローグラフの構成を改善するオプションとして、"super-reads"と呼ぶ似せリードを、実リードから構成し、それをゲノムにマップすることもある。この"super-reads"は、readsデータに照らして、それがなくてはおかしいというユニーク性を活用して、「あるべきmRNAセグメント」を生成するもの
- An option called "super-reads" might be used for possible improvement of performance. Super-reads are to be generated from real reads when, based on the real reads, a particular concatenation of real data has to exist. Those longer pseudo-reads based on uniqueness should be mapped on the reference genome sequence, which might generate more informative flow graph for further steps.
- Cufflinkが色々なトランスクリプトの存在を全般的に最尤推定するところを、StringTieは最大流の逐次検出処理することで軽くしている、ということでした。
- Cufflinks is based on maximum likelihood of overlap graph and String tie is a flow graph and identification of maximum flow path with iterative finding steps.
コメントをかく