京都大学医学研究科統計遺伝学分野

  • Paper link ペイパーリンク
Accounting for technical noise in single-cell RNA-seq experiments. (Nature Methods)
  • 概要 Abstract
    • 1細胞RNA-seqデータのNormalizationとリード数のばらつきへの対処法
    • Normalization of single cell RNA-seq data and evaluation/handling of read-number variations
    • メソッドの概要はテキスト本文のMethodsの項、詳しくはサプルのNote 6
    • Methods are written in "methods" section in the main text in brief and their details are bound in Note 6 in one of suppl. materials.
  • Link to application アプリへのリンク
  • Method's skeleton 方法の骨格
    • 実験ごとに2つの遺伝子セット Two sets of genes for each experiment; コントロール遺伝子セットと通常の標的遺伝子セット Control gene set (Hera spike-in) and regular target gene set
    • サンプルごとに、リードが多めか少なめかを表す値「size factor」を出す Size factor, suggesting the sample's experiment generated many reads or few reads.
    • Size factorはサンプルごとに2種類出す Actually two size factors are caluculated for each sample.
      • コントロール遺伝子セット(Spike-in 遺伝子セット)から計算するsize factorと、通常の標的遺伝子セットから計算するsize factor
      • Size factor based on control gene set (Spike-in gene set) and size factor based on regular genes.
      • Size factorの計算には幾何平均を使う。個々の遺伝子について、複数サンプルのリード数の幾何平均を出す
      • Geometric means are used for size factor calculation. For each gene, geometric mean of multiple samples' read counts is calculated.
      • 個々のサンプルのsize factorは、そのサンプルのリード数が幾何平均の何倍かを全遺伝子について求め、その中央値とする
      • Size factor for each sample is the median of ratio of the sample's read count to the geometric mean for the all genes.
    • Normalizationはリード数をこのsize factorで割ること(2つのsize factorがあるので2通りのNormalizationがなされる)
    • Read counts should be divided by these size factors (Two size factors give two different normalization results).
    • 遺伝子ごとのNormalizeしたリード数の評価 Evaluation of normalized read counts for each gene.
      • Normalized read 数の標本平均とunbiased 分散とをそれぞれの遺伝子について計算する
      • Sample mean and unbiased variance should be calculated for each gene.
      • リード数のばらつきは多くなると小さくなるので、リード数のバラツキは、リード数平均を考慮して「ばらつきが強い遺伝子かそうでないか」を判断する
      • Variation of read counts tends to be smaller with mean read counts larger. Therefore mean read counts should be considered for judgement of "excess of variation".
      • リード数平均とリード数のバラツキとの間の関係は単純な線形関係ではないので、一般化線形回帰(gamma familyリンク)を使う。コントロール遺伝子セットで回帰モデルを推定する
      • Relation between mean read counts and variation is not simple linear, and generalized linear regression with gamma family. Regression model's coefficients are estimated based on control genes.
      • ただし、サンプル間での発現量のばらつきがある遺伝子を探しているので、そのことを考慮して、一概に、サンプル間のばらつきが多い遺伝子のデータは使えない、という処理にならないように項を加えた上で、normalized リード本数の評価とその検定を行う
      • Be careful. The study aims to identify genes whose expression varies among samples and you should not throw away all genes with high variation conditional to their mean. For this issue, extra terms are added to handle and test the normalized read counts.

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

Menu

メニューサンプル1

メニューサンプル2

開くメニュー

閉じるメニュー

  • アイテム
  • アイテム
  • アイテム
【メニュー編集】

どなたでも編集できます