ゲノム

ブログ

Sep 02, 2023

ゲノム

Nature Genetics (2023)この記事を引用する 28k アクセス数 2 引用数 178 オルトメトリック メトリクスの詳細 コーディングバリアントの影響を予測することは大きな課題です。 最近のディープラーニングモデルは、

Nature Genetics (2023)この記事を引用

28,000 アクセス

2 引用

178 オルトメトリック

メトリクスの詳細

コーディングのバリアントの影響を予測することは大きな課題です。 最近の深層学習モデルはバリアント効果の予測精度を向上させていますが、近い相同体への依存やソフトウェアの制限により、すべてのコーディングバリアントを分析することはできません。 今回我々は、ESM1b(6億5,000万パラメータのタンパク質言語モデル)を使用して、ヒトゲノム内で起こり得る約4億5,000万のミスセンスバリアント効果をすべて予測するワークフローを開発し、すべての予測をWebポータルで利用できるようにしました。 ESM1b は、約 150,000 個の ClinVar/HGMD ミスセンス変異体を病原性または良性として分類し、28 の深部変異スキャン データセットにわたる測定値を予測する際に、既存の方法を上回りました。 さらに、約 200 万個のバリアントについて、特定のタンパク質アイソフォームにのみ損傷を与えるものとして注釈を付け、バリアントの影響を予測する際にすべてのアイソフォームを考慮することが重要であることを実証しました。 私たちのアプローチは、フレーム内インデルやストップゲインなどのより複雑なコーディングのバリアントにも一般化されています。 これらの結果を総合すると、変異効果を予測するための効果的で正確かつ一般的なアプローチとしてタンパク質言語モデルが確立されます。

変異効果予測 (VEP) として知られる、遺伝子変異の表現型への影響を決定することは、ヒト遺伝学における重要な課題です1、2、3、4。 タンパク質のアミノ酸配列を変更するコード変異体は、疾患との関連性が高く、メカニズムの理解が深まり、治療効果が得られるため、特に興味深いものとなっています5、6、7、8。 天然に存在するコード変異体のほとんどはミスセンスであり、あるアミノ酸が別のアミノ酸に置換されています9。 機能ゲノミクスと遺伝学的研究は進歩しているにもかかわらず、タンパク質を破壊する損傷を与える変異体と中立的な変異体を区別することは依然として課題です。 さらに、ほとんどのヒト遺伝子は選択的にスプライシングされており、タンパク質の残りの部分との相互作用に応じて、同じ変異体が一部のタンパク質アイソフォームには損傷を与えるが、他のアイソフォームには無害である可能性があります。 したがって、ほとんどのミスセンス変異は重要性が不確かな変異(VUS)として残り、臨床診断におけるエクソーム配列決定の有用性を制限します2,10。 VEP は、フレーム内インデルなどの複数の残基に影響を及ぼすバリアントをコーディングする場合にはさらに困難です。

深部変異スキャン (DMS)11 や Perturb-seq12 などの VEP の実験的アプローチは、数千の変異体にわたる分子および細胞の表現型を同時に測定できます。 しかし、これらの内部表現型は、関連する臨床表現型の不完全な代用であり、ゲノム全体に拡張することは依然として困難です 13,14。 対照的に、タンパク質の生物物理学的特性や進化的制約を学習する計算手法は、理論的にはすべてのコーディング変異体をカバーできる可能性があります 15、16、17。 ほとんどの計算手法は、病原性バリアントと良性バリアントのラベル付きデータに基づいてトレーニングされます 10 が、教師なし相同性ベースの方法は、ラベル付きデータに基づいてトレーニングすることなく、マルチプル配列アラインメント (MSA) からバリアントの影響を直接予測します。 EVE は、生成変分オートエンコーダを実装した教師なし深層学習手法であり、最近、教師あり手法よりも優れたパフォーマンスを発揮することが示されました4。 ただし、MSA に依存しているため、相同性に基づく方法では、よく整列したタンパク質および残基のサブセットについてのみ予測が可能です。 さらに、同じ遺伝子の別のアイソフォームには同一のホモログがあるため、異なるアイソフォームに対するバリアントの影響を区別できるかどうかは不明です。

VEP への別の深層学習アプローチでは、自然言語処理から派生した技術であるタンパク質言語モデルを使用します。 これらは、UniProt18などの大規模なタンパク質データセットによって捕捉された、進化を通じて選択された既知のタンパク質配列の空間をモデル化するために訓練されたディープニューラルネットワークです(図1a)。 特に、タンパク質言語モデルは明示的な相同性を必要とせず、考えられるあらゆるアミノ酸配列の可能性を推定できます。 彼らは、タンパク質配列が二次構造、長距離相互作用、翻訳後修飾、結合部位など、タンパク質の構造と機能の多くの側面をどのように決定するかを暗黙的に学習していることが示されています19、20、21、22、23、24。 最大のタンパク質言語モデルの 1 つは ESM1b です。これは、約 2 億 5,000 万のタンパク質配列でトレーニングされた、公開されている 6 億 5,000 万のパラメーター モデルです20。 さらなるトレーニングを行わなくても、DMS 実験結果と相関するバリアント効果を予測できることが実証されました 25。

1%)9. Only high-confidence variants were included (Supplementary Methods). The distribution of ESM1b effect scores shows a substantial difference between pathogenic and benign variants in both datasets (Fig. 2a). Moreover, pathogenic and benign variants show consistent distributions across the two datasets, suggesting that the predictions are well-calibrated. Using an LLR threshold of −7.5 to distinguish between pathogenic and benign variants yields a true-positive rate of 81% and a true-negative rate of 82% in both datasets./p> 0.01’). Bottom: Venn diagram of the variants extracted from HGMD, ClinVar and gnomAD. b, Comparison between ESM1b and EVE in their capacity to distinguish between pathogenic and benign variants (measured by global ROC-AUC scores), as labeled by ClinVar (36,537 variants in 2,765 unique genes) or HGMD/gnomAD (30,497 variants in 1,991 unique genes). c, The distribution of ESM1b effect scores across ClinVar missense VUS, decomposed as a mixture of two Gaussian distributions capturing variants predicted as more likely pathogenic (orange) or more likely benign (blue). d, The distribution of ESM1b effect scores across all common ClinVar labels, including the two Gaussian components from c. Boxes mark Q1–Q3 of the distributions, with midpoints marking the medians (Q2) and whiskers stretching 1.5× IQR. Altogether there are ~300,000 missense variants labeled in ClinVar. e,f, Evaluation of 19 VEP methods against the same two benchmarks: ClinVar (e) and HGMD/gnomAD (f). Performance was measured by two metrics for binary classification as follows: ROC-AUC (light red) and a balanced version of PRC-AUC (light blue; Methods). Performance was evaluated on the sets of variants available for all 19 methods. g,h, Head-to-head comparison between ESM1b and each of the 18 other VEP methods over the same two dataset benchmarks (in terms of ROC-AUC). Because ESM1b provides scores for all missense mutations, the comparison against each other method is performed on the set of variants with effect predictions for that method. The percentage of variants considered for each method is shown at the bottom of each bar. IQR, interquartile range./p> 4), including three ClinVar variants annotated as VUS (Fig. 4b)./p> 2). Center: the lowest and highest isoform scores predicted for all VUS from the left panel (top two boxes), compared to the mean scores (across isoforms) of VUS, benign or pathogenic variants (as in Fig. 2d; bottom three boxes). The boxes represent the Q1–Q3 range and median (Q2) line; whiskers correspond to 1.5× IQR; outliers (outside the whiskers) are shown individually. Right: the distribution of the lowest and highest isoform scores predicted for all VUS from the left panel, compared to the distributions for pathogenic or benign variants from ClinVar, HGMD and gnomAD (as in Fig. 2a). Across all panels, the number of variants associated with each category is shown in parentheses. d, The top 100 ClinVar genes with the highest number of variants with highly variable effect scores (as in c). Numbers of annotated isoforms of each gene are shown in parentheses./p> 2) across isoforms (Fig. 4c). Notably, we only considered reviewed, manually curated protein isoforms (Supplementary Methods). These 3,477 variants include 148 (4%) benign or likely benign, 437 (13%) pathogenic or likely pathogenic and 2,892 (83%) VUS. Interestingly, these VUS mirror the effect score distribution of pathogenic variants when considering the most damaging isoform, and benign variants when considering the least damaging isoform (Fig. 4c). Like P53, many clinically important genes have a large number of ClinVar variants with high effect score variance across isoforms, including BRCA1, IRF6 and TGFB3 (Fig. 4d)./p> −7) in one isoform, (2) likely pathogenic (LLR < −8) in another and (3) these two predictions are substantially different (LLR difference > 4). We identified ~1.8 million such variants across ~9,000 genes, which is 85% of all genes with manually curated alternative isoforms (Fig. 5a). Isoform-sensitive variants (ISV) are more likely to occur near splice junctions and in genes with splicing-disrupted protein domains, as opposed to domains that are either included intact or removed entirely during splicing (Fig. 5b)./p> −7, (2) minimum score < −8 and (3) difference between minimum and maximum score > 4. b, Top: ISV are closer to splice junction than would be expected at random. Bottom-left: ISV in genes with domains containing splice junctions: 90.31% versus 28.21% expected at random. Bottom-right: metrics of predicting whether genes contain domains disrupted by splice junction given whether or not they contain ISV. c, An example of a small splicing effect (excision of five amino acids from the primary isoform of the MEN1 protein) leading to dramatic changes in the predicted effects of variants in a much larger region. Bottom: AlphaFold structural predictions of the two isoforms. Arrows are pointing to a small surface pocket introduced by the five amino acid deletion (around Ser145). d, An example of alternative splicing leading to a distant effect in the TGFB3 proprotein. Exclusion of the TGFβ-3 chain in an alternative isoform of the proprotein leads to a region at the beginning of the LAP chain (marked by orange) losing its sensitivity to missense variants. Right: AlphaFold prediction of the binding of the two chains showing these two regions to be close to one another in 3D structure. ISV, isoform-sensitive variants; ACC, accuracy; TPR, true-positive rate; F1, F1 score; MCC, Matthew’s correlation coefficient./p>