METHOD AND SYSTEM FOR DECONVOLUTION OF BULK RNA-SEQUENCING DATA
The present invention relates to computer-implemented methods and processing systems for deconvolution of bulk RNA sequencing data. According to an embodiment, the method comprises obtaining input from sources comprising single-cell RNA sequencing, RNA- seq, data; generating, from the single-cell RN...
Saved in:
Main Authors | , , |
---|---|
Format | Patent |
Language | English French |
Published |
02.03.2023
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | The present invention relates to computer-implemented methods and processing systems for deconvolution of bulk RNA sequencing data. According to an embodiment, the method comprises obtaining input from sources comprising single-cell RNA sequencing, RNA- seq, data; generating, from the single-cell RNA sequencing data, diverse datasets based on the principle of same generating mixture probability such that each of the datasets has the same cell type mixture proportion; using the generated datasets as input datasets for training a model using machine learning, wherein the training comprises: creating a causal prediction model in which virtual samples are generated from the generated diverse datasets, and performing contrastive learning on the causal prediction model, wherein the contrastive loss is used for the learning of invariant features with respect to the measurement mechanism by which the single-cell RNA sequencing datasets have been generated; and using the trained prediction model to predict the mixture of cell type quantities contained in the bulk RNA sequencing data.
La présente invention concerne des procédés mis en œuvre par ordinateur et des systèmes de traitement destinés à la déconvolution de données de séquençage d'ARN en masse. Selon un mode de réalisation, le procédé consiste à obtenir une entrée à partir de sources comprenant les données de séquençage d'ARN (RNA-seq) de cellule unique ; générer, à partir des données de séquençage d'ARN de cellule unique, divers ensembles de données sur la base du principe de même probabilité de mélange de génération de sorte que chacun des ensembles de données a la même proportion de mélange de types de cellule ; utiliser des ensembles de données générés en tant qu'ensembles de données d'entrée pour la formation d'un modèle à l'aide d'un apprentissage automatique, la formation consistant à : créer un modèle de prédiction causale dans lequel des échantillons virtuels sont générés à partir des divers ensembles de données générés et exécuter un apprentissage contrastif sur le modèle de prédiction causale, la perte contrastive étant utilisée pour l'apprentissage de caractéristiques invariantes par rapport au mécanisme de mesure par lequel les ensembles de données de séquençage d'ARN de cellule unique ont été générés ; et utiliser le modèle de prédiction formé pour prédire le mélange de quantités de types de cellule contenu dans les données de séquençage d'ARN en masse. |
---|---|
Bibliography: | Application Number: WO2022EP73847 |