METHOD AND SYSTEM FOR IDENTIFYING BIOLOGICAL ENTITIES FOR DRUG DISCOVERY

A computer-implemented method of training a machine learning model to identify biological entities for drug discovery is disclosed. The method comprises providing a training data set comprising a plurality of entity-linked text sequences, each text sequence including a mention of a biological entity...

Full description

Saved in:
Bibliographic Details
Main Authors CORNEIL, Dane Sterling, SUBBIAH, Vinay Prashanth, BRAYNE, Angus Ricard Greville, WIATRAK, Maciej Ludwck
Format Patent
LanguageEnglish
French
Published 25.05.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:A computer-implemented method of training a machine learning model to identify biological entities for drug discovery is disclosed. The method comprises providing a training data set comprising a plurality of entity-linked text sequences, each text sequence including a mention of a biological entity, where the biological entity is linked to a corresponding biological entity identifier from a set of possible biological entity identifiers; masking the mention of the biological entity within each text sequence; encoding each masked text sequence into an input representation for a machine learning model; and training a machine learning model to predict the unique entity identifier of the masked biological entity based on the input representation. The described method is able to utilise the full breadth of the rich contextual information available in the biomedical text corpus to predict new biological targets for drug discovery and avoids the restrictions intrinsic to relationship prediction using knowledge graphs. The ability to identify more promising, biologically relevant targets in an automated manner, significantly reduces the requirement of human input and reduces the failure rate in targets that are progressed in the drug delivery pipeline. La présente invention concerne un procédé mis en œuvre par ordinateur d'apprentissage d'un modèle d'apprentissage machine pour identifier des entités biologiques pour la découverte de médicaments. Le procédé consiste à fournir un ensemble de données d'apprentissage comprenant une pluralité de séquences de texte liées à une entité, chaque séquence de texte comprenant une mention d'une entité biologique, l'entité biologique étant liée à un identificateur d'entité biologique correspondant parmi un ensemble d'identificateurs d'entité biologique possibles ; à masquer la mention de l'entité biologique dans chaque séquence de texte ; à coder chaque séquence de texte masquée en une représentation d'entrée pour un modèle d'apprentissage machine ; et à entraîner un modèle d'apprentissage machine pour prédire l'identificateur d'entité unique de l'entité biologique masquée sur la base de la représentation d'entrée. Le procédé décrit est apte à utiliser toute l'étendue des riches informations contextuelles disponibles dans le corpus de textes biomédicaux pour prédire de nouvelles cibles biologiques pour la découverte de médicaments et évite les restrictions intrinsèques à la prédiction de relations utilisant des graphes de connaissances. La capacité à identifier d'une manière automatisée des cibles plus prometteuses et biologiquement pertinentes réduit considérablement la nécessité d'une entrée humaine et diminue le taux d'échecs des cibles qui progressent dans le canal d'administration de médicament.
Bibliography:Application Number: WO2022GB52881