DEVICE AND METHOD FOR EXTRACTING COMPOUND INFORMATION
The present disclosure provides a device and a method for extracting compound information. The method may comprise the steps of: processing input compound data in dimensions set for input to an encoder layer and a decoding layer; learning the input compound data by an attention method in the encoder...
Saved in:
Main Authors | , , , , |
---|---|
Format | Patent |
Language | English French Korean |
Published |
09.02.2023
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | The present disclosure provides a device and a method for extracting compound information. The method may comprise the steps of: processing input compound data in dimensions set for input to an encoder layer and a decoding layer; learning the input compound data by an attention method in the encoder layer; obtaining a mean vector and a variance vector that have a latent dimension, on the basis of the learned compound data in an information bottleneck layer; extracting a latent vector from a normal distribution according to the mean vector and the variance vector through re-parameterization; predicting physico-chemical properties of a compound on the basis of the mean vector in a compound property prediction layer; predicting the length of a compound sequence on the basis of the mean vector in a length prediction layer; converting the latent vector into encoder-output compound data having dimensions set for input to the decoding layer in an information extension layer; learning the input compound data by using the encoder-output compound data in an attention manner in the decoder layer; and reconstructing compound data from compound data learned in the decoder layer in a generator layer. The present disclosure may provide a compound information extraction model capable of extracting compound information that can be commonly used in compound prediction models for various purposes.
La présente invention concerne un dispositif et un procédé d'extraction d'informations composites. Le procédé peut comprendre les étapes de : traitement des données composites d'entrée dans des dimensions définies pour entrée dans une couche de codeur et une couche de décodage; apprentissage des données composites d'entrée par un procédé d'attention dans la couche de codeur; obtention d'un vecteur moyen et d'un vecteur de variance qui ont une dimension latente, sur la base des données de composé apprises dans une couche de goulot d'étranglement d'informations; extraction d'un vecteur latent à partir d'une distribution normale selon le vecteur moyen et le vecteur de variance par reparamétrage; prédiction des propriétés physico-chimiques d'un composé sur la base du vecteur moyen dans une couche de prédiction de propriété composite; prédiction de la longueur d'une séquence composite sur la base du vecteur moyen dans une couche de prédiction de longueur; conversion du vecteur latent en données composites de sortie de codeur ayant des dimensions définies pour entrée dans la couche de décodage dans une couche d'extension d'informations; apprentissage des données composites d'entrée au moyen des données composites de sortie de codeur dans un mode d'attention dans la couche de décodeur; et reconstruction des données composites à partir de données composites apprises dans la couche de décodeur dans une couche de générateur. La présente invention peut fournir un modèle d'extraction d'informations composites capable d'extraire des informations composites qui peuvent être couramment utilisées dans des modèles de prédiction de composé à des fins diverses.
본 개시 내용은 화합물 정보 추출을 위한 장치 및 방법을 제공한다. 상기 방법은, 인코더 계층 및 디코딩 계층으로의 입력을 위해 설정된 차원으로 입력 화합물 데이터를 처리하는 단계; 상기 인코더 계층에서 어텐션 방식으로 상기 입력 화합물 데이터를 학습시키는 단계; 정보 보틀넥 계층에서 상기 학습된 화합물 데이터에 기초하여 레이턴트 차원을 가지는 평균 벡터 및 분산 벡터를 획득하는 단계; 재파라미터화를 통해 상기 평균 벡터 및 상기 분산 벡터에 따른 정규분포로부터 레이턴트 벡터를 추출하는 단계; 화합물 특성 예측 계층에서 상기 평균 벡터에 기초하여 화합물의 물리-화학적 특성을 예측하는 단계; 길이 예측 계층에서 상기 평균 벡터에 기초하여 화합물 시퀀스의 길이를 예측하는 단계; 정보 확장 계층에서 상기 레이턴트 벡터를 상기 디코딩 계층으로의 입력을 위해 설정된 차원을 갖는 인코더-출력 화합물 데이터로 변환하는 단계; 상기 디코더 계층에서 어텐션 방식으로 상기 인코더-출력 화합물 데이터를 이용하여 상기 입력 화합물 데이터를 학습시키는 단계; 및 생성 계층에서 상기 디코더 계층에서 학습된 화합물 데이터로부터 화합물 데이터를 재구성하는 단계를 포함할 수 있다. 본 개시 내용에 따르면, 여러가지 목적의 화합물 예측 모델들에서 공통적으로 사용될 수 있는 화합물 정보들을 추출할 수 있는 화합물 정보 추출 모델을 제공할 수 있다. |
---|---|
Bibliography: | Application Number: WO2022KR11269 |