게놈 좌표에 대한 신뢰도 분류를 생성하기 위한 기계 학습 모델

본 개시는 게놈-위치-분류 모델을 훈련시켜 이러한 게놈 좌표 또는 영역에서 핵염기가 정확하게 식별될 수 있는 정도에 따라 게놈 좌표 또는 영역을 분류하거나 점수를 매길 수 있는 방법, 비일시적 컴퓨터 판독 가능 매체 및 시스템을 설명한다. 예를 들어, 개시된 시스템은 샘플 핵산 서열 또는 특정 핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열에 대한 시퀀싱 메트릭을 결정할 수 있다. 게놈 좌표에 대한 실측 분류를 활용함으로써, 개시된 시스템은 게놈 위치 분류 모델을 훈련시켜 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다...

Full description

Saved in:
Bibliographic Details
Main Authors KASHEAGHIGHI DORNA, DINCER TEVFIK UMUT, BEKRITSKY MITCHELL A, ZANARELLO FABIO, COLOMBO CAMILLA, PAUL ROHAN, JOHNSON NATHAN HARWOOD
Format Patent
LanguageKorean
Published 29.02.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:본 개시는 게놈-위치-분류 모델을 훈련시켜 이러한 게놈 좌표 또는 영역에서 핵염기가 정확하게 식별될 수 있는 정도에 따라 게놈 좌표 또는 영역을 분류하거나 점수를 매길 수 있는 방법, 비일시적 컴퓨터 판독 가능 매체 및 시스템을 설명한다. 예를 들어, 개시된 시스템은 샘플 핵산 서열 또는 특정 핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열에 대한 시퀀싱 메트릭을 결정할 수 있다. 게놈 좌표에 대한 실측 분류를 활용함으로써, 개시된 시스템은 게놈 위치 분류 모델을 훈련시켜 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다로부터의 데이터를 이러한 게놈 좌표 또는 영역에 대한 신뢰도 분류와 연관시킬 수 있다. 훈련 후, 개시된 시스템은 또한 게놈-위치-분류 모델을 시퀀싱 메트릭 또는 컨텍스트 핵산 하위서열에 적용하여 개별 게놈 좌표 또는 영역에 대한 개별 신뢰도 분류를 결정한 다음, 컴퓨팅 디바이스에 디스플레이하기 위한 이러한 신뢰도 분류를 포함하는 적어도 하나의 디지털 파일을 생성할 수 있다. This disclosure describes methods, non-transitory computer readable media, and systems that can train a genome-location-classification model to classify or score genomic coordinates or regions by the degree to which nucleobases can be accurately identified at such genomic coordinates or regions. For instance, the disclosed systems can determine sequencing metrics for sample nucleic-acid sequences or contextual nucleic-acid subsequences surrounding particular nucleobase calls. By leveraging ground-truth classifications for genomic coordinates, the disclosed systems can train a genome-location-classification model to relate data from one or both of the sequencing metrics and contextual nucleic-acid subsequences to confidence classifications for such genomic coordinates or regions. After training, the disclosed systems can also apply the genome-location-classification model to sequencing metrics or contextual nucleic-acid subsequences to determine individual confidence classifications for individual genomic coordinates or regions and then generate at least one digital file comprising such confidence classifications for display on a computing device.
Bibliography:Application Number: KR20237043988