커버곡 검색을 위한 멀티스케일 2D-FTM과 n-gram을 이용한 크로마 특징 축약

We proposed a chroma feature sequence abstraction method that can, when compared with conventional methods, improve the speed of cover song identification methods so that it can be used in large-scale music identification services. The proposed method represents the chroma feature sequence, which is...

Full description

Saved in:
Bibliographic Details
Published in정보과학회 컴퓨팅의 실제 논문지 Vol. 24; no. 6; pp. 318 - 323
Main Authors 김정현(Junghyun Kim), 박지현(Jihyun Park), 유원영(Wonyoung Yoo), 서진수(Jinsoo Seo)
Format Journal Article
LanguageKorean
Published Korean Institute of Information Scientists and Engineers 2018
한국정보과학회
Subjects
Online AccessGet full text
ISSN2383-6318
2383-6326
DOI10.5626/KTCP.2018.24.6.318

Cover

More Information
Summary:We proposed a chroma feature sequence abstraction method that can, when compared with conventional methods, improve the speed of cover song identification methods so that it can be used in large-scale music identification services. The proposed method represents the chroma feature sequence, which is proportional to the length of music, in fixed length feature vectors using multiscale 2D-FTM (two-dimensional Fourier-transform magnitude) and chroma n-gram. It facilitates indexing and simplifies distance comparison to improve identification speed. The abstracted chroma vector maintains the global and local characteristics of the chroma feature sequence, making it more robust to the tempo change, transposition, and remake versions of a song. We experimented using public datasets and large-scale datasets collected from the YouTube website in order to verify the performance of the proposed method, and we confirmed that search speed was improved while maintaining the cover song identification performance. 본 논문은 대규모의 커버곡 식별 서비스에 적용할 수 있도록 기존의 방법에 비해 커버곡 식별속도를 개선할 수 있는 크로마 특징 수열 축약 방법을 제안한다. 음악의 길이에 따라 길이가 비례하는 크로마 특징 수열을 멀티스케일 2D-FTM(Two Dimensional Fourier Transform Magnitude)과 크로마 n-gram을 이용해 고정 길이의 특징벡터 형태로 표현함으로써 인덱싱을 용이하게 하고 거리비교를 단순화하여 식별 속도를 개선하였다. 축약된 크로마 벡터는 오디오 프레임 단위의 크로마 특징 수열의 전체적인 특징과 국지적인 특징을 유지하여 커버곡 간의 템포 변화와 조옮김, 리메이크 버전에 강인하도록 하였다. 제안된 방법의 성능 검증을 위해서 공개 데이터셋 및 유투브 웹사이트에서 자체 수집한 대규모 데이터에서 실험을 수행하여 커버곡 식별 성능을 유지하면서 검색 속도가 개선됨을 확인하였다.
ISSN:2383-6318
2383-6326
DOI:10.5626/KTCP.2018.24.6.318