SELF-SUPERVISED PITCH ESTIMATION
Example embodiments relate to techniques for training artificial neural networks or oilier machine-learning encoders to accurately predict the pitch of input audio samples in a semitone or otherwise logarithmically-scaled pitch space. An example method may include generating, from a sample of audio...
Saved in:
Main Authors | , , , , , |
---|---|
Format | Patent |
Language | English French |
Published |
22.04.2021
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | Example embodiments relate to techniques for training artificial neural networks or oilier machine-learning encoders to accurately predict the pitch of input audio samples in a semitone or otherwise logarithmically-scaled pitch space. An example method may include generating, from a sample of audio data, two training samples by applying two di fferent pitch shifts to the sample of audio training data. This can be done by converting the sample of audio data into the frequency domain and then shifting the transformed data. These known shifts are then compared to the predicted pitches generated by applying the two training samples to the encoder. The encoder is then updated based on the comparison, such that the relative pitch output by the encoder is improved with respect to accuracy. One or more audio samples, labeled with absolute pitch values, can then be used to calibrate the relative pitch values generated by the trained encoder.
Des modes de réalisation donnés à titre d'exemple concernent des techniques d'apprentissage de réseaux de neurones artificiels ou d'autres codeurs d'apprentissage automatique pour prédire avec précision le pas d'échantillons audio d'entrée dans un espace de pas de demi-ton ou autrement à l'échelle logarithmique. Un procédé donné à titre d'exemple peut consister à générer, à partir d'un échantillon de données audio, deux échantillons d'apprentissage en appliquant deux décalages de pas différents à l'échantillon de données d'apprentissage audio. Cela peut être réalisé en convertissant l'échantillon de données audio dans le domaine de fréquence, puis en décalant les données transformées. Ces décalages connus sont ensuite comparés aux pas prédits générés par l'application des deux échantillons d'apprentissage au codeur. Le codeur est ensuite mis à jour sur la base de la comparaison, de telle sorte que le pas relatif sorti par le codeur soit amélioré en matière de précision. Un ou plusieurs échantillons audio, marqués avec des valeurs de pas absolues, peuvent ensuite être utilisés pour étalonner les valeurs de pas relatives générées par le codeur entraîné. |
---|---|
Bibliography: | Application Number: WO2020US52722 |