AUTOMATIC LEVELING OF SPEECH CONTENT

Embodiments are disclosed for automatic leveling of speech content. In an embodiment, a method comprises: receiving, using one or more processors, frames of an audio recording including speech and non-speech content; for each frame: determining, using the one or more processors, a speech probability...

Full description

Saved in:

Bibliographic Details
Main Authors	YEH, Chunghsin, CENGARLE, Giulio, DE BURGH, Mark David
Format	Patent
Language	English French
Published	30.09.2021
Subjects	ACOUSTICS BASIC ELECTRONIC CIRCUITRY CONTROL OF AMPLIFICATION ELECTRICITY MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online Access	Get full text

Cover

Loading…

More Information
Summary:	Embodiments are disclosed for automatic leveling of speech content. In an embodiment, a method comprises: receiving, using one or more processors, frames of an audio recording including speech and non-speech content; for each frame: determining, using the one or more processors, a speech probability; analyzing, using the one or more processors, a perceptual loudness of the frame; obtaining, using the one or more processors, a target loudness range for the frame; computing, using the one or more processors, gains to apply to the frame based on the target loudness range and the perceptual loudness analysis, where the gains include dynamic gains that change frame-by-frame and that are scaled based on the speech probability; and applying the gains to the frame so that a resulting loudness range of the speech content in the audio recording fits within the target loudness range. La présente invention concerne, selon certains modes de réalisation, une mise à niveau automatique d'un contenu vocal. Dans un mode de réalisation, un procédé consiste : à recevoir, à l'aide d'un ou de plusieurs processeurs, des trames d'un enregistrement audio comprenant un contenu vocal et un contenu non vocal ; à déterminer, pour chaque trame, à l'aide du processeur ou des processeurs, une probabilité de parole ; à analyser, à l'aide du processeur ou des processeurs, une sonie perceptuelle de la trame ; à obtenir, à l'aide du processeur ou des processeurs, une plage de sonie cible pour la trame ; à calculer, à l'aide du processeur ou des processeurs, des gains à appliquer à la trame en fonction de la plage de sonie cible et de l'analyse de sonie perceptuelle, les gains comprenant des gains dynamiques qui changent trame par trame et qui sont mis à l'échelle en fonction de la probabilité de parole ; et à appliquer les gains à la trame de telle sorte qu'une plage de sonie résultante du contenu vocal dans l'enregistrement audio soit comprise dans la plage de sonie cible.
Bibliography:	Application Number: WO2021US24232