SOUND SEARCH

A device includes one or more processors configured to generate one or more query caption embeddings based on a query. The processor(s) are further configured to select one or more caption embeddings from among a set of embeddings associated with a set of media files of a file repository. Each capti...

Full description

Saved in:
Bibliographic Details
Main Authors MAHFUZ, Rehana, GUO, Yinyi, VISSER, Erik
Format Patent
LanguageEnglish
French
Published 02.05.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:A device includes one or more processors configured to generate one or more query caption embeddings based on a query. The processor(s) are further configured to select one or more caption embeddings from among a set of embeddings associated with a set of media files of a file repository. Each caption embedding represents a corresponding sound caption, and each sound caption includes a natural -language text description of a sound. The caption embedding(s) are selected based on a similarity metric indicative of similarity between the caption embedding(s) and the query caption embedding(s). The processor(s) are further configured to generate search results identifying one or more first media files of the set of media files. Each of the first media file(s) is associated with at least one of the caption embedding(s). Un dispositif comprend un ou plusieurs processeurs conçus pour générer une ou plusieurs incorporations de sous-titres d'interrogation sur la base d'une interrogation. Le ou les processeurs sont en outre conçus pour sélectionner une ou plusieurs incorporations de sous-titres parmi un ensemble d'incorporations associées à un ensemble de fichiers multimédias d'un référentiel de fichiers. Chaque incorporation de sous-titre représente un sous-titre sonore correspondant, et chaque sous-titre sonore comprend une description de texte en langage naturel d'un son. La ou les incorporations de sous-titres sont sélectionnées sur la base d'une métrique de similarité indiquant une similarité entre la ou les incorporations de sous-titres et la ou les incorporations de sous-titres d'interrogation. Le ou les processeurs sont en outre conçus pour générer des résultats de recherche identifiant un ou plusieurs premiers fichiers multimédias de l'ensemble de fichiers multimédias. Chacun des premiers fichiers multimédias est associé à au moins une des incorporations de sous-titres.
Bibliography:Application Number: WO2023US75961