Application of artificial intelligence in multimedia

Целью данной работы является изучение и обобщение существующих задач, методов анализа и обработки изображений, видеопотоков, аудиофайлов с применением искусственного интеллекта для дальнейшего развития направления. В основной части работы рассматривается принцип работы полносвязной нейронной сети, п...

Full description

Saved in:
Bibliographic Details
Published inCherepovets State University Bulletin no. 6(111); pp. 23 - 41
Main Authors В. В., Кабанова, О. С., Логунова
Format Journal Article
LanguageRussian
Published 27.12.2022
Online AccessGet full text
ISSN1994-0637
DOI10.23859/1994-0637-2022-6-111-2

Cover

More Information
Summary:Целью данной работы является изучение и обобщение существующих задач, методов анализа и обработки изображений, видеопотоков, аудиофайлов с применением искусственного интеллекта для дальнейшего развития направления. В основной части работы рассматривается принцип работы полносвязной нейронной сети, приводится пример, указываются основные типы нейронных сетей и ссылки на работы по тематике, описываются и анализируются разработки в области искусственного интеллекта и мультимедиа. В работе проведен литературный обзор научных трудов за последние 5 лет. Тезисно раскрывается суть генеративного и дискриминативного моделирования, определяется проблема, решаемая генеративно-состязательными сетями. Рассматривается применение нейронных сетей при генерации монофонической и полифонической музыки, определении жанра мелодии, при распознавании и классификации образов на изображении, стилизации изображений и генерации новых изображений на основе набора данных и описания на английском языке, при различных манипуляциях с лицом на изображении: морфинг лица, ретушь лица, генерирование уникальных лиц и обмен идентичностью, а также при использовании глубокого обучения в медицине. При этом кратко описываются модели сетей, используемые при различных манипуляциях, представленных в работе. Определяются сферы использования сверточных нейронных сетей, рекуррентных нейронных сетей, а также описываются основные характеристики и отличительные особенности моделей СNN, RNN, GAN. Также рассматривается создание deepfake-видео и их угроза обществу, методы распознавания deepfake-видео. Определяются перспективы генеративного моделирования и искусственного интеллекта при работе с мультимедийной информацией, подчеркивается важность нейронных сетей для общества. The aim of the work is to study and generalize existing tasks, methods for analyzing and processing images, video streams and audio files applying artificial intelligence for further development of the direction. The main part of the work considers the principle of a fully connected neural network, gives examples, indicating the main types of neural networks and references to works on the subject, describing and analyzing developments in the field of artificial intelligence and multimedia. The paper provides a literature review of scientific papers over the past 5 years. The authors highlight the essence of generative and discriminative modeling; determine the problem solved by generative adversarial networks. They also focus on the application of neural networks in monophonic and polyphonic music generation, melody genre identification, image recognition and classification, image stylization and new image generation based on data set and description in English, face manipulation in images: face morphing, face attribute, generation of unique faces and identity swap and also applying deep learning in medicine. In doing so, the network models used in the various manipulations presented in the paper are briefly described. The application spheres of convolutional neural networks, recurrent neural networks, as well as the main characteristics and distinctive features of CNN, RNN, GAN models are described. The paper also discusses the development of deepfake videos and their threat to society, as well as methods of deepfake video recognition. The authors determine the prospects of generative modeling and artificial intelligence when dealing with multimedia information; emphasize the importance of neural networks for society.
ISSN:1994-0637
DOI:10.23859/1994-0637-2022-6-111-2