CONTROL DEVICE, CONTROL METHOD AND PROGRAM

This control device, which dynamically allocates a virtual network for providing a network service onto a physical network through deep reinforcement learning, is characterized by including: an observation means for taking, as inputs, network configuration information about the physical network, net...

Full description

Saved in:
Bibliographic Details
Main Authors HARADA, Shigeaki, SUZUKI, Akito
Format Patent
LanguageEnglish
French
Japanese
Published 13.08.2020
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:This control device, which dynamically allocates a virtual network for providing a network service onto a physical network through deep reinforcement learning, is characterized by including: an observation means for taking, as inputs, network configuration information about the physical network, network observation information indicating a physical resource quantity of the physical network, and user demand information indicating a demand amount of a physical resource, which is generated by a communication behavior of a user terminal of the network service, and observing a state st at a time t; an allocation means for selecting a behavior at that changes the allocation of the virtual network onto the physical network according to a measure π at the state st; a reward calculation means for calculating a reward rt+1 from the state st+1 transitioned by the behavior at; and a learning means for learning the measure π by using the reward rt+1. Selon la présente invention, un dispositif de commande, qui attribue de manière dynamique un réseau virtuel pour fournir un service de réseau dans un réseau physique par le biais d'un apprentissage de renforcement profond, est caractérisé en ce qu'il comprend : un moyen d'observation pour prendre, en tant qu'entrées, des informations de configuration de réseau relatives au réseau physique, des informations d'observation de réseau indiquant une quantité de ressources physiques du réseau physique, et des informations de demande d'utilisateur indiquant une quantité de demandes d'une ressource physique, qui est générée par un comportement de communication d'un terminal d'utilisateur du service de réseau, et en observant un état st à un instant t ; un moyen d'attribution pour sélectionner un comportement at qui change l'attribution du réseau virtuel dans le réseau physique selon une mesure π à l'état st ; un moyen de calcul de récompense pour calculer une récompense rt+1 à partir de l'état st+1 ayant transité en raison du comportement at ; et un moyen d'apprentissage pour apprendre la mesure π à l'aide de la récompense rt+1. ネットワークサービスを提供するための仮想ネットワークを深層強化学習により物理ネットワーク上に動的に割り当てる制御装置であって、前記物理ネットワークのネットワーク構成情報と、前記物理ネットワークの物理リソース量を示すネットワーク観測情報と、前記ネットワークサービスのユーザ端末の通信行動によって発生した物理リソースの需要量を示すユーザ需要情報とを入力として、時刻tにおける状態stを観測する観測手段と、前記状態stにおける方策πに従って、前記物理ネットワーク上への前記仮想ネットワークの割り当てを変更する行動atを選択する割当手段と、前記行動atにより遷移した状態st+1から報酬rt+1を計算する報酬計算手段と、前記報酬rt+1を用いて、前記方策πを学習する学習手段と、を有することを特徴とする。
Bibliography:Application Number: WO2020JP02377