Time-aware Reinforcement-Learning Method for Geographic Ad Hoc Routing with Predefined Mobility and Computer Device for the same
A computer device according to an embodiment comprises a memory unit storing at least one command, and a processor unit, wherein the at least one command is executed by the processor unit, obtains an observation value indicating a first node that is a subject of judgment of a current point in time i...
Saved in:
Main Authors | , , , , |
---|---|
Format | Patent |
Language | English Korean |
Published |
20.05.2024
|
Subjects | |
Online Access | Get full text |
Cover
Summary: | A computer device according to an embodiment comprises a memory unit storing at least one command, and a processor unit, wherein the at least one command is executed by the processor unit, obtains an observation value indicating a first node that is a subject of judgment of a current point in time in routing from a network simulation environment of geographic ad hoc routing for a plurality of mobile objects, and determines an action of selecting a second node as a next route in a routing path that considers prior mobility along a time axis for the plurality of mobile objects in the network simulation environment based on the acquired observation value, and transmits the result to the network simulation environment. A reward based on the action is obtained from the network simulation environment.
실시예에 따른 컴퓨터 장치는, 적어도 하나의 명령어를 저장하는 메모리부와, 프로세서부를 포함하며, 상기 프로세서부에 의해 상기 적어도 하나의 명령어가 실행됨으로써, 복수의 이동체에 대한 지리적 애드혹 라우팅의 네트워크 시뮬레이팅 환경으로부터 라우팅에 있어서 현재 시점 판단의 주체가 되는 제 1 노드를 의미하는 관찰 값을 획득하고, 상기 획득된 관찰 값을 기반으로 상기 네트워크 시뮬레이팅 환경의 상기 복수의 이동체에 대한 시간 축에 따른 사전 이동성을 고려한 라우팅 경로에서 다음 라우트인 제 2 노드를 선택하는 행동을 판단하여 상기 네트워크 시뮬레이팅 환경으로 전달하며, 상기 행동을 기반으로 한 보상을 상기 네트워크 시뮬레이팅 환경으로부터 획득한다. |
---|---|
Bibliography: | Application Number: KR20220150662 |