无人机辅助移动边缘计算的计算卸载优化:一种深度确定性策略梯度方法(1)——介绍
无人机辅助移动边缘计算的计算卸载优化:一种深度确定性策略梯度方法(1)——介绍
参考文献:
[1] Wang Y , Fang W , Ding Y , et al. Computation offloading optimization for UAV-assisted mobile edge computing: a deep deterministic policy gradient approach[J]. Wireless Networks, 2021:1-16.doi:https://doi.org/10.1007/s11276-021-02632-z
摘要:无人机(UAV)可以在无线系统中发挥重要作用,因为它可以灵活地部署,帮助提高通信的覆盖和质量。本文研究了一种无人机辅助的移动边缘计算(MEC)系统,在该系统中,无人机配备了计算资源,可以为附近的用户设备提供卸载服务。终端将部分计算任务卸载给无人机,其余计算任务在终端本地执行。在离散变量和能量消耗约束下,通过联合优化用户调度、任务卸载率、无人机飞行角度和飞行速度,以最小化最大处理延迟为目标。考虑到该问题、高维状态空间和连续动作空间的非凸性,提出了一种基于深度确定性策略梯度(DDPG)的强化学习算法。利用该算法,我们可以在不可控的动态环境下得到最优的计算卸载策略。实验结果表明,该算法能够快速收敛到最优解。与此同时,我们的算法在处理延迟方面比基线算法(如深度Q网络(DQN))有很大的提高。
1 介绍
1.1 动机
随着5G技术的发展,运行在用户设备(ue)上的计算密集型应用,如网络游戏、VR/AR和远程医疗,将变得更加繁荣和流行。这些移动应用通常需要大量的计算资源和高能耗。然而,目前的终端普遍存在计算资源和电池容量的限制。移动云计算(MCC)是为了提高终端的计算和存储能力,并通过移动网络将计算转移到云端,从而降低终端的能耗而出现的。但由于云服务器与终端之间的空间距离较远,导致传输延迟较大,影响用户体验。为了减少回程链路延迟,移动计算最近转向了一种新的计算范式,即移动边缘计算(mobile Edge computing, MEC)。MEC可以将云计算资源和业务迁移到离终端更近的地方,从而有效降低通信延迟和能耗。
早期对MEC的研究主要集中于提高MEC系统的性能,在MEC系统中,计算服务由固定位置的基站提供。例如,Tran等人在多用户多服务器的MEC系统中提出了一种用于优化资源分配的凸优化方法和一种用于任务卸载的低复杂度启发式算法。Zhao等人的目标是在云辅助的MEC系统中通过协同计算卸载和资源分配优化(CCORAO)方案实现系统效用最大化。为了降低基于多用户MIMO的MEC系统的计算成本,Chen等人提出了一种深度强化学习方法来动态生成连续功率分配策略。但是,固定基础设施提供的MEC服务在通信设施稀疏或发生突发性自然灾害的情况下无法有效工作。
**近年来,无人机(Unmanned Aerial Vehicle,简称UAV)以其高机动性、部署灵活等特点受到了广泛的关注。**他们研究了无人机辅助MEC系统中的资源分配或路径规划。针对无人机辅助MEC系统中终端间的处理延迟,Hu等开发了一种基于惩罚对偶分解优化框架的算法,通过联合优化无人机轨迹、计算卸载和用户调度。刁等设计了一种基于节能的联合无人机轨迹和任务数据分配优化算法。Cheng等人提出了一种新的边缘计算体系结构——无人机辅助空对地综合网络(SAGIN),并设计了一种基于行为者批评的强化学习(RL)算法用于资源分配和任务调度。在基于无人机的MEC系统中,考虑到状态空间的维度诅咒,Li等人采用了RL算法来提高UEs任务迁移的吞吐量。Xiong等提出了一种通过联合优化卸载决策、钻头分配和无人机轨迹来降低能耗的优化算法。Selim et al.提出使用设备到设备(D2D)作为无人机- mec系统辅助通信和计算卸载的附加选项。在广泛的研究和应用中,无人机辅助的MEC系统仍然面临着许多挑战,例如,UE计算能力的限制和环境障碍物(如树木或建筑物)的阻塞严重影响了系统性能,特别是在城市地区。因此,自适应链路选择和任务卸载问题在无人机辅助的MEC系统中是非常重要的。
1.2 新颖性与贡献
在本文中,我们考虑了一个由安装有纳米服务器的无人机和多个终端组成的MEC系统,其中通信条件是动态和时变的。与基于深度Q网络(DQN)的离散动作空间算法不同,本文设计了一种新的基于深度确定性策略梯度(DDPG)的计算卸载算法,该算法能够有效支持任务卸载和无人机机动的连续动作空间。本文的主要贡献如下:
考虑时变信道状态下的分时段无人机辅助MEC系统,联合优化用户调度、无人机机动性和资源分配,将非凸计算卸载问题定义为马尔可夫决策过程(MDP)问题,以最小化处理延迟。
当我们考虑MDP模型时,系统状态的复杂性非常高。此外,计算卸载的决策需要对连续动作空间的支持。因此,我们提出了一种新的基于DDPG的计算卸载方法。DDPG是一种先进的强化学习算法,它利用行动者网络生成独特的动作,利用批评网络逼近q值动作函数[16]。本文采用DDPG算法对无人机辅助MEC系统中的用户调度、无人机机动性和资源分配进行优化。
DDPG算法是在TensorFlow平台上实现的。不同系统参数下的仿真结果验证了该算法的有效性。在不同的通信条件下,与其他基线算法相比,我们的算法总能取得最好的性能。