Characteristics of gas content of No.13-1 coalbed in Panyi coal mine of Huainan field
-
摘要: 通过对淮南煤田潘一井田13-1煤层92个实测瓦斯含量值与井田地质条件的综合分析,建立了瓦斯含量变化的3个数学模型。结果表明:对煤层瓦斯含量的分析必须以瓦斯地质单元为区块;瓦斯含量变化与煤层距基岩面深度(而不是地面深度)有较好的线性相关性,但同一煤层的不同区块显示出不同的相关性。Abstract: On the basis of geological condition and comprehensive analysis of 92 gas content data,which is actually measured from No.13-1 coalbed in Panyi coal mine of Huainan field,three mathematical models of the variational gas content were built.The results show that gas geology cell should be taken into account to analyse gas content.The variety of gas content are related linearly with the depth of bedrock surface(not the depth of the ground surface),but the relationship are different in different gas geology cell of the same coal bed.
-
Keywords:
- gas content /
- coal bed burial depth /
- bedrock surface /
- mathematical model
-
目前,煤矿机器人的研究还存在诸多难题,特别是煤矿掘进机器人受巷道特殊的非结构化环境及复杂工艺流程制约,自主化、智能化水平相对较低[1-3]。在非全断面巷道作业时,主要依靠人工操作将掘进机器人移机进行二次截割以完成断面成形任务,但由于井下环境恶劣,人工移机操作难度大、效率低下,并且存在较大的安全隐患。因此,研究掘进机器人的自主移机是实现煤矿无人化开采的重要一环[4-6],而非全断面巷道作业条件下的掘进机器人路径规划是实现自主移机的前提,同时对提高掘进工作面智能化水平、掘进作业效率及巷道断面成形质量均具有重要意义。
煤矿掘进机器人是一种特殊的履带式机器人[7-8],其工作环境为狭长巷道,作业时极易发生碰撞,因此研究掘进机器人与巷道侧壁的碰撞检测,对机器人规划一条安全、无碰撞的可行路径具有重要意义[9]。针对机器人碰撞检测问题,国内外学者进行了大量研究。碰撞检测主要关注在二维或三维环境中,确定两个或多个物体在运动过程中是否相互接触或相交。常见的三维碰撞检测方法主要有图像空间法[10-11]、空间剖分法[12-13]和层次包围盒法[14-15]。图像空间法可以将三维模型在预设的二维平面上进行投影,再基于二维空间中图像采样及对应深度信息判断三维模型相交情况,该方法受限于图像分辨率,检测结果不够精确。空间剖分法主要是利用某种规则把空间分割成若干个子空间,然后在子空间内对碰撞检测进行单独处理,同时采用降低子空间内无关对象相交测试的方法来缩短碰撞检测所需的时间,该方法可在一定程度上处理多设备间的碰撞检测,但在处理形体过大或复杂物体的碰撞检测时具有局限性。层次包围盒法通过将被检测对象的包围盒进行层次化组织,形成一个树结构,从而实现更加快速和准确的碰撞检测,该方法在机器人碰撞检测方面应用广泛。
针对掘进机器人路径规划问题,众多学者进行了深入研究。在机器人路径规划方面,常见的方法主要有4类:人工势场和模糊逻辑法等传统方法[16-17]、A*算法和栅格法等图形学方法[18-20]、蚁群算法和粒子群优化算法等智能仿生学方法[21-23]以及策略梯度法和模仿学习法等强化学习方法[24-25]。基于传统方法的路径规划描述简单易于实现,但容易陷入局部最优解。基于图形学方法的路径规划可提供建模方法,但大多将机器人以质点处理,且搜索效率低下。基于智能仿生学方法的路径规划具有仿生学特点,更加智能高效,但收敛速度较慢。以上研究集中在移动机器人的避障路径规划,研究对象以小型移动机器人为主,在掘进机器人机身路径规划方面研究较少。由于煤矿巷道成形精度取决于截割轨迹,对掘进机器人机身路径规划和截割臂控制精度提出更高的要求。为保证狭长巷道中掘进机器人路径的可行性,须考虑掘进机器人自身大小,从而得到合理的规划路径。
因此,通过对虚拟环境碰撞检测、智能体全局路径规划等内容展开研究,提出一种基于深度强化学习的掘进机器人机身路径规划方法,在井下非结构化环境条件下为机器人规划安全可行路径。首先,利用深度相机构建三维巷道模型,采用包围盒技术实现掘进机器人运动模型与三维巷道模型之间的碰撞检测,形成掘进机器人路径规划过程中的边界避障策略。其次,基于奖惩机制构建智能体,并采用深度强化学习技术对其进行训练,完成掘进机器人机身路径规划。最后,搭建掘进机器人路径规划实验平台,对所提方法进行验证。以实现煤矿井下非全断面作业条件下的掘进机器人自主移机路径规划,为井下掘进机设备的智能化和自动化奠定基础。
1 掘进机器人路径规划总体方案
巷道断面成形作业时机身移动多为人工操控,导致掘进效率低下、安全性差。解决非全断面巷道作业掘进机器人自主移机难题,需要实现对掘进机器人工况环境的实时监测、掘进机器人与掘进工作面间的碰撞检测以及掘进机器人运动路径的自主规划。
因此,在掘进机器人机身上布置多源传感器实现掘进工作面环境实时监测,在虚拟环境中构建掘进机器人与工作面间的碰撞检测模型,生成巷道边界受限条件下的避障策略,再利用深度强化学习方法训练智能体得到掘进机器人全局路径,并采用虚实结合的方式实现虚实空间中掘进机器人运动路径同步规划。
掘进工作面环境以狭长直行巷道为主,且针对掘进机器人巷道施工时左右移机路径规划问题,提出的路径规划总体方案如图1所示,包括传感检测单元、碰撞检测单元和路径规划单元。
该方案中,传感检测单元通过多源传感器采集掘进机器人位姿数据,深度相机扫描得到巷道环境三维点云数据并实时传输至Unity3D平台中实例化,实现虚拟环境巷道实时重建;构建掘进机器人运动学模型,进行运动学分析。碰撞检测单元根据巷道重建模型建立掘进机器人与巷道侧壁间的碰撞检测模型,并使用层次包围盒法进行虚拟环境碰撞检测,形成巷道边界受限下的避障策略。路径规划单元基于掘进机器人运动特性定义其状态空间与动作空间,根据奖惩机制将掘进机器人模型作为智能体,进行奖惩函数设计,再结合边界避障策略采用深度强化学习技术对智能体进行训练,实现非全断面巷道作业条件下的掘进机器人路径规划。
2 巷道边界受限下的避障策略
掘进机器人在非全断面巷道作业条件下的移机过程,存在转弯和直行两种运动方式,在狭长巷道中,掘进机器人的转弯过程极易与巷道侧壁发生碰撞。因此,需要对掘进机器人进行运动学分析,并建立虚拟碰撞检测模型,采用层次包围盒算法实现掘进机器人边界避障功能。
2.1 掘进机器人运动学分析
掘进机器人的转弯过程是通过左右轮履带差速驱动完成的。若掘进机器人运动过程中,左右轮履带和地面无横向滑移,且履带转动速度地面平行时,可以将机器人的运动过程看作是二维运动学求解[26]。
掘进机器人运动学模型如图2所示,建立巷道平面坐标系XOY,以掘进机器人的机身质心
${O_0}$ 为原点,建立掘进机器人坐标系${X_0}{O_0}{Y_0}$ ,其中${O_0}{Y_0}$ 轴平行于掘进机器人本体中心线,以朝向截割头方向为正方向,${O_0}{X_0}$ 轴垂直于${O_0}{Y_0}$ 轴,以指向掘进机器人右侧方向为正方向。假设掘进机器人机身宽度为D,两轮履带宽度相等均为b,左轮履带线速度为
${\upsilon _{\mathrm{l}}}$ ,右轮履带线速度为${\upsilon _{\mathrm{r}}}$ ,掘进机器人转向角为$\theta $ ,掘进机器人质心在巷道平面坐标系XOY下的坐标为$\left( {{x_0},{y_0}} \right)$ ,掘进机器人运动到目标点k过程中的线速度为$\upsilon $ ,角速度为$\omega $ ,瞬时曲率半径为R,则掘进机器人在巷道平面坐标系XOY中的位姿可描述为$ {\boldsymbol{P}} = {\left[ {{x_0},{y_0},\theta } \right]^{\mathrm{T}}} $ 。根据图中几何关系,可得掘进机器人左右轮履带线速度和瞬时曲率半径之间的关系为:
$$ \left\{ \begin{aligned} & {{\upsilon _{\mathrm{l}}} = \omega \left( {R - \frac{{D + b}}{2}} \right)} \\ & {{\upsilon _{\mathrm{r}}} = \omega \left( {R + \frac{{D + b}}{2}} \right)} \end{aligned} \right. $$ (1) 两式相减得:
$$ {\upsilon _{\mathrm{r}}} - {\upsilon _{\mathrm{l}}} = \omega \left( {D + b} \right) $$ (2) 由此可得掘进机器人的角速度为:
$$ \omega = \frac{{{\upsilon _{\mathrm{r}}} - {\upsilon _{\mathrm{l}}}}}{{D + b}} $$ (3) 从而可得掘进机器人左右轮履带线速度和掘进机器人运动速度之间的关系为:
$$ \left[ {\begin{array}{*{20}{c}} \upsilon \\ \omega \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {\dfrac{1}{2}}&{\dfrac{1}{2}} \\ { - \dfrac{1}{{D + b}}}&{\dfrac{1}{{D + b}}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{\upsilon _{\mathrm{l}}}} \\ {{\upsilon _{\mathrm{r}}}} \end{array}} \right] $$ (4) 又由图2中几何关系,可得掘进机器人运动到目标点k过程中的运动学方程为:
$$ \dot {\boldsymbol{P}} = \left[ {\begin{array}{*{20}{c}} {{{\dot x}_0}} \\ {{{\dot y}_0}} \\ {\dot \theta } \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {\upsilon \cos \theta } \\ {\upsilon \sin \theta } \\ \omega \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {\cos \theta } \\ {\sin \theta } \\ 0 \end{array}}&{\begin{array}{*{20}{c}} 0 \\ 0 \\ 1 \end{array}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} \upsilon \\ \omega \end{array}} \right] $$ (5) 2.2 基于RGB-D相机的巷道环境重建
在进行掘进机器人的机身移动路径规划时,为了观测巷道实际环境,采用RTABMAP算法搭载RGB-D相机对巷道环境进行实时三维重建,巷道重建过程如图3所示。
RTABMAP算法是一种结合了外观信息和深度信息的实时三维环境建模算法,能够在实时场景中构建稠密的三维地图[27]。该算法通过创建里程计节点, RGB-D相机输出的图像提供视觉里程计,并对所有节点的里程计位姿进行修正来维护机器人的全局位姿。
在掘进机器人机身前侧安装Kinect v2相机,并为其添加云台,使得该相机能够全方位旋转。当掘进机器人施工行进时,深度相机扫描得到巷道环境的三维点云数据,将其进行处理后实时存储至数据库,通过Unity3D平台实时读取数据库中的最新数据,进行坐标匹配形成新的点云坐标,并对其进行实例化,实现虚拟环境中巷道模型的实时更新,从而完成巷道模型的实时重建,为掘进机器人与巷道侧壁之间的碰撞检测提供了条件。
2.3 虚拟环境碰撞检测模型建立
掘进机器人与巷道侧壁之间的碰撞检测是掘进机器人移机过程中的重要一环,本文采用层次包围盒算法检测掘进机器人与巷道侧壁之间的碰撞行为。层次包围盒算法计算时间短[28],能够通过建立简单的立体几何形状近似代替复杂的三维模型,可以有效降低碰撞检测原有模型的计算复杂性。
为确保掘进机器人的安全运动空间,对巷道侧壁添加了膨胀1.2倍的盒形碰撞器(Box Collider),其中膨胀倍数为碰撞检测的安全阈值。掘进机器人模型形状复杂,若只采用一种包围盒近似代替其形状,会因为模型包裹紧密性差,冗余空间大,造成碰撞检测的误判。因此,为提高掘进机器人与巷道侧壁之间碰撞检测的准确性,同时采用多种包围盒对掘进机器人模型进行混合包围,由于掘进机器人机身形体较为规则,则机身部分采用盒型碰撞器进行包围,截割臂部分形体复杂,采用网格碰撞器(Mesh Collider)进行包围,添加效果如图4所示,碰撞检测效果如图5所示。
在路径规划过程中,当掘进机器人与巷道侧壁的包围盒发生接触或相交时,触发碰撞效果,被碰撞的物体颜色变为红色,掘进机器人动作停止,训练场景重置,退出触发碰撞效果时,被碰撞的物体恢复原来颜色,重新进行路径规划过程;当掘进机器人与巷道侧壁的包围盒未发生接触或相交时,掘进机器人处于安全运动空间内,则继续执行路径规划过程。
3 基于智能体的掘进机器人路径规划
煤矿井下掘进工作面通常是狭长巷道,而掘进机器人形体较大,运动方式复杂,因此需要考虑掘进机器人的形体大小进行路径规划。传统的路径规划方法大多将机器人当作质点处理,难以适应井下巷道空间受限条件下的掘进机器人路径规划。本文采用深度强化学习(Deep Reinforcement Learning,DRL)技术对掘进机器人进行路径规划,提出了基于柔性动作−评价(Soft Actor-Critic,SAC)算法的后见经验回放(Hindsight Experience Replay,HER) HER-SAC算法,并定义智能体状态空间与动作空间,设计奖惩函数,使智能体能够快速找到安全的可行路径。
3.1 改进SAC算法
SAC算法是一种基于策略梯度(Policy Gradient)和Q-learning的混合算法,其核心思想是在最大化累积奖励的同时还会最大化熵,通过增加策略熵的期望来增强智能体探索的能力,提升随机策略性能[29]。SAC算法的目标函数为:
$$ J\left( \textit{π} \right) = \mathop {\arg \max }\limits_\textit{π} \sum\limits_{t = 0}^T {{E_{\left( {{{\text{s}}_t},{a_t}} \right) \sim {\rho _\textit{π} }}}\left[ {r\left( {{s_t},{a_t}} \right) + \alpha H\left( {\textit{π} \left( { \cdot |{s_t}} \right)} \right)} \right]} $$ (6) 在SAC算法中,策略被表示为一个神经网络,它通过接收当前状态作为输入,输出动作的概率分布。Q值函数也被表示为一个神经网络,它接收当前状态和动作作为输入,输出一个Q值。为了减少过估计的风险,SAC算法使用了两个Q值函数。因此,SAC算法有5个网络结构,即1个Actor网络(策略网络)、2个V Critic网络(状态价值估计V和Target V网络)、2个Q Critic网络(动作−状态价值估计
${Q_0}$ 和${Q_1}$ 网络),如图6所示。将任意状态
${s_t}$ 作为输入,Actor网络输出所有动作的概率为$\textit{π} \left( {a|{s_t}} \right)$ ,并且根据概率采样获得动作${a_t} \in a$ ,将动作${a_t}$ 作用于Agent,得到该状态下的奖励值${r_t}$ ,并移至下一状态st+1,从而获得当前状态下的经验元组$\left( {{s_t},{a_t},{r_t},{s_{t + 1}}} \right)$ ,然后将该元组回放入经验池。在Q Critic网络更新过程中,通过对经验池采样获取数据
$\left( {{s_t},{a_t},{r_t},{s_{t + 1}}} \right)$ 来更新参数$\lambda $ ,状态${s_t}$ 下的预测价值估计以网络输出的动作${a_t}$ 的$Q\left( {{s_t},{a_t}} \right)$ 值来代替,基于最优Bellman方程可以得到状态${s_t}$ 下的真实价值估计:$$ U_t^{\left( q \right)} = {r_t} + \gamma {E_\textit{π} }\left[ {{r_{t + 1}}|{s_{t + 1}} = s} \right] $$ (7) 通过均方损失函数(MSELoss函数)对Q Critic网络训练,则其损失函数为:
$$ {\text{Los}}{{\text{s}}_Q} = \frac{1}{{|B|}}\sum\limits_{\left( {{s_t},{a_t},{r_t},{s_{t + 1}}} \right) \in B} {{{\left[ {Q\left( {{s_t},{a_t};\lambda } \right) - U_t^{\left( q \right)}} \right]}^2}} $$ (8) V Critic网络的更新主要是从经验池采样获取数据
$\left( {{s_t},{a_t},{r_t},{s_{t + 1}}} \right)$ 来更新参数$\beta $ ,并采用均方损失函数对V Critic网络进行训练。在进行Actor网络的更新时,通过梯度下降训练得到的损失函数为:$$ \begin{aligned} & {{\mathrm{Loss}}_A} = \\ &\qquad - \frac{1}{{|B|}}\sum\limits_{\left( {{s_t},{a_t},{r_t},{s_{t + 1}}} \right) \in B} {{E_{{a'_t} \sim \textit{π} \left( { \cdot |{s_t};\beta} \right)}}} \left[ {Q\left( {{s_t},{a_t};\lambda } \right)- \alpha \ln \textit{π} \left( {{a'_t}|{s_t};\beta } \right)} \right]\end{aligned} $$ (9) 由于掘进机器人属于履带式机器人,在狭长巷道中的运动方式复杂且路径规划过程目标单一,难以达到训练效果。同时为避免奖励稀疏,提高智能体的学习效率,将后见经验回放引入SAC算法,提出HER-SAC算法,通过将失败的经验转化为成功的经验来增加训练数据,从而加快训练速度。
训练智能体时做如下规定:
(1)定义多目标集合G,对于任意目标
$g \in G$ ,都有${f_g}\left( s \right) \in \left\{ {0,1} \right\}$ 。该函数表示当${f_g}\left( s \right) = 1$ 时,状态s到达目标g;${f_g}\left( s \right) = 0$ 时,状态s未到达目标g。(2)目标g可以是状态s,也可以是状态s的映射。
(3)将目标g下的奖励函数定义为一个二值奖励函数
${r_g}\left( {s,a} \right) = - \left[ {{f_g}\left( s \right) = 0} \right]$ ,当状态s未到达目标g时就返回−1。根据环境给予的目标g和初始状态
${s_1}$ ,智能体与环境交互采集样本得到轨迹:$ \left\{ {{s_1},{a_1},{r_1},{s_2}, \cdot \cdot \cdot ,{s_T}} \right\} $ ,并将其以状态元组$\left( {{s_t}\parallel g,{a_t},{r_t},{s_{t + 1}}\parallel g} \right)$ 的形式回放入经验池,此时这条轨迹的数据是基于目标g的。在这条轨迹中随机选取n个当前遍历状态之后的状态组成目标子集$G'$ ,将这轮样本当前状态的目标依次修改为其他目标$g' \in G'$ ,得到新的奖励值$r' = {r'_g}\left( {s,a} \right)$ ,则状态${s_t}$ 对应的状态元组变为$ \left( {{s_t}\parallel g',{a_t},{r'_t},{s_{t + 1}}\parallel g'} \right) $ ,然后将这条轨迹基于目标$g'$ 的所有状态元组进行回放,则经验池中存放的样本数目变为原先真实采样数目的n+1倍,大大增加了训练样本。其中,${s_t}\parallel g$ 为当前状态${s_t}$ 与本轮样本目标g的附加拼接。同时,策略是与目标相关的,其输入是当前状态和本轮需要完成的目标,可表示为
$\textit{π} \left( {{s_t}\parallel g} \right)$ 。由于本文针对的悬臂式掘进机的移机路径规划属于单目标任务,因此所有策略是基于目标g得到的,采样的数据也是不断向着目标g的方向进行的。算法流程见表1。
表 1 HER-SAC算法流程Table 1. HER-SAC algorithm workflowHER-SAC算法流程 输入:环境状态${s_t}$、目标g 输出:最优策略$\textit{π} \left( {{s_t}\parallel g} \right)$ 参数:更新目标Q网络时的权重系数$\rho \left( {\rho > 0} \right)$,折扣因子$\gamma $,迭代序列数E,时间步数T,回合数K 1. 随机初始化Actor网络${\textit{π} _\beta }\left( {{a_t}|{s_t}} \right)$,Q Critic网络参数${\lambda _1}$、${\lambda _2}$,目标网络参数${\lambda _{{\mathrm{target}},1}}$、${\lambda _{{\mathrm{target}},2}}$,策略网络参数$\beta $ 2. 初始化经验池、时间步数T、回合数K 3. for 迭代序列数e=1 to E do 4. 获取环境初始状态${s_1}$、环境给予的目标g 5. for 时间步数t=1 to T do 6. 根据当前策略${\textit{π} _\beta }$采取动作${a_t}$ 7. 执行动作${a_t}$,获取奖励${r_t}$,环境状态变为${s_{t + 1}}$ 8. 生成轨迹$ \left\{ {{s_1},{a_1},{r_1},{s_2}, \cdot \cdot \cdot ,{s_T}} \right\} $ 9. 将其以元组$\left( {{s_t}\parallel g,{a_t},{r_t},{s_{t + 1}}\parallel g} \right)$的形式存入经验池 10. 在这条轨迹中随机选取n个当前遍历状态之后的状态组成目标子集$G'$ 11. for $g' \in G'$ do 12. 计算新的奖励值$r' = {r'_g}\left( {s,a} \right)$,并将新元组存入经验池 13. end for 14. for 回合数k=1 to K do 15. 从经验池中随机采样B个元组 16. 对每个元组计算目标Q值
$U_t^{\left( q \right)} = {r_t} + \gamma \left( {1 - d} \right)\left[ {{{\min }_{j = 1,2}}{Q_{{\lambda _{{\mathrm{target}},j}}}}\left( {{s_{t + 1}}\parallel g,{a_{t + 1}}} \right) - \alpha \ln {\textit{π} _\beta }\left( {{s_t}\parallel g} \right)} \right]$17. 更新Q Critic网络参数,对于j=1,2,最小化损失函数
$ {\text{Los}}{{\text{s}}_Q} = \dfrac{1}{{|B|}}\displaystyle\sum\limits_{\left( {{s_t}\parallel g,{a_t},{r_t},{s_{t + 1}}\parallel g} \right) \in B} {{{\left[ {{Q_{{\lambda _j}}}\left( {{s_t}\parallel g,{a_t}} \right) - U_t^{\left( q \right)}} \right]}^2}} $18. 用重参数化技巧采样动作$ {a'_t} $,更新Actor网络
$ \begin{aligned}& {{\mathrm{Loss}}_A} = \\ &\qquad - \frac{1}{{|B|}}\sum\limits_{\left( {{s_t}\parallel g,{a_t},{r_t},{s_{t + 1}}\parallel g} \right) \in B} {{E_{{a'_t} \sim \textit{π} \left( { \cdot |{s_t};\beta } \right)}}} \left[ {{{\min }_{j = 1,2}}{Q_{{\lambda _j}}}\left( {{s_t}\parallel g,{{a'}_t}} \right) - \alpha \ln {\textit{π} _\beta }\left( {{s_t}\parallel g} \right)} \right] \end{aligned}$19. 更新熵正则化系数$\alpha $ 20. 更新目标网络参数$ {\lambda _{{\mathrm{target}},j}} \leftarrow \rho {\lambda _{{\mathrm{target}},j}} + \left( {1 - \rho } \right){\lambda _j} $ 21. end for 22. end for 23. end for 3.2 定义智能体状态空间与动作空间
状态空间代表智能体感知的环境信息,它是智能体做出决策并对其长期效益进行评价的基础,合理地进行状态空间设计可以保证算法稳定收敛,提升算法性能[30]。掘进机器人在非全断面巷道作业条件下的移机过程中需要明确其目标位置、与巷道侧壁的安全运动范围,从而采取合理的动作与巷道侧壁不发生碰撞,安全到达目标位置。因此,智能体的状态空间可定义为
${S_t} = \left\{ {{T_t},{O_t},{\alpha _t},{D_t}} \right\}$ ,其中${T_t}$ 为智能体需要到达的目标位置,${O_t}$ 为智能体的实时位置,${\alpha _t}$ 为智能体的实时航向角,${D_t}$ 为智能体与巷道侧壁发生碰撞情况。动作空间是机器人与环境交互的方式[31]。由于掘进机器人存在转向和直行两种运动方式,因此,智能体的动作空间可定义为
${A_t} = \left\{ {{\upsilon _t},{\omega _t}} \right\}$ ,其中${\upsilon _t}$ 为智能体前向运动速度,${\omega _t}$ 为智能体运动角速度。3.3 奖惩函数设计
智能体在寻优探索的过程中,奖励函数的构成,决定了算法寻优的方向和智能体学习的动作[32]。设计奖惩函数是为了使智能体通过奖惩机制快速找到安全到达目标位置的最优路径。本文设置奖惩函数有如下内容:
(1)通过智能体的实时位置与目标位置的距离来判断是否到达目标位置,若成功到达目标位置,获得奖励
${R_{{\mathrm{arrive}}}} = 1.5$ ,结束该回合;为避免奖励过于稀疏,在智能体运动过程中,记智能体上一时刻与目标位置的横向距离为${x_{t - 1}}$ ,智能体当前时刻与目标位置的横向距离为${x_t}$ ,若${x_t} < {x_{t - 1}}$ ,获得奖励${R_x} = 0.1$ 。(2)智能体通过包围盒之间的相交检测判断是否发生碰撞,为保证智能体的安全运动空间,将巷道侧壁的包围盒膨胀了1.2倍。当触发碰撞时,获得惩罚
${R_{{\mathrm{collision}}}} = - 0.5$ ,结束该回合。(3)根据实际巷道作业规程,掘进机器人前后移动距离不能过长,因此,需要对智能体添加前后移动距离约束,若智能体的实时位置超出前后移动距离约束范围,获得惩罚
${R_{\textit{z}}} = - 0.5$ ,结束该回合。(4)为缩短智能体到达目标位置的时间,提高训练效率,在智能体动作后的每一步设置外部奖励
$ {R_t} = - 0.005 $ 。因此,本文的奖励函数为:
$$ r\left( {{s_t},{a_t}} \right) = {R_{{\mathrm{arrive}}}} + {R_x} + {R_{{\mathrm{collision}}}} + {R_{\textit{z}}} + {R_t} $$ (10) 3.4 智能体训练结果分析
在Unity3D平台中建立智能体,基于Python语言设计HER-SAC算法,通过本地Socket实现Unity3D与Python的交互,进行智能体的训练。HER-SAC算法主要参数设置见表2。
表 2 HER-SAC算法主要参数设置Table 2. Main parameters of the HER-SAC algorithm参数 值 学习率 0.000 2 折扣因子 0.99 批量大小 1 024 经验池容量 204 800 隐藏层神经元个数 256 网络层数 3 采样步数 100 最大步数 3 000 000 为了更清楚地观察训练结果,在相同场景条件下分别使用HER-SAC、SAC、PPO 3种算法对智能体进行训练,结果如图7所示。图7a为智能体的累积奖励变化曲线,智能体获得的奖励值越大,则其在训练过程中采取正确动作的概率越大;图7b为智能体训练时的回合长度变化曲线,每回合的长度值越大,则其在训练过程中采取正确动作的步数越多;图7c为智能体在训练过程中的Actor网络损失值变化曲线,Actor网络的目标函数是为了最大化熵和奖励值,因此其损失值为负值,绝对值越大,说明最大化熵的程度越大,智能体采取的策略越随机;图7d为智能体在训练过程中的Critic网络损失值变化曲线,损失值越小,说明智能体所获实际奖励值越接近理论奖励值。
由图7a可以看出,当训练迭代次数比较小时,智能体易与巷道侧壁发生碰撞,获得的奖励较少,训练迭代次数逐渐增大时,智能体在3种算法下所获奖励迅速增加,其中HER-SAC算法在获得最大奖励值时所需迭代次数最少,最快达到收敛。由图7b可以看出,训练迭代次数逐渐增大时,智能体在3种算法下的回合长度值不断增大,其中HER-SAC算法的回合长度值增大的速度最快,达到最大回合长度值的迭代次数最小。由图7c可以看出,训练迭代次数逐渐增大时,HER-SAC算法策略损失值的绝对值不断增大,最快达到收敛。由图7d可以看出,训练迭代次数逐渐增大时,智能体在3种算法下的损失值均逐渐减小,其中HER-SAC算法的损失值最小时的迭代次数最少,最先达到收敛。
通过对比3种算法的平均奖励值、最高奖励值、达到最高奖励值的步数及鲁棒性指标进行算法的性能分析,对比结果见表3,其中算法的鲁棒性指标通过智能体的平均奖励值与标准差进行描述。
表 3 3种算法性能对比分析Table 3. Comparative analysis of the performance of three algorithms算法 平均奖励值 最高奖励值 达到最高奖励值的步数 鲁棒性 PPO 128.235 5 197.167 4 2 630 000 128.235 5$ \pm $88.968 5 SAC 129.103 7 197.386 1 2 540 000 129.103 7$ \pm $85.008 4 HER-SAC 135.746 8 197.940 2 2 370 000 135.746 8$ \pm $78.516 2 由表3可以看出,3种算法在性能方面,SAC算法相比于PPO算法的平均奖励值和最高奖励值更高,达到最高奖励值的步数更少,鲁棒性方面更优,而HER-SAC算法在4个指标的性能上均超过了另两种算法。与PPO算法相比,HER-SAC算法的平均奖励值提高了5.86%,最高奖励值提高了0.39%,达到最高奖励值的步数缩短了9.89%,所获奖励的标准差降低了11.75%;与SAC算法相比,HER-SAC算法的平均奖励值提高了5.15%,最高奖励值提高了0.28%,达到最高奖励值的步数缩短了6.69%,所获奖励的标准差降低了7.64%。
4 实验与结果分析
4.1 掘进机器人路径规划实验环境搭建
为了进一步验证本文所提方法的可靠性,基于Unity3D平台搭建掘进机器人路径规划实验平台,采用虚实结合的方式对掘进机器人的机身路径规划功能进行验证。
实验平台分为软件平台和硬件平台,其中软件平台主要由设备状态监测模块、环境监测模块、掘进机器人位姿参数显示模块和远程控制模块组成,如图8所示,硬件平台采用履带式机器人代替掘进机器人,以实验室楼道作为巷道环境,如图9所示。
4.2 掘进机器人虚实同动实验验证
虚实结合的方式能够有效应用的前提是虚实空间中机器人的位姿时刻保持一致,因此需要对虚实空间中机器人动作的同步性进行测试。
上述实验平台中巷道环境尺寸为200 cm×200 cm,掘进机器人尺寸为70.0 cm×68.5 cm,以巷道左下角作为坐标原点,宽度方向作为x轴,长度方向作为y轴,建立巷道坐标系。通过软件平台中的远程控制模块下发控制指令,远程控制机器人动作,机器人机身上的传感器数据传输至软件平台中对虚拟空间中的机器人位姿进行动态修正,从而保证虚实空间中的机器人动作保持一致。通过实时观测虚实空间中机器人执行一次路径规划任务过程中的位姿数据,以t=1 s的采样周期,采集31个位置处的x方向坐标数据、y方向坐标数据和航向角数据进行对比,如图10所示。
由图10可以看出,掘进机器人在运动过程中物理空间和虚拟空间的x方向坐标、y方向坐标和航向角基本保持一致。
为了更清楚地对比机器人在虚实空间中的位姿数据,将机器人在此过程中经过的路径起点、路径终点和路径关键点处的(x, y)坐标和航向角数据进行对比分析,见表4。x方向坐标的误差在1.57 cm以内,y方向坐标的误差在1.79 cm以内,航向角的误差在0.78°以内,满足虚实同动的性能要求。
表 4 虚实空间数据对比分析Table 4. Comparative analysis of virtual and real space data序号 物理空间 虚拟空间 误差绝对值 (x, y)坐标/cm 航向角/(°) (x, y)坐标/cm 航向角/(°) (x, y)坐标/cm 航向角/(°) 1 (90.14, 99.61) 0.12 (90.56, 99.31) 0.25 (0.42, 0.30) 0.13 2 (94.72, 40.15) −2.68 (94.13, 41.06) −2.41 (0.59, 0.91) 0.27 3 (102.37, 136.03) −7.04 (103.64, 137.82) −6.26 (1.57, 1.79) 0.78 4 (111.28, 61.08) 3.69 (112.44, 62.43) 3.13 (1.16, 1.35) 0.56 5 (114.93, 110.54) 1.07 (114.49, 110.07) 1.58 (0.44, 0.47) 0.51 4.3 掘进机器人路径规划实验结果及分析
通过上述实验验证了机器人在虚实空间中的动作同步性,因此本文通过虚实结合的方式可直观地展示路径规划结果。
以上述实验平台为基础,设置掘进机器人初始位置坐标为(90, 100),在此条件不变的情况下,通过调整目标位置设置两种场景并分别使用SAC算法和HER-SAC算法对掘进机器人进行路径规划。
第一种场景(近距离)中的目标位置的坐标为(115, 100),距离机器人初始位置较近,分别将虚拟空间和物理空间中机器人的路径结果记录如图11所示;第二种场景(远距离)中将目标位置的坐标设置为(145, 100),距离机器人初始位置较远,分别将虚拟空间和物理空间中机器人的路径结果记录如图12所示。
由图11可以看出,近距离条件下,两种算法规划的路径效果良好,HER-SAC算法相比SAC算法路径纵向移动距离更短,路径的平滑性更好;由图12可以看出,远距离条件下,HER-SAC算法相比SAC算法效果更好,纵向移动距离更短,路径更加平滑。
为进一步分析本文所提算法的性能,分别统计了两种算法在两种场景下的路径长度、拐点数及路径终点与目标位置的距离,见表5。近距离条件下,HER-SAC算法比SAC算法,路径长度更短,拐点数更少,终点更接近目标位置;远距离条件下,HER-SAC算法的路径长度更短,拐点数更少,终点与目标位置的距离更小,达到最优路径,而SAC算法的路径长度较长,拐点数较多,并非最优路径。
表 5 路径结果对比Table 5. Comparison of results between long and short path planing目标距离 算法 起点坐标/cm 终点坐标/cm 目标坐标/cm 终点与目标位置距离/cm 路径长度/cm 拐点数 近距离 SAC (90, 100) (114.26, 103.48) (115, 100) 3.56 426.59 4 HER-SAC (90, 100) (114.98, 103.53) (115, 100) 3.53 300.57 3 远距离 SAC (90, 100) (143.17, 99.24) (145, 100) 1.98 794.26 12 HER-SAC (90, 100) (144.40, 99.92) (145, 100) 0.61 299.25 3 综上所述,本文所提算法在两种场景下规划出的路径更加平滑,路径长度更短,能够更好地适应不同的目标位置,高效地完成路径规划任务,为掘进机器人的移机轨迹跟踪控制奠定基础。
5 结 论
a. 根据煤矿井下非结构化环境特征及掘进机器人运动特性,提出了巷道边界受限下的避障策略,基于奖惩机制建立了智能体,采用深度强化学习方法实现了掘进机器人的移机路径规划,实验结果表明该方法能够获得长度更短、更加平滑的路径。
b. 将后见经验回放引入SAC算法中,提出了HER-SAC算法,根据初始环境目标获得多目标子集,增加经验池样本数据,提高了算法的收敛速度和训练效率。用3种算法在同一场景条件下进行训练,训练结果表明该算法相比另外两种算法性能达到最优,能够更高效地完成路径规划任务。
c. 采用虚实结合的方式对所提方法进一步验证,通过对比分析不同场景下2种算法的路径结果,验证了本文所述方法的准确度和鲁棒性,为煤矿掘进设备自动化提供了新方法。由于实际煤矿井下巷道环境复杂多变,后续还需深入研究巷道环境构建、机器人运动控制等内容,实现非全断面巷道智能化作业,提高掘进效率。
符号注释:
${{a} _t}$ 为t时刻的动作;${a'_t}$ 为策略π在下一步采取的所有可能动作;B为从经验池中取一个batch(批量)的样本数据量;${E_\textit{π} }$ 为策略π在状态${s_{t + 1}}$ 下的累积回报期望;${E_{\left( {{{\text{s}}_t},{a_t}} \right) \sim {\rho _\textit{π} }}}$ 为策略π在状态−动作对$\left( {{s_t},{a_t}} \right)$ 下的回报期望;$ {E_{{a'_t} \sim \textit{π} \left( { \cdot |{s_t};\beta } \right)}} $ 为策略π在状态${s_t}$ 下采取动作${a'_t}$ 的回报期望;$H\left( {\textit{π} \left( { \cdot |{{\text{s}}_t}} \right)} \right)$ 为策略π在状态${s_t}$ 下的熵;$ \dot {\boldsymbol{P}} $ 为掘进机器人的位姿矩阵;$ Q\left( {{s_t},{a_t};\lambda } \right) $ 为Q Critic网络输出的状态动作对(st,at)下的预测价值估计;$Q\left( {{s_t},{a'_t};\lambda } \right) $ 为Q Critic网络输出的状态动作对(st,${a'_t} $ )下的预测价值估计;${{r} _t}$ 为状态−动作对$\left( {{s_t},{a_t}} \right)$ 的回报值;$r\left( {{s_t},{a_t}} \right)$ 为状态−动作对$\left( {{s_t},{a_t}} \right)$ 下的回报值;${{s} _t}$ 为t时刻的状态;t为时间步数;T为时间参数;${\dot x_0}$ 、${\dot y_0}$ 分别为掘进机器人在巷道平面坐标系XOY下沿x轴、y轴方向上的线速度;$\alpha $ 为正则化系数;$\beta $ 为Actor网络参数;$\gamma $ 为折扣因子;$\dot \theta $ 为掘进机器人运动角速度;$\lambda $ 为Q Critic网络参数;π为一个状态下采取一个动作的概率;$\ln \textit{π} \left( {{a'_t}|{s_t};\beta } \right)$ 为策略π在状态${s_t}$ 下的熵;${\rho _\textit{π} }$ 为t=0到T所有状态−动作对的集合。 -
期刊类型引用(4)
1. 刘晓娟,许光泉,傅先杰,单崇雷. 疏放条件下新生界底部含水层数值模拟及排泄量评价. 煤矿安全. 2024(04): 197-203 . 百度学术
2. 徐智敏,陈天赐,陈歌,李剑锋,孙亚军,李鑫,袁慧卿,何也. 煤层采动顶板水文地质参数演化与矿井涌水量动态计算方法. 煤炭学报. 2023(02): 833-845 . 百度学术
3. 邹建. 地质指标分析下的裂隙岩体渗透系数估算模型构建. 科学技术创新. 2022(23): 35-38 . 百度学术
4. 胡雪墩. 木瓜煤矿工作面顶板含水层突水危险性评价. 江西煤炭科技. 2021(04): 120-124 . 百度学术
其他类型引用(3)
计量
- 文章访问数: 19
- HTML全文浏览量: 10
- PDF下载量: 2
- 被引次数: 7