煤矿井下掘进机器人路径规划方法研究

张旭辉, 郑西利, 杨文娟, 李语阳, 麻兵, 董征, 陈鑫

张旭辉,郑西利,杨文娟,等. 煤矿井下掘进机器人路径规划方法研究[J]. 煤田地质与勘探,2024,52(4):152−163. DOI: 10.12363/issn.1001-1986.23.11.0748
引用本文: 张旭辉,郑西利,杨文娟,等. 煤矿井下掘进机器人路径规划方法研究[J]. 煤田地质与勘探,2024,52(4):152−163. DOI: 10.12363/issn.1001-1986.23.11.0748
ZHANG Xuhui,ZHENG Xili,YANG Wenjuan,et al. Research on path planning methods for underground roadheader robots[J]. Coal Geology & Exploration,2024,52(4):152−163. DOI: 10.12363/issn.1001-1986.23.11.0748
Citation: ZHANG Xuhui,ZHENG Xili,YANG Wenjuan,et al. Research on path planning methods for underground roadheader robots[J]. Coal Geology & Exploration,2024,52(4):152−163. DOI: 10.12363/issn.1001-1986.23.11.0748

 

煤矿井下掘进机器人路径规划方法研究

基金项目: 国家自然科学基金项目(52104166);陕煤联合基金项目(2021JLM-03);中国博士后科学基金面上项目(2022MD723826);陕西省重点研发计划项目(2023-YBGY-063)
详细信息
    作者简介:

    张旭辉,1972年生,男,陕西凤翔人,博士,教授,博士生导师,研究方向为矿山设备状态监测与故障诊断、机电耦合建模与非线性动力学、数字孪生驱动远程虚拟操控、新型能量收集技术及应用、机电产品绿色设计技术与评价等. E-mail:zhangxh@xust.edu.cn

    通讯作者:

    杨文娟,1989年生,女,山西吕梁人,博士,副教授,硕士生导师,研究方向为煤矿智能机电系统研发、井下视觉测量与智能导航等. E-mail:yangwj@xust.edu.cn

  • 中图分类号: TD421

Research on path planning methods for underground roadheader robots

  • 摘要:

    针对煤矿非全断面巷道条件下掘进机器人移机难度大、效率低下等问题,分析了煤矿井下非结构化环境特征及掘进机器人运动特性,提出了基于深度强化学习的掘进机器人机身路径规划方法。利用深度相机将巷道环境实时重建,在虚拟环境中建立掘进机器人与巷道环境的碰撞检测模型,并使用层次包围盒法进行虚拟环境碰撞检测,形成巷道边界受限下的避障策略。考虑到掘进机器人形体大小且路径规划过程目标单一,在传统SAC算法的基础上引入后见经验回放技术,提出HER-SAC算法,该算法通过环境初始目标得到的轨迹扩展目标子集,以增加训练样本、提高训练速度。在此基础上,基于奖惩机制建立智能体,根据掘进机器人运动特性定义其状态空间与动作空间,在同一场景下分别使用3种算法对智能体进行训练,综合平均奖励值、最高奖励值、达到最高奖励值的步数以及鲁棒性4项性能指标进行对比分析。为进一步验证所提方法的可靠性,采用虚实结合的方式,通过调整目标位置设置2种实验场景进行掘进机器人的路径规划,并将传统SAC算法和HER-SAC算法的路径结果进行对比。结果表明:相较于PPO算法和SAC算法,HER-SAC算法收敛速度更快、综合性能达到最优;在2种实验场景下,HER-SAC算法相比传统SAC算法规划出的路径更加平滑、路径长度更短、路径终点与目标位置的误差在3.53 cm以内,能够有效地完成移机路径规划任务。该方法为煤矿掘进机器人的自主移机控制奠定了理论基础,为煤矿掘进设备自动化提供了新方法。

    Abstract:

    In order to solve the problems of difficulty and low efficiency in the movement of robotic roadheaders under conditions of non-full-section roadways in coal mines, the characteristics of unstructured environments in coal mines and the motion characteristics of robotic roadheaders were analyzed, and a path planning method for robotic roadheaders based on deep reinforcement learning was proposed. The tunnel environment was constructed in real time using depth cameras, a virtual model for detecting roadheader-tunnel collisions was established, collision detection was performed in a virtual environment using the hierarchical bounding box method, and an obstacle avoidance strategy under the restrictions of tunnel boundary was developed. Considering the size of the roadheader robot and the single goal in the path planning process, the HER-SAC algorithm was proposed based on the traditional SAC algorithm by introducing the retrospective experience playback technology. The algorithm expands the target subset through the trajectory obtained by the initial target in the environment to increase training samples and training speed. On this basis, an agent was established based on the reward and punishment mechanism, and its state space and action space were defined according to the motion characteristics of the roadheader robot. The agent was trained using three algorithms under the same scenario, and the performances of these algorithms were comparatively analyzed using four indicators, namely, the average reward value, the maximum reward value, the number of steps to reach the maximum reward value, and robustness. In order to further verify the reliability of the proposed method, a virtual-real combination method was adopted, roadheader path planning was performed in two experimental scenarios set by adjusting the target position, and the results produced by the traditional SAC algorithm and the HER-SAC algorithm were compared. The results show that the HER-SAC algorithm converges faster and generally performs better than the PPO and SAC algorithms; in the two experimental scenarios, the path planned by the HER-SAC algorithm is smoother and shorter than that planned by the traditional SAC algorithm, and the error between the end point of the path planned by the HER-SAC algorithm and the target position is less than 3.53 cm, indicating that the HER-SAC algorithm can effectively execute and complete path planning tasks. This study lays a theoretical foundation for autonomous transfer control of roadheader robots and provides a new approach to the automation of coal mining equipment.

  • 塌方事故是矿山巷道和隧道建设工程中常见的灾害类型[1-5],常常会导致逃生通道堵塞造成人员被困。实践证明,大直径水平钻孔是地下工程塌方救援的有效手段,其基本原理是采用大功率救援钻机,配套大直径外套管和内螺旋钻杆,采用跟管或顶管钻进方法[6-8]钻进穿越坍塌体,准确连通被困人员所在位置,撤出内螺旋钻杆,利用外套管形成的救援通道将被困人员救出。该救援方法具有救援效率高、工程量小、安全性好、响应快等优点[9-11],是矿山救援技术体系不可或缺的重要组成部分。

    目前,大直径水平钻孔救援技术装备主要应用于公路、铁路隧道建设塌方事故中[12-14],并取得了良好的救援效果。大直径水平钻孔施工采用的钻具规格远远大于常规钻孔,此外混杂坍塌体中大直径水平钻孔施工要求钻进装备具备较高的性能参数(扭矩、推进力等)能够克服巨大的钻进阻力,因此,大直径水平救援装备一般具有较大的外形尺寸(长11 000 mm×宽3 000 mm×高4 500 mm),这种装备可以很好地满足地面隧道工程救援,但无法直接适用于空间狭小的矿山井下环境救援[15]

    以煤矿为代表的矿山井下救援要求水平大直径钻孔救援装备具有更小的外形尺寸,要解决装备小型化和坍塌体混杂条件下大直径钻进之间的矛盾,必须开展大直径钻孔工艺研究及钻进工艺参数分析研究,为钻进装备功能开发和参数制定提供依据。

    本研究从煤矿井下大直径钻孔救援需求出发,制定了大直径水平救援钻孔钻进工艺,设计了配套钻具,建立了钻具运动及力学模型,分析得出不同钻进状态下的关键钻进工艺参数。

    针对坍塌体内跟管钻进塌孔、卡钻、套管摩擦阻力大等问题,为满足长距离救援通道构建需求,本研究提出采用分级跟管钻进成孔工艺方法,拟通过三级套管实现长度60 m救援通道构建目标[16],每当上一级钻进受阻或达到设计钻进目标后提出孔内螺旋钻杆,然后下入下一级钻具组合,在上级套管的支护下继续延伸钻进,直至达到最终钻进目标。如图1所示分别为一级、二级和三级跟管钻进成孔工艺方法原理,一级套管跟管钻进深度达到20 m或钻进受阻无法进尺的情况下,提出一级钻杆及一级刀盘,并从一级套管内下入二级跟管套管和刀盘继续进行二级跟管钻进,直至钻进深度到达40 m或二级跟管钻进受阻无法进尺,从二级套管内下入三级跟管套管和三级刀盘,由此实现60 m钻进深度目标。这种多级钻进工艺方法较常规单级钻进工艺具有地层适应性强、钻进深度大、可靠性高等优点。

    图  1  多级跟管钻进成孔工艺原理
    Figure  1.  Schematic diagrams of borehole forming based on multi-stage casing drilling

    大直径跟管钻进配套钻机具有同时驱动套管和螺旋钻杆旋转的双动力头机构,跟管钻进过程中,螺旋钻杆动力头带动螺旋钻杆顺时针旋转,套管动力头带动套管逆时针旋转,钻机同时向螺旋钻杆和套管施加推进力将组合钻具向孔内推进,而传统的跟管钻进工艺套管一直处于滑动钻进状态。套管与螺旋钻杆复合式回转的跟管钻进工艺方法具有以下技术优势[17]:(1)套管与螺旋钻杆反向旋转增大了两种钻具之间的相对转速,提高了螺旋钻杆排渣效率。(2)套管的旋转较纯滑动跟管钻进工艺可大幅度降低套管的轴向推进力,有效提高系统钻进能力。

    针对混杂坍塌体高效钻进工艺需求,设计了高强度大直径套管,套管采用高强度无缝合金钢管整体加工而成,套管连接后为全内平结构,有利于大直径螺旋钻杆快速搅粉排渣及救援仓顺利通过。设计了套管快速拆装结构,分别在套管连接部位周向均布设计了12个连接螺纹孔,公母接头部位设计了快速定位键与定位键槽,连接后使用连接螺栓进行固定,实现了套管快速连接和拆卸,并保证了套管连接后的内平结构,大直径套管及连接结构如图2所示。3种规格的大直径套管级配见表1

    图  2  大直径套管及连接结构
    Figure  2.  Large-diameter casings and connecting structures
    表  1  大直径套管级配
    Table  1.  Grading of large-diameter casings
    套管级配D0/mmd0/mm有效长度/mm
    三级套管6505701 000
    二级套管7706901 000
    一级套管8908101 000
    下载: 导出CSV 
    | 显示表格

    在坍塌破碎地层施工大直径救援钻孔过程中,螺旋钻杆主要起到扭矩传递、清除岩屑的作用,螺旋钻杆在套管内形成了一个“螺旋输送机”,钻渣沿螺旋叶片旋转排出孔外。根据大直径、大扭矩的要求设计了六棱柱插接接头结构,采用六边形配合面传递扭矩,设计了一对高强度连接销结构进行插接接头的连接固定,并承受提钻时的拉力,钻杆体外表面焊接高强度螺旋叶片,整体结构强度高,连接方便,接头设计为大通径结构,可以实现内部管道排布,插接式螺旋钻杆及连接结构如图3所示。3种规格大直径螺旋级配见表2

    图  3  大直径插接式螺旋钻杆及连接结构
    Figure  3.  A large-diameter plug-in spiral drill rod and its connecting structure
    表  2  大直径螺旋钻杆级配
    Table  2.  Grading of large-diameter spiral drill rods
    钻杆级配D1/mmD2/mmd/mms/mm有效长度/mm
    三级钻杆5202301785001 000
    二级钻杆6402301785001 000
    一级钻杆7602301785001 000
    下载: 导出CSV 
    | 显示表格

    根据动摩擦理论,套管和地层摩阻力等于作用于套管壁上覆地层压力与套管和地层间摩擦系数的乘积。由于混杂坍塌体与钢套管之间的摩擦系数需通过试验获取,且跟管钻进套管摩阻力的大小与地层的成分、结构和构造、摩擦运动相对速度等有关[18-20],因此摩擦系数影响因素较多且相对不固定。

    为计算方便,结合水平大直径跟管钻进特点,结合GB 50268—2008《给水排水管道工程施工及验收规范》[21]中关于顶管和夯管钻进套管摩擦阻力的计算方法,套管与不同土质类型之间的单位摩阻见表3,则套管动摩擦阻力为:

    表  3  套管外壁与土体间单位摩阻
    Table  3.  Frictional resistance per unit area between the outer casing wall and soil mass
    土质类型单位摩阻/kPa备注
    软弱土层0泡沫润滑
    黏性土3~4泡沫润滑
    粉土4~7泡沫润滑
    砂土7~10泡沫润滑
    砂土12~25
    砂卵石18~30
    砂砾石15~20
    漂石、块石40~60
    下载: 导出CSV 
    | 显示表格
    $$ {F}_{\mu }=\mathrm{\pi }Dl{f}_{1} $$ (1)

    根据复合跟管钻进工艺原理,式(1)满足仅考虑套管摩擦阻力的工况,可作为套管动摩擦阻力计算依据。

    为方便分析,根据井下近水平复合钻进技术特点做出如下假设:

    (1)忽略地层的强度、法向力对摩擦系数的影响。

    (2)将套管简化为相同材质、等径连续圆管。

    (3)钻孔轨迹沿水平延伸。

    (4)沿钻孔轴向延伸方向上,坍塌体的力学特性相同。

    根据假设,在长度l钻具上取微单元dl为研究对象,复合跟管钻进过程中,dl上质点运动可以分解为以线速度v1沿套管轴线的轴向运动和以转速n绕套管轴线的切向运动(v2),套管外壁轴向微单元摩擦阻力为dFμ1;在松散地层挤压下,钻机输出转矩带动套管在旋转过程中,克服套管外壁周向受到地层摩擦,这种受力特征可等效为作用在套管外壁、沿套管截面圆外缘切向、以套管直径为力偶臂的一对力偶,微单元切向摩擦阻力为dFμ1。钻具轴向摩擦阻力模型如图4所示[22-23]。钻具在孔口钻机轴向推力T作用下克服孔底对钻头的阻力P以及钻具轴向摩擦Fμ1进行速度v1轴向运动,同时在钻机扭矩作用下克服套管圆向摩擦力矩M进行速度v2旋转运动。

    图  4  复合跟管钻进套管轴向摩擦阻力模型
    Figure  4.  Model for the axial frictional resistance of casings in the process of composite casing drilling

    根据上述力学模型,可知Fμ1M计算公式为:

    $$ {F}_{\mu 1}=\mathrm{sin}\left({\mathrm{arctan}}\frac{{v}_{1}}{{v}_{2}}\right)\cdot {F}_{\mu } $$ (2)
    $$ M=D/2\cdot \mathrm{cos}\left({\mathrm{arctan}}\frac{{v}_{1}}{{v}_{2}}\right)\cdot {F}_{\mu } $$ (3)

    Fμ1M表达的意义是外径D、长度l的套管在复合跟管钻进工况下与孔壁之间相互摩擦作用而产生的轴向摩擦力和摩擦扭矩,套管长度l、轴向滑动速度v1和套管转速n是影响该两项指标的主控影响因素。下面将针对现有的3种规格套管,在不同孔深及钻进工艺参数匹配的条件下进行摩阻规律特性分析。

    根据分级跟管钻进工艺技术原理,第一级套管外表面摩擦阻力仅考虑套管与地层间摩擦作用,二级和三级套管的表面摩擦阻力包括上一级套管护孔段钢管之间的摩擦阻力和未护孔段套管与地层之间的摩擦阻力;根据钻进需要,每一级套管需要在地层中延伸20 m,以此实现三级套管跟管钻进60 m目标;为方便计算和分析,忽略套管内钻屑对钢套管之间动摩擦系数影响,取钢管之间动摩擦系数为0.2。由此分别进行三级跟管钻进套管摩擦阻力数值模拟和规律分析。

    ø890 mm套管在不同机械钻速工况下套管轴向滑动阻力随套管复合转速变化如图5所示。20 m一级套管在不回转情况下,滑动阻力最大,达到1 118 kN;相同转速条件下,滑动钻进阻力随着机械钻速的增加呈增加趋势;套管复合回转对轴向摩擦阻力有着明显的影响,同一机械钻速条件下,随着套管复合转速增加,轴向滑动阻力呈减速下降趋势,且在转速0~2 r/min范围内,转速对滑动阻力影响较大,随着机械钻速增加,这种影响的敏感性逐渐降低。

    图  5  一级套管轴向摩擦阻力随转速变化
    Figure  5.  Curves showing the axial frictional resistance of the first-stage casing varying with the rotational speed

    ø890 mm套管在不同机械钻速工况下套旋转摩擦力矩随套管转速变化如图6所示。相同转速条件下,摩擦扭矩随着机械钻速的增加呈下降趋势;延伸20 m一级套管复合回转工况下,套管摩擦力矩最大为4 946 kN·m;套管转速对摩擦力矩有着明显的影响,同一机械钻速条件下,随着转速增加,轴向滑动阻力呈减速上升趋势,总体上在转速0~1.5 r/min范围内,转速对摩擦力矩影响较大,且随着机械钻速增加,这种影响的敏感性有所降低。

    图  6  一级套管摩擦力矩随转速变化
    Figure  6.  Curves showing the frictional moment of the first-stage casing varying with the rotational speed

    ø770 mm二级套管在不同机械钻速工况下套管轴向滑动阻力随套管复合转速变化如图7所示。40 m二级套管在不回转情况下,考虑其与ø890 mm套管内壁摩擦,滑动阻力最大达到996 kN;二级套管轴向摩擦阻力变化规律与一级套管相似,此处不再赘述。

    图  7  二级套管轴向摩擦阻力随转速变化
    Figure  7.  Curves showing the axial frictional resistance of the second-stage casing varying with the rotational speed

    ø770 mm二级套管在不同机械钻速工况下套旋转摩擦力矩随套管转速变化如图8所示。40 m二级套管复合回转工况下,考虑其与ø890 mm套管内壁摩擦,套管摩擦力矩最大为3 823 kN·m;二级套管旋转摩擦力矩变化规律与一级套管相似,此处不再赘述。

    图  8  二级套管摩擦力矩随转速变化
    Figure  8.  Curves showing the frictional moment of the second-stage casing varying with the rotational speed

    ø650 mm三级套管在不同机械钻速工况下套管轴向滑动阻力随套管复合转速变化曲线如图9所示。60 m三级套管在不回转情况下,考虑其与ø770 mm二级套管内壁摩擦,滑动阻力最大达到865 kN;三级套管轴向摩擦阻力变化规律与一级套管相似,此处不再赘述。

    图  9  三级套管轴向摩擦阻力随转速变化
    Figure  9.  Curves showing the axial frictional resistance of the third-stage casing varying with the rotational speed

    ø650 mm三级套管在不同机械钻速工况下套旋转摩擦力矩随套管转速变化如图10所示。60 m三级套管复合回转工况下,考虑其与ø770 mm二级套管内壁摩擦,套管摩擦力矩最大为2 798 kN·m;三级套管旋转摩擦力矩变化规律与一级套管相似,此处不再赘述。

    图  10  三级套管摩擦力矩随转速变化
    Figure  10.  Curves showing the frictional moment of the third-stage casing varying with the rotational speed

    为与三级套管跟管钻进摩阻进行对比分析,同时进行了ø650 mm单级套管钻进60 m深度工况下的摩阻计算,ø650 mm单级套管在不同机械钻速工况下滑动钻进阻力随套管复合转速变化如图11所示。60 m单级套管在不回转情况下,滑动阻力最大达2 450 kN,单级60 m套管轴向摩擦阻力变化规律与一级20 m套管类似,此处不再赘述。

    图  11  单级套管轴向摩擦阻力随转速变化
    Figure  11.  Curves showing the axial frictional resistance of the single-stage casing varing with rotational speed

    ø650 mm单级套管在不同机械钻速工况下旋转摩擦力矩随套管转速变化情况如图12所示。60 m单级复合回转工况下,套管摩擦力矩最大为7 926 kN·m。

    图  12  单级套管摩擦力矩随转速变化
    Figure  12.  Curves showing the frictional moment of the single-stage casing varing with rotational speed

    综合图5图7图9图11,三级跟管钻进所需最大推进力为一级ø890 mm套管20 m钻进时的1 118 kN,远小于单级套管60 m钻进所需的2 450 kN,降低幅度达54%;综合图6图8图10图12,三级跟管钻进所需最大扭矩为一级ø890 mm套管钻进20 m时的4 927 kN·m,同样远小于单级套管60 m钻进所需的7 926 kN·m,降低幅度达38%。因此,针对矿山大直径救援钻孔施工60 m钻进目标,三级套管跟管钻进工艺相比单级套管回转钻进对钻机设备的能力要求明显降低,有利于解决钻机尺寸限制与能力输出之间的矛盾。三级跟管钻进对于钻机设备的能力要求为:额定推进力≥2 000 kN,在满足三级跟管钻进最大推进力1 118 kN情况下,具备80%的能力储备应对异常工况需要;额定转矩≥5 000 kN·m,满足一级跟管钻进最优钻进工况需求,覆盖二级、三级跟管钻进所有工况,可有效降低滑动钻进阻力,提高钻进效率。

    综合图5图7图9可知,轴向摩擦阻力随套管转速增加在0~2 r/min范围内呈急速下降趋势,在2~5 r/min范围内呈缓慢下降趋势;综合图6图8图10可知,旋转摩擦力矩随套管转速增加在0~1.5 r/min范围内呈急速上升趋势,在1.5~5 r/min范围内呈缓慢上升趋势。根据跟管钻进工艺的特点,本项目采用了中心钻头超切跟管钻进方案,套管只是跟随超切钻头向前推进,套管旋转目的只是为了减阻,以ø890 mm套管为例,在正常钻进工况下,套管转速1 r/min就可以较纯滑动工况下降低滑动阻力13%~42%,因此,三级跟管钻进在最大扭矩条件下套管最高转速应≥1 r/min,保证套管推进实现较好的减阻效果,又不对钻机回转产生过大的负荷。

    图5图12可知,这三级套管的轴向摩擦阻力和旋转摩擦力矩具有相似的变化规律,尽管二级、三级套管考虑了本级套管与上级套管之间的摩擦力,但最大摩擦力也分别为48 kN和29 kN,分别占对应最大摩擦力的5.9%和3.0%,对套管摩擦阻力参数整体变化规律影响不大。

    (1) 大直径复合跟管钻进中,套管机械钻速和转速是影响套管轴向摩擦阻力和旋转摩擦力矩的主要控制因素。

    (2) 根据跟管钻进套管摩阻规律分析,套管转速0~2 r/min复合跟管钻进时,少量的转速增加,便会引起轴向摩擦阻力显著降低;转速0~1.5 r/min范围内,少量的转速增加,便会引起旋转摩擦力矩快速增加。

    (3) 基于跟管钻进套管摩阻规律分析,大直径多级跟管钻进工艺参数要求推进力≥2 000 kN,额定转矩≥5 000 kN·m。另外钻进过程中最大扭矩条件下套管最高转速≥1 r/min,保证套管回转实现较好的减阻效果。

    (4) 建立了大直径套管复合跟管钻进运动和力学计算模型,结合大直径分级跟管钻进工艺,对套管摩阻规律进行深入分析,对配套救援钻机跟管机构核心参数提出了具体要求,研究结果对于救援钻机开发、钻进技术参数制定具有参考和借鉴意义。

    f1为套管外壁单位面积的平均阻力,kN/m2,可按表3中的参数取值;Fμ为套管外壁周围摩擦阻力,kN;M为长度l套管克服摩擦阻力旋转所需要的转矩,N·m;v1为套管滑动速度,m/s;v2为套管旋转引起的质点A与孔壁之间切向相对速度,m/s。

  • 图  1   掘进机器人路径规划总体方案

    Fig.  1   Overall scheme for path planning of cantilever roadheader robot

    图  2   掘进机器人运动学模型

    Fig.  2   Kinematic model of cantilever roadheader robot

    图  3   巷道重建过程

    Fig.  3   Roadway reconstruction process

    图  4   包围盒添加效果

    Fig.  4   Bounding box

    图  5   碰撞检测效果

    Fig.  5   Collision detection

    图  6   SAC算法网络

    Fig.  6   Network of the SAC algorithm

    图  7   训练结果

    Fig.  7   Training results

    图  8   路径规划实验软件平台

    Fig.  8   Experimental software platform for path planning

    图  9   路径规划实验硬件平台

    Fig.  9   Path planning experimental hardware

    图  10   掘进机虚实空间位姿对比

    Fig.  10   Comparison of the virtual and real space movements of cantilever roadheader robot

    图  11   近距离路径规划结果

    Fig.  11   Results of short path planning

    图  12   远距离路径规划结果

    Fig.  12   Results of long path planning

    表  1   HER-SAC算法流程

    Table  1   HER-SAC algorithm workflow

    HER-SAC算法流程
    输入:环境状态${s_t}$、目标g
    输出:最优策略$\textit{π} \left( {{s_t}\parallel g} \right)$
    参数:更新目标Q网络时的权重系数$\rho \left( {\rho > 0} \right)$,折扣因子$\gamma $,迭代序列数E,时间步数T,回合数K
    1. 随机初始化Actor网络${\textit{π} _\beta }\left( {{a_t}|{s_t}} \right)$,Q Critic网络参数${\lambda _1}$、${\lambda _2}$,目标网络参数${\lambda _{{\mathrm{target}},1}}$、${\lambda _{{\mathrm{target}},2}}$,策略网络参数$\beta $
    2. 初始化经验池、时间步数T、回合数K
    3. for 迭代序列数e=1 to E do
    4. 获取环境初始状态${s_1}$、环境给予的目标g
    5. for 时间步数t=1 to T do
    6. 根据当前策略${\textit{π} _\beta }$采取动作${a_t}$
    7. 执行动作${a_t}$,获取奖励${r_t}$,环境状态变为${s_{t + 1}}$
    8. 生成轨迹$ \left\{ {{s_1},{a_1},{r_1},{s_2}, \cdot \cdot \cdot ,{s_T}} \right\} $
    9. 将其以元组$\left( {{s_t}\parallel g,{a_t},{r_t},{s_{t + 1}}\parallel g} \right)$的形式存入经验池
    10. 在这条轨迹中随机选取n个当前遍历状态之后的状态组成目标子集$G'$
    11. for $g' \in G'$ do
    12. 计算新的奖励值$r' = {r'_g}\left( {s,a} \right)$,并将新元组存入经验池
    13. end for
    14. for 回合数k=1 to K do
    15. 从经验池中随机采样B个元组
    16. 对每个元组计算目标Q
    $U_t^{\left( q \right)} = {r_t} + \gamma \left( {1 - d} \right)\left[ {{{\min }_{j = 1,2}}{Q_{{\lambda _{{\mathrm{target}},j}}}}\left( {{s_{t + 1}}\parallel g,{a_{t + 1}}} \right) - \alpha \ln {\textit{π} _\beta }\left( {{s_t}\parallel g} \right)} \right]$
    17. 更新Q Critic网络参数,对于j=1,2,最小化损失函数
    $ {\text{Los}}{{\text{s}}_Q} = \dfrac{1}{{|B|}}\displaystyle\sum\limits_{\left( {{s_t}\parallel g,{a_t},{r_t},{s_{t + 1}}\parallel g} \right) \in B} {{{\left[ {{Q_{{\lambda _j}}}\left( {{s_t}\parallel g,{a_t}} \right) - U_t^{\left( q \right)}} \right]}^2}} $
    18. 用重参数化技巧采样动作$ {a'_t} $,更新Actor网络
    $ \begin{aligned}& {{\mathrm{Loss}}_A} = \\ &\qquad - \frac{1}{{|B|}}\sum\limits_{\left( {{s_t}\parallel g,{a_t},{r_t},{s_{t + 1}}\parallel g} \right) \in B} {{E_{{a'_t} \sim \textit{π} \left( { \cdot |{s_t};\beta } \right)}}} \left[ {{{\min }_{j = 1,2}}{Q_{{\lambda _j}}}\left( {{s_t}\parallel g,{{a'}_t}} \right) - \alpha \ln {\textit{π} _\beta }\left( {{s_t}\parallel g} \right)} \right] \end{aligned}$
    19. 更新熵正则化系数$\alpha $
    20. 更新目标网络参数$ {\lambda _{{\mathrm{target}},j}} \leftarrow \rho {\lambda _{{\mathrm{target}},j}} + \left( {1 - \rho } \right){\lambda _j} $
    21. end for
    22. end for
    23. end for
    下载: 导出CSV

    表  2   HER-SAC算法主要参数设置

    Table  2   Main parameters of the HER-SAC algorithm

    参数
    学习率0.000 2
    折扣因子0.99
    批量大小1 024
    经验池容量204 800
    隐藏层神经元个数256
    网络层数3
    采样步数100
    最大步数3 000 000
    下载: 导出CSV

    表  3   3种算法性能对比分析

    Table  3   Comparative analysis of the performance of three algorithms

    算法平均奖励值最高奖励值达到最高奖励值的步数鲁棒性
    PPO128.235 5197.167 42 630 000128.235 5$ \pm $88.968 5
    SAC129.103 7197.386 12 540 000129.103 7$ \pm $85.008 4
    HER-SAC135.746 8197.940 22 370 000135.746 8$ \pm $78.516 2
    下载: 导出CSV

    表  4   虚实空间数据对比分析

    Table  4   Comparative analysis of virtual and real space data

    序号 物理空间 虚拟空间 误差绝对值
    (x, y)坐标/cm 航向角/(°) (x, y)坐标/cm 航向角/(°) (x, y)坐标/cm 航向角/(°)
    1 (90.14, 99.61) 0.12 (90.56, 99.31) 0.25 (0.42, 0.30) 0.13
    2 (94.72, 40.15) −2.68 (94.13, 41.06) −2.41 (0.59, 0.91) 0.27
    3 (102.37, 136.03) −7.04 (103.64, 137.82) −6.26 (1.57, 1.79) 0.78
    4 (111.28, 61.08) 3.69 (112.44, 62.43) 3.13 (1.16, 1.35) 0.56
    5 (114.93, 110.54) 1.07 (114.49, 110.07) 1.58 (0.44, 0.47) 0.51
    下载: 导出CSV

    表  5   路径结果对比

    Table  5   Comparison of results between long and short path planing

    目标距离 算法 起点坐标/cm 终点坐标/cm 目标坐标/cm 终点与目标位置距离/cm 路径长度/cm 拐点数
    近距离 SAC (90, 100) (114.26, 103.48) (115, 100) 3.56 426.59 4
    HER-SAC (90, 100) (114.98, 103.53) (115, 100) 3.53 300.57 3
    远距离 SAC (90, 100) (143.17, 99.24) (145, 100) 1.98 794.26 12
    HER-SAC (90, 100) (144.40, 99.92) (145, 100) 0.61 299.25 3
    下载: 导出CSV
  • [1] 王海军,曹云,王洪磊. 煤矿智能化关键技术研究与实践[J]. 煤田地质与勘探,2023,51(1):44−54.

    WANG Haijun,CAO Yun,WANG Honglei. Research and practice on key technologies for intelligentization of coal mine[J]. Coal Geology & Exploration,2023,51(1):44−54.

    [2] 张旭辉,杨文娟,薛旭升,等. 煤矿远程智能掘进面临的挑战与研究进展[J]. 煤炭学报,2022,47(1):579−597.

    ZHANG Xuhui,YANG Wenjuan,XUE Xusheng,et al. Challenges and developing of the intelligent remote control on roadheaders in coal mine[J]. Journal of China Coal Society,2022,47(1):579−597.

    [3] 王国法,张建中,薛国华,等. 煤矿回采工作面智能地质保障技术进展与思考[J]. 煤田地质与勘探,2023,51(2):12−26.

    WANG Guofa,ZHANG Jianzhong,XUE Guohua,et al. Progress and reflection of intelligent geological guarantee technology in coal mining face[J]. Coal Geology & Exploration,2023,51(2):12−26.

    [4] 王国法,张德生. 煤炭智能化综采技术创新实践与发展展望[J]. 中国矿业大学学报,2018,47(3):459−467.

    WANG Guofa,ZHANG Desheng. Innovation practice and development prospect of intelligent fully mechanized technology for coal mining[J]. Journal of China University of Mining and Technology,2018,47(3):459−467.

    [5] 庞义辉,王国法,任怀伟. 智慧煤矿主体架构设计与系统平台建设关键技术[J]. 煤炭科学技术,2019,47(3):35−42.

    PANG Yihui,WANG Guofa,REN Huaiwei. Main structure design of intelligent coal mine and key technology of system platform construction[J]. Coal Science and Technology,2019,47(3):35−42.

    [6] 葛世荣,张晞,薛光辉,等. 我国煤矿煤机智能技术与装备发展研究[J]. 中国工程科学,2023,25(5):146−156.

    GE Shirong,ZHANG Xi,XUE Guanghui,et al. Development of intelligent technologies and machinery for coal mining in China’s underground coal mines[J]. Strategic Study of Chinese Academy of Engineering,2023,25(5):146−156.

    [7] 谢进,王飞. 煤矿智能掘进机器人关键技术探讨[J]. 工矿自动化,2021,47(增刊2):39−42.

    XIE Jin,WANG Fei. Discussion on key technologies of intelligent tunneling robot in coal mine[J]. Industry and Mine Automation,2021,47(Sup.2):39−42.

    [8]

    HOU Shengzhe,LU Xinming,GAO Wenli,et al. Interactive physically based simulation of roadheader robot[J]. Arabian Journal for Science and Engineering,2023,48(2):2441−2454. DOI: 10.1007/s13369-022-07335-x

    [9] 张捍东,郑睿,岑豫皖. 移动机器人路径规划技术的现状与展望[J]. 系统仿真学报,2005,17(2):439−443.

    ZHANG Handong,ZHENG Rui,CEN Yuwan. Present situation and future development of mobile robot path planning technology[J]. Journal of System Simulation,2005,17(2):439−443.

    [10]

    HEO Y S,LEE K M,LEE S U. Robust stereo matching using adaptive normalized cross–correlation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(4):807−822. DOI: 10.1109/TPAMI.2010.136

    [11]

    QU Huiyan,LI Wenhui,ZHAO Wei. Human–vehicle collision detection algorithm based on image processing[J]. International Journal of Pattern Recognition and Artificial Intelligence,2020,34(8):2055015. DOI: 10.1142/S0218001420550150

    [12] 张国飚,张华,刘满禄,等. 基于空间剖分的碰撞检测算法研究[J]. 计算机工程与应用,2014,50(7):46−49.

    ZHANG Guobiao,ZHANG Hua,LIU Manlu,et al. Research of collision detection algorithm based on spatial subdivision[J]. Computer Engineering and Applications,2014,50(7):46−49.

    [13] 彭晏飞,卢真真. 基于空间剖分和包围盒的快速碰撞检测算法[J]. 计算机应用与软件,2015,32(8):150−153.

    PENG Yanfei,LU Zhenzhen. Fast collision detection algorithm based on space subdivision and bounding box[J]. Computer Applications and Software,2015,32(8):150−153.

    [14] 张宇,张得礼,张文奇,等. 基于混合层次包围盒的水下训练机械臂碰撞检测方法研究[J]. 载人航天,2022,28(5):627−636.

    ZHANG Yu,ZHANG Deli,ZHANG Wenqi,et al. Research on collision detection method of underwater training manipulator based on hybrid hierarchical bounding box[J]. Manned Spaceflight,2022,28(5):627−636.

    [15]

    GAN Baiqiang,DONG Qiuping. An improved optimal algorithm for collision detection of hybrid hierarchical bounding box[J]. Evolutionary Intelligence,2022,15(4):2515−2527. DOI: 10.1007/s12065-020-00559-6

    [16] 魏立新,吴绍坤,孙浩,等. 基于多行为的移动机器人路径规划[J]. 控制与决策,2019,34(12):2721−2726.

    WEI Lixin,WU Shaokun,SUN Hao,et al. Mobile robot path planning based on multi–behaviours[J]. Control and Decision,2019,34(12):2721−2726.

    [17] 万俊,孙薇,葛敏,等. 基于含避障角人工势场法的机器人路径规划[J]. 农业机械学报,2024,55(1):409−418. DOI: 10.6041/j.issn.1000-1298.2024.01.039

    WAN Jun,SUN Wei,GE Min,et al. Robot path planning based on artificial potential field method with obstacle avoidance angles[J]. Transactions of the Chinese Society of Agricultural Machinery,2024,55(1):409−418. DOI: 10.6041/j.issn.1000-1298.2024.01.039

    [18] 韩志军,花传杰,王磊. 基于A*算法的CGF坦克实体路径规划研究[J]. 计算机工程与应用,2003(35):222−224.

    HAN Zhijun,HUA Chuanjie,WANG Lei. Path planning for CGF entities’ intelligent behavior using A* algorithm[J]. Computer Engineering and Applications,2003(35):222−224.

    [19] 张伟民,张月,张辉. 基于改进A*算法的煤矿救援机器人路径规划[J]. 煤田地质与勘探,2022,50(12):185−193.

    ZHANG Weimin,ZHANG Yue,ZHANG Hui. Path planning of coal mine rescue robot based on improved A* algorithm[J]. Coal Geology & Exploration,2022,50(12):185−193.

    [20] 刘海鸥,薛明轩,关海杰,等. 基于分层2.5D地图的无人履带车辆路径规划[J/OL]. 北京理工大学学报,2023:1–9 [2024-01-02]. https://doi.org/10.15918/j.tbit1001–0645.2023.119.

    LIU Hai’ou,XUE Mingxuan,GUAN Haijie,et al. Path planning algorithm based on layered 2.5D map for unmanned tracked vehicle[J/OL]. Transactions of Beijing Institute of Technology,2023:1–9 [2024-01-02]. https://doi.org/10.15918/j.tbit1001–0645.2023.119.

    [21]

    ZHANG Lin,ZHANG Yingjie,LI Yangfan. Mobile robot path planning based on improved localized particle swarm optimization[J]. IEEE Sensors Journal,2021,21(5):6962−6972. DOI: 10.1109/JSEN.2020.3039275

    [22] 谭玉新,杨维,徐子睿. 面向煤矿井下局部复杂空间的机器人三维路径规划方法[J]. 煤炭学报,2017,42(6):1634−1642.

    TAN Yuxin,YANG Wei,XU Zirui. Three–dimensional path planning method for robot in underground local complex space[J]. Journal of China Coal Society,2017,42(6):1634−1642.

    [23] 赵少林,程杰. 基于粒子群并行优化的煤矿井下机器人路径规划[J]. 计算机测量与控制,2014,22(5):1600−1602.

    ZHAO Shaolin,CHENG Jie. Coal mine underground robot path planning based on parallel particle swarm optimization[J]. Computer Measurement and Control,2014,22(5):1600−1602.

    [24]

    LI Siding,XU Xin,ZUO Lei. Dynamic path planning of a mobile robot with improved Q–learning algorithm[C]//2015 IEEE International Conference on Information and Automation. Lijiang:IEEE,2015:409–414.

    [25]

    BAE H,KIM G,KIM J,et al. Multi–robot path planning method using reinforcement learning[J]. Applied Sciences,2019,9(15):3057. DOI: 10.3390/app9153057

    [26] 张敏骏,蔡岫航,吕馥言,等. 受限巷道空间区域栅格化掘进机自主纠偏研究[J]. 仪器仪表学报,2018,39(3):62−70.

    ZHANG Minjun,CAI Xiuhang,LYU Fuyan,et al. Research on roadheader auto rectification in limited roadway space based on regional grid[J]. Chinese Journal of Scientific Instrument,2018,39(3):62−70.

    [27]

    ZHOU Shijie,LI Zelun,LYU Zhongliang,et al. Research on positioning accuracy of mobile robot in indoor environment based on improved RTABMAP algorithm[J]. Sensors,2023,23(23):9468. DOI: 10.3390/s23239468

    [28] 杨鑫,王天明,许端清. 基于GPU的层次包围盒快速构造方法[J]. 浙江大学学报(工学版),2012,46(1):84−89.

    YANG Xin,WANG Tianming,XU Duanqing. Fast BVH construction on GPU[J]. Journal of Zhejiang University (Engineering Science),2012,46(1):84−89.

    [29] 李曾琳,李波,白双霞,等. 基于AM–SAC的无人机自主空战决策[J]. 兵工学报,2023,44(9):2849−2858.

    LI Zenglin,LI Bo,BAI Shuangxia,et al. UAV autonomous air combat decision–making based on AM–SAC[J]. Acta Armamentarii,2023,44(9):2849−2858.

    [30] 夏家伟,朱旭芳,罗亚松,等. 基于深度强化学习的无人艇轨迹跟踪算法研究[J]. 华中科技大学学报(自然科学版),2023,51(5):74−80.

    XIA Jiawei,ZHU Xufang,LUO Yasong,et al. Study on trajectory tracking algorithm of unmanned surface vehicle based on deep reinforcement learning[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition),2023,51(5):74−80.

    [31] 李源潮,陶重犇,王琛. 基于最大熵深度强化学习的双足机器人步态控制方法[J/OL]. 计算机应用,2023:1–7 [2023-08-19]. http://kns.cnki.net/kcms/detail/51.1307.TP.20230524.1455.003.html.

    LI Yuanchao,TAO Chongben,WANG Chen. Gait control method based on maximum entropy deep reinforcement learning for biped robot[J/OL]. Journal of Computer Applications,2023:1–7 [2023-08-19]. http://kns.cnki.net/kcms/detail/51.1307.TP.20230524.1455.003.html.

    [32] 诸程瑛,王振雷. 基于改进深度强化学习的乙烯裂解炉操作优化[J]. 化工学报,2023,74(8):3429−3437.

    ZHU Chengying,WANG Zhenlei. Operation optimization of ethylene cracking furnace based on improved deep reinforcement learning algorithm[J]. CIESC Journal,2023,74(8):3429−3437.

图(12)  /  表(5)
计量
  • 文章访问数:  194
  • HTML全文浏览量:  13
  • PDF下载量:  31
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-11-09
  • 修回日期:  2024-01-29
  • 网络出版日期:  2024-04-06
  • 刊出日期:  2024-04-24

目录

/

返回文章
返回