量子计算机相对于传统计算机的优势推动了在量子计算机上开发机器学习算法的最新趋势,这有可能导致该领域的突破和新的学习模型。 我们研究的目的是探索光子量子计算机上的深度量子强化学习(RL),该技术可以处理存储在光量子态中的信息。 这些量子计算机可以自然地表示连续变量,使其成为创建神经网络的量子版本的理想平台。 我们使用量子光子电路,通过多层量子神经网络实现Q学习和行为准则算法,并在网格世界环境中对其进行测试。 我们的实验表明,1)这些量子算法可以解决RL问题,以及2)与一层相比,使用三层量子网络可以改善两种算法在所获得奖励方面的学习。 总而言之,我们的研究结果表明,在深度量子RL中具有更多的层可以增强学习效果。