一种基于动作采样的 Q 学习算法
赵德京 , 马洪聪 , 廖登宇 , 崔浩岩
An Action-sampling Based Q-learning Algorithm
ZHAO Dejing , MA Hongcong , LIAO Dengyu , CUI Haoyan
控制工程 . 2024, (1): 70 -79 .