期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
Distributed Weighted Data Aggregation Algorithm in End-to-Edge Communication Networks Based on Multi-armed Bandit 被引量:1
1
作者 Yifei ZOU Senmao QI +1 位作者 Cong'an XU Dongxiao YU 《计算机科学》 CSCD 北大核心 2023年第2期13-22,共10页
As a combination of edge computing and artificial intelligence,edge intelligence has become a promising technique and provided its users with a series of fast,precise,and customized services.In edge intelligence,when ... As a combination of edge computing and artificial intelligence,edge intelligence has become a promising technique and provided its users with a series of fast,precise,and customized services.In edge intelligence,when learning agents are deployed on the edge side,the data aggregation from the end side to the designated edge devices is an important research topic.Considering the various importance of end devices,this paper studies the weighted data aggregation problem in a single hop end-to-edge communication network.Firstly,to make sure all the end devices with various weights are fairly treated in data aggregation,a distributed end-to-edge cooperative scheme is proposed.Then,to handle the massive contention on the wireless channel caused by end devices,a multi-armed bandit(MAB)algorithm is designed to help the end devices find their most appropriate update rates.Diffe-rent from the traditional data aggregation works,combining the MAB enables our algorithm a higher efficiency in data aggregation.With a theoretical analysis,we show that the efficiency of our algorithm is asymptotically optimal.Comparative experiments with previous works are also conducted to show the strength of our algorithm. 展开更多
关键词 Weighted data aggregation End-to-edge communication multi-armed bandit Edge intelligence
在线阅读 下载PDF
Strict greedy design paradigm applied to the stochastic multi-armed bandit problem
2
作者 Joey Hong 《机床与液压》 北大核心 2015年第6期1-6,共6页
The process of making decisions is something humans do inherently and routinely,to the extent that it appears commonplace. However,in order to achieve good overall performance,decisions must take into account both the... The process of making decisions is something humans do inherently and routinely,to the extent that it appears commonplace. However,in order to achieve good overall performance,decisions must take into account both the outcomes of past decisions and opportunities of future ones. Reinforcement learning,which is fundamental to sequential decision-making,consists of the following components: 1 A set of decisions epochs; 2 A set of environment states; 3 A set of available actions to transition states; 4 State-action dependent immediate rewards for each action.At each decision,the environment state provides the decision maker with a set of available actions from which to choose. As a result of selecting a particular action in the state,the environment generates an immediate reward for the decision maker and shifts to a different state and decision. The ultimate goal for the decision maker is to maximize the total reward after a sequence of time steps.This paper will focus on an archetypal example of reinforcement learning,the stochastic multi-armed bandit problem. After introducing the dilemma,I will briefly cover the most common methods used to solve it,namely the UCB and εn- greedy algorithms. I will also introduce my own greedy implementation,the strict-greedy algorithm,which more tightly follows the greedy pattern in algorithm design,and show that it runs comparably to the two accepted algorithms. 展开更多
关键词 Greedy algorithms Allocation strategy Stochastic multi-armed bandit problem
在线阅读 下载PDF
融合协同过滤的神经Bandits推荐算法 被引量:3
3
作者 张婷婷 欧阳丹彤 +1 位作者 孙成林 白洪涛 《吉林大学学报(理学版)》 CAS 北大核心 2024年第1期92-99,共8页
针对数据稀疏性和“冷启动”对协同过滤的限制以及现有的协同多臂老虎机算法不适用于非线性奖励函数的问题,提出一种融合协同过滤的神经Ba ndits推荐算法COEENet.首先,采用双神经网络结构学习预期奖励及潜在增益;其次,考虑邻居协同作用... 针对数据稀疏性和“冷启动”对协同过滤的限制以及现有的协同多臂老虎机算法不适用于非线性奖励函数的问题,提出一种融合协同过滤的神经Ba ndits推荐算法COEENet.首先,采用双神经网络结构学习预期奖励及潜在增益;其次,考虑邻居协同作用;最后,构造决策器进行最终决策.实验结果表明,该方法在累积遗憾上优于4种基线算法,推荐效果较好. 展开更多
关键词 协同过滤 多臂老虎机算法 推荐系统 冷启动
在线阅读 下载PDF
基于Bandit反馈的自适应量化分布式在线镜像下降算法 被引量:1
4
作者 谢俊如 高文华 谢奕彬 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第10期1774-1782,共9页
多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降... 多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降算法在处理高维数据和大规模在线学习上的优势,本文使用个体目标函数在两点处的函数值信息对缺失的梯度信息进行估计,并且根据镜像下降算法的性质设计自适应量化器,提出基于Bandit反馈的自适应量化分布式在线镜像下降算法.然后分析了量化误差界和Regret界的关系,适当选择参数可得所提算法的Regret界为O(√T).最后,通过数值仿真验证了算法和理论结果的有效性. 展开更多
关键词 镜像下降算法 多智能体系统 优化 量化 bandit反馈
在线阅读 下载PDF
融合用户聚类与Bandits算法的微博推荐模型 被引量:1
5
作者 何羽丰 徐建民 张彬 《小型微型计算机系统》 CSCD 北大核心 2022年第10期2122-2130,共9页
针对微博推荐系统中存在的新用户冷启动和数据稀疏性问题,提出一种微博推荐模型.该模型通过重要用户聚类和普通用户分类构建完整用户类,基于类兴趣表征普通用户兴趣,利用Bandits算法为完整用户类中的普通用户产生微博推荐列表,根据普通... 针对微博推荐系统中存在的新用户冷启动和数据稀疏性问题,提出一种微博推荐模型.该模型通过重要用户聚类和普通用户分类构建完整用户类,基于类兴趣表征普通用户兴趣,利用Bandits算法为完整用户类中的普通用户产生微博推荐列表,根据普通用户对推荐列表的反馈更新其所属完整用户类的历史数据,合理应对新用户冷启动,降低了数据稀疏度,实现了较为准确的微博推荐,为微博推荐模型的构建提供了新的思路.实验结果表明,该模型能够推荐给用户感兴趣的博文,推荐效果较现有随机探索类算法、置信区间类算法和概率匹配类算法分别最低提高5.62%、5.43%和33.37%. 展开更多
关键词 微博推荐 用户聚类 bandits算法 冷启动 数据稀疏
在线阅读 下载PDF
基于Bandit反馈的在线分布式镜面下降算法
6
作者 朱小梅 李觉友 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第1期99-107,共9页
针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方... 针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难.然后,给出算法的收敛性分析.结果表明算法的收敛速度为O(T),其中T是迭代次数.最后,使用投资组合选择模型进行了数值仿真实验.实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近.对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题. 展开更多
关键词 在线学习 分布式优化 镜面下降算法 bandit反馈 Regret界
在线阅读 下载PDF
感知器学习算法研究 被引量:8
7
作者 刘建伟 申芳林 罗雄麟 《计算机工程》 CAS CSCD 北大核心 2010年第7期190-192,共3页
介绍感知器学习算法及其变种,给出各种感知器算法的伪代码,指出各种算法的优点。给出感知器算法在线性可分和线性不可分情况下的误差界定理,讨论各种感知器学习算法的误差界理论,给出各种算法的误差界。介绍感知器学习算法在在线优化场... 介绍感知器学习算法及其变种,给出各种感知器算法的伪代码,指出各种算法的优点。给出感知器算法在线性可分和线性不可分情况下的误差界定理,讨论各种感知器学习算法的误差界理论,给出各种算法的误差界。介绍感知器学习算法在在线优化场景、强化学习场景和赌博机算法中的应用,并对未解决的问题进行讨论。 展开更多
关键词 感知器 错误界 赌博机算法 强化学习
在线阅读 下载PDF
针对新用户冷启动问题的改进Epsilon-greedy算法 被引量:2
8
作者 王素琴 张洋 +1 位作者 蒋浩 朱登明 《计算机工程》 CAS CSCD 北大核心 2018年第11期172-177,共6页
在解决新用户冷启动问题时,固定不变的Epsilon参数会使传统Epsilon-greedy算法收敛缓慢。为此,提出一种改进的Epsilon-greedy算法。利用免疫反馈模型动态调整Epsilon参数,从而使算法快速收敛。使用蒙特卡罗模拟方法对算法进行实验验证,... 在解决新用户冷启动问题时,固定不变的Epsilon参数会使传统Epsilon-greedy算法收敛缓慢。为此,提出一种改进的Epsilon-greedy算法。利用免疫反馈模型动态调整Epsilon参数,从而使算法快速收敛。使用蒙特卡罗模拟方法对算法进行实验验证,结果表明,该算法能够在用户与推荐系统交互较少的情况下为用户进行有效推荐,且推荐效果优于传统的Epsilon-greedy、Softmax和UCB算法。 展开更多
关键词 推荐系统 冷启动 Epsilon-greedy算法 免疫反馈模型 bandit算法
在线阅读 下载PDF
基于强化学习的WLAN节点自适应调整技术 被引量:2
9
作者 陈禹 赵静雅 +1 位作者 朱庆华 刘涌 《计算机工程与设计》 北大核心 2019年第9期2422-2427,共6页
为提高WLAN无线网络节点的吞吐量,针对IEEE802.11无线网络中的速率自适应技术进行研究。基于一定程度的强化学习策略,提出多臂老虎机问题的速率自适应算法。与已提出的一些算法在信道稳定的情况下、信道逐渐变化的情况下、信道随机变化... 为提高WLAN无线网络节点的吞吐量,针对IEEE802.11无线网络中的速率自适应技术进行研究。基于一定程度的强化学习策略,提出多臂老虎机问题的速率自适应算法。与已提出的一些算法在信道稳定的情况下、信道逐渐变化的情况下、信道随机变化的情况下依次进行对比,观察它们的吞吐量变化情况,分析所提出算法性能的优劣性。仿真结果表明,当信道环境稳定或比较稳定时,该算法要优于其它自适应算法。 展开更多
关键词 WLAN无线局域网 速率自适应算法 强化学习 多臂老虎机 IEEE802.11
在线阅读 下载PDF
认知无线网络中基于无休止多臂赌博机模型的多用户频谱接入机制 被引量:5
10
作者 朱江 韩超 +1 位作者 杨浩磊 彭著勋 《计算机应用》 CSCD 北大核心 2014年第10期2782-2786,共5页
针对如何协调多个认知用户择机接入多段空闲频域信道的问题,提出了一种基于无休止多臂赌博机(RMAB)模型的动态频谱接入机制。首先,考虑到实际环境下认知用户的信道感知误差,推导出能有效处理感知误差的Whittle索引值算法,该算法通过历... 针对如何协调多个认知用户择机接入多段空闲频域信道的问题,提出了一种基于无休止多臂赌博机(RMAB)模型的动态频谱接入机制。首先,考虑到实际环境下认知用户的信道感知误差,推导出能有效处理感知误差的Whittle索引值算法,该算法通过历史经验积累给予每个信道一定的信任值,并综合考虑在当前信任值下选择每个信道的立即收益与未来收益的多少,选择出需要感知接入的信道;其次,对于多个认知用户接入相同信道时产生冲突的问题,提出了基于多标拍卖的协调机制,通过多标拍卖的方式处理认知用户之间的冲突。仿真结果表明,在相同的环境中,所提出的频谱接入机制与未处理误差的或者未采用多标拍卖的接入机制相比,认知用户获得的吞吐量更大。 展开更多
关键词 多用户多信道 无休止多臂赌博机模型 多标拍卖 Whittle索引值算法
在线阅读 下载PDF
基于多摇臂赌博机的产品定价算法 被引量:1
11
作者 毕文杰 郭乐薇 《计算机工程与应用》 CSCD 北大核心 2021年第11期224-231,共8页
针对在线零售商在不完全需求信息下的单产品定价问题,提出了一种基于多摇臂赌博机的产品定价算法。为了提升多摇臂赌博机算法在定价问题中的效果,该算法利用了需求曲线的单调性,并加入了消费者偏好识别。对消费者的保留价格进行分析得... 针对在线零售商在不完全需求信息下的单产品定价问题,提出了一种基于多摇臂赌博机的产品定价算法。为了提升多摇臂赌博机算法在定价问题中的效果,该算法利用了需求曲线的单调性,并加入了消费者偏好识别。对消费者的保留价格进行分析得到消费者购买概率,将在线零售商的定价问题建模为多摇臂赌博机模型,给出了相应的定价算法并进行了理论分析,最后通过仿真实验比较了相关算法的定价效果。仿真结果表明该算法提高了在线零售商的收益。 展开更多
关键词 动态定价 多摇臂赌博机 UCB1算法
在线阅读 下载PDF
基于Whittle索引的RFID多阅读器信道资源分配算法 被引量:5
12
作者 石静 郑嘉利 +2 位作者 袁源 王哲 李丽 《计算机科学》 CSCD 北大核心 2019年第10期122-127,共6页
针对无线射频识别(RFID)系统中多标签-多阅读器环境下标签与信道资源的分配问题,提出了一种基于Whittle索引的多阅读器信道资源分配算法。在RFID多阅读器信道分配问题中建立无休止多臂赌博机(RMAB)模型,并采用Whittle索引算法进行求解... 针对无线射频识别(RFID)系统中多标签-多阅读器环境下标签与信道资源的分配问题,提出了一种基于Whittle索引的多阅读器信道资源分配算法。在RFID多阅读器信道分配问题中建立无休止多臂赌博机(RMAB)模型,并采用Whittle索引算法进行求解。该算法依据信道前期的忙、闲状态,将信道空闲概率作为信任值赋予每个信道,并根据信道当前的信任值计算其Whittle索引值。标签选择索引值最大的信道作为可能感知接入的信道,随后根据每个时隙数据发送成功与否来动态更新信道信任值。对信道分配过程中可能出现的标签碰撞问题,采用等待一个时隙后再根据识别反馈信息重新选择接入信道的方式来解决。将文中所提算法从两个方面与典型的DiCa算法和Gentle算法进行比较:一是在阅读器数量固定的前提下,其系统吞吐量随待识别标签数量的变化情况;二是在待识别标签数量固定的前提下,其系统吞吐量随阅读器数量的变化情况。仿真结果表明,所提算法在上述两种情况下的系统吞吐量均优于DiCa算法和Gentle算法,其吞吐量在阅读器数量固定的前提下分别平均提高了150.34%和23.98%,在待识别标签数量固定的前提下分别平均提高了205.01%和43.37%。随着阅读器和待识别标签数量的增多,所提算法在系统吞吐量方面的优势更加明显。因此,采用提出的算法可以对有限的信道资源进行合理的动态分配,有效提高RFID多阅读器系统的识别效率。 展开更多
关键词 无线射频识别 多标签-多阅读器 无休止多臂赌博机模型 Whittle索引算法
在线阅读 下载PDF
在线影响力最大化研究综述 被引量:10
13
作者 孔芳 李奇之 李帅 《计算机科学》 CSCD 北大核心 2020年第5期7-13,共7页
影响力最大化是指在给定的影响力传播模型下选取种子节点使其传播信息范围最广。此问题的应用场景十分广泛,包括推荐系统、病毒营销、信息扩散和链接预测等。在实际应用中,信息传播模型中的点对点传播概率通常是未知的,而在线学习算法... 影响力最大化是指在给定的影响力传播模型下选取种子节点使其传播信息范围最广。此问题的应用场景十分广泛,包括推荐系统、病毒营销、信息扩散和链接预测等。在实际应用中,信息传播模型中的点对点传播概率通常是未知的,而在线学习算法可以在交互过程中自主学习未知参数,逐步逼近最优解。文中首先讨论了影响力最大化问题的定义,介绍了常用的影响力传播模型,归纳了常见的离线影响力最大化算法;随后介绍了经典的在线学习框架——多臂老虎机问题,分析了在线影响力最大化问题的研究现状,并通过实验对常见的在线影响力最大化算法在真实社交网络中的性能表现进行对比;最后总结了该课题面临的挑战并展望了未来的研究方向。 展开更多
关键词 影响力传播模型 影响力最大化 社交网络 在线学习算法 多臂老虎机
在线阅读 下载PDF
考虑时变奖励的多摇臂算法在动态定价中的应用 被引量:1
14
作者 乔勋双 毕文杰 《计算机工程与应用》 CSCD 北大核心 2021年第12期237-242,共6页
考虑到动态定价是一个非固定性的多摇臂(Multi-Armed Bandit,MAB)问题,即厂商的利润会随时间变化,因此在相关研究基础上,研究了需求不确定情况下考虑时变奖励的置信区间上界(Upper Confidence Bound,UCB)算法在动态定价问题上的应用。... 考虑到动态定价是一个非固定性的多摇臂(Multi-Armed Bandit,MAB)问题,即厂商的利润会随时间变化,因此在相关研究基础上,研究了需求不确定情况下考虑时变奖励的置信区间上界(Upper Confidence Bound,UCB)算法在动态定价问题上的应用。将商品定价问题描述为一个多摇臂问题,并构建利润最大化模型求得最优解。仿真结果表明,通过将考虑时变奖励的置信区间上界算法与基础的多摇臂算法进行对比分析,所提出的算法学得的奖励更加接近真实奖励,收敛速度更快。相较于前人研究,该模型考虑了时变因素,更加符合现实场景中的动态定价,为厂商定价提供了相应的决策支持。 展开更多
关键词 多摇臂算法 动态定价 置信区间上界算法
在线阅读 下载PDF
Optimal index shooting policy for layered missile defense system 被引量:1
15
作者 LI Longyue FAN Chengli +2 位作者 XING Qinghua XU Hailong ZHAO Huizhen 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2020年第1期118-129,共12页
In order to cope with the increasing threat of the ballistic missile(BM)in a shorter reaction time,the shooting policy of the layered defense system needs to be optimized.The main decisionmaking problem of shooting op... In order to cope with the increasing threat of the ballistic missile(BM)in a shorter reaction time,the shooting policy of the layered defense system needs to be optimized.The main decisionmaking problem of shooting optimization is how to choose the next BM which needs to be shot according to the previous engagements and results,thus maximizing the expected return of BMs killed or minimizing the cost of BMs penetration.Motivated by this,this study aims to determine an optimal shooting policy for a two-layer missile defense(TLMD)system.This paper considers a scenario in which the TLMD system wishes to shoot at a collection of BMs one at a time,and to maximize the return obtained from BMs killed before the system demise.To provide a policy analysis tool,this paper develops a general model for shooting decision-making,the shooting engagements can be described as a discounted reward Markov decision process.The index shooting policy is a strategy that can effectively balance the shooting returns and the risk that the defense mission fails,and the goal is to maximize the return obtained from BMs killed before the system demise.The numerical results show that the index policy is better than a range of competitors,especially the mean returns and the mean killing BM number. 展开更多
关键词 Gittins index shooting policy layered missile defense multi-armed bandits problem Markov decision process
在线阅读 下载PDF
最佳的分类器链局部检测与挖掘算法
16
作者 李哲 周油胜 +1 位作者 龙洋 黄益华 《计算机工程与设计》 北大核心 2017年第11期3056-3060,3079,共6页
为在先验信息不足以及数据动态变化时,从大数据中检测各种概念并提取有用的信息,提出一种局部检测与挖掘算法,构建最佳分类器链。采用多臂赌博机对分类器进行学习,构建的分类器在运行时不需要通过分布式局部分类器中央单元进行任何信息... 为在先验信息不足以及数据动态变化时,从大数据中检测各种概念并提取有用的信息,提出一种局部检测与挖掘算法,构建最佳分类器链。采用多臂赌博机对分类器进行学习,构建的分类器在运行时不需要通过分布式局部分类器中央单元进行任何信息的交换,只需反馈有限的挖掘效果,确保最佳分类器链的学习;无需任何先验信息,学习的后悔值随分类函数个数的增加呈线性增长。数值模拟实验结果表明,与经典相关方法相比,该方法在分类器数量增加时性能更优,收敛速度更快。 展开更多
关键词 分类器链 检测与挖掘 赌博机问题 后悔值 局部学习算法
在线阅读 下载PDF
高速铁路场景中基于MAB模型的多信道选择算法
17
作者 朱豪 彭艺 +1 位作者 张申 李启骞 《吉林大学学报(理学版)》 CAS 北大核心 2021年第2期365-371,共7页
针对高速列车越区切换过程中,切换带为多信道分布的问题,提出一种基于多臂老虎机(multi-armed bandit,MAB)模型的信道选择算法.首先,以置信区间上界(UCB)算法为基础,通过设置信道空闲差异因子,使算法快速收敛于最优信道;其次,通过引入... 针对高速列车越区切换过程中,切换带为多信道分布的问题,提出一种基于多臂老虎机(multi-armed bandit,MAB)模型的信道选择算法.首先,以置信区间上界(UCB)算法为基础,通过设置信道空闲差异因子,使算法快速收敛于最优信道;其次,通过引入满意通信概率(SCP),衡量移动列车的通信质量,分析与切换过程中误码率之间的关系;最后,利用最优信道选择比率、成功传输率和累积接入损失作为评判标准,分析算法的性能.仿真结果表明,该算法的累积接入损失比原始UCB算法减少了约18.5%;对比随机选择算法与原始UCB算法,成功传输率提高了约30.2%和3.3%;最优选择比率提高了约88.3%和13.5%. 展开更多
关键词 越区切换 多臂老虎机模型 置信区间上界算法 满意通信概率
在线阅读 下载PDF
基于多臂赌博机遗传算法的无人机与卡车协同配送
18
作者 朱烨娜 刘敏 +1 位作者 赵肄江 陈萱霖 《计算机科学与探索》 2025年第8期2261-2272,共12页
无人机与卡车协同配送新模式凭借其高效、环保、不受地形限制等优势,正在改变传统的物流配送方式。带无人机的旅行商问题(TSP-D)是上述配送新模式中的一种经典问题,比纯卡车物流配送更为复杂,需要从无人机和卡车间的协同交互中寻找最优... 无人机与卡车协同配送新模式凭借其高效、环保、不受地形限制等优势,正在改变传统的物流配送方式。带无人机的旅行商问题(TSP-D)是上述配送新模式中的一种经典问题,比纯卡车物流配送更为复杂,需要从无人机和卡车间的协同交互中寻找最优的配送组合,带来了新的挑战。提出了一种基于多臂赌博机的混合遗传算法来求解TSP-D。采用了自然数排列的染色体编码,并应用基于动态规划的精确划分方法对其解码,以生成无人机与卡车协同配送解方案。新设计了一种多臂赌博机局部搜索策略,将局部搜索算子池中的五种不同搜索算子视作赌博机的多个“臂”。先通过赌博机摇臂搜索后解方案适应值的提升程度来计算奖励,再根据ε-greedy强化学习方法计算各个“臂”被选中的概率,以便选择合适的搜索算子来增强算法的局部搜索能力。实验结果表明,提出的算法与其他主流的算法相比,在不同分布与不同规模的多数测试实例上均有更低的解方案成本。进一步的实验分析验证了多臂赌博机局部搜索策略比其他局部搜索策略具有更好的自适应能力,能显著提升算法的性能。最后,将提出的算法应用于长沙市一个实际的配送案例,展示了其现实应用效果。 展开更多
关键词 无人机卡车协同配送 带无人机的旅行商问题 混合遗传算法 多臂赌博机
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部