多Agent学习(2)

1.2.4自利Agent的学习算法(Learning among self-interested agents   )

在一群自利的Agent中,它们之间存在相互作用,它们能在一定的环境(包括对手)
进行学习,并且各有各的策略。下面1.3会详细分析在多Agent中如何运用强化学
习(Reinforcement Learning)中的Q-learning算法。

强化学习(RL) 的基本思想是:加强那些能产生良好效果的行为,减弱那些效果不
佳的行为。Q-learning当前的强化学习中一种不需要为环境建立模型的算法,能
够在线地使用。因此它非常适用于那些可重复的、对手未知的游戏中。很多强化
学习的研究者被限制在单一Agent或那种报酬是绝对正面(如团队问题)或绝对反面
( zero-sum游戏)的多Agent系统中。在3.1中我们将详细介绍在可重复的囚徒困境
问题(iterated prisoner′s dilemma,IPD)中,如何运用强化学习策略。在这个问
题中,报酬并非是明显的正或反, 因此强化学习在这一问题中的运用是比较困难
的。于是我们使用Q-learning agents来参与可重复的囚徒困境游戏,来对付那些
未知的对手。在某些实验中,对手使用针锋相对的策略,而在令一些实验中,对


手也是一个用Q-learning作为学习算法的Agent(Q-Learner)。所有的Q-learner能
学到对付"针锋相对"Agent的最佳策略,而对付同是Q-learner则比较困难。正是
因为其它Q-Learner在不断的学习而导致环境不断变化。而且,没有关于IPD的元
知识以鼓励其它Q-Learner进行合作。 

这些Q-Learner的学习可以从三个角度进行改变: 作为上下文的历史长度;使用
得内存类型(基于有限历史的查找表或理论上能反映任何深度的历史的可循环网络
);搜索策略。虽然所有的Q-Learner在于Q-Learner进行这个游戏时,它们都要面
对很大的困难,但是历史记录越长,内存类型是查找表和长久的搜索进化的
Q-Learner在游戏中获益最大。

可参阅的文献有:
Sandholm, T. and Crites, R. 1995. Multiagent Reinforcement Learning in
 the Iterated Prisoner′s Dilemma. Biosystems 37: 147-166, Special Issue 
on the Prisoner′s Dilemma. 

Sandholm, T. and Crites, R. 1995. On Multiagent Q-Learning in a  数据挖掘工具
Semi-competitive Domain. 14th International Joint Conference on 
Artificial Intelligence (IJCAI-95), Workshop on Adaptation and Learning
 in Multiagent Systems, Montreal, Canada, pp. 71-77. 

Sandholm, T. and Crites, R. 1996. On Multiagent Q-Learning in a 
Semi-competitive Domain. In LECTURE NOTES IN ARTIFICIAL INTELLIGENCE of
LECTURE NOTES IN COMPUTER SCIENCE, Springer-Verlag. 

Berkman, N. and Sandholm, T. 1995. What should be minimized in a 
decision tree: A re-examination. University of Massachusetts at 
Amherst, Computer Science Technical Report TR 95-20. 
1.2.5特定情况下的协调学习(Learning Situation-Specific Coordination) 数据挖掘研究院

要在Multi-Agent系统中获得有效的协调是一个困难的问题。原因是很多的:首先
,一个Agent的决定,是建立在它对整个问题的局部视野中的,这样会导致在下列
行为的不合适的决定:下一步应该怎样做,应该把什么结果传递给其它Agent,应
该要求其它Agent产生什么结果。当然,如果一个Agent对整个问题有全局的了解
,它就能作出更合适的决定。然而,即使有这些元知识,对任务的结果和对系统
的未来的任务还是存在不确定性的,这体现在Agent之间不紧密的行为上。这些在
为获得有效协调的困难会加重,原因是一个Agent为了得到问题的全局,会耗费很
多系统资源。这个代价包括了通讯延迟,在产生合适的形式提供信息以及Agent运
用这些信息来产生局部决定。因此,在特定的问题求解中,由于Agent固有的行为
不确定性和元知识处理处理的代价,我们可能不需要去获得其它Agent的活动情况
。复杂的协调策略并不能在所有的问题中有效实行,所以也许允许在某些层次上
存在非协调的行为可能更加有效。在这种情况下,局部问题求解会更有效,它不
需要额外的开销进行协调。

通用部分-全局规划(Genalized Partial Global Planning ,GPGP) 就是为迎合这 数据挖掘交友
一需求而提出的。它建立了适当的协调策略,以服务于一些特殊的任务环境。它
的结构是一组可扩展的模块集合,模块对应各种协调策略,因此人们可以根据需
要使用里面的任意子集。实验结果证明对于某些特定问题环境,子集的效果比运
用整个集合即全部协调技术要好。当前的工作就是赋予Agent对应不同问题自动选
择协调策略子集的能力。 

可参阅的文献有:

M V Nagendra Prasad, and Victor R Lesser "Off-line Learning of 
Coordination in Functionally Structured Agents for Distributed Data 
Processing," submitted. 

M V Nagendra Prasad, Keith Decker, Alan Garvey, and Victor Lesser. 
"Exploring Organizational Designs with TAEMS: A Case Study of 
Distributed Data Processing", ICMAS-96. 

M V Nagendra Prasad , and Victor R Lesser Learning Situation-specific  数据挖掘工具
Coordination in Generalized Partial Global Planning to be presented at
 the 1996 AAAI Spring Symposium on Adaptation, Co-evolution and 
Learning in Multiagent Systems, Stanford, CA. 

Decker, K. and Lesser, V., "Designing a Family of Coordination 
Algorithms," In Proceedings of the First International Conference on 
Multi-Agent Systems. This link is to the more detailed UMASS Technical 
Report 94-14, updated April 1995. 

Dcker, K., "Environment Centered Analysis and Design of Coordination 
Mechanisms". Ph.D. Thesis, Department of Computer Science, University
 of Massachusetts, Amherst, May 1995.
1.2.6  联盟学习(Federated Learning)

在Agent中的合作学习,就是在全球范围进行通讯和学习。当前的研究有:
分布式的基于事例学习(Distributed Case-based Reasoning,DistCBR)
集中式的基于事例学习( Collective Case-based Reasoning,ColCBR) 
迁移的 CBR Agents (MigCBR) 
分类任务中可迁移的推理学习者(Migratory Inductive Learners for 
Classification Tasks,MILC) 

联盟学习:动机和框架

多Agent框架中的问题求解对学习研究提出了新的挑战。我们认为在合作性的基于
Agent的问题求解系统中比集成式的多策略学习(Integrated multistrategy 
learning,IMSL)要求更高的灵活性。为此我们提出了联盟学习。

联盟学习与其它IMSL的学习方法的不同之处在于:其它学习方法拥有关于何时和
怎样进行硬连线的知识,而联盟学习没有这种固定的知识。一个联盟学习得Agent
所要做的是去寻找它所不知道的。缺少固定行动策略的知识,这样使得Agent之间
的合作更灵活,解决新问题的能力更强,更大地提高性能。

联盟学习得研究是在之前的工作上扩展的。之前人们研究了在反射结果里的学习
的内在进程。(可参阅ANALOG项目). 我可以总结出联盟学习是之前工作的在Agent
关系中的自然延续,也就是说,它具有以下特点:

个体的独立的内存和经验;
公共的外部语言描述知识;
联盟学习Agent的合作性和特殊性;
查找,发掘信息之源,与其它Agent进行磋商。

从问题求解系统的角度上看,学习扩展了可正确解决问题的范围并且提高了系统
性能。在多Agent中联盟学习提高了Agent得整体求解问题的能力。这里意味着我
们已经假设系统存在合作行为,而不适合在竞争式的多Agent系统中。.
1.2.7  分层学习(Layered Learning)-机器人足球 

机器人踢足球无疑是很具娱乐性的,除此以外,它也成为人工智能,包括多Agent
系统,机器学习,实时规划的重要研究领域之一。研究者以这一领域作为测试床
,运用了分层学习以产生复杂的多Agent。这里不将详述。


1.2.8  基于事例推理的Agent的合作(Cooperation Among Case-based Reasoning 
Agents)

这里我们将介绍三种合作的模式。在基于事例的推理的Agent解决问题和学习过程

数据挖掘论坛


中存在推理。它们是:

DistCBR - 分布式基于事例推理的Agent系统,Distributed Case-based Reasoning
Agents
ColCBR - 集中式基于事例推理的Agent系统,Collective Case-based Reasoning
Agents 
froactive Learning -Learning Agent′s Competence Models 
数据挖掘工具

数据挖掘论坛

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:多Agent学习(1)
下一篇:遗传算法
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 模式识别的经典算法之一,动态聚类的k均值
  • 【转帖】人工智能语言--PROLOG
  • 支持向量机方法,用matlab实现,用于分类检
  • 陆振波博士对四种SVM工具箱的使用要点一文
  • 推荐人工智能、模式识别、神经网络实验室网
  • 复旦大学的机器学习讲义!
  • 基于meanshift的简单目标跟踪程序matlab代
  • PCA人脸识别代码
  • 一个非常好的SVM特征选择课件
  • 模式识别中运用ICA进行特征提取的matlab代
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • Biologically Inspired Artificial Intelli
  • 酷讯老大要套现,旅游副总不到三月被迫离职
  • Google拼音剑指微软
  • 韩国起草机器人道德宪章 防人与机器人相互
  • 人工智能研发迈入新阶段
  • Sources of Information about the Field o
  • WHAT IS ARTIFICIAL INTELLIGENCE - Appli
  • WHAT IS ARTIFICIAL INTELLIGENCE - Branch
  • WHAT IS ARTIFICIAL INTELLIGENCE - Basic
  • 人工智能概述
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静