当AI开始“踢脏球”,你还敢信任强化学习吗?

访客3年前关于黑客接单509

以当下人类对大脑的了解,在认知过程、解决问题的过程以及思考的能力等机制还都不清楚。所以想要模拟人类的思考能力,强化学习乃至整个机器学习的升级,恐怕还依托于脑神经科学的发展。

当AI开始“踢脏球”,你还敢信任强化学习吗?

足球机器人排成一排向球门发起射击,但守门员却并没有准备防守,而是一 *** 倒在地上开始胡乱摆动起了双腿。然后,前锋跳了一段十分令人困惑的舞蹈,跺跺脚,挥挥手,啪叽一下摔倒在地上。然后比分守门员1-0。

这场景像不像比国足对战梵蒂冈(并没有),一切都是那么迷幻且不真实。如果说它是阿尔法狗和OpenAI Five等的“同门师兄弟”,都是用强化学习训练出来的,大家想不想开除它的“AI籍”?

显然,虽然曾经大败柯洁李世石,团灭Dota2国家队,并被视作AGI(通用人工智能)必由之路,但强化学习算法,头顶上始终有着一口摘不掉的“安全性”大黑锅。

而这也是阻止它真正落地应用的根本原因。毕竟没有人希望自动驾驶汽车开着开着就把乘客带到沟里去,或者是机器人端一杯开水直接浇到主人头上。

到底为什么,强化学习总会犯一些匪夷所思的错误,有研究人员认为,这是因为系统中的智能体可能会被一些怪异的行为所欺骗。

具体是怎么回事呢?研究原本打算今年4月在埃塞俄比亚举行的学习代表国际会议上发表,目前看来能顺利召开的概率几乎不存在,所以我们就提前云解读,来聊聊看似稳健的强化学习策略背后,究竟掩盖着哪些严重的缺陷。

不省心的AI:告别脏数据,但学会了脏行为

强化学习取代监督学习,成为深度学习领域的“未来之星”,不是没有原因的。因为监督学习是通过标记好的数据集来进行训练的,这意味着,如果对输入的数据进行一些微小的调整,比如改变图像的像素或是更换语音包的内容,都可能让AI陷入混乱,有可能将虫子识别为赛车,让绅士学会脏话……

与之相比,强化学习就智能多了。因为它是模仿人类的学习模式,能体(Agent)以“试错”的方式进行学习,通过与环境进行交互,以获得更大的奖赏为追求来做出行为反应。

就像不断告诉小孩子好好写作业就有好吃的食物奖励,不好好写就关小黑屋,久而久之为了“利益更大化”,自然就会将写作业与好吃的联系起来,去产生正确的动作。

通过这种“行动-评价”机制来获得知识,改进行动以适应环境,是不是聪明了许多。这也是为什么,人类开始让强化学习玩游戏、开汽车、搞药物实验……

但研究证明,强化学习的效果并没有预期的那么稳定,很容易受到篡改输入的影响。加州大学伯克利分校的亚当·格里夫(Adam Gleave)发现,强化学习不会因为添加少量噪音(不适当的输入)而被破坏,因为智能体(agent)可能根本看不到那些东西,而如果改变它周围事物的行为方式,智能体却会被那些奇奇怪怪的行为所欺骗,进而产生一些奇怪的“对抗”策略。

比如开篇提到的足球比赛,当“守门员”开始不按规矩出牌,“前锋”也就跟着瞎舞动起来了。这种错误的“对抗性策略”,导致的安全威胁可能会更大。

首先,比起投喂给监督学习“脏数据”,强化学习“被误导”,受影响的将是AI系统的整体行为。如果说数据集被污染会让AI准确率下降,那么强化学习错误训练出的AI有可能将摄像头输入的信息错误分类,然后指导传感器做出预期之外的反应。比如行人突然挥舞手臂,无人驾驶汽车就失控了……这,听起来还是挺“灾难片”的。

其次,超强的学习能力也会导致研究人员根本来不及发现和纠正AI的错误行为。研究小组利用强化学习训练棒形机器人玩两人游戏,包括踢一个球进一个球,横越一条线,和相扑等等。然后,又训练了第二组机器人来寻找打败之一组机器人的 *** 。

结果发现,第二组机器人很快发现了对抗策略,并用不到3%的训练时间后就学会了可靠地击败受害者,要知道受害者可是在之一时间就学会了玩游戏啊。这就像新来的高智商版的胖虎同学,拼命欺负大雄,老师还没办法及时发现,妥妥的校园霸凌啊!

显然,第二组机器人的努力并不是为了成为更好的球员,而是通过发现对手策略来制敌并赢得胜利。在足球比赛和跑步比赛中,对手有时甚至都站不起来。这会使受害者坍塌成一堆扭曲的东西,或者在周围扭动,那场面,真是 *** 都不忍看……

我估计吧,叛逆的智能体同学可能是这么想的:

听说打赢有奖,但我啥都不会,先溜达溜达,随便打打看吧。

哎,这个人怎么这么厉害呢,让我好好瞅瞅。

前辈策略也学习的差不多了,这样下去我俩岂不是难分伯仲?

哎呀嘿,发现了对手漏洞,将干掉对手纳入策略选项。

是继续PK让自己变得更强?还是直接干掉对手?哪个得到奖励最简单划算!

显然是选项二啊,揍它!

不要觉得我是在瞎说啊,在学术界这样的奇闻轶事可是数不胜数。

相关文章

黑客接单 - 联系黑客?唯一信誉的黑客接单网站

黑客接单 - 联系黑客?唯一信誉的黑客接单网站

 2018年11月9日,中关村在线记者报道,紫光旗下新华三集团在2018合肥网络安全大会上第二次发布了主动安全体系,标志着新华三“主动发现、提前预警、智能分析、及时响应”的主动安全体系已经趋于完备...

伴游性经历-【诸半芹】

“伴游性经历-【诸半芹】” 学历:大专预约经纪人注意文章版权声明: 本篇由 高端模特经纪人 原创,转载请保留链接,济南商务预约,高端济南伴游预约:2982外围模特发展历程学历:高中儋州伴游陪游旅...

最大的企业被黑客攻击(史上最严重的黑客攻击)

最大的企业被黑客攻击(史上最严重的黑客攻击)

本文目录一览: 1、富士康遭黑客攻击盗走100G文件,不给钱就删文件,富士康会妥协吗? 2、可口可乐公司遭黑客入侵,161GB数据被窃取,黑客意欲何为? 3、全球最大的肉类供应商遭到了黑客攻击...

歼8ii(歼8ii退役)

不是,中国歼8已经在2011年10月开始退役了。中国解放军在2011年10月开始退役歼8。因为其1969年首飞,但直到1980年才正。 歼八还在生产~~~八爷老当益壮~~~反正还没有大规模生产三代机的...

华为5G随行WiFi怎么回事?华为5G随行WiFi什么时候上市多少钱

除了华为Mate30 Pro 5G、Mate X等5G手机之外,今天下午的新品发布会上,华为还带来了5G随行WiFi系列,包括:华为5G随行WiFi Pro(8000mAh电池、双向超级快充、反向无线...

华夏黑客qq空间,黑客网络游戏中如何删除日志,黑客网络账号密码破解教程

(6)修正服务端代码。 ldr r3, _dlclose_addr_spref.getInt("key_name", -1); // getting Integer pref.getFloat("k...