首页 男生 游戏竞技 从信息学霸到神级科学家

第41章 试错、探索与利用

   “各位信息学和控制学界同僚,各位评委,大家好...”,江铭上台后,气定神闲地开始了开场白。   “今天我演讲的标题是:试错、探索与利用——策略梯度算法在自适应巡航系统上的实践。”   江铭一开口便极为不凡。   不同于其他学员直接把标题定为《基于xxx的自适应巡航》,江铭的标题简直像是在做一场学术报告。   一时间观众们都被他的开场白吸引了注意。   “卧槽,牛啊!江铭的气场也太强了,力压其他学员。”   “我真的看的是综艺吗,不是误入了什么学术会议现场?”   “试错,探索与利用?他想要表达什么?好期待啊...”   然而,这种弹幕仅仅持续了30秒。   就在江铭打开ppt之后,观众们全都绷不住了。   “哈哈哈哈,这是什么,刚刚出土的新鲜ppt吗?”   “有一说一,我太奶来了做的ppt都比这个好。”   “你们看他的队友林欣然的表情,都快崩溃了,江铭这才是真的猪队友啊!”   “这前后反差也太大了吧,十秒钟之前还是逼格满满,打开ppt后,就这?”   甚至还有观众发出来网上那张画马的梗图。   一只前半部分是精雕细琢的素描,后半部分是潦草简笔画的马。   还贴心在梗图上p上了文字:江铭打开ppt前-江铭打开ppt后。   演播室里,莉雪和颜宇菲也忍俊不禁。   “江铭这孩子,还真是...出乎意料呢。”,颜宇菲笑着道。   “不过,他的题目的确标新立意,看看他后面准备怎么展开吧。”,莉雪附和着道,她心里还是希望江铭有不一样的精彩表现的。   庞武倒是更加地不爽了,他之前说江铭不够专注,被弹幕群嘲。   现在到了江铭上台,他给出这么一份潦草的ppt,就这?   庞武坐在那里不说话,静等江铭的表演。   他暗暗告诉自己,只要最后江铭所讲的内容有问题,他必定要狠狠点评一番。   ...   江铭讲完开场白后,现场一片沉默。   众学员都瞪大了眼睛,一副迷惑的表情。   其中就属华清组谢恒的表情最为震惊,或者说是惊讶中带着茫然与不解。   只有彭城一改往日的严肃,换了个放松的坐姿,靠在椅背上饶有兴趣地盯着这个标题。   也许对他而言,ppt制作什么的都是小事,本就不会在意,只有ppt背后的思维是值得关注的。   江铭将众人表情尽收眼底,表情仍旧平静如水,轻点鼠标翻到第二页。   “在介绍我们组的方案之前,我想先提一个问题:我们所设计的控制策略究竟是什么?”   众学员皱眉,控制策略就是控制策略啊,这还能怎么去挖掘?   江铭这个问题就好像是问大家数字1究竟是什么一样。   江铭看众人仍不理解,便继续引导道:“就用我们现在自适应巡航的问题来举例。”   “比如说有一种控制策略是,离前车近,就减速;反之如果离前车远,就加速。”   “或者把这个控制策略细化一下,距离前车小于1米,就把油门降到原来的80%,距离大于1米就把油门提高到原来的120%。”   “这就是一个非常简单的控制策略,虽然没人会用它。”   “但是这个例子很直观地反应了,策略其实是从当前环境状态到动作的一个函数。”   “对于任何情况,无论是车距、车速、上坡下坡,刮风下雨,这个函数都可以根据环境状态计算得到一个动作值。”   “因此,一个最优的控制策略,其实是一个最优的函数。这个函数无论输入什么样的环境状态值x,都能得到一个当下最优的动作值y!”   江铭的一席话振聋发聩,顿时在场学员们都有所明悟,就连彭导都露出了赞赏的神色。   “但是你要怎么得到这个函数呢,难道你能构建一个极其复杂的偏微分方程,甚至还能求出其解函数吗?”,谢恒忍不住反驳道。   这简直是异想天开,包含控制策略的偏微分方程早就复杂到超出人类能表达的极限了,根本不是人能构建的。   而且,先不说这个函数能不能构造的问题,甚至不说这个函数能不能求解的事,如果求解出的这个最优策略函数本就没有封闭形式的表达式呢?   没有封闭形式的表达式,意味着这个函数根本没法写出来,就更别提输入环境值x得到动作值y了。   谢恒只当江铭是彻底昏了头,知道自己的方案比不过,便琢磨一些高大上的没有实际意义的概念,再美名其曰创新,企图交差。   他心里清楚,这种不能落地的方案根本入不了彭城的眼。   他为什么这么执着于在节目离拿下第一,就是因为他知道这一次的代教导师彭城,在整个业界的地位。   江铭也许不懂,但当他来到节目组看到代教导师是彭城时,简直惊讶得以为在做梦!   只要能在这次节目里获得他的好感,那以后无论是去工业界还是混学术界,都是横着走。   “这根本就是不可能的。”,谢恒自语道。   “其实不需要我们人工构造微分方程,只需要用神经网络训练即可。”,江铭微笑回答,指了指小标题道:“这也是我即将要讲的,试错、探索与利用。”   “自然界中,几乎所有的生物,都有着各种策略。捕猎需要策略,筑巢需要策略。我们人类平日的生活,做饭,出行路线,这些都是策略。”   “这难道是因为在我们大脑里有一个微分方程吗?不,我们是通过不断试错学习得来的。”   “做饭咸了,下一次就少加盐;出行这一条路慢了,下回就换条路走。这种通过试错迭代学习的模式几乎贯穿了我们的一生。”   “那么如果我们能设计一个智能体,神经网络就是它的大脑,只需要不断探索不同的策略,在模拟的世界中试错。”   “然后,让神经网络利用这些试错数据,好的部分保留,不好的部分丢弃,不断迭代。”   “最终,神经网络就能无限逼近我们前面所提到的最优策略函数。”   ...
目录
设置
手机
书架
书页
评论