https://www.gravatar.com/avatar/3c36d6726b341ff003490168e1897f84?s=240&d=mp

强化学习概述

前面其他的基本都是和监督学习相关 用于收集标记困难的情况(游戏?) 本质也是找一个 Function 元素: Actor Environment 不断循环进行输入输出(考虑程序的 Actor 模型);有一个结

Pytorch

数据准备 from torch.utils.data import Dataset,DataLoader Dataset :构建自己的数据类,需要重写 get 和 len DataLoader 吐数据的类(包括了 batch 和 shuffle) 1 2 3 4 5 6 7 class MyDataset(Dataset): def __init__(self,file): self.data = ... def __getitem__(self, index): return self.data[index] def __len__(self): return len(self.data) GPU

A 寻路算法

启发式算法,网格搜索算法。 先评估(代价函数 f(n) = g(n) + h(n) )更新网格信息,进行寻路。 其中 g(n) 指的是从起始格子到格子 n 的实际代价,而 h(n) 指的是从格子 n 到