怪力小说网

怪力小说网>职场小聪明 > 第914章 梯度下降(第3页)

第914章 梯度下降(第3页)

?这就是梯度下降在人脑中的投影。

3。永远不是绝对答案

?人类也不会给一个“100%确定”的结论。

?比如看到一只奇怪的宠物,你可能说:“嗯,看起来像猫,但也有狗的特征。”

?这就是机器学习中的概率输出。

?

五、哲学层面的启示

1。学习是渐进的

梯度下降提醒我们:学习不是跳跃,而是一次次小步调整。

每次错了,就顺着错误最大的方向修正一点。

2。最优是虚构的

就像你说的,碗底永远是“无限接近”,人类的理解也永远是不完整的,只能在概率意义下“差不多就行”。

3。随机性是智慧

没有随机性,人可能会被困在“小谷底”里,以为那就是全部真理。

随机性(犯错、偶然的发现)反而帮助我们跳出来,找到更深的理解。

?

好,那我就再往更深一层走,把“梯度下降”从数学—工程—哲学三个维度继续展开。

?

一、数学视角:为什么非要走“负梯度”?

在高维空间里,函数的梯度(?f)指向上升最快的方向。

?举例:你站在山坡上,梯度就是告诉你“哪里最陡,往那边走上升最快”。

?但我们要下山,所以要走“负梯度”。

?每一步的公式就是:

theta_{new}=theta_{old}-etanablaf(theta_{old})

其中:

?theta是参数(比如神经网络里的权重)。

?eta是学习率。

?nablaf是梯度。

换句话说,每一步都像在地图上用指南针找方向,永远往“下坡最快”的方向走。

?

二、工程视角:梯度下降的改进

在大模型里,光靠最原始的梯度下降其实不够。工程师们发明了很多“加速方法”:

1。动量法(Momentum)

?类比:滚珠下山时不仅看坡度,还带有惯性。

?这样就不会在小坑里乱跳,而是能跨过去。

2。自适应学习率(AdaGrad,RMSProp,Adam等)

?传统学习率是固定的,但现实中不同方向的地形不一样。

?比如有的维度很陡,有的很平缓。

已完结热门小说推荐

最新标签