小熊的小站

Muon优化器

近日，Moonshot开源了改进版 Muon 优化算法及用 Muon 训练的SOTA级的MoE小模型。开启了Muon在大模型应用的局面。也许新的优化器时代即将到来！ PS：像谷歌23年提出的Lion（EvoLved Sign Momentum）优化器也号称比AdamW好，但是缺乏在大模型上的成功实验，大多数人还是选择Adam/AdamW。

2025-02-24

#深度学习

MoBA vs NSA

Kimi公开了他们处理长文的秘密了。团队提出了MoBA (Mixture of Block Attention) ，解决了传统注意力机制在处理长文本时的效率问题。 DeepSeek 发布了一篇新论文，提出了一种改进版的注意力机制 NSA（Native Sparse Attention），加上还有创始人兼 CEO 梁文锋亲自参与。

2025-02-22

#深度学习

Group Relative Policy Optimization

Group Relative Policy Optimization（GRPO）起自deepseekmath，在deepseek-R1中也大放光彩。看到复旦某组开源了一个简单的仅~200行的关于GRPO的项目simple_GRPO，故决定学习并写写。

2025-02-20

#深度学习

火烧金阁寺

金阁寺是三岛由纪夫所著。我一向对日本文学除侦探小说以外的书籍不太感兴趣，诸如比较著名的村上春树，我也阅读较少。觉得它们阴沉和晦涩。我接触三岛由纪夫的相关书籍，可以追溯到高中搬宿舍时从高中学长“继承”而来的《晓寺》。那边草草阅读了一些，就结束了对三岛由纪夫的接触。看这本三岛由纪夫的《金阁寺》源自fabel的《风吹草动》。由林夕作词，其中写道“火烧金阁寺，是哪一位比我痴”，“分于金阁寺，大有超生

2025-02-17

#阅读

GELU函数以其近似

GELU，即Gaussian Error Linear Unit，在论文《Gaussian Error Linear Units (GELUs)》提出，被广泛运用于各大LLM中。

2025-02-16

#深度学习

Mixture of Experts(MoE)

MOE是当前比较火的技术之一。比如Mistral、当前最火的deepseek都用到了这一技术。 MOE具有预训练速度更快，推理速度更快的性质。但泛化能力不足，对显存需求比较高。

2025-02-15

#深度学习

TPSS5E1 复盘

预测贴纸销量 | Kaggle — Forecasting Sticker Sales | Kaggle是我参加最久的一次TPS（2025/04/01更新： 3月又全力参加了一次，排名18/4381，排名仍达不到拿swag的名次，但成为唯二的在shakeup中留存的top选手也算差强人意。不得不说第2的chiris是真的强），但成绩不够理想，只拿到了27/2

2025-02-10

#机器学习 #深度学习 #kaggle

ARIMA

ARIMA 模型，全称为自回归整合移动平均模型 (Autoregressive Integrated Moving Average model)。

2025-01-15

#机器学习 #时间序列

使用更少的参数建模时间序列

先前的Dlinear已经足够简单，且击败了一众transformer模型。我们还能使用更少的参数吗？Dlinear使用了两个线性网络，分别周期和残差，我们能只用一个吗？这也就是FITS所做的，我们直接在傅里叶域上做神经网络，这样能实现了周期和残差的同时建模。

2025-01-10

#深度学习 #时间序列

生存分析速览

生存分析(survivalanalysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。不仅考虑事件是否出现,而且也考虑事件出现的时间长短,因此该类方法也被称之为事件时间分析(time-lo-event analysis)。生存分析起源于医学与生物科学。

2024-12-26

#深度学习 #生物信息