数学联邦政治世界观
超小超大

空间模型

一种适用于长序列建模的状态空间模型‬

论文:用结构化状态空间有效地建模长序列动机和当前问题序列建模的一个核心问题是有效处理包含长程相关性(lrd)的数据。

一般要求上万步(16k),现在能做到几千步就不错了。

• 用特殊矩阵(HIPPO)武装起来的潜在空间模型本来具有长时间记忆的能力,但在计算上不可行:O(N2L)操作和O(NL)空间.

尽管依据经典线性代数的降维算法被提出了,但是在数值上不稳定:A的条件数比较大。

• 希望有一个通用序列模型:现在的模型总是针对一个特定领域(图像、音频、文本、时间序列),处理一个问题范围窄(高效训练、快速生成、处理不规则采样数据)。

这种现状的原因是这些模型想要高效,就需要特定领域的预处理、归纳偏差和架构。

贡献

1. S4解决了SSM模型过往的computational neck;在speed和memory overhead 上都达到了efficient transformer的水平;

2. 在LRD任务上成为SOTA,特别地,第一次解决了长达16k,涉及到图像空间推理的Path-X问题;

3. 除了LRD任务,S4具备成为general-purpose sequence model的潜力:

具有高效训练、快速生成、处理不规则采样数据(比如说调整演讲的采样频率)的多种功能在不调整结构的情况下,能处理不同的领域:在语音分类上超过语音CNN,在时间序列预测问题上优于专门的Informer模型,并在序列CIFAR上以超过90%的准确率匹配二维ResNet。

初步的

1.SSM模型

状态空间模型由简单方程(1)定义。

在投影到一维输出信号y(t)之前,它将一维输入信号u(t)映射到一维潜在状态x(t)。

x’(t)= Ax(t)+Bu(t)

y(t)= Cx(t)+Du(t)

2.HIPPO非常重要!!!

3.[数]离散化‬

为了离散化连续时间SSM,我们遵循之前的工作,使用双线性方法【43】,将状态矩阵A转换为近似A .

离散SSM为

xₖ=ˉAxₖ₋₁+ˉBuₖ ˉA=(l – Δ/2 · A)⁻¹ (l+Δ/2 · A)

yₖ=ˉCxₖ ˉB=(l – Δ/2 · A)⁻¹ΔB ˉC=C.

解决方案:

• 把HIPPO矩阵A分解成正规矩阵+低秩

• 序列模型并行可以转化为一个卷积运算,但卷积核需要处理一个连乘。

如果一条对角线,那一切好说;但他现在不是,所以转化成为普通加低级。

处理NPLR的幂需要用到三个技巧

• 用柯西核来处理对角阵求逆的问题;

• 用伍德伯里恒等式把NPLR变成对角阵的问题;

• 计算截断的生成函数,再用逆FFT变回来。

数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。

相关小说

快穿之天生媚骨 连载中
快穿之天生媚骨
吖吖鹿
琓月为了寻求记忆,与778绑定,,完成任务,收集能量。第一个世界佟佳氏无cp
8.8万字3个月前
喜美:朦胧梦境 连载中
喜美:朦胧梦境
湫日有棂
禁一切作者:湫日有棂【祈念文学社】从学生时期便认识的我们,为什么最后没能走到一起?一场意外把美幻曦带到副本世界,需要前往一个个世界攻略喜易言......
14.7万字3个月前
疯批美人他权势滔天 连载中
疯批美人他权势滔天
权天官
疯批美人摄政王VS高冷正义小徒弟书又名:《知途》温使墨从一个人人喊打的丧家之犬,和从尸山血海里爬出来的厉鬼,成为如今人人喊骂,却人人畏惧的摄......
0.2万字3个月前
每个世界都在发生不同的事情 连载中
每个世界都在发生不同的事情
风中凌乱的
宝宝们,欢迎观看,希望宝子们喜欢,大家一起交流,可以告诉我,你想看的类型,我来写。
5.5万字2个月前
我在快穿世界里发疯(不是) 连载中
我在快穿世界里发疯(不是)
有价无市
女主蒋芸,因为一次意外,她来到了这个叫快穿的世界。并且结识了叫瑞瑞的系统。可是,她似乎失去了自己的记忆。于是她大手一摆,竟然来了,那就好好玩......
14.3万字2个月前
彩虹的光辉 连载中
彩虹的光辉
曦光耀雪
唐彩星成神的故事.这里古月娜他们不是毁灭之神和生命女神,她原本以为自己是唐三的女儿其实自己是生命女神的女儿,因为毁灭之神怕毁灭之力干扰了女儿......
2.8万字4天前