【SMA-415】母乳ママの授乳日記佐々木玲奈友倉なつみ清华建议时候序列大模子：面向通用时序分析的生成式Transformer

栏目分类

热点资讯

【SMA-415】母乳ママの授乳日記佐々木玲奈友倉なつみ清华建议时候序列大模子：面向通用时序分析的生成式Transformer

发布日期：2024-07-21 10:30 点击次数：155

该职责诠释了生成式模子在责罚多种时序分析任务的灵验性【SMA-415】母乳ママの授乳日記佐々木玲奈友倉なつみ。

【新智元导读】大模子在说念话、图像规模取得了强大见效【SMA-415】母乳ママの授乳日記佐々木玲奈友倉なつみ，时候序列看成多个行业的遑急数据类型，时序规模的大模子构建尚处于起步阶段。近期，清华大学的究诘团队基于Transformer在大限制时候序列上进行生成式预西宾，获取了任务通用的时序分析模子，展现出大模子特地的泛化性与可膨大性

时候序列提供了数据随时候变化的视角，关于交融复杂系统、展望翌日变化和制定决策筹算至关遑急，在金融、知足、医疗、供应链等多个行业中施展着至关遑急的作用。

频年来，基于深度学习诞生的模子在时序分析规模取得了突破性进展。但是，相较于说念话、视觉大模子的高贵发展，现存模子依然靠近多少瓶颈：

（1）泛化性：模子能责罚西宾时未碰到的新数据；或在数据稀缺时，凭证有限的西宾数据快速适配。但是，即即是当今规模前沿的时序模子，在少样本场景下依然会产生彰着的性能劣化。

时序展望模子PatchTST在不同数据稀缺要求下的恶果

（2）通用性：微型深度模子西宾后仅符合单一任务和场景，具有固定输入输出长度，适配的变量数等难以泛化的性质，难以像大说念话模子一样，适用于各类卑鄙任务，举例T5，LLaMA和BLOOM等。

（3）可膨大性：大模子重要特征之一在于Scaling Law：扩大参数量或预西宾限制不错取得恶果升迁。但是，时序规模的大模子骨架尚无定论，即使是Transformer，在以以前序大模子究诘中尚未展现出彰着的可膨大性。

最近，清华大学软件学院机器学习实验室和大数据系统软件国度工程究诘中心建议了名为Timer（Time Series Transformer）的面向时候序列的大模子（Large Time Series Model, LTSM）。

模子给与仅编码器（Decoder-only）结构，基于多规模时候序列进行大限制预西宾，通过微调突破了少样本场景下的性能瓶颈，适配不同输入输出长度的时候序列，以及展望，填补，高出检测等任务，展现出模子可膨大性。

当今，该职责已被ICML 2024汲取。

数据构建：基于时序特色构建头绪化数据集

尽管时候序列在履行寰宇中无处不在，大限制时候序列数据集的发展却滞后于说念话，图像，视频等规模。

况兼，基于低质地，弱语义，以及难展望数据西宾的模子无法展现对时候序列的通用交融智力。

为此，作家团队基于可展望性、沉稳性等方针重重筛选，著述构建了包含10亿数据点的和洽时候序列数据集（Unified Time Series Dataset, UTSD）。

UTSD隐秘七个规模的高质地时候序列，蕴含时候序列模态的通用“知识”，以此西宾模子获取跨规模时序建模的基本智力，举例捕捉主要周期，生成遑急花式，以及眷注自关系部分等。

著述尤其疼爱数据质地的遑急性，对数据集进行难度分级和配比，跟着数据限制的扩大，变化限定复杂的数据比例也在不断增多，以便迟缓进行模子的容量膨大和课程学习。

作家团队当今还在捏续扩大数据集，并将UTSD公开至HuggingFace，以促进时序规模的预西宾以及大模子究诘。

西宾身手：和洽时局 + 自归来生成

不同于说念话、图像有着相对固定的时局，时序规模的数据存在异构性，举例变量数量，采样频率和时候跨度等，因此，进行大限制时序预西宾的重要顾惜在于怎样和洽异构的时候序列。

为将异构时候序列诊治为和洽时局，作家团队建议了一种单序列（Single Series Sequence, S3）时局。

如下图所示，通过变量拆分，归一化吞并，分窗和采样等历程，著述将时序数据诊治成了与说念话访佛的固定长度的一维序列，在数值范围内保证散布沉静的同期，让模子愈加眷注序列自己的变化花式。

在预西宾身手上，著述将单序列切分为序列片断，每个片断看成一个“词”，给与与LLM访佛的下一词展望（Next Token Prediction, NTP）进行预西宾。推理时，模子可通过自归来生成狂妄长度的序列。

模子结构：剑走偏锋的仅解码器结构

不同于当下时序规模流行的仅编码器结构，Timer给与GPT作风的仅解码器Transformer。

作家团队发现，Encoder-only结构给与了展望区间的整个监督信号，在端到端的西宾场景中能取得较好恶果，但在一定程度上遏抑Transformer看成时序大模子的后劲。

一方面，在Encoder-only Transformer中，输入序列中的“词”彼此可见，可能缩小了模子建模序列变化的难度；模子引入的平整化（Flattening）会影响词之间的落寞性，导致难以学到序列片断的语义。

另一方面，LLM闲居给与以词为单元的自归来式监督信号，每个“词”都是展望的主义，产生了细粒度且彼此落寞的监督信号。

著述觉得基于大限制时序数据，学习序列片断的落寞语义，大约赋予模子在数据集之间泛化的智力。况兼获取的模子和LLM一样，模子只遏抑了最大输入长度，从而大约适用于卑鄙任务中多样长度的序列。

任务和洽：生成式模子搪塞多种任务

Timer与GPT访佛进行生成式自归来，为进一步膨大模子的通用性，著述将典型时序分析场景和洽为生成式任务。

（1）时序展望（Forecasting）：Timer一次推理输出一个序列片断，通过多步自归来给出狂妄长的展望收场。作家团队发现，在展望凹凸文长度不越过预西宾序列长度的情况下，模子不会出现彰着的多步舛讹积存征象。

（2）时序填补（Imputation）：访佛说念话模子T5，作家引入Mask Token暗意一段纠合的缺失序列。通过微调，模子凭证Mask之前的序列来填补纠合的缺失值。

（3）高出检测（Detection）：著述建议了一种展望式高出检测身手，模子伊始在正常序列上进行微调，随后凭证输入给出偏移一段技巧的序列看成正常值，将其与实质收集的值对比，基于对比舛讹给出高出区间的置信度。

多种时序分析任务与基于Timer的生成式分析决议

实验恶果

著述从多个角度评估了Timer看成时序大模子的智力，包括少样本微调，零样本展望，任务通用性，可膨大性等，并分析了模子骨架遴荐，以及关于可变序列长度的适配性。

少样本展望

著述测试了Timer在不同数据稀缺性下的展望舛讹（MSE），并与此前的规模最优恶果（SOTA）进行了相比。

不错发现：Timer使用小数的西宾样本，举例1%的ETTh1或者3%的PEMS03，就能越过规模前沿的PatchTST，iTransformer等模子在100%数据上的西宾恶果。

实线：预西宾Timer；虚线：端到端西宾的Timer；深色基准：SOTA模子在全量数据上的西宾恶果

另外，预西宾Timer的展望舛讹（实线）一致小于未经过预西宾的模子（虚线），诠释了大限制预西宾的灵验性。

任务通用性

著述评估了Timer在填补任务和高出检测上的恶果，考证了预西宾大约给模子在各个数据集上带来沉静的收益。

左：填补任务中相对端到端模子的恶果升迁；右：在UCR Anomaly Archive中见效检测出的高出数

著述还将Timer与此前的规模专用模子进行了对比：Timer在一齐的44个填补场景中取得了伊始，并见效检测出了172个序列高出，相较之下，Anomaly Transformer为129个，TimesNet为109个。

可膨大性

作家团队究诘了Timer的可膨大性，发现跟着参数量和数据限制的增多，模子在PEMS数据集上的多变量展望舛讹缩小了36.6%（0.194 -> 0.123），低于此前最优的多变量展望模子iTransformer（0.139）。

从左到右：膨大Timer层数，特征维度和预西宾数据限制都能升迁展望恶果

零样本展望

作家团队对同期炫耀的时序大模子进行了全面测评，在零样本展望任务中，大模子不更新任何参数，径直输入数据都集时候序列进行展望。在7个信得过数据都集，Timer取得了概括最优的水平。

模子分析

为阐发时序规模的大模子骨架，作家团队对不同模子进行了雷同限制的预西宾，包括基于MLP的TiDE、TCN、LSTM以及Transformer的两种结构，收场炫耀Transformer在大限制时序数据预西宾中具备有余的模子容量。

西宾/考证时的吃亏函数，横轴以模子西宾过的数据点数代表西宾进度

著述接洽了Timer对可变序列长度责罚智力：如左图所示，跟着输入序列的变长，Timer的展望舛讹迟缓缩小。如左图所示，为营救狂妄长度的序列输出，著述对两种结构的Transformer进行了变调展望。相较于Encoder-only Transformer，Timer显贵缓解了多步舛讹积存。

作家进一步分析了两种Transformer结构鄙人游任务上的泛化性，发当前下流行的仅编码器收场在小限制西宾场景中不错取得较好的恶果。但是，在预西宾-微调范式下，Timer推崇出更强的泛化性，即使在多步变调展望的场景中也能取得规模最优恶果，摧毁了此前针对不同输入-输出长度鉴识西宾的近况。

分析示例

著述提供了Timer在各个任务上的分析示例和具体方针，笃定可参考论文附录。

翌日场合

著述终末，作家对现存时序大模子进行了智力测评和对比，总结了时序规模大模子的潜在发展场合，主要包含更强的泛化智力（举例零样本展望），营救更长的凹凸文长度，营救多变量建模，以及提供置信度的概率展望等。

西西人提肉肉

总结

该职责眷注大模子的预西宾-微调范式，考证了构建时序规模大模子的可行性，对多规模时候序列的生成式预西宾进行了潜入探究，诠释了生成式模子在责罚多种时序分析任务的灵验性，关统共据集与代码仍是开源，迎接感兴味的一又友阅读论文或拜谒GitHub页面。

上一篇：【SMA-415】母乳ママの授乳日記佐々木玲奈友倉なつみ去西北不带冲锋衣的，请按头听劝

下一篇：【SMA-415】母乳ママの授乳日記佐々木玲奈友倉なつみ关家垴战斗，刘伯承陈赓意见撤离，彭德怀坚握要打，效力如何？

【SMA-415】母乳ママの授乳日記 佐々木玲奈 友倉なつみ 清华建议时候序列大模子：面向通用时序分析的生成式Transformer

【SMA-415】母乳ママの授乳日記佐々木玲奈友倉なつみ清华建议时候序列大模子：面向通用时序分析的生成式Transformer