百科问答小站 logo
百科问答小站 font logo



有什么算法能对一个长短不一的时间序列进行分类预测? 第1页

  

user avatar   civ-26 网友的相关建议: 
      

题主的问题实际是:

你有一个训练集,其中所有数据长度相等,假设该长度为L。但你的测试集中的数据长度都不一致,并且普遍小于L。所以题主希望找到一种算法能够在训练集上训练得到模型,并且能够应用于测试集上。而你最大的concern是“数据长度不一致”。

实际上你这个问题在定义时就该定义为“变长时序数据的分类问题”,至于你训练集中的数据长度是否一致并不重要。

两种思路解决这个问题。

第一种思路是基于传统的机器学习方法。这要求你在提取特征时只考虑与数据长度无关的特征,例如:所有点的均值、方差等等。在深度学习之前,时序数据分类主要就靠这些手动设计的特征,当然均值、方差这类简单统计量仅仅是最基础的特征,其它一些常用的特征包括峭度、偏度等等,去查一些早期的paper很容易找到一些可以参考的特征,例如这篇:

这里一定要注意你设计的特征必须是与数据长度无关的。这种方法对于任务难度不太大的情况下仍然可以取得很好的效果,并且因为特征具有物理意义,所以模型可解释强。可解释性对于传统行业非常重要(如制造业,没人愿意拿一个黑盒子上生产机床去玩)!!!

第二种思路是使用本身就能处理变长序列的模型,如RNN系列模型。RNN在理论上是完全能够处理变长模型的,它的思路很简单:使用上一个时间点的输出和当前时间点的输入一起产生当前时间点的输出(有点绕口,仔细读,很简单)。所以这个过程可以一直重复到任意序列的结尾,然后最后产生的这个输出作为你这个序列的特征,再用于分类。因为回答主要针对解决你问题的思路,所以不打算详细介绍RNN了。如果有问题,再追更。

但按照实际经验来看,RNN解决序列分类问题通常效果不是很好。

原因是RNN系列模型从理论上讲是对整个序列在进行建模,而通常对时序分类而言,局部的一些特征可能作用更大。所以可以用CNN来代替RNN,从而强调模型对局部特征的提取能力。不过直接使用CNN可能会面临最后送入FC的向量长度不一致,这可以使用Pyramid pooling来解决。

细节不讲了,如有问题,再追更。




  

相关话题

  如何理解 inductive learning 与 transductive learning? 
  数据分析师的薪酬大约是多少? 
  视觉算法的工业部署及落地方面的技术知识,怎么学? 
  时间序列和回归分析有什么本质区别? 
  机器学习自嘲的炼丹和化学材料自嘲的炒菜有什么本质上的区别? 
  物理专业的学生如何看待机器学习和大数据这些方向呢? 
  pytorch ddp训练中一个node fail,导致整个训练失败,有可能解决吗? 
  在实际工程系统中,MPC太复杂,难以做到realtime。因此都利用数据,MPC对比RL还有优势么? 
  R 中的哪些命令或者包让你相见恨晚? 
  计算机视觉中,目前有哪些经典的目标跟踪算法? 

前一个讨论
机器学习算法进行分类时,样本极度不平衡,评估模型要看哪些指标?
下一个讨论
为什么多标签分类(不是多类分类)损失函数可以使用Binary Cross Entropy?





© 2024-05-20 - tinynew.org. All Rights Reserved.
© 2024-05-20 - tinynew.org. 保留所有权利