[TOC]
总结
- 目标:时间序列分析-预测视频欢迎度、点击量--用线性回归
- 不足:测试数据时间序列数据少(短),比如只有前10天数据,预测第100天数据,预测不准
- 预测不准是因为所有训练数据都用上,明显噪音过多, 解决:
对视频根据增长模式不同进行分类, 如电影的粉丝电影(初期暴增,后期缓慢),普通电影(稳定直线增长)、逆增长(初期缓慢,后期暴增),只使用同类增长模式的数据进行预测 - 测试数据时间序列数据不足, 只能在初期数据之外,添加其他特征,如作者人气、视频长度、视频内容类别、点赞、渠道信息等
- 有特征进行训练,就需要标签(监督学习)。
标签即本文新定义的生命期——$\alpha$-lifespan,点击达到$\alpha$=50%或80%时的时间——也就是第3点的增长模式,细节差别而已 - 用训练集的初期数据(点击量)、人气、视频长度、类别等特征与标签 生命期 一同使用回归树训练, 预测数据就能先预测到所属类别——增长模式。
- 对训练数据按时间序列进行聚类(Kmeans),得到各类模式的生命期下界(和上界),选择预测数据所在模式k的数据, 再进行时间序列分析的线性回归训练和预测。
OVER, 绕了半天, 总算绕出来了。 看的时候真不一定觉得是问题, 到自己来解释时才知道没理解透
特别是要猜论文作者(理论提出者)是发现什么问题、怎么发现问题、 怎么想到解决思路。
目标
如何用少量历史数据预测视频的受欢迎程度——到未来某时间的总浏览量?
现在的方法只能预测近期,不好预测远期
所以, 作者(们)提出 生命期感知回归模型
生命期感知回归模型
每个视频都有一定的生命期(寿命lifetime)模式, 或点击增长模式(popularity evolution paterns), 比如不同上传者(知名度)、不同内容、质量是影响因素。更不用说不小心摊上什么大事这种不可控因素, 不过应该也可以测什么事件将会对什么视频产生什么影响——没差。
朴素的 生命期是一个视频从上传(或某事件)到没人点击(一段时间内)的这段时间间隔。
{%text|显然有什么问题?_@#%}
太长
有些视频常年有人看,等不到生命期的结束。 总之观察期不会那么久。而统计就是从无限数据中采样, 在自己观察到的样本总数里进行分析。
所以, 改无限长的观察时间成固定时长, 比如总时长多少天或多少小时,每天或每小时获得一次数据。
相应地, 生命期的计算也需要变化, 从以前的最终时间(等到没人看), 改成最快达到 某个比例阈值的时间。
比如观察了20天,有一个总访问量,第一天、第10天、第19天到达总访问量的50%或80%分别代表了这视频的火红一时、 细水长流、 慢慢发酵三种情况。
所以就可以用到达总量50%或80%的时间跨度($\alpha$-lifespan, $\alpha$ = 0.5 或 0.8 )来定义新的 生命期。
$\alpha$取不同值对区别实际模型也有影响, 如图:
D1与D3在50%时难以区别, 而80%则显然不同
找规律
接下来就是用机器学习(之类的)方法来把特征与新生命期进行映射了。
作者使用了10个特征, 包括视频类别(如果算标签就更复杂了)、视频长度、 播放量(访问量)、评论数等。
{%text|用什么分类算法比较好?_@回归树|决策树#视频类别是什么数据,应该?%}
训练
训练后, 以后就能根据少量的历史数据(初始一天或一小时)和其他特征计算生命期, 用于预测欢迎度
预测欢迎度
定义视频的生命期为$L_v$, 访问量$N_v(t_i)$ 和 上个时间段增长量 $x_v(t_i)$
目标就是用生命期$L_v$和至今$t_r$各段时间增长量$X_v(t_r) = (x_v (t_1),x_v (t_2 ),...,x_v (t_r ))$来预测 未来时间 $t_t$的访问量$N_v(t_t)$ —— 也是欢迎度
因为这是时间序列总量, 所以公式为:
其中
而K代表了 不同增长模式的模型, 比如火红一时、 细水长流、 口碑发酵等等, 如果把所有数据都认为只遵从一种模式的话, 误差显然会较大, 同时跟 生命期$L_v$ 也就没什么关系了。
根据机器学习求损失函数, 定义为以下优化问题:
K的选定
如何用生命期$L_v$选定K及划分数据集呢?
首先, 用生命期$L_v$划分出K个子集, 每个子集有 生命期的下界(和上界), 就是在总时间长度$t_t = N$的横坐标上划分K个区间, 或者说 在N个人中间放上K-1块木板(每个区间好歹有一个值吧), 组合数的计算量很大
因此, 需要更简单的聚类方法(数据没有标签,就是聚类), 最简单的就是 KMeans。 聚类的特征就是训练数据的时间序列, 类似 Figure-2 每个数据集就分成了6种。
作者实验后认为 分成 4类比较好。
实验
原文
C. Ma, Z. Yan and C. W. Chen, "LARM: A Lifetime Aware Regression Model for Predicting YouTube Video Popularity", in ACM International Conference on Information and Knowledge Management (ACM CIKM), 2017. [PDF]