其中 T 是一条推文的流行度(即t-density),S与C分别代表不同信息来源及不同信息类别的 t-density 分值,En t max 为待测推文提及的人名或地名中的最大t-density值。这个公式被很多海外科技报道归纳为:来自可靠的信息源、提及名人并且谈论流行话题(比如科技、健康)的文章倾向于可以获得更多的点击及转发。而令人意外的是,表达方式的客观与否在传播效力上并不会带来明显的差别,所以总想着标题党的同学可以休矣了。
但实际上,这个预测的误差还是比较大的。所以原文还给出了一个改进算法,不过这个算法其实只与信息来源及所提到的人名或地名标签有关。研究者认为将预测限定于特定的类别(比如科技类信息)能进一步提高预测的成功率,因为不同类别信息之间多有重叠,这可能带来了不小的统计误差。
很多国内外的新闻网站在介绍这篇文章的时候都笼统地说这一研究结果对于新闻在推特上流行度的预测能够达到 84% 的准确率。这里要强调一下, 84% 的准确率并非指的是流行度的准确数值,而是它的档次 。原文把流行度依据转发数量分成了三档,1-20次算是低流行度、20-100次的算作中等流行度,100-2400次的被认为是高流行度。
终上所述,这 4 个判断依据还不足以精准地预测一条以分新闻内容的推文能被转多少次,但模型能够对这篇新闻报道是否能流行起来做出比较准确的估计。这确实是个很有意思的研究,也许你也可以在微博上留意或者实验一下。 不过本文的研究对象有一定的局限性,值是各类通过“分享”新闻报道形成的推文 。而且推特和微博无论从技术还是参与者来说都还是有所不同的,所以它未必能够直接套用到微博中。此外对于社会网络传播现象的数学研究还处于初起阶段,数据分析的方法不算特别完善。但最后真正要提醒的是,掌握这些要素固然能使你的文章更流行、更多人“手滑”点击了微博上的那个链接,不过说到底,内容的好坏才是评价一篇文章质量的关键。
参考资料: The Pulse of News in Social Media: Forecasting Popularity