主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol

大河奔流 导读 复 116 阅 113917

/ 8 首页 上页 下页 末页

O 【原创】关于西西河发帖和得花的一些统计与分析 350 Adol 字5307 2011-09-08 16:27:47
O 确实被墙 2 chartis 字56 2011-09-22 23:37:10
O 这分析太牛了! 8 老老狐狸 字254 2011-09-20 10:31:11
..O 嗯,这个有道理 4 Adol 字243 2011-09-20 10:52:10
...O 第一种,河里不少,不断有新的精彩加入,非常有收获 7 老老狐狸 字371 2011-09-20 11:01:49
....O 从我自己的数据里,这个还没法做到 5 Adol 字389 2011-09-20 18:05:38
O 很专业的技术分析,花之 d0lucyduck 字57 2011-09-20 05:54:00
..O 用的是R 2 Adol 字129 2011-09-20 10:05:19
...O 非常感谢! d0lucyduck 字10 2011-09-20 10:34:51
O 楼主辛苦了 wjcgx 字70 2011-09-17 17:42:36
..O 呵呵,我只是业余的,不可能取代管理员 1 Adol 字62 2011-09-19 03:00:39
O 一点题外话,兼回楼下物格修齐河友 107 Adol 字2209 2011-09-16 23:01:36
..O 铁手没有向你开放数据库真是可惜 1 过失速 字23 2011-09-18 08:54:20
...O 这个。。。老铁也需要为用户们的隐私负责啊。。 Adol 字54 2011-09-19 03:01:25
..O 你独立科研能力很强 2 物格修齐 字66 2011-09-17 13:58:24
2011-09-08 16:27:47
主题:3557742
Adol
Adol`23680`/bbsIMG/face/0000.gif`70`2471`3304`60672`正四品下:通议大夫|壮武将军`2008-04-05 20:52:28`0
1 【原创】关于西西河发帖和得花的一些统计与分析 350

0 缘起

想写这篇文章已经有一段时间了,起因是我发现有一些河友帖子不多,但是大都是原创,得花也都不少,于是突发奇想——如果我们按平均主题得花数,或者平均帖子得花数排名,是不是可以得到一种一般性的印象——谁的发帖质量最高?

当然,事实上,简单平均并不能达到这样的目的,这点后面再说。并且这样的平均得花只是反映了河友把西西河作为观点发表场所的一个侧面,而西西河同时还有社交、交流和学习、放松等许多其他方面,这些方面并不一定是产生得花的结果,却仍然十分有益。因此,我无意把这种统计、也包括后面的许多种统计,作为评价河友的标准,只是作为一种乐趣挖掘出来。

并且,在挖掘的过程中,我通过我所收集的几项非内容性质的数据,还能够挖掘出许多其他的信息,这样简单却大量的数据,究竟能够得出什么结论?是否与我们经验上的观察相符?能对我们有什么启示?这就是本文的主要内容和缘起。

本文尽量试图让数据来说话,而不是我的主观观点,但是,这些结论,大概仍不免带有我个人的色彩。尽管我写了程序来收集这些数据,并可能使用一些简单的统计方法和算法来进行统计和分析,其实我无论在编程、统计、还是算法上,都是浅尝辄止,特别是统计方法方面,请有专业知识的河友不吝于指教,纠正我的错误之处

1 数据

本文所使用的数据均为可以公开访问的数据,包括2011年8月初之前,在西西河积分超过40000分(即英雄榜-历来跳水者),共944名河友们的:

ID,积分,声望,乐善和注册时间。

还有他们家园博客-所有帖中,所有帖子的:

(1) 编号,

(2) 所回复主题的编号,

(3) 得花数量,

(4) 发帖时间,

(5) 发帖人(即该河友本人)

本来还收集了得草数,但由于草存在的时间还较短,所以没有进行分析。由于程序和网络状态的缘故,可能在收集时会有所遗漏,但从大规模统计的角度来说,影响基本可以忽略不计。

这些河友共发表了1865251个帖子,截止到当时最大的帖子编号3525974,我们可以认为在西西河全部350多万帖子中,有180多万是这944名河友发表的,平均每人发表帖子2000篇左右,占帖子总数的52.9%。这些河友共参与了113605个主题,其中由他们发表的,有66122个,占这些主题的58.2%。他们总共得花5758729朵,共送花3968324朵,虽然他们得到的花有其他用户送的,他们送出的花也有送给其他用户的,但是由于这些核心用户是原创作者的主体,送花里面应该还是有相当一部分送给他们自身的。在此基础上,我认为这些河友可以称得上是西西河的核心用户群,并基本能够代表西西河整体的情况,后面对于西西河整体情况的推断,都是在这个假设的基础上做出的。

在涉及到时间的问题上,为了计算的简便,本文中每年按365.25天计算,每季度按91.31天计算,每月按30.44天计算,每天24小时。美国西部时间2003年5月1日0点0分0秒作为西河历时间计算原点,我把实际时间都转变为了“相对西河历原点x小时”的一个整数x,没有考虑夏令时。

2 西西河八年发展一瞥

西西河是2003年5月3日开始试运行的,至现在,恰好是第100个月。在这100个月里,西西河是怎样发展的?最简单的一个方面就是——变热闹了。

点看全图

这就是核心用户们在这100个月中的发帖情况,横坐标表示时间,以月份为单位,纵坐标表示对应的每月帖子数量。这里面能挖掘出不少的信息。

我们可以看到,在前18个月中,西西河的月发帖增长是比较缓慢的。

接下来,西西河进入了一个线性的月发帖量增长期,直到第59个月,和接下来的第60个月,西西河的月发帖量突然发生了显著的增长,不仅在第60个月达到了37598的历史发帖高点,而且在接下来相当长的一段时间(26个月)内,多次突破30000的发帖量,线性增长仍然存在,但变得不太明显。

那么这个月究竟发生了什么?事实上,西河历59-60月,是2008年3-4月,因此,我的推测是,314事件和接下来的火炬事件,在推动西西河用户群的增长方面,起到了显著的推动作用,这点在后面当月注册用户的图中,也得到了进一步的验证;但从另一个角度来说,也正是从那时起,西西河的观点时事板块,角色开始明显吃重,作为国际政经形势激化的传导器,影响和侵蚀了整个西西河的讨论氛围,直到现在,其他板块的去政治化仍然任重道远。

再接下来,这些核心用户的月发帖量进入了一个衰退期,到上个月为止已经减少到了314事件之前的水平。这是944名跳水河友的月发帖量,并不意味着西西河的总月发帖量下降了,那些增加发帖的用户,或许只是新注册的,积分尚未达到40000分。但是毫无疑问,老河友的发帖在减少,我想,这也是今年以来稍加留心便能够感受到的,与我们的直观感受相符。这背后的原因是什么?能否更详细地分析这次衰退的情况呢,后面我们再进行进一步的分析。先把目光放到诸位大概早已注意到的几处极小点上面。

先说结论吧,大致上,我的结论和各位心里想的差不多,这几个很明显的低点是国内的墙所导致的,分别在2008年7月和2010年7-8月,去年这次有仙人的帖子抱朴仙人:红绡帐里,公子多情为证,08年我已经不记得是不是被墙了,麻烦记忆力好的河友证实或证伪一下。此外,另有两次不太明显的低点分别在第30个月(2005年10月)和第40个月(2006年8月),更是我出生之前了,因此仅为推测。不过可以看出,那时国内河友还不多,因此被墙影响也较小。

论坛人气易散不易聚。因此我认为,这一年来的衰退,和被墙不无关系。08年被墙后,大概是被奥运会、75等一系列事件驱动着,虽然一开始也有下滑,但还是慢慢恢复到了较高水平。而去年被墙之后,10年9-10月和11年3-4月的两次反弹的终止和回落,推测可能受到了去年10月末和今年4月末的蜀生事件、媚如春事件的一定影响。以前看到有人说论坛一怕中断二怕吵架,是有道理的。

Adol:【原创】(二)“墙”对西西河的影响

Adol:【原创】(三)对西西河吸引力的估计

Adol:【原创】(四)西西河通胀问题之研究

Adol:【原创】(五)西西河之最

Adol:【原创】(六)好友识别、圈子划分与马甲辨认

Adol:【原创】(七)西西河的支流,并小结(完)

Adol:一点题外话


  • 本帖 22 回复
关键词(Tags): #数据挖掘(随机微分算子)#文本挖掘(随机微分算子)#西河考古(朴石)通宝推:西伊,一介书生,老惰,十大功劳,紫色月亮,妖猫drake,红松塔,铁手,真理,landy,wjcgx,潮起潮落,芷蘅,廖石,赫然,Sheldon,今昔,庄汀,混天球,人在旅途,山远空寒,大黑蚊子,抱朴仙人,爱自由,李根,上古神兵,坚决要潜下去,方恨少,jxl,路人癸,AleaJactaEst,mezhan,类反词典,晨池,史文恭,舞动人生,常识主义者,嘉英,
最后于2011-09-20 10:58:41改,共10次;
2011-09-08 16:27:47
3570219 复 3557742
chartis
2 确实被墙 2

/ 经常上不去,有时候用代理也不行。


2011-09-22 23:37:10
2011-09-20 10:31:11
3567990 复 3557742
老老狐狸
老老狐狸`22976`http://www.artx.cn/uploadpic/20058/200581637145421.jpg`70`48587`47412`541271`从二品:光禄大夫|镇军大将军`2008-03-17 00:34:42`0
2 这分析太牛了! 8

考虑到花的贬值速度,另外两个指标可能更说明帖子的质量。

1、收藏数。个人认为,收藏多的帖子比宝推多的帖子更值得研究,宝推很多时候是产生了共鸣,收藏,则往往是读有所得。

2、高楼。高楼值得研究。一种可能是主题非常好,一种是主题非常能启发人思路,让人找到话题。


  • 本帖 1 回复
2011-09-20 10:31:11
2011-09-20 10:52:10
3568010 复 3567990
Adol
Adol`23680`/bbsIMG/face/0000.gif`70`2471`3304`60672`正四品下:通议大夫|壮武将军`2008-04-05 20:52:28`0
3 嗯,这个有道理 4

收藏和宝推确实各有侧重,宝推表明希望其他人也来看看,收藏则表明希望自己以后还能看看。

高楼的话,我觉得还有两种可能,一种是楼主不断在维护,不断在添加新的连载,不断有新的八卦等,这是长期的大楼。还有一种是争议很大,一吵吵了几十页,这是速成的大楼。


  • 本帖 1 回复
2011-09-20 10:52:10
2011-09-20 11:01:49
3568015 复 3568010
老老狐狸
老老狐狸`22976`http://www.artx.cn/uploadpic/20058/200581637145421.jpg`70`48587`47412`541271`从二品:光禄大夫|镇军大将军`2008-03-17 00:34:42`0
4 第一种,河里不少,不断有新的精彩加入,非常有收获 7

即便是第二种,很多时候是对立面各出机杼,也很精彩。

第二种当中,纯吵架能上百页的,好像还没有。

老兄,如有空到可以分析一下西西河的百层高楼!西西河的最多收藏!西西河的最精彩吵架贴!

大家伙儿,把老兄这儿也盖成高楼!

FF

送花成功。有效送花赞扬。恭喜:你意外获得 16 铢钱。1通宝=16铢

参数变化,作者,声望:1;铢钱:0。你,乐善:1;铢钱:15。本帖花:1


  • 本帖 1 回复
2011-09-20 11:01:49
2011-09-20 18:05:38
3568193 复 3568015
Adol
Adol`23680`/bbsIMG/face/0000.gif`70`2471`3304`60672`正四品下:通议大夫|壮武将军`2008-04-05 20:52:28`0
5 从我自己的数据里,这个还没法做到 5

对于楼层,我没有收集944名用户以外的信息,对于收藏数量,可能也需要实际访问帖子才能看到。这样在时间上会很长,而且相当于爬下来了所有的帖子内容,不仅对服务器的负担比较大,而且采集行为本身也比只收集帖子的非内容数据(帖号、发帖时间等)更敏感。

或许可以考虑先在花的基础上进行一下筛选,挑选得花比较多的帖子来进一步分析收藏量、宝推量等内容。

另一个问题就是,收藏和宝推的分析,可能一主题为单位比较好


2011-09-20 18:05:38
3567823 复 3557742
d0lucyduck
2 很专业的技术分析,花之

很专业的技术分析,花之

多嘴问一句,您用哪个软件来作分析?


  • 本帖 1 回复
2011-09-20 05:54:00
2011-09-20 10:05:19
3567968 复 3567823
Adol
Adol`23680`/bbsIMG/face/0000.gif`70`2471`3304`60672`正四品下:通议大夫|壮武将军`2008-04-05 20:52:28`0
3 用的是R 2

一种统计语言,类似matlab,但是开源和免费的。R语言。另外,直接在google上搜索“R”也可以看到。


  • 本帖 1 回复
2011-09-20 10:05:19
3565711 复 3557742
wjcgx
2 楼主辛苦了

这么专业而且全面的分析,我觉得铁手真可以考虑请楼主当西西河的发展顾问了


  • 本帖 1 回复
2011-09-17 17:42:36
3566765 复 3565711
Adol
3 呵呵,我只是业余的,不可能取代管理员 1

西西河的事情,一定是老铁最清楚的,他能看到许多我们看不到的东西


2011-09-19 03:00:39
2011-09-16 23:01:36
3565179 复 3557742
Adol
Adol`23680`/bbsIMG/face/0000.gif`70`2471`3304`60672`正四品下:通议大夫|壮武将军`2008-04-05 20:52:28`0
2 一点题外话,兼回楼下物格修齐河友 107

这里用到的一些方法都是很普通很简单的东西,只不过之前没什么人用在论坛数据的分析上。其他论坛,大概也没有西西河这样的形式——有花、有所有帖和主题帖的回复关系等数据,有这样的数据,可能也不是公开的,或者很难收集。

所以本文中的一些方法,其实最适合论坛的管理员,在西西河就是老铁,来使用。他们不仅有更多更全的数据,也可以直接用于数据库的分析。并且,他们长期不断地监视着全论坛的情况,了解论坛的历史,拥有论坛的日志,可以对数据的分析结果做出更准确更全面的解释,我们任何一个人在论坛的时间、对论坛的了解都不可能超过管理员。所以如果是软件的开发,肯定是要依托论坛本身的程序,这个工作一定是由管理员或者论坛引擎的开发商完成的。

实际上我在2~4节所分析的东西,老铁应该是心里有数的,5~8节的部分,他可能不一定有时间、也不一定有足够的紧迫性去做,但原理是很容易的。就像在第7节说到的,对老铁来说,他可以用很多很多种手段来分析用户之间的相似或者关系,而不仅仅是我文中提到的共同参与话题的特征。

从另一角度讲,其实这对用户的隐私保护也提出了挑战,论坛的帖子总是要公开发布时间和所回复主题的,一贴两贴没关系,长期大量的数据,很容易看出某个用户的发帖习惯、擅长的话题,普通的用户限于能力当然不可能一个个去查,但是google和百度这样的搜索引擎所掌握的用户隐私,是难以想象的。不要说google和百度,就是论坛的管理员,如果辅以ip等数据和少量帖子内容,也可以知道很多。

甚至连我这篇文章里面的许多方法可能都不用,之前我还看到了几篇语言学和自然语言处理方面结合的论文,讲的是通过语言习惯来识别作者(authorship identification)。我猜测大概相当于我们读一篇文章感受到的写作风格,比如说老萨讲故事的口吻,忙总简洁利落的口吻,陈郢客MM的民国口吻,葡萄的长句和复杂从句,马前卒的超快节奏,等等等等。可能用到的特征,比方说逗号和句号的比例,段落的长度,句子的平均长度,特定的字、词出现的频率,语气助词、转折、递进等连词的频率和用法……,可以用来描述一个人写作风格的特征是很多的。

所以,互联网的匿名性,对我们普通人来说,真的没有那么好。像西西河这样,可以放心地呆下去,长期发言的论坛,恐怕也不多。

总之,大量数据的威力还是蛮强大的,不过,就像之前说的,我不想知道太多。我应该不会继续研究这些数据了,而且我也不会散布这些数据。

分析这些数据,大概用了一个月左右的时间吧,当然是业余时间,可能渐渐也不会有这么大块的空闲时间了。应该说,我还是挺认真地做了这些分析,写了这篇帖子,拿不准的地方、可能错误的地方,也有所标示。最后,还是请有发现其他问题的河友纠正我的错误或不足之处。


  • 本帖 3 回复
通宝推:抱朴仙人,李根,晨池,
最后于2011-09-16 23:13:24改,共3次;
2011-09-16 23:01:36
3566207 复 3565179
过失速
3 铁手没有向你开放数据库真是可惜 1

要是开放了一定能更准确


  • 本帖 1 回复
2011-09-18 08:54:20
3566766 复 3566207
Adol
4 这个。。。老铁也需要为用户们的隐私负责啊。。

他开放给我,我大概也不敢看的,否则就有FF之虞


2011-09-19 03:01:25
3 你独立科研能力很强 2

回国如果遇对了人,作为很大。也可在公开媒体上发发文,宣传宣传自己。


  • 本帖 2 回复
2011-09-17 13:58:24
帖内引用

/ 8 首页 上页 下页 末页