- 发帖可能变空内容,邪门暂不知所以然
- 『稷下学宫』新认证方式,24年网站打算和努力目标
Adol
注册:2008-04-05 20:52:28
正三品:金紫光禄大夫|冠军大将军
正三品:金紫光禄大夫|冠军大将军
💧34343
🌟3363
💓2522
🌟3363
💓2522
家园
这几条主要是从单篇得花top20的帖子里面总结出来的,因为我收集的数据不会记录帖子的名称,所以标准化也好,排序也好,都是背对背的,排序过后,我才一个个输到浏览器里面看到底是哪些帖子,应该说,大部分都是有印象的,也有少部分比较早的帖子印象不深。 这里面首先就是仙人的帖子,仙人入选的 ...
墙似乎可以检测url里面的关键字,也可以深度检测文本里面的关键字。我文中提到的几次被墙,应该是整站被墙,也就是西西河的域名变成了关键字,然后阻断了。 如果是某些帖子打不开,比方说一打开就报一个错误,仿佛是404?还是1XX,我不记得了,可能接下来有一段时间不能上西西河,过一会又能 ...
但其实还差得远,估计河里的发考题们要见笑了。。。
[url=http://www.cchere.com/article/3560241]Adol:【原创】(四)西西河通胀问题之研究[/url] [B]6 西西河之最[/B] 本版有一篇置顶帖子,统计了2006年左右的西西河之最,那个时候鲜花还没怎么贬值,河友、帖子也都比现在少,夏 ...
还是老河友在这个问题上有发言权[em05]。 不过这样一来,我的假设就有问题了:通宝改革前,月得花数和注册人数的平方成正比。 修正的假设可能是:把2010年通宝改革之前的时期分为两段,有花之后,维持原假设,有花之前,可能的因素是越老的帖子越不容易翻出来送花?这个可以讨论。 无论怎 ...
[url=http://www.cchere.com/article/3559158]Adol:【原创】(三)对西西河吸引力的估计[/url] [B]5 西西河通胀问题之研究[/B] 上一节提到鲜花的贬值问题,也就是,前期注册用户的声望是不是和后期注册用户的声望等价?早期的很好的 ...
数据的预处理,抓取文本的分析,主要是perl 统计相关的部分,是R
接下来一节会提到。
是因为有现成的英雄榜-历次跳水者这个现成的列表。积分确实不能代表一切,声望好一些,但是如您所说,增长速度可能是更好的办法。但这个增速也会受到一些其他因素影响。比如,——我手里没有积分或者声望的历史数据,但是有花的数据,下一节也会简单分析一下。或许我们也可以通过累加获得时间-得花总 ...
但是家园博客的主题帖列表那里有版块的名称,而所有帖列表那里是没有的,所以我收集的数据里,没有这方面的数据。因此在帖子所属板块方面,我的数据还是很不完整的。或许铁大自己可以做更多的分析吧。 ...
[url=http://www.cchere.com/article/3558462]Adol:(二)“墙”对西西河的影响[/url] [B]4 对西西河吸引力的估计[/B] 那么接下来,我们想看一看,100个月以来,这944个核心用户是什么时候注册的,西西河经历的各种事件和网站 ...
访问量也是很重要的数据,毕竟我的回帖数字统计只是基于944名注册用户的,而访问量则是全站的,而且我也没有考虑cchere和talkcc的变动,因为家园博客-所有帖那里的列表,无论是现属cchere还是ccthere,链接一律是ccthere,好像点进去之后才会重定向。 ...
夏令时确实是没有考虑的,当时偷懒了,而且北美每年夏令时的开始日期都不太一样。。。 关于时间的换算,我是使用perl的函数完成的,首先把本地时间换算为纪元秒——距离公元元年1月1日0点0分0秒的一个整数,然后把2003年5月1日0点0分0秒换算,两者相减,得到的差再除以3600,得 ...
收集数据是自己写了程序,分析和统计肯定也不是自己数数了[em18],我主要是用一种统计语言R完成的,R类似于Matlab,但是开源和免费的一种语言,功能上或许打些折扣,但是对我来说已经足够用了。 关于得草数,本来我是打算分析得草和得花的相关性,或者得草和得花和声望的相关性,但是草 ...
为了收集数据,确实是写了程序访问了944名用户的家园博客中的所有帖那个列表,尽管每翻一页我会等一秒钟。这个列表是公开的数据,然后计算得出的结果,具体情况在“数据”一节有所描述。 ...