淘客熙熙

Adol

注册:2008-04-05 20:52:28
正三品:金紫光禄大夫|冠军大将军
💧34343
🌟3363
💓2522

家园

所有帖 / 24 上页 下页 末页
2011-09-14 16:38:48分页 全看 树展
🙂过奖,这七条都算是有所指的吧 ↑27 ↓0
这几条主要是从单篇得花top20的帖子里面总结出来的,因为我收集的数据不会记录帖子的名称,所以标准化也好,排序也好,都是背对背的,排序过后,我才一个个输到浏览器里面看到底是哪些帖子,应该说,大部分都是有印象的,也有少部分比较早的帖子印象不深。 这里面首先就是仙人的帖子,仙人入选的 ...
2011-09-14 16:01:14分页 全看 树展
🙂这个我也说不好 ↑4 ↓0
墙似乎可以检测url里面的关键字,也可以深度检测文本里面的关键字。我文中提到的几次被墙,应该是整站被墙,也就是西西河的域名变成了关键字,然后阻断了。 如果是某些帖子打不开,比方说一打开就报一个错误,仿佛是404?还是1XX,我不记得了,可能接下来有一段时间不能上西西河,过一会又能 ...
2011-09-14 15:52:29分页 全看 树展
🙂呵呵,过奖了,最开始确实有心想学论文的写法 ↑0 ↓0
但其实还差得远,估计河里的发考题们要见笑了。。。
2011-09-13 10:10:04分页 全看 树展
🙂【原创】(五)西西河之最 ↑174 ↓0
[url=http://www.cchere.com/article/3560241]Adol:【原创】(四)西西河通胀问题之研究[/url] [B]6 西西河之最[/B] 本版有一篇置顶帖子,统计了2006年左右的西西河之最,那个时候鲜花还没怎么贬值,河友、帖子也都比现在少,夏 ...
2011-09-12 10:52:23分页 全看 树展
🙂原来花也不是开始就有的,受教了 ↑3 ↓0
还是老河友在这个问题上有发言权[em05]。 不过这样一来,我的假设就有问题了:通宝改革前,月得花数和注册人数的平方成正比。 修正的假设可能是:把2010年通宝改革之前的时期分为两段,有花之后,维持原假设,有花之前,可能的因素是越老的帖子越不容易翻出来送花?这个可以讨论。 无论怎 ...
2011-09-11 21:49:55分页 全看 树展
🙂【原创】(四)西西河通胀问题之研究 ↑93 ↓0
[url=http://www.cchere.com/article/3559158]Adol:【原创】(三)对西西河吸引力的估计[/url] [B]5 西西河通胀问题之研究[/B] 上一节提到鲜花的贬值问题,也就是,前期注册用户的声望是不是和后期注册用户的声望等价?早期的很好的 ...
2011-09-11 12:43:48分页 全看 树展
🙂perl和R ↑2 ↓0
数据的预处理,抓取文本的分析,主要是perl 统计相关的部分,是R
2011-09-11 12:42:37分页 全看 树展
🙂是的,网站的政策也是很有影响的 ↑0 ↓0
接下来一节会提到。
2011-09-11 12:39:14分页 全看 树展
🙂使用积分来作为门槛 ↑4 ↓0
是因为有现成的英雄榜-历次跳水者这个现成的列表。积分确实不能代表一切,声望好一些,但是如您所说,增长速度可能是更好的办法。但这个增速也会受到一些其他因素影响。比如,——我手里没有积分或者声望的历史数据,但是有花的数据,下一节也会简单分析一下。或许我们也可以通过累加获得时间-得花总 ...
2011-09-10 10:02:47分页 全看 树展
🙂这个也曾经是我比较想做的 ↑2 ↓0
但是家园博客的主题帖列表那里有版块的名称,而所有帖列表那里是没有的,所以我收集的数据里,没有这方面的数据。因此在帖子所属板块方面,我的数据还是很不完整的。或许铁大自己可以做更多的分析吧。 ...
2011-09-10 09:11:27分页 全看 树展
🙂【原创】(三)对西西河吸引力的估计 ↑98 ↓0
[url=http://www.cchere.com/article/3558462]Adol:(二)“墙”对西西河的影响[/url] [B]4 对西西河吸引力的估计[/B] 那么接下来,我们想看一看,100个月以来,这944个核心用户是什么时候注册的,西西河经历的各种事件和网站 ...
2011-09-10 09:01:13分页 全看 树展
🙂非常感谢您的补充 ↑2 ↓0
访问量也是很重要的数据,毕竟我的回帖数字统计只是基于944名注册用户的,而访问量则是全站的,而且我也没有考虑cchere和talkcc的变动,因为家园博客-所有帖那里的列表,无论是现属cchere还是ccthere,链接一律是ccthere,好像点进去之后才会重定向。 ...
2011-09-10 08:57:53分页 全看 树展
🙂夏令时确实没有考虑 ↑4 ↓0
夏令时确实是没有考虑的,当时偷懒了,而且北美每年夏令时的开始日期都不太一样。。。 关于时间的换算,我是使用perl的函数完成的,首先把本地时间换算为纪元秒——距离公元元年1月1日0点0分0秒的一个整数,然后把2003年5月1日0点0分0秒换算,两者相减,得到的差再除以3600,得 ...
2011-09-10 08:40:35分页 全看 树展
🙂关于草 ↑7 ↓0
收集数据是自己写了程序,分析和统计肯定也不是自己数数了[em18],我主要是用一种统计语言R完成的,R类似于Matlab,但是开源和免费的一种语言,功能上或许打些折扣,但是对我来说已经足够用了。 关于得草数,本来我是打算分析得草和得花的相关性,或者得草和得花和声望的相关性,但是草 ...
2011-09-09 13:13:36分页 全看 树展
🙂我的方法当然不提倡 ↑8 ↓0
为了收集数据,确实是写了程序访问了944名用户的家园博客中的所有帖那个列表,尽管每翻一页我会等一秒钟。这个列表是公开的数据,然后计算得出的结果,具体情况在“数据”一节有所描述。 ...
所有帖 / 24 上页 下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河