淘客熙熙

主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol

共:💬117 🌺1730 新:
全看树展主题 · 分页
/ 8
上页 下页 末页
家园 有些时候有些帖子就是点不开,也是墙的问题吧?
家园 摸下巴……我好像在最后一张图上找到了自己那个点
家园 呵呵,过奖了,最开始确实有心想学论文的写法

但其实还差得远,估计河里的发考题们要见笑了。。。

家园 这个我也说不好

墙似乎可以检测url里面的关键字,也可以深度检测文本里面的关键字。我文中提到的几次被墙,应该是整站被墙,也就是西西河的域名变成了关键字,然后阻断了。

如果是某些帖子打不开,比方说一打开就报一个错误,仿佛是404?还是1XX,我不记得了,可能接下来有一段时间不能上西西河,过一会又能,这种症状,可能是帖子里面包含了敏感词。

其实,尽管我们不喜欢它,墙是有自己的分寸的;有时也只是误伤(针对内容,域名一般不会是误伤)。

家园 过奖,这七条都算是有所指的吧

这几条主要是从单篇得花top20的帖子里面总结出来的,因为我收集的数据不会记录帖子的名称,所以标准化也好,排序也好,都是背对背的,排序过后,我才一个个输到浏览器里面看到底是哪些帖子,应该说,大部分都是有印象的,也有少部分比较早的帖子印象不深。

这里面首先就是仙人的帖子,仙人入选的两篇帖子都有一个重要特点,就是感情丰沛,还理直气壮,堂而皇之地说出了大部分人的心里话,由此,我总结出了第一条。

然后我发现以自己或者身边人为例的奉献、爱心、奋斗等生活经历的帖子,得花非常多,这些帖子不一定有什么逻辑和道理在里面,所以得出了第二条结论。

第三条主要是和前两条的呼应,再加上在河里的观察,比方说,图文并茂的帖子,得花一般较多。还有忙总、忘情、总统等几位入选的帖子就有亲身经历、实据等特征。

第四条是针对“互相学习博采众长”的总结,还有对“大牛”河友的尊重,入选帖子中,忙总回归的帖子,是很明显的例子。

第五条其实和第二条也有所重合,嘉木河友的两篇帖子,还有老票、闹钟、大哈瑞的帖子入选,都是例子。

第六条,是我发现,和政治关系比较深的入选帖子里面,很多都和朝鲜战争有关的,比如黄河故人的帖子(还是上下两篇都入选)、晨大、黑岛人、陈郢客等的帖子,还有对太祖贡献的肯定,这说明了西西河主流价值观当中的民族自豪感;既然说到了民族独立,那么经济发展,也是很重要的,比如忘情对高铁的支持,就很受河友们的欢迎,忙总对国企改革的回顾,也很受河友的支持。

第七条,就是一味叫好或者抹黑都是不客观的,我们看忙总肯定改革的成绩,也会不平改革的牺牲;仙人抒发自己“不后悔”的心情,却坦言中国变得陌生了;忘情支持中国高铁,也毫不留情地指出存在的问题;陈郢客反对口号式的政改,却关注官员财产公开的时间表。。。我想,他们的帖子受到欢迎,就是因为这种客观的精神有着说服力,能够说服各方持不同观点的河友吧。这就是第七条的由来。

我自问做不到这些河友的水平,但是客观和平衡,确实是我努力的目标。

家园 就是误伤也很头大阿

而且一杀就是整楼。比如总桶前几天发了个关于太祖的帖子我就打不开,最后是绕到乌有看完了又能打开,顺手回了一条,结果我到现在都不知道总桶给我回的什么,我自己那个回帖也打不开……

而且更诡异的是,马上点站里其他的“安全”的帖子也完全没问题

家园 看这个症状有点不像墙

如果是碰到了敏感词的话,不要说西西河,整个国外的网络都有可能掉线。。。

不过,也可能是墙进化了吧。。

家园 唔,看来我这个命硬克专电子设备还真是越来越厉害了
家园 数据流楼主太强大了,膜拜之!
家园 【原创】(六)好友识别、圈子划分与马甲辨认

Adol:【原创】(五)西西河之最

7 好友识别、圈子划分与马甲辨认

这部分的基本设想很简单:好友也好,有共同兴趣的圈子也好,马甲也好,有一个共同特征,就是他们倾向于回复同样的帖子,无论帖子的作者是不是他们自己。

进而,这种识别就可以归结为一种对“相似度”的估计,对于老铁来说,他可以通过送花、互相回帖、共同参与主题、宝推、ip段、在线时间、参与讨论版块等许多特征来总结两个id之间的相似度。而我手头能够使用的数据,就是共同参与主题的情况,虽然也包括回帖时间,但是本节不打算讨论回帖时间的相似度问题,因为用途比较局限,而且方法和共同参与主题是十分类似的。

从直观上想,从回帖情况判断两个id行为的相似度,有哪些因素比较重要呢。

首先,两个id共同参与的主题越多,两个id越相似;

其次,这两个id的相似度和他们分别参与的主题个数也有关系,举个例子,假如这两个id是沉宝和大胖子(举个想当然的例子,不一定正确),那么他俩共同参与的主题多也说明不了什么,因为他俩参与的帖子很多;

第三,假设两个id分别只回复了一贴,这一贴还恰好重合,那么在一般的计算里他们俩会有很高的相似度,但是假如他们回的是老铁喜得小铁的那帖,那么他们的高相似度就十分可疑了,因为那是大家都会参与的一帖,所以相似度和共同参与了什么帖子也有关——参与者越多,越显不出来特定两个人之间的相似情况;

第四,id并不都是同时注册的,晚注册的id,自然看不见以前的许多帖子,假如两个id一早一晚,计算相似度的时候恐怕还要考虑他们共享的时间,这个因素中,更难以考虑到的是某些注册早却已经很久不来的id;

先说最简单的考虑,忽略第三、四点,仅考虑前两点,那么可以用一个超几何分布的模型来描述这个问题:(以下内容改编自wiki)

超几何分布

超几何分布(百度)

超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(无放回)。

例如有N个球,其中m个是黑球,其余为白球。超几何分布描述了在该N个球中拿出n个,其中k个是黑球的的概率:

点看全图

外链图片需谨慎,可能会被源头改

上式可如此理解:

点看全图

外链图片需谨慎,可能会被源头改
,choose(N,n),N与n的组合数,表示在所有N个球中拿出n个,有多少种可能的拿法。

点看全图

外链图片需谨慎,可能会被源头改
,choose(m,k),m与k的组合数,表示在m个黑球中拿出k个,有多少种可能的拿法。

因为除了黑球就是白球,所以白球有N-m个,拿出的白球则为n-k个,剩下的拿法便有choose(N-m,n-k)种:点看全图

外链图片需谨慎,可能会被源头改

(很抱歉,不知道该怎么缩小图片。。。)

换成我们的问题的语境就是:

例设河里有N个主题,其中m个是河友A参与的。超几何分布描述了在随机情况下,参与了N个主题中的n个主题的河友B,和河友A共同参与了k个主题的概率。

从我收集到的信息出发,在河里有944名核心用户参与的113605个主题中,可以计算任意两名用户各自和共同参与的主题个数。然后对任意两名用户进行如下的假设检验:

H0:河友A和B在随机情况下,可能共同参与k个或更多主题

HA:河友A和B在随机情况下,参与的主题个数比k少(从而->现在的情况不太可能是随机情况->河友A和B有类似的兴趣或圈子)

我选取了10名河友作为例子来测试这个模型的效果:萨苏,井底望天,万里风中虎,南方有嘉木,达雅,老引北京,ifuleu,江城孤舟,秋末冬初,郭嘉。我觉得我们基本可以想象到,谁和谁关心的话题应该更接近。

在这10名河友之间分别做上述检验:假设H0成立,那么出现目前个数或更多共同参与主题的概率p(X≥k)如下:

点看全图

外链图片需谨慎,可能会被源头改

这个模型完全忽略了之前所述的第三、四点,因此我做了一些粗略的修正,事先声明,这种修正可能是错误的。具体策略如下:

(1) 在计算任意一对河友,“有机会共同看到”的主题总数的时候,只计算“最后一次被944名用户之一回复”晚于“较晚下河的河友注册时间”的主题。

(2) 丢掉上述主题中,参与人数大于50人的主题。

(3) 在计算任意一对河友各自参与的主题数的时候,依照上例。

(4) 在计算任意一对河友共同参与的主题数的时候,依照上例。

仍然对那10名河友两两之间检验:

点看全图

外链图片需谨慎,可能会被源头改

仅就这10名河友而言,我想根据经验,上面的结果已经可以在一定程度上反应河友之间的相似度了,可以说,仅仅是这样一个“共同回复主题”的特征,并且后面还做出了一些很不严谨的假设,效果仍然是较为可观的。根据上面的数据,这几名河友之间的关系可以用下图来表示:

点看全图

外链图片需谨慎,可能会被源头改

图中节点表示河友,线表示相似度,其中H0成立的概率小于1e-100(10的负100次方,相当于上表中最后一列的数值为100)的用紫色连线,大于1e-100小于1e-15(10的负15次方,相当于上表中最后一列的数值为15,以此类推)的用红线表示,大于1e-15小于0.001的用蓝色虚线,大于0.001的可以认为没有拒绝0假设。

也就是说,根据“小概率事件实际上不会发生”的假设,我们认为“如果H0(他们目前共同回帖的情况是随机产生的)成立,那么这个概率是多少”。如果非常非常小,像虎大和郭嘉,随便抽两个人,他们共同回帖的情况要是像虎大和郭嘉那样,概率只有0.000……000(一百多个0)1,于是我们就拒绝了0假设,认为这种情况不是随机能够产生的,进而推测他们有着共同关心的话题。

这个修正方法也有很明显的局限性:有些id的主题就是会有较多的人来回复,比如老萨、忙总的帖子,超过50个人回复太正常了,把这些帖子都简单去掉,对跟他们相关的相似度计算是不公平的,他们的共同参与主题是否能够继续满足超几何分布,也是十分成问题的。

从图形上观察,50人以下的主题参与人数(仅944名河友的统计),大致上服从一个参数为0.124的几何分布:

点看全图

外链图片需谨慎,可能会被源头改

上图为主题参与人数的经验累积分布(红色)和通过参数为0.124的几何分布所随机生成的点(黑色)的比较。横轴是主题参与人数,纵轴是小于此参与人数的主题占主题总数的比例。从图中可以看到,对944名用户参与主题的统计中,80%的主题回复人数在10人以下,实际上,仅有1002个主题参与人数大于或等于50。50人以上的主题比较少,大部分主题回复都在10人以下,这是我采用简单方法处理上文第三个因素的主要理由。

但是我没有估计(实际上是不知道该怎么估计)简单地丢掉回复人数在50人以上的主题能多大程度上修正之前没有考虑第三个因素的误差,只是希望以比较严格的显著性水平来筛选相关河友之后,所计算的p值能够相对地反应河友们所关注话题的相似程度。毕竟由于对主题参与人数和共享活跃时间这两个十分重要的因素做了十分粗略地近似,这种衡量方法只能定性地判断相似与否,谁与谁关注的话题更接近,要作出定量的判断,就达不到准确度的要求。

此外,这个方法说到底是衡量相似程度,并不能判断两个id之间是什么关系,比如萨苏和老引,他们是现实的朋友关系;嘉木和江城,有共同的爱好(这个或许可以通过参与版面来识别);而郭嘉和老虎,则是追随者和大牛的关系(这个或许可以通过互相回帖的非对称性来识别);甚至,这种相似度并不能判定两个相似的id是有着相同的意见还是相左的意见,比如井大和达雅,尽管关注的问题十分类似,但他们的政治观点是不同的。

从图中我们可以看到,西西河友之间,在关心的内容上确实有远近的差别,从而形成了若干个“小圈子”(红线和紫线)。但只要稍稍放宽眼界,就会发现圈子之间,也有着很多联系(蓝色虚线)。毫无疑问,西西河不是由一个个孤立的小圈子组成的,西西河的各个部分本来就是十分紧密地联系在一起的,大家都在河里,岂会只在一个版面或者版块发帖?

比如老萨的文章可以是时政里面关于日本的分析,可以是演义书场里面名著的演绎,还可以是英雄本色里面抗联的考据;忙总可以在经济管理里面写职业经理人的笔记,可以在居家美食里面讨论菜肴,也可以在文化百家里面谈易;嘉木可以在经济管理里面写美国经济周报,也可以在文化百家里面写诗,还可以在感性世界里面阐述自己的人生观。

——谁不关心好几个方面的话题呢,只能说更偏重于哪方面。所以,分成圈子或者衡量相似度只是剖析西西河河友与话题的一个步骤,并不是最终目的;正是这些大大小小,互相重叠的圈子又重新组成完整不可分割的西西河,这才是本质。

Adol:【原创】(七)西西河的支流,并小结(完)

通宝推:唐家山,人在旅途,威尔谭,

本帖一共被 3 帖 引用 (帖内工具实现)
家园 你应该拿这个去作相亲指数

拿出数据来,

mm, 你看咱俩超几何分布指数都超过100了. 说明我们的共同语言这么多, 灵魂伴侣的干活. 赶紧把你现在超几何分布指数不到40的所谓男朋友甩了. 长痛不如短痛.

家园 MM答:“拜托,是你单方面回我的帖子好不好!屏蔽你~”
家园 因为现在送花成了期望为正的老虎机

我不知道老铁设置的参数是多少。

但是如果纯献花、不回贴、不宝推,积攒通宝还是没问题的。

对于没啥水平的河友,比如俺这样的,也只有潜水的份了。

特点是有积分、有乐善、无威望。。。

家园 德宝

跟着抱朴闲人有饭吃

送花成功。有效送花赞扬。恭喜:你意外获得 16 铢钱。1通宝=16铢

参数变化,作者,声望:1;铢钱:0。你,乐善:1;铢钱:15。本帖花:1

家园 哎呀,你该把我换成太史妹,

然后呢,再测算一下太史妹和江城的超几何分布指数,

----河友们的良好心愿,你懂的

全看树展主题 · 分页
/ 8
上页 下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河