主题：【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭

共:💬52 🌺414 🌵5 新:

大浪淘沙

用发帖时间相关性鉴别马甲，并不是很有效的方法

首先声明一点：我玩鉴别马甲，是很多年前的事了。很多相关技术在不断进步，因此我写的这些，只能是仅供参考。

用发帖时间相关性鉴别A是否是B的马甲，是基于一个主观假设：即A与B如果发帖时间相关性很高，那么他们大概率互为马甲。

很可惜，这种假设是比较简单粗糙甚至粗暴的。一个极端的反例：如果A看B不爽，且有大量时间泡在河里，时时关注B的每一个发帖。一旦B发了任何贴，A立即追着发帖骂 ----- 这种场景下，A与B的发帖相关性接近于1.0 ---- 能说A是B的马甲嘛？

更一般性的例子，譬如我生活在北美，一般周末或者美国特有的假期，发帖时间比较多。如果有另外一位不相识的但同样生活在北美的河友也是这么个习惯，那么我与他就一定互为马甲？

想有效的鉴定马甲，技术路线有很多种。但是，仅用发帖时间相关性----- 这么一个特征向量，是远远不够的。严格说，这个特征向量，尚未触及到鉴定马甲的真正技术实质。

比较专业的方法，是通过用户的发帖文本特征的相似性来鉴别每一个用户。对每个待分析的用户，抓取其发帖的大量文本，进行自然语言处理（NLP），即进行分词、语法分析、语义分析、建立实体（entity）数据库，提取出所有相关文本特征向量（X个）。因为发帖类型不同，可能还得分类（Classification），当年我们作新闻时，分为八大主类、N个小类，比如政治新闻用语肯定与商业、体育等类完全不同（如何有效分类，则是另一个专业技术范畴，这里略过不谈）。

完成以上工作后，先拿其中的80%数据作为训练样本，通过某种Machine Learning算法（简单的比如SVM），学习出每个特征向量的权值。

最后就是用剩余的20%数据，测试你训练的结果是否有效。如果无效，那就得回头抓取更多的文本样本，作更细化的分类，提取更多的文本特征向量 ---- 重新训练，如此循环。

另外，由于用户的发帖习惯会随着时间改变，所以训练得不断更新。

看到这里：我真正的想说的话，兄台应该已经明白了 ---- 您真值得花这个功夫搞马甲鉴定嘛？

如果真想搞，不如考虑去Google、Bing、百度做个Sabbatical ，看看人家专业公司的现成工具都用了啥。

毕竟隔行如隔山，很多看似简单的事，也是需要比较多的技术积累的。

下河嘛，聊个天而已。合则回，不合则划过而已。有那个功夫，看点开心的帖子，不亦乐乎？

通宝推：zwx650,凤城,广宽,小泽珍珠,广阔天地,宏寺,中华土狗,rentg,方恨少,既然青春留不住,曾经是铅笔,史料推理,闻弦歌,燕人,菜根谭,

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 😂南寒河友你这是拍着和尚骂秃驴 2 审度字0 2024-04-16 02:46:17
    😄知我者，南寒兄也！ 2 懒厨字219 2024-04-15 21:39:39
  - 🙂别费劲了，其实沉默的大多数 10 莫问前程字152 2024-04-14 02:16:43
  - 🙂用发帖时间相关性鉴别马甲，并不是很有效的方法
    😂您这是工程思维,太较真了 3 zwx650 字363 2024-04-16 10:34:36
    🙂马甲只是表面现象 9 唐家山字178 2024-04-15 20:26:08
    🙂确实如此！即使原来不是，马甲用时间久了，也会趋向精神分裂的凤城字0 2024-04-15 23:01:22
    🙂专业。雨楼字0 2024-04-15 14:36:49

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明