标题出现了“理论”一词,毫无疑问显得非常做作。但自从半年前被担任八婆党骨干以来,我还没有发表过一篇八婆文章。形势逼人,是到了码一小段八婆文章的时候了,否则我的江湖地位不保。
这里八婆一下如何猜论坛里的马甲。大家记得,前不久论坛突然冒出一个技惊四座的ID“小陈”,大家交头接耳并议论纷纷,其中一些沉不住气的八婆党开始八卦小陈的主ID到底是胡,其中我的猜测是,小陈是某位蓝同学的马甲(所以不会是点击率)。不料这个猜测刚出炉,就招致好玩和小梦等同学的批评。现在想来,当初的猜测十有八九是不靠谱的,基本上猜错了,八得不对。
为啥八得不对?很显然有两方面的因素:涉及如何八的计算水平,以及涉及如何八的算法。前者属于个人能耐范畴(例如对candidates熟悉与否,等),不太俱备共性,这里不多说。我们重点讨论后者:如何八的方法,或曰关于如何去八的algorithms。这里我提出两个algorithms,意在抛砖引玉,割腋赞裘,供大家批评,参考,补充。
方法一:封闭型八法。
这种八法的要诀在于,在具体开八前先固定所疑马甲的对象,然后从中选择那个可能性最大的ID。这里“所疑马甲的对象”这个集合是具体开八前就固定的,所以这种八法称为“封闭型八法”。显然这种算法能保证选出一位 ID (当然可能并列)。
举例:假设小陈可能是{风丽,小梦,djl,box,王福贵,贫嘴张大民},那么剩下的工作就是从中选择那个经计算后最可能的ID,并将他/她咬定为小陈。
方法二:开放型八法。
这种八法的要诀在于,在具体开八前先选定所疑马甲的对象并不是固定的,任何ID都可以参与八卦计算,但在具体计算前我们需要选定个马甲相似度的阈值H,例如 H=0.6。八卦算法如下:
任意选定一个ID,如果此ID和马甲的相似度至少是阈值H,那么一口咬定此ID就是这个马甲,计算完毕;否则考察下一个ID。显然,如果阈值H设得过高(例如 0.95),那么开放型八法可能锁定不了马甲到底是谁。
举例:猜小陈,设定阈值H=0。6
考虑ID风丽,相似度=10%,小于阈值H,舍去;
考虑ID小梦,相似度=42%,小于阈值H,舍去;
考虑ID djl,相似度=35%,小于阈值H,舍去;
考虑ID box,相似度=17%,小于阈值H,舍去;
考虑ID王福贵,相似度=9%,小于阈值H,舍去;
考虑ID贫嘴张大民,相似度=15%,小于阈值H,舍去。。。
在实战中,小梦采用的应该是封闭型八法,并将ID锁定为点击率;我用的应该是阈值为50%的开放型八法,经过十来轮计算后,没有锁定任何一个ID。
|