Big Fish

2007-03-07

关于你们的留言被判断成垃圾留言的问题

是这样的,这个blog系统(LifeType)用了一个贝叶斯分类器(Bayesian filter)来进行分类。

关于Bayesian,可以参考wikipedia上面的详细介绍。如果你没有代理,这里简单科普一下,大概就是根据学习资料(给定一些spam和non-spam文章),来计算这些文章里面的词在spam文章里面的概率。这样来了新文章,就通过这篇文章里面的所有词的spam概率来算出这篇文章是spam的概率。

这个基本是现在最常用的spam判断算法了(是不是也是最不伪科学的人工智能算法?)。不过LifeType大概是学习资料不够,结果不够理想,误报率偏高。

我本来想调整一下参数里面的threshold,结果进去后傻眼了,这里居然有两个!一个叫"bayesian_filter_spam_probability_treshold",另一个叫"bayesian_filter_nonspam_probability_treshold"。我以前只见过一个threshold的二元Bayesian filter,达到threshold是一个结果,没达到是另一个结果。这里为什么会搞出两个来就实在搞不懂了。

我跑官方论坛去问了,不过目前为止还没人理我。于是我只好猜了。现在我把那个spam threshold调大了一点,把nonspam那个调小了一点,希望有效。

所以如果你发完留言发现被挡了,没必要一个字不改的再发一遍,一定没用的。。。改几个字一般来说也没啥用,等我来改状态吧。。。

00:50:26 by fishy - Permanent Link

May the Force be with you. RAmen