关于你们的留言被判断成垃圾留言的问题

是这样的，这个blog系统(LifeType)用了一个贝叶斯分类器(Bayesian filter)来进行分类。

关于Bayesian，可以参考wikipedia上面的详细介绍。如果你没有代理，这里简单科普一下，大概就是根据学习资料(给定一些spam和non-spam文章)，来计算这些文章里面的词在spam文章里面的概率。这样来了新文章，就通过这篇文章里面的所有词的spam概率来算出这篇文章是spam的概率。

这个基本是现在最常用的spam判断算法了(是不是也是最不伪科学的人工智能算法？)。不过LifeType大概是学习资料不够，结果不够理想，误报率偏高。

我本来想调整一下参数里面的threshold，结果进去后傻眼了，这里居然有两个！一个叫"bayesian_filter_spam_probability_treshold"，另一个叫"bayesian_filter_nonspam_probability_treshold"。我以前只见过一个threshold的二元Bayesian filter，达到threshold是一个结果，没达到是另一个结果。这里为什么会搞出两个来就实在搞不懂了。

我跑官方论坛去问了，不过目前为止还没人理我。于是我只好猜了。现在我把那个spam threshold调大了一点，把nonspam那个调小了一点，希望有效。

所以如果你发完留言发现被挡了，没必要一个字不改的再发一遍，一定没用的。。。改几个字一般来说也没啥用，等我来改状态吧。。。

Big Fish

2007-03-07

关于你们的留言被判断成垃圾留言的问题

版权

Credits