Big Fish

Wednesday, March 07, 2007

关于你们的留言被判断成垃圾留言的问题

是这样的,这个blog系统(LifeType)用了一个贝叶斯分类器(Bayesian filter)来进行分类。

关于Bayesian,可以参考wikipedia上面的详细介绍。如果你没有代理,这里简单科普一下,大概就是根据学习资料(给定一些spam和non-spam文章),来计算这些文章里面的词在spam文章里面的概率。这样来了新文章,就通过这篇文章里面的所有词的spam概率来算出这篇文章是spam的概率。

这个基本是现在最常用的spam判断算法了(是不是也是最不伪科学的人工智能算法?)。不过LifeType大概是学习资料不够,结果不够理想,误报率偏高。

我本来想调整一下参数里面的threshold,结果进去后傻眼了,这里居然有两个!一个叫"bayesian_filter_spam_probability_treshold",另一个叫"bayesian_filter_nonspam_probability_treshold"。我以前只见过一个threshold的二元Bayesian filter,达到threshold是一个结果,没达到是另一个结果。这里为什么会搞出两个来就实在搞不懂了。

我跑官方论坛去问了,不过目前为止还没人理我。于是我只好猜了。现在我把那个spam threshold调大了一点,把nonspam那个调小了一点,希望有效。

所以如果你发完留言发现被挡了,没必要一个字不改的再发一遍,一定没用的。。。改几个字一般来说也没啥用,等我来改状态吧。。。

00:50:26 by fishy - 程序网络 - 永久链接

得分: 2 (共10票,其中有60.00%的票喜欢这篇文章) [+/-]

mySQL error with query INSERT INTO nucleus_plugin_tb_key (tbkey, time) VALUES ('af4ecc22976a79a2b615d1b6a69f9848', '2021-10-21 15:35:16'): Table './buddie5/nucleus_plugin_tb_key' is marked as crashed and last (automatic?) repair failed

mySQL error with query INSERT INTO nucleus_plugin_tb_key (tbkey, time) VALUES ('ff90db856b633ed70400750497cf19f5', '2021-10-21 15:35:16'): Table './buddie5/nucleus_plugin_tb_key' is marked as crashed and last (automatic?) repair failed

引用通告:
本条blog暂时没有引用通告。
使用这个地址来发送引用通告(右键点击,选择复制链接)。 如果你的blog系统不支持引用通告,你可以在这里手动添加。
fishy

fishy 写道

test

this is a test

Friday, March 09, 2007 15:48:15

添加评论

这篇文章已经关闭,不能添加评论和投票

May the Force be with you. RAmen