登录 注册

登录

问题 请教网站大量的数据出现重复怎么处理

更多
2008年10月21日 11:16 #1 作者: chenus
随着网站数据不断的增多,会出现大量的重复数据
重复的种类有
1、标题重复
2、内容重复
3、标题内容都重复(重复文章)
请教
1、怎样清楚原有数据苦衷的重复文章
2、怎样设置对新文章标题的自动检测,如果是重复标题,自动无法添加
希望能得到高手的解答
备注:我在网上查询了很多关于数据库重复内容的问题,看了几篇,都得是非常专业复杂,看不懂。如果有直接这样能够处理数据库的软件,那就更好了

登录 或者   注册一个会员帐号 来参与讨论

更多
2008年10月21日 14:57 #2 作者: Joomla之门
Good question!

这个问题以前没有人问过,但实际上很有意义。因为搜索引擎对于“重复内容”的惩罚比较严重,因此避免重复内容就很重要。

一般情况下,如果网站内容是手工添加,或者只是一个人来添加,那么重复的机会很少。我估计楼主可能开放了文章提交权限给注册会员甚至游客,或者,你可能使用了某种“采集器”来批量添加内容。

目前在 Joomla! 上解决这个问题还不是很理想。至少没有“自动化”的模式。

我只找到两个后台模块来辅助管理员及时发现问题:

Articles with Duplicate Title Aliases 在后台提醒管理员是否存在重复副标题的文章;

Articles with Duplicate Titles 在后台提醒管理员是否存在重复标题的文章。

上面两个已经汉化,请下载试用。

至于文章内容是否重复的监控,比较复杂。因为从技术角度讲,compare 文件的功能只要两个文件中有一个字符不一样,就认为“不算做重复”,但是搜索引擎不是这样比较的,搜索引擎是比较“内容是否雷同”,你修改几个字根本没有用。

如果想要通过某个程序来自动监控“内容是否雷同”,我觉得有点难,因为你等于是要模拟搜索引擎的算法啊。目前没有发现这样的 Joomla! 扩展。

付费下载 Joomla 3 扩展汉化版: 我要付费支持 Joomla 之门!

登录 或者   注册一个会员帐号 来参与讨论

更多
2008年10月21日 15:12 #3 作者: dony945
好好利用google的网站管理员工具,可以查看具体是哪些重复的页面,查出原因!。

开源中文站
www.pccto.com

登录 或者   注册一个会员帐号 来参与讨论

更多
2008年10月22日 14:09 #4 作者: designer
你的网站是采集的吧?照楼上说的用管理员工具

登录 或者   注册一个会员帐号 来参与讨论