搜狗网页搜索自动分类器利用机器学习原理对网页进行分类。分类器的工作步骤如下:
(1)利用搜狐分类目录的分类样本集进行训练,获得每个分类在特征空间上的聚类中心。
(2)接收用户输入的URL,后台抓取并分析相应的页面,输出页面内有索引价值的文本。
(3)采用用户选择的分类器对上一步生成的文本进行自动分类,并输出结果。
分类器被应用在搜狗网页搜索的分类提示功能中。分类提示功能不是简单的关键字叠加。当用户执行了一次搜索以后,分类器自动判断出每条结果所属的分类,然后按分类下结果多少给出提示,帮助用户有效缩小结果集,更精准地找到所需的信息。