• 简书网微信公众号二维码
您当前的位置: 首页 > 知识百科 > 什么是文本指纹和内容指纹系统-seo-网站优化

什么是文本指纹和内容指纹系统-seo-网站优化

时间:2023-07-01 14:05 阅读数:104 人阅读 分类:知识百科

什么是文本指纹和内容指纹系统

对于收集内容的站长来说,文本指纹算法是百度爬虫系统中最麻烦的算法之一,但是对于像白帽子一样努力工作的站长来说,这是一个好处。

文本指纹算法
如今,网络上对小说、新闻和图片的盗版十分猖獗,因此有必要对网页或文本进行复制和过滤。最简单的文本相似*计算文本中的md5或sha哈希值。但是,它可能会导致非常小的文本差异,并且由md5或sha哈希值计算的指纹会有所不同。

一个好的指纹应该具有以下特征
(1)指纹是确定*的,同一文本的指纹是相同的;

②指纹越相似,文本的相似度越高。

③指纹生成和匹配效率高。

常见指纹算法
k-瓦片算法
瓦片在英语中是指重叠的瓦片。对于一段文本,根据字母顺序,分词向量将数字特征连接成一个数字,即指纹。

如果空是20位整数,则需要2 64,8字节

如果空为,则20位八位字节,即8 20,需要8个字节

如果空是,则只需要4 20,总共40位,5字节

如果空为,则需要2 20,20位,3字节

假设粒子长度为m,归一化过程的算法步骤如下:

哲学指纹系统的体系结构
基本架构
哲学指纹跟踪系统主要由爬虫系统、指纹生成系统、指纹存储、指纹查询和比对、数据分析、后台管理系统等主要模块组成,如图4所示。存储层包括匹配结果信息库、网页库和指纹库。

图4指纹跟踪系统的框图

履带式系统
爬虫系统的目的主要是捕获互联网上特定领域的网页(如新闻网页)。爬虫系统是原始数据的唯一来源。只有通过爬虫系统,类似的网页才能从广阔的互联网上捕捉到。爬虫系统需要具有较高的抓取能力和抗爬行能力,为整个系统提供大量待检测页面。

指纹存储模块
指纹存储模块计算父母的指纹(大量文本),这可以理解为一行文本的矢量表示。该系统的指纹存储系统采用蒙古数据库进行存储。

指纹生成模块
指纹生成模块的输入是一行文本,其输出是文本的指纹表示。为了获得更高的对比度精度,一个好的指纹生成系统是非常重要的。

指纹查询和比较模块
大量的父指纹存储在指纹数据库中。对于某一文本,指纹查询和比较模块应该快速判断该文本在父数据库中是否重复。

数据分析
数据分析系统需要分析大量的文本及其比较结果。

后台管理平台
提供数据分析的显示,并为用户提供查询和输出分析报告。

数据存储模块
网页库

它主要存储爬虫系统捕获的网页信息和站点信息,系统的网页库采用蒙古数据库。

指纹银行

该系统使用蒙古数据库存储指纹。为了加速指纹的搜索和比较,系统使用再贴现来索引指纹和加速匹配。

匹配信息库

存储指纹匹配结果,包括两个要匹配的指纹、原始网页id、匹配相似度等。

4.2系统架构

图5系统架构图

4.3系统处理流程
该系统的处理流程如图6所示。该系统支持每天自动调度父数据库中的新任务,以执行重复数据消除操作。

图6系统流程图

4.4查询和比较系统
查询和比较系统的目的是快速有效地找到与目标指纹高度相似的父指纹。根据指纹查询的特点,对父指纹数据库进行索引,通过查询索引可以找到最可能匹配的父指纹。

指纹查询和比较流程如下:

创建索引
每个父指纹描述父标识-;特征之间的关系可以通过以特征为关键和以父标识为值来反转。如果矩阵为:;,b-;,c-;,d-;[1],e-;[2],f-;[2],g-;[3].像其他算法一样,索引的粒度也应该考虑,指纹算法的粒度也应该考虑。

抽样
根据要匹配的文本的特征(长度),选择适当的粒度和片段。重要的是确保匹配的正确*,同时减少生成指纹的计算量。

提取指纹
根据指纹生成算法。

查询指纹
对要查询的指纹进行索引,统计命中数和命中次数,选择命中次数高的命中数作为可疑对象,命中数低于阈值,可以忽略。

后加工
结合历史统计模型,对结果进行筛选。如果匹配结果不确定,可以进行第二轮仔细比较或人工验证。

摘要
指纹模块是网页去重、内容盗版跟踪、内容聚类等应用中极其重要的模块。本文介绍了一些常用的指纹算法,包括k-瓦片、simhash、minhash同时介绍了由哲学数据独立开发的指纹跟踪系统及其关键算法。这些哲学数据为指纹系统的构建和算法积累了丰富的经验。没有最好的算法,只有合适的算法。在实际使用过程中,架构和算法需要根据具体的业务场景来确定。