0

0

【论文阅读】Web Data Extraction Based On Visual Information

爱谁谁

爱谁谁

发布时间:2025-07-17 10:52:02

|

694人浏览过

|

来源于php中文网

原创

[论文阅读] web data extraction based on visual information and partial tree alignment

  1. 基础概念

DOMTree:未经渲染的HTML节点树,如图(a)所示。VBT(Visual Block Tree):网页的可视块树模型,如图(b)所示。

【论文阅读】Web Data Extraction Based On Visual Information

视觉特性:选择网站设计者最广泛使用的属性来定义结果页面的视觉外观,例如font-weight,font-size,text-align,vertical-align,color。(【译者】云中的猫:应该还需要包含一些关于大小的属性,比如width和height)视觉相似度:如果两个块的所有视觉特性相同,则A和B视觉上相似。

【论文阅读】Web Data Extraction Based On Visual Information

  1. 算法步骤

算法可分为四个步骤:

第一步:找到数据区域

数据区域:包含一组相似对象的描述的一组数据记录通常呈现在页面的连续区域中,该区域称为数据区域,比如图(a)中的b3。

通过以下公式来筛选出数据区域:

【论文阅读】Web Data Extraction Based On Visual Information

大致意思就是通过计算该区域占到整个区域的比值,获得一个关于数据区域的候选者列表(候选者对象可能不止一个,此时便选择area值最小的那一个,area值猜测为视觉区域的面积)。

第二步:在数据区域中识别记录

识别记录需要解决两个问题:

可能存在不属于数据区域中的任何数据记录的块,例如b3_1,b3_9,这些块称为噪声块。一个数据记录可以对应于可视块树中的一个或多个子树,并且一个数据记录包含的子树的总数不是固定的。作者使用了Jaccard相似性来识别数据区域的子块,然后重新组合这些块。

【论文阅读】Web Data Extraction Based On Visual Information

第三步:从这些记录中提取数据项并对齐相同语义的数据项

数据记录包含一些静态模板文本和标签,这些文本和标签不是由Web数据库生成的。这些文本或标签通常是数据的注释,例如书籍记录中的“价格:”提醒我们旁边的项目是书的价格。这些标签对Web数据注释很有用。数据记录可能包含一些可选数据项。例如,有些书有折扣价,有些则没有。

第四步:生成包装器

由于来自同一Web数据库的所有结果页面共享相同的可视化模板,因此一旦提取了结果页面上的数据记录和数据项,我们就可以使用这些提取的数据记录和数据项来生成Web数据库的提取包装器,以便可以使用包装器快速处理来自同一Web数据库的新结果页面,而无需重新应用整个提取过程。

聚类 Clustering

如果

【论文阅读】Web Data Extraction Based On Visual Information,则把a的两个子块i和j聚类在一起。

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

如公式所示,还是比较好理解的,作者通过节点间的视觉相似度,将Jaccard系数比较高的聚为同一类,否则分开,效果如下图所示。

Programming Helper
Programming Helper

AI代码自动生成器,在AI的帮助下更快地编程

下载

【论文阅读】Web Data Extraction Based On Visual Information

重组 Regroup

在前一步骤中获得的聚类不对应于数据记录。相反,同一簇中不是噪声块簇的块都来自不同的数据记录。

需要重新组合块,使得属于相同数据记录的块形成组。重组块的基本思想如下:据统计,在数据记录中的第一块总是必须的,例如ASB 3_2,B 3_4,B 3_7。这些块称为强制块。因此,包含必需块的集群具有最大数量; 设n是这个最大数。可能有多个群集包含n个块。作者的重组方法从左到右遍历数据区域的子块,以找到包含n个块的第一个簇外观。作者将此群集称为C max。C max中的每个块是一条记录的第一块。所以作者可以找到每个记录的第一个块。而且,两个相邻的强制块之间的块形成一个记录。第一个记录左侧的块是噪声块。但是,无法识别最后的记录边界,因为数据区域底部可能存在噪声阻塞。最后一条记录不在两个相邻的强制块之间。我们的方法记录每个记录的最后一个块所属的簇,写为R 簇。然后从右到左遍历数据区域的子块,以找到属于R 簇的块的第一次出现。该块是最后一条记录的最后一个块,最后一条记录右侧的块是噪声块。最后,确定每条记录。

数据项对齐

让每条记录对应成一个树,叶节点是数据项,因此需要用到树匹配技术。

【论文阅读】Web Data Extraction Based On Visual Information

简单的树匹配让T成为一棵树。n表示T的节点数.T [i]表示在树的前序遍历中第i树的节点。(M,T 1, T 2)是从T 1到T 2的映射M ,其中M是满足以下整数(i,j)的任何整数对集合:

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

中间关于不同节点的映射比较还是采用了Sim()方法。

部分树匹配

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

数据集和实验结果

数据集

该数据集由UIUC Web Integration Repoitory [16]提供,其中包含来自8个代表域的447个深度Web源的原始查询接口,这些域是机票,酒店,租赁,书籍,电影,音乐,工作和汽车。我们在每个域中选择5个域和4个接口。对于每个Web数据库,提交10个不同的查询并收集10个结果页面。

结果和比较

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1926

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

656

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2395

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

47

2026.01.19

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

497

2023.08.14

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

385

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2111

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

357

2023.08.31

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Vue 教程
Vue 教程

共42课时 | 9.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号