数据提取概念和数据的分类
一、什么是数据提取
简单的来说,数据提取就是从响应中获取我们想要的数据的过程
二、数据的种类
结构化数据
结构化数据,可以用二维表结构来逻辑表达实现的数据
是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,
主要通过关系型数据库进行存储和管理
数据类型
json 格式数据
xml 格式数据
...
处理方式
通过 json 模块等直接转成 Python 数据类型
非结构化数据
非结构化数据,数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。
数据类型
html 格式数据
word 格式数据
...
处理方式
通过 正则表达式 、xpath 等模块提取数据
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。
文章标题:数据提取概念和数据的分类
本文作者:伟生
发布时间:2019-08-25, 20:50:24
最后更新:2019-08-25, 21:30:14
原始链接:http://yoursite.com/2019/08/25/spider_05_data/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。