数据提取概念和数据的分类

  1. 一、什么是数据提取
  2. 二、数据的种类

一、什么是数据提取

简单的来说,数据提取就是从响应中获取我们想要的数据的过程

二、数据的种类

结构化数据

结构化数据,可以用二维表结构来逻辑表达实现的数据
是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,
主要通过关系型数据库进行存储和管理

数据类型

json 格式数据
xml 格式数据
...

处理方式

通过 json 模块等直接转成 Python 数据类型

非结构化数据

非结构化数据,数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。

数据类型

 html 格式数据
 word 格式数据
 ...

处理方式

通过 正则表达式 、xpath 等模块提取数据


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。

文章标题:数据提取概念和数据的分类

本文作者:伟生

发布时间:2019-08-25, 20:50:24

最后更新:2019-08-25, 21:30:14

原始链接:http://yoursite.com/2019/08/25/spider_05_data/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏