电子工程世界-论坛»论坛 › 电子技术交流 › 综合技术交流 › python爬虫常见的数据存储

阅 2785|回 0

5 帖子	0 TA的资源

一粒金砂（中级）

楼主

发表于2020-8-31 17:20 只看该作者

python爬虫常见的数据存储 [复制链接]

在互联网时代中，网络爬虫的也成一个重要的行业。在使用爬虫也许多语言提供选择。也python JAVA 语言成了大众爬虫的一致选择。当然在爬虫研发中，数据解析数据存储也成了重要的一部分。而存储也有很多种方式，例如文件存储、数据库存储、搜索引擎存储、云存储

1、文件存储

可以利用JSON 、CSV等一些常见的库、存储成文件格式。

JSON存储是一种数据替换的模式。利用语言的文本格式在存储，更加清楚简单，有效率的传输文件数据。

CSV存储，python爬虫可以利用CSV进行文件存储更加简单的观察数据。

2、数据库存储

数据库存储常见的库有MySQL数据库、Mongdb数据库、Redis数据库等

MySQL、Mongdb、Redis数据库存储方式是python爬虫中最常见的几种方式。这几种的存储方式的好处是方便简单，速度快。

网络爬虫中有许多存储方式，如果一个IP长时间访问必然会被限制，这时候就需要使用代理IP来解决问题。

const http = require("http");
const url = require("url");

// 要访问的目标页面
const targetUrl = "http://httpbin.org/ip";


const urlParsed = url.parse(targetUrl);

// 代理服务器(产品官网 www.16yun.cn)
const proxyHost = "t.16yun.cn";
const proxyPort = "36600";

// 生成一个随机 proxy tunnel
var seed = 1;
function random() {
    var x = Math.sin(seed++) * 10000;
    return x - Math.floor(x);
}
const tunnel = random()*100;

// 代理验证信息
const proxyUser = "username";
const proxyPass = "password";

const base64    = new Buffer.from(proxyUser + ":" + proxyPass).toString("base64");

const options = {
    host: proxyHost,
    port: proxyPort,
    path: targetUrl,
    method: "GET",
    headers: {
        "Host": urlParsed.hostname,
        "Proxy-Tunnel": tunnel,
        "Proxy-Authorization" : "Basic " + base64
    }
};

http.request(options, function (res) {
    console.log("got response: " + res.statusCode);
    res.pipe(process.stdout);
}).on("error", function (err) {
    console.log(err);
}).end();

此帖出自综合技术交流论坛

点赞关注

返回列表发新帖回复

活动更多>>

开源项目更多>>

随便看看

精通Python网络爬虫核心技术、框架与项目实战PDF高清完整版免费下载
百度网盘：精通Python网络爬虫核心技术、框架与项目实战PDF高清完整版免费下载提取码：5ues内容简介为什么写这本书网络爬虫其实很早就出现了，最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中，主要使用通用网络爬虫对网页进行爬取及存储。随着大数据 ...
Python搜索爬虫抓取超高清视频教程
[url=http://downloadcomdetail/hightemplar/565125]Python搜索爬虫抓取超高清视频教程[/url]本资源是人工智能讨论附送，请您关注人工智能讨论，并留下您的宝贵意见。小管在此先致谢啦！:victory:讨论链接：[url=http://bbscomthread-548481-1-1url][url=http ...
打开BOSS一看，推一大堆深圳的职位
今晚闲着无事，无意间打开BOSS直聘看了一下。明明选了广州的，但是BOSS推荐的广州职位基本上都很鸡肋，反而推送了不少深圳地区的职位过来。难道说广州的电子产业已经快要消亡了？还是说单纯只是年末了，所以招人的公司少。但是，不管怎么说，想要跳槽而且想找 ...
delphi 多格式图像显示
两位595驱动8位共阴极数码管的程序问题
《Keil Software –Cx51 编译器用户手册中文完整版》
串口调试问题
【设计工具】【配置知识】Virtex-5_FPGA_的配置
MySQL创建者发起全球请愿欲阻止甲骨文收购
电子/电气工程师使用手册系列丛书（全5本）