2785|0

5

帖子

0

TA的资源

一粒金砂(中级)

楼主
 

python爬虫常见的数据存储 [复制链接]

在互联网时代中,网络爬虫的也成一个重要的行业。在使用爬虫也许多语言提供选择。也python JAVA 语言成了大众爬虫的一致选择。当然在爬虫研发中,数据解析 数据存储也成了重要的一部分。而存储也有很多种方式,例如文件存储、数据库存储、搜索引擎存储、云存储

1、文件存储

可以利用JSON 、CSV等一些常见的库、存储成文件格式。

JSON存储是一种数据替换的模式。利用语言的文本格式在存储,更加清楚简单,有效率的传输文件数据。

CSV存储,python爬虫可以利用CSV进行文件存储更加简单的观察数据。

2、数据库存储

数据库存储常见的库有MySQL数据库、Mongdb数据库、Redis数据库等

MySQL、Mongdb、Redis数据库存储方式是python爬虫中最常见的几种方式。这几种的存储方式的好处是方便简单,速度快。

网络爬虫中有许多存储方式,如果一个IP长时间访问必然会被限制,这时候就需要使用代理IP来解决问题。

const http = require("http");
const url = require("url");

// 要访问的目标页面
const targetUrl = "http://httpbin.org/ip";


const urlParsed = url.parse(targetUrl);

// 代理服务器(产品官网 www.16yun.cn)
const proxyHost = "t.16yun.cn";
const proxyPort = "36600";

// 生成一个随机 proxy tunnel
var seed = 1;
function random() {
    var x = Math.sin(seed++) * 10000;
    return x - Math.floor(x);
}
const tunnel = random()*100;

// 代理验证信息
const proxyUser = "username";
const proxyPass = "password";

const base64    = new Buffer.from(proxyUser + ":" + proxyPass).toString("base64");

const options = {
    host: proxyHost,
    port: proxyPort,
    path: targetUrl,
    method: "GET",
    headers: {
        "Host": urlParsed.hostname,
        "Proxy-Tunnel": tunnel,
        "Proxy-Authorization" : "Basic " + base64
    }
};

http.request(options, function (res) {
    console.log("got response: " + res.statusCode);
    res.pipe(process.stdout);
}).on("error", function (err) {
    console.log(err);
}).end();
点赞 关注
 
 

回复
举报
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表