524|3

4947

帖子

19

TA的资源

版主

楼主
 

【玄铁杯第三届RISC-V应用创新大赛】LicheePi 4A+训练自己模型要用图片的爬虫 [复制链接]

 

上贴说到,YOLOX在管管的帮助下,成功跑起来。

识别了好几个图,反应速度还挺快。

既然官方都是各种识别,我的内窥镜想必也要识别各种狭小空间的各种小物件了。

 

那要识别什么呢?

工业内窥镜多用于大型设备机车等场景,识别自然是一些螺丝螺母等部件。

自己训练模型就需要准备数据,自己造多麻烦还不如用爬虫来爬一些数据。

胡乱搜了一个网站:luomu.com

感觉图片比较高清,就动手简单爬了下。

 

import requests
import re
import parsel
import os

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'}
url = '目标网址'

if not os.path.exists('luomu'):
    os.makedirs('luomu') 

response = requests.get(url=url,headers=headers)
# print(response.content)

selector = parsel.Selector(response.text)
# print(selector)

img_urls = selector.xpath('//*[@id="post-list"]/ul/li')
# img_names = selector.xpath('//*[@id="post-list"]/ul/li/div/div[2]/h2/a')
for img_url in img_urls:
    img_name= img_url.xpath('.//div/div[2]/h2/a/text()').get()
    print(img_name)
    
    img_url = str.split(img_urls.xpath('//div/div[1]/a/picture/img/@data-src').get(),'?')[0]
    print(img_url)
    img_data = requests.get(url=img_url,headers=headers).content

    with open('luomu/'+img_name.replace('/','_')+'.jpg',mode='wb') as f:
        f.write(img_data)

 如果想要直接能跑的就附件直接下呗,但是爬虫这个东西呢,别天天爬,给人家服务器增加压力,也不要做一些违法违规的事情哈。

技术其实是很简单的,找到对应标签对应图片的src 然后get一下就好啦。

奥对了,这里打个小小广告,要是各位群友有爬虫的需求可以联系我,无论是静态还是js的或者模拟网页的爬虫,小弟都会哈。

然而我还是忒年轻了,本来是看螺母挺不错,就想着我其他的螺丝,钉子都能搞定。结果这个网站就只有螺母,其他都是空空的。

不得不说,一个经验教训就是 先要看清你要爬的网站,再去动手,要不他网站空空如也那你费时费力开发出代码就亏大发啦。

luomu_spider.py (984 Bytes, 下载次数: 0, 售价: 1 分芯积分)

爬好了,就是一堆堆的图片,还蛮清楚的。但是这个远远不够啊。

 

未完待续。。。

 

 

 

最新回复

感觉要搞一些不一样的, 要不鲁棒性太差了。   详情 回复 发表于 2023-11-30 16:43
点赞 关注
 
 

回复
举报

7278

帖子

2

TA的资源

版主

沙发
 

感觉这些螺母长的都好像。

点评

哈哈哈~我爬取的时候也觉得 图像识别时候,机器也觉得 这些人都好像啊  详情 回复 发表于 2023-11-30 16:02
 
 
 

回复

4947

帖子

19

TA的资源

版主

板凳
 
wangerxian 发表于 2023-11-29 17:37 感觉这些螺母长的都好像。

哈哈哈~我爬取的时候也觉得

图像识别时候,机器也觉得 这些人都好像啊

点评

感觉要搞一些不一样的, 要不鲁棒性太差了。  详情 回复 发表于 2023-11-30 16:43
 
 
 

回复

7278

帖子

2

TA的资源

版主

4
 
吾妻思萌 发表于 2023-11-30 16:02 哈哈哈~我爬取的时候也觉得 图像识别时候,机器也觉得 这些人都好像啊

感觉要搞一些不一样的, 要不鲁棒性太差了。

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/8 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表