4290|15

6773

帖子

2

TA的资源

版主

楼主
 

玩AI的小伙伴,训练集都是怎么来的? [复制链接]

 

一些图像识别的训练集,可以从网上获取,但是网上获取的图片,大多数都含有水印,比如像这次【AI挑战赛】的数字识别,那种训练集都可以从哪些地方获取?

图像可以从网上找,如果是产品传感器的数据,是不是只能从产品获取,如果只能从产品上获取,感觉会导致数据没有什么差异性,可能会导致最终训练出来的模型没有鲁棒性,大家有何经验,可以分享分享~

 

 

最新回复

至于做训练集和测试集,做标注缩放图都是实习生干的啊。   详情 回复 发表于 2024-6-24 16:38
点赞 关注

回复
举报

6060

帖子

6

TA的资源

版主

沙发
 

训练数据的全面性和代表性是很重要的,图像识别的还好,图片获取途径还是挺多的,不行自己拍,传感器抽象的数据比较麻烦

点评

传感器似乎只能自己采集,但是感觉量好大啊。  详情 回复 发表于 2024-6-20 17:04
 
个人签名

在爱好的道路上不断前进,在生活的迷雾中播撒光引

 

回复

6773

帖子

2

TA的资源

版主

板凳
 
秦天qintian0303 发表于 2024-6-20 16:38 训练数据的全面性和代表性是很重要的,图像识别的还好,图片获取途径还是挺多的,不行自己拍,传感器抽象的 ...

传感器似乎只能自己采集,但是感觉量好大啊。

 
 
 

回复

1123

帖子

1

TA的资源

五彩晶圆(初级)

4
 

爬虫?或者直接用飞飞姐的ImageNet?

点评

后者是?孤陋寡闻了[:sad:]  详情 回复 发表于 2024-6-20 21:42
 
 
 

回复

6773

帖子

2

TA的资源

版主

5
 
爬虫?或者直接用飞飞姐的ImageNet?

后者是?孤陋寡闻了

点评

李飞飞,华裔美女Computer Vision科学家,知名学者。。。。。。 曾担任Google副总裁      详情 回复 发表于 2024-6-21 14:12
 
 
 

回复

209

帖子

1

TA的资源

一粒金砂(高级)

6
 

同问飞飞姐的ImageNet这是啥啊?怎么使用啊?优势是什么?

点评

查一下ImageNet就知道了。。。。CV领域很知名的  详情 回复 发表于 2024-6-21 14:13
 
 
 

回复

6773

帖子

2

TA的资源

版主

7
 

我在想,是不是可以用AI帮我们采集图片或生产传感器数据?

 
 
 

回复

7452

帖子

2

TA的资源

五彩晶圆(高级)

8
 

看你要什么数据,大美丽很多地方都会提供,东大不太清楚。

比如气象的可以去他们官网下载到历年气象数据,比如经济的,这就多了,比如疾病这些可以去他们的医疗官网。等等。

还有就是各种AI大赛官网和论坛,有些会提供数据。

点评

AI大赛官网和论坛这个提议不错,确实现在很多比赛都有数据集。  详情 回复 发表于 2024-6-21 11:38
 
个人签名

默认摸鱼,再摸鱼。2022、9、28

 
 

回复

6773

帖子

2

TA的资源

版主

9
 
freebsder 发表于 2024-6-21 09:46 看你要什么数据,大美丽很多地方都会提供,东大不太清楚。 比如气象的可以去他们官网下载到历年气象数据 ...

AI大赛官网和论坛这个提议不错,确实现在很多比赛都有数据集。

 
 
 

回复

1123

帖子

1

TA的资源

五彩晶圆(初级)

10
 
wangerxian 发表于 2024-6-20 21:42 后者是?孤陋寡闻了

李飞飞,华裔美女Computer Vision科学家,知名学者。。。。。。

曾担任Google副总裁

 

 

 
 
 

回复

1123

帖子

1

TA的资源

五彩晶圆(初级)

11
 
851779592 发表于 2024-6-21 09:11 同问飞飞姐的ImageNet这是啥啊?怎么使用啊?优势是什么?

查一下ImageNet就知道了。。。。CV领域很知名的

 
 
 

回复

209

帖子

1

TA的资源

一粒金砂(高级)

12
 

好的,多谢!已经查阅了相关资料,确实很牛!很不错!多谢各位推荐和讲解!

 
 
 

回复

4771

帖子

12

TA的资源

版主

13
 

基本上就是白嫖,很多dataset的

要是你想自己做,得清洗图片,标注,挺麻烦的

MaixHub我用过挺不错,适合嵌入式设备的

点评

我的觉得的走一遍这个流程,这样才算真的训练过AI模型。  详情 回复 发表于 2024-6-24 15:21
 
 
 

回复

6773

帖子

2

TA的资源

版主

14
 
吾妻思萌 发表于 2024-6-24 10:51 基本上就是白嫖,很多dataset的 要是你想自己做,得清洗图片,标注,挺麻烦的 MaixHub我用过挺不错, ...

我的觉得的走一遍这个流程,这样才算真的训练过AI模型。

点评

至于做训练集和测试集,做标注缩放图都是实习生干的啊。  详情 回复 发表于 2024-6-24 16:38
不是很认同, 这个准备数据集其实都是枯燥乏味的重复工作,没得意思。 AI核心是算法,是如何去做那个识别矩阵。 包括咋降噪,降噪后的各种变换。取边缘,取特征点等等等那些大佬们研究的。    详情 回复 发表于 2024-6-24 16:37
 
 
 

回复

4771

帖子

12

TA的资源

版主

15
 
wangerxian 发表于 2024-6-24 15:21 我的觉得的走一遍这个流程,这样才算真的训练过AI模型。

不是很认同,

这个准备数据集其实都是枯燥乏味的重复工作,没得意思。

AI核心是算法,是如何去做那个识别矩阵。

包括咋降噪,降噪后的各种变换。取边缘,取特征点等等等那些大佬们研究的。

 

 
 
 

回复

4771

帖子

12

TA的资源

版主

16
 
wangerxian 发表于 2024-6-24 15:21 我的觉得的走一遍这个流程,这样才算真的训练过AI模型。

至于做训练集和测试集,做标注缩放图都是实习生干的啊。

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表