【数据分析一：Data Collection】信息检索

本节内容含有各典型数据集的推荐，以及其网址，大家根据需要自取

一、检索

最简单、最灵活的数据获取方式就是依靠检索：

Google：更适合搜索英文信息

Google Dataset Search（Google 数据集搜索）

网址：https://toolbox.google.com/datasetsearch

二、公开数据

国内常见公开数据渠道

·国家相关部门统计信息

·中国银行业监督管理委员会

·中国国家统计局

国际公开数据集

1400万的图像数据

ImageNet

Amazon从2008年开始就为开发者提供几十TB的开发数据

Registry of Open Data on AWS

YouTube视频的统计与社交网络数据

YouTube Dataset

代表性公开数据集

用户评分MovieLens：MovieLens | GroupLens

文本数据-头条：https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset

金融数据-股票：https://github.com/asxinyu/Stock

网络数据-Large scale network：Stanford Large Network Dataset Collection

教育数据:

ASSISTmentsData-学业: https://sites.google.com/site/assistmentsdata/home/

BASEGroup: https://github.com/bigdata-ustc/EduData

阿里天池数据-数据平台：天池数据集_阿里系唯一对外开放数据分享平台-阿里云天池

公开大数据竞赛的数据：KDDCup，NeurIPS Challenge

三、大数据的未来：合成数据

合成数据：基于计算机模拟活算法生成模仿现实世界观察的人造数据

优势：大大降低数据获取成本；可控；没有隐私安全问题；数据丰富多样，减少真实世界中存在的偏见…

代表工作：

麻省理工学院搭建的合成数据工具库：The Synthetic Data Vault. Put synthetic data to work!

利用大模型做数据增强

解决目标领域数据少且质量差的问题

合成数据是让模型“无中生有”，直接生成某个领域的数据（有一定质量问题）

数据增强是让模型“有中生更多”，根据已标注好的数据，举一反三（更安全可靠）

四、数据众包

一种利用大众力量来收集、分析和处理数据的模式

需求方将一批数据标注任务分成多个子任务，分发在数据众包平台

标注者通过互联网在众包平台接受任务

平台收集标注结果，质量评估合格后返回给需求方

平台很多，大家自行搜索

附：比赛平台

供各位了解

CCF BDCI：

2019 CCF 大数据与计算智能大赛CCF大数据与计算智能大赛（CCF BDCI）由中国计算机学会创办，是大数据与人工智能领域的算法、应用和系统大型挑战赛事。https://www.datafountain.cn/special/BDCI2019?utm_source=WX1

天池：

天池大数据竞赛_天池大赛-阿里云天池天池大数据竞赛,是由阿里巴巴集团主办,面向全球科研工作者的高端算法竞赛。通过开放海量数据和分布式计算资源,大赛让所有参与者有机会运用其设计的算法解决各类社会问题或业务问题。欢迎来大家来天池参与天池大数据竞赛,进行真实业务场景演练,参与天池大赛还有机会获得百万奖金池。https://tianchi.aliyun.com/competition/gameList.htm?spm=5176.100065.5610717.11.ba5d2

Kaggle

Kaggle CompetitionsKaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.https://www.kaggle.com/competitions

Biendata

阿里云万网虚机IP访问报错提示https://biendata.com/

下一节，讲述爬虫，【数据分析二：Data Collection】：网络爬虫

【数据分析二：Data Collection】网络爬虫-CSDN博客文章浏览阅读2次。大量数据的获取难以手动实现，需借助爬虫程序网络爬虫是一个自动在网上抓取数据的程序爬虫本质上就是下载特定网站网页的HTML/JSON/XML数据，并对数据进行解析、提取与存储通常先定义一组入口URL，根据页面中的其他URL，深度优先或广度优先的遍历访问，逐一抓取数据爬虫的行为可以划分为：载入、解析、存储。https://blog.csdn.net/2301_79853895/article/details/148720066?fromshare=blogdetail&sharetype=blogdetail&sharerId=148720066&sharerefer=PC&sharesource=2301_79853895&sharefrom=from_link

【数据分析一：Data Collection】信息检索

一、检索

二、公开数据

三、大数据的未来：合成数据

四、数据众包

附：比赛平台

相关资讯

热文排行

最新新闻

推荐新闻

热搜词