欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > IT业 > AWS 公开数据集下载与操作说明

AWS 公开数据集下载与操作说明

2025/8/9 9:00:36 来源:https://blog.csdn.net/m0_58786911/article/details/148518913  浏览:    关键词:AWS 公开数据集下载与操作说明

🌐 AWS 公开数据集下载与操作说明(以 SpaceNet 为例)

一、前置条件

在开始前,请确保已安装并配置好 AWS CLI 工具。

1. 安装 AWS CLI

可从官网下载安装:

👉 https://awscli.amazonaws.com/AWSCLIV2.msi

安装后通过以下命令验证:

aws --version

2. 本项目使用 无需认证 的公开数据,因此可以使用匿名访问:

--no-sign-request

二、SpaceNet 数据集介绍

SpaceNet 是 AWS 上托管的高分辨率遥感数据集,包含卫星影像(RGB、多光谱)、建筑物矢量标签、掩膜标签等,适用于目标识别、图像分割、场景分类等任务。

例如:AOI_2_Vegas 表示拉斯维加斯地区的影像与标注。


三、浏览远程数据目录结构

1. 查看数据列表

aws s3 --no-sign-request ls s3://spacenet-dataset/ --request-payer requester

image-20250608212611101

# 根目录说明(s3://spacenet-dataset/)AOIs/                        # SpaceNet 核心数据集的各个 AOI(Area of Interest)区域数据,如 Vegas、Paris 等;# 包含多光谱、全色锐化影像(PS-RGB, PS-MS)、建筑物标签(GeoJSON)、掩膜标签等Hosted-Datasets/            # SpaceNet 之外托管的其他遥感公开数据集,如 xView、DeepGlobe 等第三方数据(AWS 作为托管方)SpaceNet_Off-Nadir_Dataset/ # SpaceNet 提供的“偏视角”数据集(Off-Nadir),包括不同倾角(7.5° 到 54°)拍摄的影像及标签;# 适合研究视角变化对识别精度的影响等问题spacenet-model-weights/     # 官方训练好的模型权重(如 UNet、Mask R-CNN 等),用于快速实验和模型加载验证spacenet-stac/              # SpaceNet 数据的 STAC(SpatioTemporal Asset Catalog)索引目录;# 提供标准化的 JSON 描述,便于程序化检索与集成,适用于自动化系统或云平台分析spacenet/                   # SpaceNet 比较早期版本的原始数据,结构略不同;# 可视为 Legacy 数据集,不推荐作为首选,除非用于比对或历史研究LICENSE.md                  # 数据集使用许可说明,通常是 CC-BY(署名共享),下载和使用前建议查看许可内容

2. 列出 AOI 目录下的所有文件夹

aws s3 --no-sign-request ls s3://spacenet-dataset/AOIs/ --request-payer requester

image-20250608212951319

# SpaceNet AOI 列表说明(每个目录代表一个城市或区域的遥感数据)AOI_1_Rio/                # 巴西里约热内卢区域的高分辨率卫星影像与建筑物标注数据
AOI_2_Vegas/              # 美国拉斯维加斯区域,包含多光谱影像和建筑物标签,常用作基准数据集
AOI_3_Paris/              # 法国巴黎区域的遥感影像和建筑物标注,适合城市建筑识别任务
AOI_4_Shanghai/           # 中国上海区域的高分辨率卫星影像,适合大城市建筑物提取与变化检测
AOI_5_Khartoum/           # 苏丹喀土穆区域数据,涵盖不同气候与地理环境的遥感影像
AOI_6_Atlanta/            # 美国亚特兰大区域,适合城市道路和建筑识别研究
AOI_7_Moscow/             # 俄罗斯莫斯科区域的卫星影像,适合复杂城市场景分析
AOI_8_Mumbai/             # 印度孟买区域,具有高人口密度城市的遥感数据
AOI_9_San_Juan/           # 波多黎各圣胡安区域,适合岛屿和城市混合场景研究
AOI_10_Dar_Es_Salaam/     # 坦桑尼亚达累斯萨拉姆区域,城市与自然环境混合
AOI_11_Rotterdam/         # 荷兰鹿特丹区域,包含复杂水陆混合的城市影像数据

3. 查看某一 AOI 的内容(例如 AOI_2_Vegas):

aws s3 --no-sign-request ls s3://spacenet-dataset/AOIs/AOI_2_Vegas/ --request-payer requester

image-20250608213117895
常见子目录包括:

  • PS-RGB/:全色锐化 RGB 影像(.tif)
  • geojson_buildings/:建筑物标签(.geojson)
  • raster_labels/:掩膜标签(.tif)
  • metadata/:数据说明与参数信息(.json、.csv)

四、下载数据

使用 sync 命令可以将 S3 上的指定目录与本地文件夹同步:

示例:下载 RGB 影像

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/PS-RGB/ ./spacenet2_vegas/PS-RGB/ --request-payer requester

示例:下载建筑物矢量标签

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/geojson_buildings/ ./spacenet2_vegas/geojson_buildings/ --request-payer requester

示例:下载掩膜标签

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/raster_labels/ ./spacenet2_vegas/raster_labels/ --request-payer requester

五、参数说明

参数说明
--no-sign-request使用匿名访问,适用于无需授权的公开数据集
--request-payer requester指定下载方承担 S3 流量费用(公开数据集通常需要)
sync增量同步文件夹,仅下载本地不存在或已更新的文件
ls查看远程 S3 桶目录结构

六、常见问题与解决方法

问题 1:执行 sync 后没有下载任何文件?

可能原因:

  • 路径错误(如遗漏 AOIs/ 前缀)
  • 本地已有文件,sync 判断无需更新
  • 网络或代理限制访问 AWS S3

解决办法:

  • 确认远程路径拼写正确

  • 添加 --dryrun 参数测试将会下载哪些文件:

    aws s3 --no-sign-request sync s3://... ./local_path/ --request-payer requester --dryrun
    
  • 使用 --debug 参数排查详细过程

  • 切换网络或使用 VPN 测试是否为网络限制


七、附录:示例本地目录结构

spacenet2_vegas/
├── PS-RGB/                 # 卫星影像(.tif)
├── geojson_buildings/     # 建筑物标签(.geojson)
├── raster_labels/         # 掩膜标签(.tif)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com