| 首 页 AI实战教程 AI工具大全 AI提示词库 SOWANG微博 |
|
AI数据集 |
|
|
|
|
| 综合数据集托管平台 |
|
|
|
介绍:全球最大的人工智能开源数据集仓库之一,托管了超4万个(最新统计超92万个)开源数据集,涵盖文本、图像、语音等多种模态,数据规模超15万亿Token。支持通过代码一键调用(load_dataset),完美适配主流深度学习框架。 |
|
介绍:由用户和企业上传的真实数据集平台,收录超过50万个数据集,覆盖CV、NLP、金融、健康、社交等多个领域。平台不仅提供数据,还附带大量优秀的分析笔记(Notebooks),支持在线预览与协同分析。 |
|
介绍:百度 AI Studio(飞桨 AI
Studio)是百度基于深度学习开源平台“飞桨(PaddlePaddle)”推出的一站式人工智能学习与实训社区。它集成了 AI
教程、代码环境、算法、算力和数据集,为初学者和专业开发者提供了功能强大的线上训练环境、免费 GPU 算力及存储资源。 |
|
|
|
介绍:阿里天池是阿里巴巴集团于2014年推出的大数据科研与AI开发者社区。它基于阿里云的开放数据处理服务,面向学术界和工业界开放海量真实商业数据和分布式计算资源,旨在打造“数据众智、众创”的第一平台。 |
|
|
|
工具介绍:依托星火大模型与顶尖语音合成技术,语音自然度极高,支持情感化表达与20余种地方方言/外语实时切换。仅需一张照片即可完成数字人复刻。 |
|
|
|
介绍:OpenDataLab 是由上海人工智能实验室的大模型数据基座团队打造的新一代超大规模高质量多模态公开数据集开放平台。它致力于引领
AI 大模型时代的开放共享,现已成为中国大模型语料数据联盟开源数据服务指定平台。 |
|
|
|
经典与大规模开源数据集 |
|
|
|
介绍:ImageNet包含上千万张、上千类别的大型图像数据集,是深度学习爆发的关键基础设施。 |
|
|
|
介绍:MS COCO则包含约33万张图及250万个标注实例,强调自然场景中的常见物体及其关系,提供像素级分割和多对象描述。 |
|
|
|
介绍:美国非营利组织创建的非结构化、多语言网页开源数据集,总数据量达到PB级别。它是OpenAI、Meta等科技巨头训练大规模语言模型的重要数据来源。 |
|
|
|
介绍:德国非营利组织创建的数据集,包含超过58.5亿个图文对,是全球最大的多模态图文开源数据集之一。 |
|
垂直领域与特定任务数据集 |
|
介绍:包含50个城市的高分辨率街景图像,提供精细的语义分割标注,涵盖30个语义类别。 适用场景:自动驾驶感知系统、计算机视觉算法研究、智慧城市与 AR 导航. |
|
介绍:由卡内基梅隆大学和富士通联合开发的AI智能体评测基准。全部采用真实工厂、仓库和零售场景的视频及作业文档构建,旨在评估AI智能体在实际作业环境中的效能。 |
|
介绍:英伟达推出的开放数据集,包含超过1700小时的真实与合成多视角驾驶数据、机器人训练轨迹及仿真资产,覆盖极端复杂的真实世界场景。 |
|
介绍:主流的人脸识别开源数据集。CelebA包含20万张名人照片及丰富的属性标签;LFW专注于无约束自然场景下的人脸验证;CASIA-WebFace包含49万张以亚洲人脸为主的图片。 |
|
|