中文搜索引擎指南网

 找回密码
 禁止注册

QQ登录

只需一步,快速开始

搜索
查看: 21|回复: 0
打印 上一主题 下一主题

LAION-5B - 全球最大的多模态图文开源数据集之一

[复制链接]
跳转到指定楼层
1#
发表于 3 天前 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
LAION-5B(Large-scale Artificial Intelligence Open Network)是由德国非营利组织 LAION 发布的超大规模多模态图文数据集。它是目前已知且开源的最大规模多模态数据集之一,在 AI 发展史上具有里程碑意义,也是 Stable Diffusion 等著名文生图模型的核心训练数据来源。

官网地址

官方网站:https://laion.ai/blog/laion-5b/
数据集信息页:https://opendatalab.org.cn/LAION-5B

核心特色

超大规模与多语言支持:包含高达 58.5 亿个图文对(总数据量约 80TB),是此前最大开源数据集 LAION-400M 的 14 倍。其中包含 23.2 亿个英语样本、22.6 亿个 100 多种其他语言样本,以及 12.7 亿个未知语言样本。
CLIP 模型过滤:通过 CommonCrawl 获取网络文本和图片,并使用 OpenAI 的 CLIP 模型计算图文相似性,删除相似度低于设定阈值(英文 0.28,其余 0.26)的图文对,从 500 亿张原始图片中精选出不到 60 亿对。
安全与质量过滤机制:针对早期数据集中存在的大量不适内容,LAION-5B 提供了多种过滤子集和模型,包括 NSFW(色情内容)识别过滤、水印检测过滤,以及基于美学评分(Aesthetic Score)的高质量图像子集。
学术界认可:该数据集的相关论文荣获了 NeurIPS 2022 数据集和基准测试最佳论文奖,旨在使大规模多模态模型的研究民主化。


如何使用

由于 LAION-5B 数据量极其庞大(80TB),直接下载整个数据集对普通开发者极不现实。官方提供了多种灵活的使用方式:
1. 按需检索获取(推荐个人项目使用)
如果只需要特定类别的图像,无需下载全量数据,可直接通过 LAION 提供的 k-NN(最近邻)服务 API 进行检索和流式下载。
API 端点:https://knn.laion.ai/knn-service
Python 示例:通过 requests 库发送 POST 请求,传入查询文本(如 "cat")和索引名称(如 laion5B-L-14),即可获取匹配图像的 URL 列表,随后使用 shutil 进行流式下载。
2. 使用自动化下载工具
官方提供了专门的下载脚本和工具,支持从元数据中自动拉取图片:
img2dataset:官方提供的自动化下载脚本,支持根据数据集的 URL 集合批量下载图片。
WebDataset 格式:在 Hugging Face 等平台上,搜索名字包含 webdataset 的 LAION 资源,可直接获取包含图片原件和文本的结构化数据。
3. 分布式推理与处理(适合企业/研究机构)
对于需要处理海量数据的场景,可使用 clip-retrieval 工具在 Spark 集群上进行分布式推理。
多 GPU 集群支持:支持在 8 个 A100 GPU 等配置下线性扩展性能,处理速度可达每秒数千个样本。
存储后端集成:支持直接读取和写入 AWS S3 或 HDFS 等分布式存储系统。
4. 使用官方过滤子集
Stable Diffusion 等模型在训练时并未使用全集,而是使用了精心筛选的子集。开发者可直接在 Hugging Face 上获取如 LAION-Aesthetics(美学评分 ≥ 4.5 或 5.0 以上的高质量子集)或 LAION-2B-en(纯英语子集)来进行模型微调或研究。

适用场景

AI 图像生成(AIGC):作为文生图模型(如 Stable Diffusion v1-4 等)的核心预训练语料。
大规模多模态学习:用于训练和评估 CLIP、ALIGN 等图文匹配与零样本视觉推理模型。
多模态检索系统:构建文本到图像(Text-to-Image)的跨模态搜索引擎。
版权与隐私研究:通过 haveibeentrained.com 等工具,研究人员可检索特定图片是否被用于训练,以防范侵权风险。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏

Archiver|手机版|小黑屋|教你搜 ( 鲁ICP备16006309号

GMT+8, 2026-6-13 22:17 , Processed in 0.178496 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表