在这个日新月异的大数据时代,海量的数据无时无刻不在生成并更新。然而,这些庞大但零散的数据,要想真正发挥价值,还需加以整理、提炼与关联。这里,AI数据集应运而生。
AI数据集集结了海量数据,它将不同来源、类型与领域的数据聚合在一起,建立关联并加以标注,形成一个有细致目录与索引的大数据仓库。这使得节省了提取、清洗与关联数据的时间成本,为AI与数据分析领域提供了直接可用的数据集合。
可以说,AI数据集是机器学习的基石。在AI训练的过程中,算法需要大量的数据来检索模式,发现规律,并不断提高自身。数据集为AI提供了这些训练数据,它如同一本数据手册,帮助AI了解这些数据代表的知识与关系。
(资料图片)
以图像分类为例,数据集会提供大量图像与对应的类别标签。算法会循环浏览这些数据,找寻图像之间的共性,理解不同类别图像的视觉特征,进而建立分类模型。这一过程需要 sea量数据的支持,而数据集正好满足了这一需求,为模型提供了图像与答案,使其有数据可学。
当下,公开的AI数据集种类繁多,规模巨大,包含图片、文本、语音与视频等多种数据类型,涉及交通、医疗、销售与游戏等多个领域。这些数据集的出现,降低了AI研究的门槛,让更多研究者可以基于这些数据集开展工作,推动AI发展与创新。
AI数据集证明了“数据就是新的石油”这句话。数据的潜在价值取决于如何整合与利用,AI数据集让海量数据变为 AI 能直接使用的知识与营养,为AI带来进化与突破,它们也将在推动人工智能向前发展的过程中,发挥越来越重要的作用。
包括七个子集
ArXiv(或称为arXiv):ArXiv是一个开放的学术预印本平台,提供了物理学、数学、计算机科学等领域的学术论文的在线发布和共享。Book(书籍):各种类型的电子书籍的集合。C4:C4是一个互联网爬取后清洗后开源数据集,其中包含来自Common Crawl的大量文本数据。它用于训练和评估自然语言处理(NLP)模型。Common Crawl(互联网档案):Common Crawl是一个非营利性组织维护的开放式网络爬虫项目,旨在收集和存档互联网上的网页数据。这个数据集包含了互联网上广泛的信息,可供研究和分析使用。GitHub(代码数据集):GitHub是一个面向开发人员的代码托管平台,让开发人员可以协作开发、管理和共享代码。它包含了各种开源软件项目和代码资源。StackExchange(或称为Stack Exchange):StackExchange是一个网络问答平台,其中包含许多不同主题的社区驱动的问答网站,供用户提问、回答问题和交流知识。Wikipedia(维基百科):Wikipedia是一个基于维基技术的免费在线百科全书,由全球志愿者协作创建和编辑。它提供了广泛的知识内容,覆盖了各个领域的主题。RedPajama 是一个用于 LLM 预训练的开源数据集,类似于 Meta 的 SOTA LLaMA 模型。该数据集旨在创建一个媲美大多数流行 LLM 的开源竞争者,目前这些 LLM 要么是闭源商业模型要么仅部分开源。
https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T/tree/main
train_3.5M_CN 4.85GB
350万条由ChatGPT生成的中文单\多轮对话数据
https://huggingface.co/datasets/BelleGroup/train_3.5M_CN/blob/main/train_3.5M_CN.json
School Math 132MB
包含约25万条由BELLE项目生成的中文数学题数据,包含解题过程。
注意:此数据集是由ChatGPT产生的,未经过严格校验,题目或解题过程可能包含错误。使用过程中请注意这一点。
https://huggingface.co/datasets/BelleGroup/school_math_0.25M/blob/main/school_math_0.25M.json
multiturn_chat_0.8M 990MB
包含约80万条由BELLE项目生成的用户与助手的多轮对话。。
注意:此数据集是由ChatGPT产生的,未经过严格校验,题目或解题过程可能包含错误。使用过程中请注意这一点。
instruction中包含多轮对话的上文内容,以Human:和Assistant:区分,output中包含当前助手角色的回答。
https://huggingface.co/datasets/BelleGroup/multiturn_chat_0.8M/blob/main/multiturn_chat_0.8M.json
generated_chat_0.4M 524MB
ChatGPT产生的约40万条指令任务数据
https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M/blob/main/generated_chat_0.4M.json
train_2M_CN 1.94GB
包含约200万条由BELLE项目生成多样化的指令任务数据。
注意:此数据集是由ChatGPT产生的,未经过严格校验,题目或解题过程可能包含错误。使用过程中请注意这一点。
https://huggingface.co/datasets/BelleGroup/train_2M_CN/blob/main/train_2M_CN.json
22w条 中文问答诊断数据
香港中文大学(深圳)和深圳市大数据研究院所在的王本友教授团队训练并开源了一个新的 ——HuatuoGPT(华佗GPT),以使语言模型具备像医生一样的诊断能力和提供有用信息的能力。
https://huggingface.co/datasets/FreedomIntelligence/HuatuoGPT-sft-data-v1/blob/main/HuatuoGPT_sft_data_v1.jsonl
多项式算术问题的数据集
它包含了一系列的问题和对应的答案,用于训练和评估机器学习模型在多项式算术上的表现。
https://huggingface.co/datasets/ChilleD/MultiArith/blob/main/train.json
https://huggingface.co/datasets/ChilleD/MultiArith/blob/main/test.json
维基百科 (wiki2019zh) - 大约 30 GB
新闻语料 (news2016zh) - 大约 60 GB
百科问答 (baike2018qa) - 大约 20 GB
社区问答 (webtext2019zh) - 大约 150 GB
翻译语料 (translation2019zh) - 大约 100 GB
https://github.com/brightmart/nlp_chinese_corpus
100w个 Bing 问答数据集
https://microsoft.github.io/msmarco/
中英文NLP数据集 50多个子集 不统计
https://github.com/CLUEbenchmark/CLUEDatasetSearch
ImageNet数据集:1400万张图片,22000个类别。广泛用于图像分类和目标检测。
http://www.image-net.org/
CIFAR数据集:60000幅32x32图像,分为10类和100类。用于图像分类。
https://www.cs.toronto.edu/~kriz/cifar.html
COCO数据集:328000张人物图像,用于目标检测、分割和姿态估计。
http://cocodataset.org/#home
Caltech拥挤场景数据集:250张人群图像,22754个头部标注。用于人群计数和人头检测。
http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
TIMIT:共630个说话人,6300句话。用于语音识别与合成。
https://catalog.ldc.upenn.edu/LDC93S1
LibriSpeech:1000小时英语有声读物语音,用于语音识别。
http://www.openslr.org/12/
SQuAD:100,000+的问题与答案,用于训练机器阅读理解系统。
https://rajpurkar.github.io/SQuAD-explorer/
GLUE:一系列测试语言理解的基准任务集合。
https://gluebenchmark.com/
Anthropic AI宪法:13条AI宪法准则,用于测试AI系统的道德推理。
https://www.anthropic.ai/data
FB15K:Nodes:14,951, Relations:1,345.常用于知识图谱 Embedding。
http://fb15k.com/download.html
Google"s Knowledge Graph:Nodes:5.8亿,Relations:64亿。
https://developers.google.com/knowledge-graph/
CN-DBpedia:Nodes:425万,Relations:6300.中文知识图谱。
http://kw.fudan.edu.cn/cn-dbpedia/downloads.html
MovieLens:电影评分与推荐数据,用于推荐系统。
https://grouplens.org/datasets/movielens/
美国人口普查数据:人口、经济与社会数据。
https://www.census.gov/data/datasets.html
MNIST手写数字:训练手写数字分类系统的标准数据集。
http://yann.lecun.com/exdb/mnist/
PTB语料库:英文新句子 parole corpus,训练集为929k词,用于RNN训练。
https://www.nltk.org/nltk_data/
IMDB电影评论:50,000条电影评论,用于情感分析。
https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
Stanford Sentiment Treebank:短评论的情感标注语料,用于情感分析。
https://nlp.stanford.edu/sentiment/index.html
Google Books Ngrams:8百万种书籍,用于语言模型训练与NLP研究。
https://catalog.ldc.upenn.edu/LDC2006T13
MIMIC-III:红十字会的22,000名重症监护病人数据,用于临床预测与分析。
https://physionet.org/content/mimiciii/1.4/
PCORI数据:患者调查,临床试验报告和患者病历,用于疾病预测与关系挖掘。
https://www.pcori.org/research-results/pcornet-national-patient-centered-clinical-research-network/pcornet-common-data
Visual Relationship Detection 数据集:5000张图片,100000对关系注释。用于视觉关系检测。
https://cs.stanford.edu/people/ranjaykrishna/vrd/
KINETICS:50万个视频剪辑,700个人动作类别,用于动作识别与检测。
https://deepmind.com/research/open-source/kinetics
CelebFaces Attributes:202886名名人的人脸图片,40个属性注释。
http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
VGGFace2:9631名名人的人脸图片,用于人脸识别与验证。
https://www.robots.ox.ac.uk/~vgg/data/vgg_face2/
WMT英德翻译:来自新闻评论和欧洲议会的英德语平行语料,用于机器翻译。
http://www.statmt.org/wmt20/translation-task.html
WAT 翻译挑战赛数据集:人工翻译中的日英,英日翻译数据集,用于测试机器翻译系统。
https://nlp.cs.nyu.edu/wat/
TED演讲字幕翻译:来自TED演讲的英法,英德语字幕翻译数据集。
https://www.ted.com/participate/translate
结构化数据挖掘数据集:
Instacart购物篮数据集:来自美国Instacart的3百万种商品,用于购买推荐和用户行为分析。
https://www.instacart.com/datasets/grocery-shopping-2017
Dota 2数据:Dota 2比赛中的英雄选择,阵型分布和胜负关系,用于预测和推荐。
https://www.kaggle.com/samratpoddar/dota-2-matches-dataset
NYSE交易数据集:来自纽约证券交易所2006-2015年间的股票行情数据,用于股票趋势分析与预测。
https://datahub.io/core/nyse#readme
Didi出行数据竞赛数据集:来自Didi Chuxing的北京和广州订单信息,用于交通流量预测与分析。
https://biendata.com/competition/didichuxing_ algorithmB BD_s1_bak/
UPS货运数据集: 来自UPS运输证券所的互联网商购包裹信息,用于需求预测与路径优化。
https://community.ups.com/sustainability/what-we-do/data-for-good/safe-routes
Million Song Dataset:来自Echo Nest的音乐元数据,特征与音频片段,包含1000万首歌曲。用于音乐信息检索与推荐。
http://millionsongdataset.com/
MusicNet:来自YouTube的122种乐器,1102位艺术家的105239首古典音乐,用于音乐分类与检索。
https://homes.cs.washington.edu/~thickstn/musicnet.html
FMA 数据集:来自Free Music Archive的106,574首歌曲与标签,用于音乐分类与自动标注。
https://github.com/mdeff/fma
LyricWiki:来自LyricWiki网站的歌词数据集,包含5.7万首歌与歌词,用于歌词生成与填词。
https://www.kaggle.com/mousevspython/lyricwikidataset
星际争霸游戏数据:来自Battle.net的28万场1v1游戏回放数据,用于训练AI玩家与策略优化。
https://www.kaggle.com/skihikingkevin/starcraft-2-replay-dataset
DOTA 2 英雄联盟数据:来自DOTA 2比赛的788154场对局数据,用于训练DOTA2 AI玩家与推荐系统。
https://www.kaggle.com/skihikingkevin/starcraft-2-replay-dataset
随机棋盘游戏数据:随机棋盘游戏回放数据,用于训练随机棋盘游戏AI与策略优化。
https://www.kaggle.com/c/random-gameplay-challenge
FIFA19游戏数据:来自EA SPORTSTM FIFA 19的游戏数据,用于训练FIFA19 AI球员与球队构建。
https://www.kaggle.com/c/ea-fifa-19-challenge
Facebook社交网络:来自Facebook的4039个节点与88234条友谊关系的数据集,用于社交网络分析。
https://snap.stanford.edu/data/facebook.html
Twitter社交网络:来自Twitter的81306个节点与1768149条关注关系的数据集,用于推特传播与社交网络建模。
https://snap.stanford.edu/data/egonets-Twitter.html
Reddit评论网络:来自Reddit网站的232965篇文章与1170142条评论的数据集,用于在线社区结构分析。
https://files.pushshift.io/reddit/
微博社交网络:来自新浪微博的150126个节点与4068467条关注关系的数据集,用于信息散播与网络结构分析。
https://data.gov.sg/dataset/weibo-social-network
20 Newsgroup文本分类:来自20个新闻组的18846篇文本,用于多分类文本分类模型的训练与评估。
http://qwone.com/~jason/20Newsgroups/
Reuters-21578文本分类:来自路透社的21578篇新闻文本与135个主题类别,用于新闻分类与主题检测。
https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
IMDB电影评论:来自IMDB的50,000篇电影评论,用于情感分类与影评摘要。
https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
Yelp评论数据集:来自Yelp的4000万条商家点评,用于餐饮推荐、情感分析与审核分类。
https://www.yelp.com/dataset
Netflix奖状数据集:来自Netflix的480189份电影评分记录,用于构建电影推荐系统。
https://www.kaggle.com/netflix-inc/netflix-prize-data
Amazon客户评论:来自亚马逊的数百万条产品评论与评分,用于产品推荐与销售预测。
http://jmcauley.ucsd.edu/data/amazon/
URL交互数据集:来自cnet.com网站的URL点击流日志,用于构建网页推荐与点击预测系统。
https://www.cs.cornell.edu/~schnabts/mnar/url_interactions.zip
Last.fm音乐数据集:来自Last.fm的音乐听众数据集,包含艺人,专辑,标签与听众之间的关联,用于音乐推荐。
https://grouplens.org/datasets/lastfm/
Freebase知识图谱:来自Freebase的知识图谱,包含2000万实体与3000多种关系,用于知识存储与推理。
https://developers.google.com/freebase/
WikiData知识图谱:来自维基百科的结构化数据知识图谱,包含6400万实体与2000多种关系,用于知识获取与推理。
https://www.wikidata.org/wiki/Wikidata:Database_download
ConceptNet知识图谱:来自 ConceptNet 的常识知识图谱,包含300多万个概念与2000多种关系,用于常识推理与QA。
http://conceptnet.io/
YAGO 知识图谱:来自YAGO项目的知识图谱,包含350万实体与120种关系,用于知识表示与推理。
https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/
Databricks-Dolly-15 是一个用于 LLM 微调的数据集,它由数千名 DataBricks 员工编写了超过 15,000 个指令对(与训练 InstructGPT 和 ChatGPT 等系统类似)。
https://huggingface.co/datasets/databricks/databricks-dolly-15k/blob/main/databricks-dolly-15k.jsonl
OASST1 数据集用于在由人类创建和标注的类 ChatGPT 助手的对话集合上微调预训练 LLM,包含了 35 种语言编写的 161,443 条消息以及 461,292 个质量评估。这些是在超过 10,000 个完全标注的对话树中组织起来。
https://huggingface.co/datasets/h2oai/openassistant_oasst1/blob/main/openassistant_oasst1.json
论文《The LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction》介绍了基于 C4 和 Wikipedia 等已有语料库的人工创作文档集合以及这些文档的指令,从而创建了一个适合长文本生成的指令调优数据集。
https://huggingface.co/datasets/akoksal/LongForm/blob/main/data/train-00000-of-00001-367270308b568067.parquet
这个日新月异的大数据时代,只有规范化和结构化的数据,才可能发挥出其全部的价值。AI数据集让海量的零散数据整合为知识与营养,为人工智能提供了直接可用的“输入”与“读物”。
它们推动了人工智能的规范发展与高效进步,使 AI 训练变得简单高效,成果更加准确与可解释。公开共享的AI数据集降低了研究门槛,在人工智能领域形成了开放式的知识生产模式,让更多人得以参与其中。
人工智能发展离不开数据,而数据的应用取决于如何管理与利用。AI数据集加速了人工智能从实验室到产业化的进程,它们使计算机得以快速学习与进步,也使企业能够更简单地开发与部署AI应用。
“数据是石油”,那么数据集就是数据的精炼机与加速器。它点燃数据的潜能,推动 AI 不断进化与突破,为人工智能的未来发展提供了坚实的基石。AI 革命需要数据与算法共同驱动,而AI数据集正是重要的“数据生产者”与“标准制定者”。
规模化与模块化,是人工智能发展的必然方向。AI数据集让人工智能的研究与应用变得更加规范与标准化。它们不仅推动了学术界的蓬勃发展,也加速了人工智能在商业化与产业化过程中的落地与应用。
AI数据集 Certificate 了数据的重要性,也彰显了人工智能发展的开放与共享之道。它们将在人工智能的未来发展中,发挥越来越关键的作用,最终让人工智能真正走进生活,造福人群。