锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

Machine Learning 和 Data Science 的最佳公共数据集

时间:2022-12-04 21:30:00 awm43600传感器

机器学习的最佳数据集是什么?本文整理了高质量、多样化的机器学习数据集列表。

AUTHORS:
Stacy Stanford, Machine Learning Memoirs Inc.
Roberto Iriondo, Machine Learning Department, Carnegie Mellon University.

PUBLISHED:
October 2, 2018
LAST UPDATED:
May 15, 2019
原文链接(需翻墙):
https://medium.com/towards-artificial-intelligence/the-50-best-public-datasets-for-machine-learning-d80e9f030279

文章目录

  • Dataset Finders(去哪里找数据集)
  • General Datasets
    • - Public Government Datasets (政府公开数据集)
    • - Housing Datasets(住房数据集)
    • - Geographic Datasets(地理数据集)
    • - Finance & Economics Datasets(金融与经济数据集)
  • Machine Learning Datasets:
    • - Imaging Datasets(图像数据集)
    • - Sentiment Analysis Datasets(情绪分析数据集)
    • - Natural Language Processing Datasets(自然语言处理数据集)
    • - Self-driving (Autonomous Driving) Datasets (自动驾驶数据集)
    • - Clinical Datasets(临床数据集)
  • Source
  • Citation:

在搜索 high-quality datasets 记住以下几点:

  1. 不混乱(messy),否则,清理数据需要很多时间(cleaning data);
  2. 不要有太多的行和列,否则很难使用;
  3. 数据越干净越好。清理大型数据集将非常、非常耗时;
  4. 有一个目标,比如回答问题或做决定,这个目标可以通过数据来回答。

Dataset Finders(去哪里找数据集)

  • Google Dataset Search:与Google Scholar 类似地,无论是出版商的网站、数字图书馆还是作者的个人网页,都可以找到托管在任何位置的数据集。
  • Kaggle:从拉面评级到篮球数据,甚至西雅图宠物许可证,一个数据科学网站包含了各种外部贡献的有趣数据集。
  • UCI Machine Learning Repository:UCI机器学习库,Web最古老的数据集源之一,也是寻找有趣数据集的第一站。 虽然数据集是由用户贡献的,但它可能有不同的清洁度(cleanliness),但绝大多数都是干净的。 无需注册即可直接下载数据。
  • VisualData:Discover Computer Vision Datasets,计算机视觉(CV)支持搜索查询
  • Find Datasets | CMU Libraries:感谢Huajin Wang, CMU 高质量高质量数据集

General Datasets


- Public Government Datasets (政府公开数据集)

  • Data.gov:该网站可以下载美国多个政府机构的数据。 从政府预算到学校绩效评估的数据范围。 但请注意:大部分数据需要进一步研究。
  • Food Environment Atlas:数据包括当地食物的选择如何影响美国的饮食结构。
  • School system finances:调查美国学校系统的财务状况。
  • Chronic disease data:有关美国各地区慢性病指标的数据。
  • The US National Center for Education Statistics:来自美国和世界各地的国家教育统计中心的教育机构和教育人口统计数据。
  • The UK Data Service:英国最大的社会、经济和人口数据集。
  • Data USA:全面可视化美国公共数据。

- Housing Datasets(住房数据集)

  • Boston Housing Dataset:波士顿住房数据集,包含美国人口普查局(the U.S Census Service)波士顿马萨诸塞州(Boston Mass)住房信息。它来自 StatLib archive,基准广泛应用于整个文献中(benchmark)算法。

- Geographic Datasets(地理数据集)

  • Google-Landmarks-v2:用于地标识别和检索(landmark
    recognition and retrieval.)数据集(改进版)。 该数据集包含来自世界各地的200k 地标的5M 图像,由Wiki Commons社区提供和注释。

- Finance & Economics Datasets(金融与经济数据集)

  • Quandl:良好的经济和金融数据来源 - 有助于建立预测经济指标或股价的模型。
  • World Bank Open Data:世界银行开放数据涵盖全球人口统计(population demographics),大量的经济和发展指标数据集。
  • IMF Data:国际货币基金组织(The International Monetary Fund)国际金融、债务利率、外汇储备、商品价格和投资数据公布。
  • Financial Times Market Data:来自世界各地的金融市场的最新信息,包括股价指数、商品和外汇。
  • Google Trends:谷歌趋势数据,分析世界各地的互联网搜索活动和热门新闻报道数据。
  • American Economic Association (AEA):美国经济协会(AEA),寻找美国宏观经济数据的良好来源。

Machine Learning Datasets:


- Imaging Datasets(图像数据集)

- Sentiment Analysis Datasets(情绪分析数据集)

  • Multidomain sentiment analysis dataset:多域情绪分析数据集,一个稍微较旧的数据集,其中包含来自亚马逊的产品评论。
  • IMDB reviews:一个较旧的,相对较小的数据集,用于二元情绪分类的,包含25,000个电影评论。
  • Stanford Sentiment Treebank:具有情感注释的标准情绪数据集。
  • Sentiment140:一个流行的数据集,包含了160,000条已经删除了表情符号的 tweets 。
  • Twitter US Airline Sentiment:美国航空公司( US airlines)自2015年2月起的Twitter数据,tweets分类为正面,负面和中性。

- Natural Language Processing Datasets(自然语言处理数据集)

  • HotspotQA Dataset:问答数据集,多跳转问题,有助于实现更易于解释的问答系统。由卡内基梅隆大学,斯坦福大学和蒙特利尔大学的NLP研究人员团队收集。
  • Enron Dataset:来自Enron高级管理层的电子邮件数据,组织成文件夹。
  • Amazon Reviews:包含来自亚马逊的大约3500万条评论,跨度18年。 数据包括产品和用户信息,评级和明文审核。
  • Google Books Ngrams:来自Google图书的一系列文字。
  • Blogger Corpus:从blogger.com收集的681,288篇博客文章的集合。 每个博客至少包含200个常用英语单词。
  • Wikipedia Links data:维基百科的全文。 该数据集包含来自400多万篇文章的近19亿个单词。 可以按段落,短语或段落本身的一部分进行搜索。
  • Gutenberg eBooks List:Project Gutenberg的电子书注释列表。
  • Hansards text chunks of Canadian Parliament: 来自第36届加拿大议会(Canadian Parliament)记录的130万对文本。
  • Jeopardy:来自问答节目Jeopardy的超过200,000个问题的归档。
  • Rotten Tomatoes Reviews:存档超过480,000番茄评论(新鲜或腐烂)。
  • SMS Spam Collection in English:由5,574条英文短信垃圾邮件组成的数据集。
  • Yelp Reviews:Yelp发布的一个开放数据集,包含超过500万条评论。
  • UCI’s Spambase:一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。

- Self-driving (Autonomous Driving) Datasets (自动驾驶数据集)

- Clinical Datasets(临床数据集)

  • MIMIC-III:麻省理工学院计算生理学实验室(MIT Lab for Computational Physiology)开发的公开数据集,包括与约40,000名重症监护病人相关的去识别健康数据。 它包括人口统计学,生命体征,实验室测试,药物等。

Source

[1] https://cloud.google.com/public-datasets/
[2] https://guides.library.cmu.edu/c.php?g=844845&p=6191907
[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec
[4] https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets
[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2
[6] https://www.dataquest.io/blog/free-datasets-for-projects/
[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/
[8] https://github.com/awesomedata/awesome-public-datasets#machinelearning
[9] http://lib.stat.cmu.edu/datasets/
[10] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/index.html
[11] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html
[12] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/
[13] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets
[14] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/
[15] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/
[16] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab
[17] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley.edu/open-data-sets/
[18] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/


Citation:

原文引用方式:

Stanford, et al., “The Best Public Datasets for Machine Learning and Data Science”, Towards AI, 2018

BibTex citation:

@misc{stanford_2018,
  title={The Best Public Datasets for Machine Learning and Data Science}, 
  url={https://towardsai.net/datasets}, 
  note={https://towardsai.net/datasets},
  journal={Medium}, 
  publisher={Towards AI}, 
  author={Stanford, Stacy and Iriondo, Roberto}, 
  year={2018}, 
  month={Oct}
}

最后感谢谷歌翻译,
另外还可参考:https://zhuanlan.zhihu.com/p/48691462 最强数据集集合:50个最佳机器学习公共数据集丨资源

Happy machine learning!

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章