穆琪的博客

一个程序员的自传

数据不求人,一些优质数据来源或大数据平台

很多不错的数据可视化和数据分析成果都需要高质量的干净数据,而现实中也有很多可供我们免费获取的数据源,可以用它们进行数据分析和数据可视化。

本文我们会分享 40 个网站和平台,在上面我们可以公开获取高质量的数据,涵盖政务、全球问题、学术、社交媒体、市场营销、科学天文、新闻、媒体、娱乐等多个领域。

政务数据

美国食品药品监督管理局(FDA)——在网站上可以获取FDA药品数据库的压缩数据文件,该文件每周的周三更新一次。
地址: https://www.fda.gov/Drugs/InformationOnDrugs/ucm079750.htm
美国国家教育统计中心(NCES)——NCES是美国收集和分析教育相关数据的主要机构,在该机构网站上可以获取最全面的美国教育数据。
地址:https://nces.ed.gov/
美国统一犯罪报告(UCR)——在该网站上可获取美国犯罪方面的信息、数据和报告,多年来广受研究者和媒体引用。
地址:https://ucr.fbi.gov/
欧盟开放数据平台(EUODP)——在EUODP网站上可以获取欧盟各成员国及机构的多个领域的数据。
地址:http://open-data.europa.eu/en/data/
欧盟统计局——在该网站上可以获取欧盟的统计数据,而且能按照欧洲经济、人口、行业、贸易、技术和交通这些主题分别查询。
地址:http://ec.europa.eu/eurostat/data/database
英国数据服务平台——涵盖了英国政府发布的调查数据、跨国调研数据、英国统计数据、商业数据、量化数据和国际贸易数据等。
地址:https://www.ukdataservice.ac.uk/
http://Data.gov——网站上涵盖了美国政府发布的公开数据,在上面可以搜索数据、研究报告、数据分析工具以及进行数据可视化。
地址:https://www.data.gov/
Data.gov.au —— 包含了澳大利亚政府发布的公开数据,可以用于数据分析及可视化相关的研究。
地址:https://data.gov.au/
全球数据
世界概况——网站提供全球267个国家和地区有关历史、人口、经济、地理、交通、军事和贸易等方面的数据。
地址:https://www.cia.gov/library/publications/the-world-factbook/
联合国儿童基金会报告——收集了全球妇女和儿童境况的调查数据。
地址:https://www.unicef.org/reports
联合国毒品和犯罪问题办事处(UNODC)——提供全球范围内有关犯罪、毒品及罪行审判方面的准确数据。
地址:https://www.unodc.org/unodc/en/data-and-analysis/statistics.html
世界卫生组织——提供世界上卫生工作、疾病防治以及饥荒方面的数据和数据分析。
地址:http://www.who.int/gho/zh/
谷歌公共数据浏览器——启动于2010年3月,谷歌公共数据浏览器能让用户很容易的搜索、分析和可视化大型公共数据集。
地址:https://www.google.com/publicdata/directory
联合国教科文组织网站——包含全球最新的数据和指标,涵盖教育、文学、科学、技术、创新和文化多个领域。
地址:http://data.uis.unesco.org/
世界银行公开数据——列出了公开可用的世界银行数据集,包括数据库、预格式化表格、报告等等。
地址:http://datacatalog.worldbank.org/
联合国儿童基金会教育统计数据——提供全球教育层面上的统计数据。
地址:http://data.unicef.org/topic/education/overview/
非洲公开数据——在网站上可以获取非洲各个时期的的经济和社会数据,并且在网站上直接可获得可视化数据结果。
地址:http://dataportal.opendataforafrica.org/data#menu=topic
学术数据
谷歌学术搜索——在谷歌学术搜索上可以很容易的大范围查找学术成果和数据。
地址:https://scholar.google.com/
皮尤研究中心互联网项目——从网站上可获取皮尤研究中心的学术调查数据,涵盖政治、经济和地理等领域。
地址:http://www.pewinternet.org/datasets/
Europeana Collections —— 网站收集了全欧洲54,165,855份艺术、雕塑、书籍、电影和音频方面的数据。
地址:http://www.europeana.eu/portal/en
科学、医疗及天文数据
NOAA球面科学展示系统——美国国家海洋和大气管理局旗下的球面科学展示系统可以将天气、水文、太空等数据以动画的形式展示在虚拟地球上。
地址:https://sos.noaa.gov/ch/What_is_SOS/
公开科学数据云——在网站上可以分享、存储、分析和获取TB和PB级的科学数据集。
地址:https://www.opensciencedatacloud.org/
http://HealthData.gov——可获取高质量的健康数据。
地址:https://www.healthdata.gov/
美国国家环保信息中心(NCEI)——可快速获取NCEI提供的气候和天气数据集。
地址:https://www.ncdc.noaa.gov/data-access
博得研究所癌症项目数据——可获取准确的医学和生物学数据。
地址:http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi
NASA地球数据——提供高质量的有关地球、大气层方面的数据。
地址:https://earthdata.nasa.gov/
NASA行星数据系统——可获取来自NASA的太空探索、天文观测和实验室的测量数据。
地址:https://pds.nasa.gov/
WeatherBase ——涵盖全球41997个城市的天气和气候数据。
地址:http://www.weatherbase.com/
市场营销及社交媒体数据
Social Mention —— Social Mention是一款社交媒体搜索和分析平台,能将全球多个社交平台的UGC数据合并为一个信息流。
地址:http://www.socialmention.com/
谷歌趋势——展示了全球各国各地区各语言的关键词搜索数据分析。
地址:https://trends.google.com/trends/
Facebook API ——可以利用图谱 API获取Facebook的公开数据。
地址:https://developers.facebook.com/docs/graph-api
Twitter API——可以获取全球范围内Twitter上的热门数据。
地址:https://developer.twitter.com/en/docs
新闻媒体数据
《纽约时报》开发者网络——利用网站提供的API,可以获取自1851年至今的《纽约时报》文章,包括标题、摘要和多媒体文件。也能获取《纽约时报》发表的书评和影评。
地址:https://developer.nytimes.com/
美联社API —— 可以在无需访问美联社网站的情况下,获取美联社发布过的新闻资料,包括图片和视频。
地址:https://developer.ap.org/ap-content-api
亚马逊网络服务——在网站上可以按照类别获取丰富的数据集,目前可获取54个数据集。
地址:https://registry.opendata.aws/
谷歌图书词频统计器——提供了谷歌图书扫描并数字化的部分图书(占人类出版书籍的4%)的Ngram数据。你可以查询从1800年到现在,所有出版物中一个词汇出现的频率变化曲线。包含数量巨大的数据集。
地址:https://storage.googleapis.com/books/ngrams/books/datasetsv2.html
维基百科数据库——可以下载维基上所有完整内容的电子文件,包括文字、图片等。
地址:https://en.wikipedia.org/wiki/Wikipedia:Database_download
FiveThirtyEight——可获取FiveThirtyEight发布内容背后的数据和代码,涵盖政治、体育、医疗卫生、经济和文化5个领域。
地址:https://data.fivethirtyeight.com/
娱乐数据
Million Song Dataset ——包含28个数据集,涉及上百万首歌曲的音频特征和元数据。
地址:https://aws.amazon.com/cn/datasets/million-song-dataset/
The Numbers——详细的电影财务数据分析,包括票房、DVD销售额和发行计划等。
地址:https://www.the-numbers.com/
BFI Film Forever ——重点关注英国电影行业的市场数据。
地址:
http://www.bfi.org.uk/education-research/film-industry-statistics-research



转自:http://www.infosec-wiki.com/?p=453674

© 鲁ICP备18041558号
Powered by Z-BlogPHP & Yiwuku.com