首页 关注 科技 财经 汽车

数据

旗下栏目: 业内 数据 数码 手机

数据至上的人工智能时代,哪些公开数据集最得当?

来源:ucd新闻网 作者:风云嘻嘻 人气: 发布时间:2017-02-23
摘要:现如今构建人工智能或机器学习系统比以往的时候更加容易。普遍存在的尖端开源工具如 TensorFlow、Torch 和 Spark,再加上通过 AWS 的大规模计算力、Google Cloud 或其他供应商的云计算,这些都意味着你可以在下午休闲时间使用笔记本电脑去训练出最前沿的机器

现现在构建人工智能或机器进修系统比以往的时候越发容易。普遍存在的尖端开源工具如 TensorFlow、Torch 以及 Spark,再加上经由过程 AWS 的年夜规模计算力、Google Cloud 或其他供应商的云计算,这些都象征着你可以鄙人昼休闲时间使用条记本电脑去练习出最前沿的机器进修模型。

虽然不算是人工智能练习的最前沿,但人工智能的无名英雄确实便是数据,很多很多标注或未标注的数据。钻研部门以及公司也都认识到数据民主化是加快人工智能的须要步骤。

然而,涉及到机器进修或人工智能的年夜多数产品强烈依靠于那些凡是没有开放的私稀有据集,而本文将指出办理这类困境的方法。

事实上,咱们很难用一篇文章来阐明哪些开放数据集是有用的,因为那些有用的开放数据集必须是可概念证实的,而什么数据集对产品或确认特征是有用的,在你网络你自身所稀有据以前是不晓得的。

首要的是,要是数据集有优质的表现并不能包管其练习的机器进修系统在现实产品场景中表现优质。很多人在构建人工智能系统时往往忘了构建一个新人工智能办理方案或产品最困难的部分不是人工智能本身或算法,凡是最困难之处是数据网络以及标注。标准数据集可以作为验证或构建更良好办理方法的优质出发点。

在这个礼拜,我以及一些机器进修专家们讨论的都是有关标准数据集的问题。为了让你能更轻松地构建人工智能系统,咱们搜集了一些开源数据集,这些开源数据集是咱们以为在人工智能的天下里你所必要相识的。

计算机视觉

MNIST: 最通用的健全检查。25x25 的数据集,中心化,B&W 手写数字。这是个容易的任务——然则在 MNIST 有效,不等同于其本身是有效的。

地址:http://pjreddie.com/projects/mnist-in-csv/

CIFAR 10 & CIFAR 100: 32x32 彩色图像。虽再也不常用,但照旧用了一次,可所以一项有趣的健全检查。

地址:https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet: 新算法现实上的图像数据集。许多图片 API 公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet 的 1000 个范畴很接近。

地址:http://image-net.org/

LSUN: 场景理解拥有许多辅助任务(房间部署评估、显著性展望等)以及一个相关竞争。

地址:http://lsun.cs.princeton.edu/2016/

PASCAL VOC: 通用图像肢解/分类:对于构建真实天下的图像注释毫无用场,对于基线则意义重年夜。

地址:http://host.robots.ox.ac.uk/pascal/VOC/

SVHN: 来自谷歌街景视图(Google Street View)的房屋数量。把这想象成荒野傍边的周期性 MNIST。

地址:http://ufldl.stanford.edu/housenumbers/

MS COCO: 带有一个相关性竞争的通用图像理解/字幕。

地址:http://mscoco.org/

Visual Genome: 无比重视的视觉常识库,并带有 100K 图像的深字幕。

地址:http://visualgenome.org/

Labeled Faces in the Wild:经由过程名称标识符,已为被裁剪的面部区域(用 Viola-Jones)打了标签。现有人类的子集在数据集中有两个图像。对于这里做面部匹配系统怜z废暗娜死此担夂苷!

责任编辑:风云嘻嘻