当前位置: 网站首页 > 联系我们
联系我们
Google推出了全新的搜索服务Dataset Search
时间:2019-10-16  来源:www.oaled.com

谷歌和数据技术的发展一直在向前发展,现在谷歌正在通过更快地搜索数据来进一步加强公众与数据之间的关系。

现在,好消息即将来临:谷歌再次宣布开放新的搜索服务:数据集搜索。

还记得Google不久前发布的Google学术搜索(学术搜索)吗?谷歌当时

学者填补了快速查找学术资料的空白,所以这一次,谷歌更直接地关注数据集,这是“细心和专注”!

谷歌的人工智能研究科学家娜塔莎诺伊表示,科学家,研究人员,数据记者和其他对使用数据感兴趣的人都是这个工具的主要受众,而谷歌认为这些数据集的状态将在整个谷歌的产品中发生变化。更突出。

数据工作者的另一个“工件”

首先,数据集是什么?让我们首先传播这个概念。数据集(也称为数据集,数据集合或数据集合)是数据集合。数据集通常以表格形式出现。每列代表一个特定变量,每行对应一个成员数据集的问题。它列出了每个变量的值,例如随机数量的对象或值的高度和重量。每个值都称为数据材料。对应于行数,数据集的数据可以包括一个或多个成员。

从历史上看,这个术语起源于大型机世界,它具有明确的含义,非常接近现代计算机文件。

Natasha Noy表示,新服务将统一数以万计的在线数据集档案。那么这些数据集属于哪里呢?娜塔莎诺伊说:“我们希望这些数据可以被发现,但数据仍保留在原来的位置。”

怎么跑?我们试着这样做

这个数据集搜索如何工作?实际上,即使是组织最好,数据最丰富的人,也必须使用外部数据。

举一个天气和环境数据的典型例子。

假设您想要将农业数据与天气现象相关联以预测作物生长,或者研究天气对整个历史中发生的现象的影响。这个历史天气数据几乎不可能由任何单一组织累积和规划,并且很可能由NOAA和NASA等组织提供(雷锋网络注:NOAA是国家海洋和大气管理局,NASA是NASA)。

这些组织通过专用数据门户定期计划和发布数据,因此,如果您需要定期获取数据,则可能需要熟悉通过这些门户定位数据的过程。当然,除了NOAA和NASA之外,您还必须注意其他可能的信息来源。

如果您不仅需要天气数据,而且还想找到合适的来源,然后从这些来源找到更正确的数据,之前无法完成搜索界面,现在Google已经开发了数据集搜索,可以实现界面搜索,是不是很惊讶和惊讶?

事实上,谷歌对结构化数据的热爱一直在持续。标志性事件是通过收购Metaweb整合Google知识地图,并通过schema.org支持结构化元数据。

搜索数据集检索查询的多个结果,显示数据集提供程序和时间段

雷锋网站试图进入数据集搜索网站,发现在搜索页面上,如果数据集直接对应于出版物,则会在数据集名称旁边显示该出版物的链接。雷锋网(公众编号:雷锋)也观察到谷歌还粗略估计了参考数据集中的出版物数量。

许多问题值得考虑:错误,排名和盈利能力的内容

此搜索的启动不仅是为了方便专业用户,也是为了数据集提供商。 NOAA的CDO(首席开发官)Ed Kearns是该项目的坚定支持者,并帮助NOAA搜索许多数据集的工具。

“这种类型的搜索长期以来一直是开放数据和科学界许多研究人员的梦想。对于NOAA,部分工作是与他人共享我们的数据,数据集搜索使更广泛的用户社区更容易访问我们。数据很关键。“

数据集搜索搜索数据集链接并对某些信息进行排名

为了防止数据集提供商错误地将内容描述为“数据集”,Google可以告诉它“这不是数据集”还是降低其排名?谷歌没有给出明确的回应,但表示谷歌将获得更多的经验,改进,并努力提高用户开始使用该工具后的结果质量。

如何解决搜索到的数据集排名问题?谷歌表示,它在数据集所来自的网页上使用网络排名(基于谷歌算法),并将其与数据集特定信号(如元数据质量,引用等)相结合。

进一步考虑,如果你排除了在搜索排名中盈利的可能性,谷歌会不会为了盈利而把它拿出来?例如,从销售渠道收集数据并使用它们生成有洞察力的定期报告?

无论如何,这个项目现在有利于科学决策,有利于有需要的人,尽管使用方便。然而,随着数据价值的日益凸显,谷歌越来越受到关注,其中包括对云计算和人工智能的投资也在不断增加。大胆猜测,数据集搜索将是谷歌学术数据商业化的第一步。