以知识图的形式构建语义数据库而且通常在实体识别中很大程度上依赖于外部人员的帮助例如网站管理员维基百科编辑总的来说谷歌希望长期独立获取可解释的数据这样知识图谱项目就不会陷入停滞。知识库项目也表明了这一点。知识库是于年推出的一个非活跃开发项目旨在利用网络爬行和结构化和非结构化数据的机器学习来构建世界上最大的知识数据库。目前还没有关于谷歌是否以及在多大程度上已经积极使用该数据库的信息。但是我假设知识图已经从知识库获取信息。有关此内容的更多信息请参阅文章知识库为搜索的未来提供动力。
我认为谷歌对于独立于外部人员 印度尼西亚 电话号码数据库 的帮助最好是以自动化的方式识别知识图谱信息非常感兴趣。已经有一些迹象表明谷歌不断为其自己的机器学习系统获取经过人工验证的训练数据以便更快地识别和分类实体。例如谷歌还拥有哈佛大学和梅奥诊所的教授和医生交叉检查的医疗盒信息然后将其发布在知识图盒中。这种手动检查也可以用于监督机器学习以改进算法。谷歌还可以提供搜索评估者质量评估者的反馈作为其自己的机器学习算法的宝贵训练数据。结构化数据作为算法的人类训练数据谷歌未来将越来越多地尝试独立于网站管理员行事的另一个例子是相对作者标记。
在我看来这种标记对谷歌来说只有一个目的。在本例作者中识别代表某些类型实体的模式。这些信息和标记是由人们主要是和网站管理员创建或输入的因此是经过验证的训练数据供使用机器学习算法根据这些模式为作者创建模型组。因此谷歌在某个时候停止追求或项目也就不足为奇了。最初是由人们提供根据基本语义结构创建的数据。一方面这为谷歌提供了一个语义游乐场和足够的经过人类验证的机器学习算法训练数据。但只是达到目的的一种短期手段。不需要结构化数据和的最新发展也表明结构化数据只能是一个中途停留更愿意以网站管理员和奖励的形式放弃这项额外的工作。