该专利是关于使用机器学习模型的规则创建的可搜索索引。
这使得机器学习模型的人工智能和逻辑可以体现在易于搜索的索引中。
而经典的信息检索方法能够通过索引有效地检索数据。
这种组合可以减少那些本来会被信息检索系统淘汰但会被机器学习模型高度评价的候选人的损失。
专利中的技术可以使用利用监督学习(例如人工智能)开发的机器学习模型。 B.标记训练数据。
这些标记的训练数据可以输入机器学习系统,以生成用于评估的机器学习模型。
标记的训练数据可以包含 手机数据 输出/结果和与特定实例相关的属性。
分数和结果可能是无单位的数值、百分比、频率或其他量化。
ML 模型可以创建一个或多个规则。
创建 SERP 的示例规则
此示例似乎是为响应搜索查询而显示的视频而设计的。
规则可以包含结果/输出、一组特征和一个概率。例如,规则:
(关键词:auto,视频:autofabrikant_1)。fwdarw.0.03
这告诉我们,当搜索者在搜索引擎中输入搜索词“汽车”(功能)并且用户返回有关汽车制造商_1的视频(结果)时,用户选择观看该视频的可能性为 3%(概率)。
该专利描述了可搜索索引中 房地产营销策略将如何发展 的条目可以包含文档和可搜索的标记。
我们还知道,机器学习的基于标记的索引中的标记可以称为索引标记。
并且索引标记可能包含或不包含关键字。
例如,索引可能包含包含关键字“car”的标记,以及不包含关键字但与其他特征(例如位置、语言和浏览器设置)相关的其他标记。
在这种情况下,特征可以包含有关用户的任何已知信息,例如:例如用户输入的搜索词、用户设置的浏览器配置等。
特征也可以是一般状态信息,例如:乙:
- 一天中的时间
- 地理位置
- ETC。
网站可以按如下方式创建条目:
web_page_1:[文本:boxcar,4.0],[图像:train,2.0]
该条目表示网站(“web_page_1”,一个文档)的某个页面 加拿大數據 包含四次文本字符串“boxcar”和两张火车图像。
因此,标准的基于规则的机器学习模型可以表示为一组具有评级的文档和标记。
下面的规则给出了示例:例如,考虑一下在搜索引擎中输入搜索词“汽车”的用户选择有关特定汽车制造商的视频的概率:
(关键词:汽车,视频:汽车制造商_1)。fwdarw.0.03
(关键词:汽车,视频:汽车制造商_2)。fwdarw.0.05
这些规则可以成为包含每个视频的一组可搜索标记的条目,例如乙:
汽车制造商_1:[关键词:汽车,0.03]
汽车制造商_2:[关键词:汽车,0.05]
一个条目可以包含一个结果(例如“Car manufacturers_1”)、标记(例如 keyword:2Car)和一个权重(例如 3%)。
这些标记可以基于机器学习规则中特征的出现。
评级可能对应于由于某些特征的出现而导致输出发生的概率。
所描述的方法可以消除单独的信息检索步骤的需要,并使用机器学习模型评估所有结果。
与仅基于信息检索的传统搜索结果输出相比,这可以使搜索结果更适合搜索者,例如例如基于用户特征、搜索上下文等。
例如,可以将特征与特定用户相关联。
例如,可以使用特征(搜索查询、用户位置(欧洲、美国)以及搜索者是否具有高带宽连接)的存在(1)或不存在(0)。
机器学习模型可以包含表示不同特征对结果概率的相对贡献的分数。
从特征的相对贡献到用户选择特定视频广告观看的概率。
用户 B 的关键词“car”和“america”与视频 C 的这些特征的权重(分别为 0.5 和 0.2)相结合,可用于预测用户 B 选择观看视频 C 的概率
可以计算出每个搜索者选择观看不同视频的概率。
规则可以考虑至少一个特征与特定结果发生的概率的相关性。
根据特征的不同组合的出现,可以生成许多规则。
根据规则中的特征,可以生成一组标记。
此类标记的示例有 [关键词:汽车]、[位置:欧洲] 和 [带宽:高]。
可以考虑与规则中的一组特征相对应的标记,并将其与特定结果的概率结合进行索引。
标记 [关键词:汽车]、[位置:欧洲] 和 [带宽:高] 与视频 C 被选择观看的概率有 4% 相关:
视频 C:[关键词:汽车、地点:欧洲、带宽:高、0.04]
此信息可以与从其他规则得出的其他结果一起存储为可搜索的索引条目。
然后可以使用标准信息检索方法搜索根据这些结果创建的索引。