互联网搜索方法将迎来颠覆性变革
无名氏([email protected])
全文关键字检索的根本缺陷
每天,全球有数亿互联网用户在使用全文关键字搜索服务。豪不夸张地说,没有搜索服务,浩如烟海的互联网信息将无法使用。但是实际上,我们长期依赖的全文关键字搜索服务一直存在着重大缺陷。
例如:如果用户输入同一检索关键字词“NBA篮球比赛直播时间”,实际上存在着两种截然不同的应用功能需求。一种需求是想检索到与“NBA篮球比赛直播时间”相关的所有信息,这时,“时间”一词是揭示目标信息主题的“语义关键词”。另一种需求则是只想检索到NBA篮球比赛直播的具体时间,如“NBA篮球比赛直播:9-30-20:30”,这时,“时间”一词则是指示“9-30-20:30”等类似信息的功能与效用的语用关键词。显然,用户输入同一检索关键词的这两种不同应用功能需求,所指向的检索目标信息有巨大差别。并且,后一种检索需求的应用频率要远高于前一种需求。
问题在于,虽然语用关键词和语义关键词同是组织信息的基本要素,但如果没有语用关键字标签引导,信息发布方往往会忽略提供语用关键词,或者不知道应该提供什么语用关键词,或者发布方和检索方提供的语用关键词不一致。其结果是,按照关键字命中率排序,“NBA篮球比赛直播时间太晚”、“没时间看NBA比赛直播了”等信息会排序在前,而由于发布信息中没有“时间”一词,“NBA篮球比赛直播:9-30-20:30”则只能排序在后。
更为关键的问题是,即使发布用户提供了语用关键字,全文关键字搜索服务实际上也无法判别,当搜索用户输入同一关键字时到底是要的其语义功能,还是语用功能?因此,全文关键字检索实际上是一种不区分关键字语义功能和语用功能的模糊检索。也因此,无论加上多少辅助性技术手段,也无法根本改善全文关键字检索的这一根本缺陷。
语用关键词双十定律
但是,如果仔细研究一下各类语用关键词的使用情况,就会发现一个极有应用价值的普遍规律——语用关键词双十定律:输入任意关键字,其相关信息的常用且通用语用关键词在10X10范围以内。
例如,输入任意搜索关键字(NBA、国家发改委、智能手机、云计算、韩寒、欧美大片 ……),其相关信息的通用且常用分类包括新闻、告示、知识、论坛、产品、服务、人际交往、点播\下载、博客\微博、大黄页。而各类新闻的通用语用关键词包括:标题、行为主体、行为、时间、地点、背景、综述……;各类人际交往(无论是征婚、交友、招聘、应聘……)的语用关键词均包括:标题、交往目的、性别、年龄、职业……(参见下图)。
输入任意关键字 (NBA、国家发改委、智能手机、云计算、韩寒、欧美大片 ……) |
|||||||||||
信息 分类 |
新闻 |
告示 |
知识 |
产品 |
服务 |
人际交往 |
点播 下载 |
博客微博 |
论坛 |
大黄页 |
其它 |
常用 语用 关键字 |
标题 |
标题 |
标题 |
标题 |
标题 |
标题 |
标题 |
标题 |
标题 |
标题 |
无结构摘要 |
行为 主体 |
告示 主体 |
问题 |
产品名 |
服务 标题 |
交往 目的 |
内容 名称 |
… |
… |
类别 |
||
行为 |
告示 要点 |
概念 定义 |
产品 说明 |
服务 内容 |
性别 |
内容 简介 |
… |
… |
机构 设置 |
||
时间 |
告示 地域 |
原理 说明 |
生产商 |
服务 方式 |
年龄 |
主角 |
… |
… |
联系 方式 |
||
地点 |
告示 对象 |
应用方法 |
产品 价格 |
服务 时间 |
职业 |
提供商 |
… |
… |
… |
||
背景 |
… |
… |
… |
… |
特长 |
数据量 |
… |
… |
… |
||
现状 |
… |
… |
… |
… |
爱好 |
… |
… |
… |
… |
||
评论 |
… |
… |
… |
… |
收入 |
… |
… |
… |
… |
||
综述 |
… |
… |
… |
… |
… |
… |
… |
… |
… |
||
其它 |
其它 |
其它 |
其它 |
其它 |
其它 |
其它 |
其它 |
其它 |
其它 |
||
数据类型:网页□ 文档□ 图片□ 视频□ 结构化数据□ |
双十定律的重大应用价值
虽然双十定律并不复杂,但可以毫不夸张地说,语用关键字双十定律的发现,将彻底改变互联网信息的组织和检索方式。
首先,利用语用关键词双十定律,可以提供一个互联网信息发布、检索通用的语用关键词模版,通过信息发布、检索用户对语义关键词和语用关键词的自由组合应用和搜索技术的交叉检索,可以用最小的用户操作成本,最大限度地提高信息检索的精准度(每增加一个语用关键词组合机会,信息的检索精准度就会提高一倍。)
其次,在这个通用语用关键词模板导航下发布的信息,实际上已经可以构成各种互联网信息通用的核心数据。于是,信息检索将不再需要全文检索,而只需要对核心数据进行检索。这将极大地降低互联网信息搜索服务成本(只有全文关键字检索的几十或几百分之一)。
第三,语用关键词模板导航下发布的核心数据可以自由链接各类云存储文件(文本、图片、视频、音频、结构化数据),解决互联网数据云存储服务的关键性瓶颈,实现互联网信息云存储服务的大规模普及应用。
第四,语用关键词导航服务将波及到互联网应用的各个层面。例如,通过语用关键词导航,被广泛应用的超文本链接也可以实现更为丰富和精准的多点超文本链接,从而进一步提高互联网信息的组织效率;例如,语用关键词应用显然和电子商务有着天然的应用接口。例如,广告投放重点将从全文关键字检索结果页面投放转向核心数据通讯中投放,而数据发布方将可能直接参与广告获利(因为提供核心数据发布、检索服务的成本实在是太低了)……。
前所未有的知识产权大战
简而言之,语用关键字双十定律的发现给我们指明了一条根本改善互联网信息组织、检索效率的光明大道。因此,随着双十定律和更多语用关键字应用规律的发现,语用关键词应用将肯定会被提高到互联网信息组织、检索的核心层面。语义关键词与语用关键词的组合应用,必将使互联网信息的组织、检索、通讯方式发生一系列深刻变革。可以预料的是:这些根本变革将产生一系列重要的发明专利和知识产权,并有可能导致互联网巨头的重新洗牌。换句话说,相关核心知识产权掌握在谁的手中,谁将最有机会成为明日的互联网巨头。