“用户喜欢搜索2013、韩版、连衣裙、碎花、田园这些词,但实际到了商品词的描述时,绝大部分用户描述不清,淘宝搜索的第一屏全是密密麻麻的勾选,就是为了帮助用户精准描述。所以,如何让用户更快更好地找到搜索结果,是一个很好的课题。”语言不能搞定的事情,必须靠图片去解决。
视觉搜索比文本搜索难得多
然而,这是一个比文本搜索难得多的课题。“首先要对图像进行特征提取,让机器知道图片里是个什么东西,同时还需要让机器接受大量的训练。”林建聪告诉《天下网商·经理人》记者。
这一训练背后的原理是虚拟网络神经元,通过模拟人的神经中枢,使得机器具有视觉能力。用专业术语来表述,便是机器视觉。
林建聪以一个比喻简洁地解释机器视觉:一张张图片在计算机的数据库中好比一串串DNA密码,每张图片都有其特定的序列,当搜索引擎输入一张新的图片时,后台便会进行一系列的DNA密码比对,特征重叠达到一定程度,相应的图片就会被认为是吻合的,并按照相似度给出排序。
为了给图片的特征编码,淘淘搜需要将一张张原始图片切割成非常小的像素点,而不同的切割方式决定了机器最终的识别效果。这一系列技术,涉及一门叫做“深度学习”的算法。
机器视觉是巨头涉足的领域,百度为深入研究“深度学习”算法,特地在苹果总部的所在地美国库比蒂诺市设立了IDL(Institute of Deep Learning)研究院。研究的目的之一就是利用“深度学习”研究成果改善百度搜索引擎中的图像检索功能,抢占未来的图像搜索市场。
谷歌更是在短短几年时间内,陆续收购了七八家涉足图像识别的技术公司,并试图以产品谷歌眼镜抢占未来的入口。
图像搜索和识别的远景堪称宏伟。麻省理工学院的科学家五年前就已经研发出能根据人的面部表情变化做出相应反应的机器人Nexi,这为著名科幻电影《人工智能》里的机器小男孩在现实中的出现提供了可能。
从技术驱动转向应用驱动
跟所有搜索公司一样,淘淘搜建立一个数据库:先导入大量网页图片,再将数据库中的图片过滤和合并,随后提取出所有图片的特征,形成索引和序列。当用户搜索一张图片时,淘淘搜会根据图像的特征从数据库里调取并排序。
作为一家应用驱动的技术型公司背后的困难:做图像搜索的应用,面对的是数以亿计的图片,想要让搜索更精确,必须有一些辅助手段。
与数据量级相对较小的人脸搜索相比,淘淘搜所涉及的服装服饰的搜索更为困难。以衬衣为例,其质量好坏与织物的密度有关,但密度的高低更多要靠手感,靠单纯的 机器视觉无法识别。再比如,搜索引擎的数据库更新都有一定的时间延迟,往往会出现用户发送了搜索请求,淘淘搜搜索到图片,而用户点击链接到淘宝后,却发现 该款商品已经下架的情况。
此外,跟所有图像搜索遭遇的问题类似,商品的色彩、图案是最容易被优先识别的,其材质、版型的识别则显得较为困难。
对这一系列问题,淘淘搜的解决方案颇为务实。“除了图片搜索,我们还会借助文本来进行分析,做出二次过滤。例如,用户搜索的是一款雪地靴的图片,但如果他随 后输入品牌UGG,搜索结果就能将不符合的图片过滤掉。”林建聪告诉《天下网商·经理人》记者,“十八般武艺全上,技术只是其中一种手段。”
除了提高分析的速度外,林建聪还希望通过提供尽可能多的相似款来解决用户难以找到相同款的问题。“用户搜索往往是冲着一件衣服的某一项或几项特征去的,比如 T恤,用户看重的无非是领型和图案,而连衣裙是否收腰、是否包臀这类表现曲线的设计很重要,所以,我们按照类目,列出不同类目的特征元素,建模的时候建立 权重配比,告诉机器哪一类的哪些权重更高一些。”
建模的背后是一套相似度权重的设计。
这项调研分为理性和感性两方面,理性打分单纯考察搜索结果的款式、图案、色彩与输入图片的相似度,而感性打分只有0和1两项,单纯地考察商品的“神似度”。通过不断测试,一点点优化搜索结果。
十八般武艺都用上的结果是,淘淘搜的转化率相对其他搜索方式出奇地高。“我们平均每个类目的搜索转化率,都比单纯的文本搜索要高出30%左右。”
因场景制作解决方案
自2012年底淘淘搜开始独立运营以来,除了一部分淘宝客和广告收入,目前仍处于投入阶段。而林建聪思考最多的,依然是如何满足用户需求,为不同的场景提供 不同的解决方案这一问题。在此之前,淘淘搜PC端有官网和插件淘淘搜比价服务用户,但在移动端,产品无疑有更大的想象空间。于是,淘淘搜开发的App顺势 上线,完成了“搜索引擎+网页插件+ App”的布局。
在移动端,淘淘搜的App“帮我找”解决这样一类问题:当你在路上遇到有人穿着一 件好看的衣服,却又不知道去哪里淘时,只需用手机拍下照片,打开“帮我找”输入图片,就可以搜索购买。这样的以图搜图场景无疑比网页版的比价功能具有更大 的想象力,却也面临着更多复杂的情境。
更多淘宝内容 ,欢迎进入e良师益友网
淘宝用图片搜索宝贝可以吗?
评论
17 views