本书首先从分析在线评论入手,同时针对性地考虑了“长尾”产品评论的文本稀疏性问题,构建了从消费者在线评论中提取产品特征和消费者情绪的主题模型;然后在抽取出的产品主题特征(外观、质量等)和情感观点(喜欢、抱怨、无感等)信息基础上,提出了度量具有数值属性和文本属性的数据对象之间相似性的方法;并相应地开发了可以提取多样化结果的搜索算法;最后建立了刻画消费者兴趣偏好的用,户分析模型,通过结合用户偏好和产品特征观点,设计了满足消费者个性化需求的搜索算法。
为了解决网络消费者面临的信息过载问题,学术界和业界开发了搜索引擎等有效工具来帮助消费者从海量信息中快速获取与消费者查询相关的内容。运用现有方法检索的结果通常相似,这样冗余的信息已经很难满足消费者对多样化信息的需求,极大地降低了消费者的搜索体验。如何增加搜索结果的多样性已经成为大数据时代下信息搜索领域新的研究热点。在Web2.0时代下,在线为消费者提供了丰富的信息,帮助其做出佳的购买决策。通过考虑在线中隐藏的消费者评价信息,在搜索结果中生成一些产品评价特征相似的替代选项,不仅有利于增加搜索结果的多样性,而且能够根据消费者的兴趣偏好,找出对消费者价值更高的产品选项。然而,目前基于在线的搜索结果多样性研究仍然处于探索阶段。
本书从挖掘在线入手,构建了面向长尾产品的特征-观点挖掘模型。不同于以往的研究,该模型刻画了文档级别的情感特征分布,提出了基于多词性标注的大熵模型特征函数方法,并结合单词共现模式对长尾产品特征词和消费者观点行了的识别与区分,设计了吉布斯采样算法对模型参行求解,同时提出了的k-medoids算文行分类。在提取出的产品特征-观点对基础上,本书提出了基于知识注入和条件熵的混合数据相似性度量学。与许多现有方法相比,它通过将从提取的外部知识注入属性内相似度学,更好地捕获文本属性值之间的语义相似度;通过将信息增益比嵌入属性间相似性学,更地刻画属性之间的全局交互关系;通过将数值属性和文本属性统一到相同向量空间下,避免了手动选择反映数值属性或文本属性偏好程度的调整参数,好地保留了属性值的原始信息。在相似性度量的基础上,针对现有密度峰值方法的缺陷,本书提出了基于共享近邻的EDPC(Enhanced Density PeaksClustering)算法对数据对行搜索,通过考虑数据空间中对象的局部结构,降低了算法对空间密度和维度变化的敏感度。本书建立了刻画消费者兴趣动态偏好的消费者分析模型,通过结合消费者偏好和产品的特征、观点,设计了满足消费者个性化需求的搜索算法。同时,本书探讨了新背景下全机制研究的机遇与挑战。
本书承蒙国家自然科学(72101031、71871177)和国家研发计划(18YFB1703001)的资助,在此对研究的大力资助深表感谢,同时由衷地感谢科学技术文献出版社在本书编辑和出版过程中所做的各项工作。
由于笔者水平有限,本书还存在一些不足之处,恳请广大读者批评指正。
黄鑫,年毕业于西安交通大学,获得管理学博士学位,现为师范大学信息管理系讲师。目前主要研究方向为结合运筹优化与机器学能决策分析,社会科学中机器学的应用。现主持 自然科学青年项目“消费者行为数据驱动的新企业 线下融合的 机制研究”1项。在《Knowledge-Based Systems》、《IEEE Transactions on Engineering Management》、《Computers & Industrial Engineering》等 知名期刊上文多篇,在企业集成信息系统 大会IFIP CONFENIS、COMPUTERS AND INDUSTRIAL ENGINEERING等高水平 会议上发表多篇学术论文。
1 大数据时代搜索技术面临的挑战
1.1 研究背景
1.2 研究问题与意义
1.3 研究内容与技术路线
2 个性化搜索的研究动态
2.1 在线的有用性研究
2.2 基于数据的搜索结果研究
2.3 搜索结果多样性相关研究
2.4 研究评述
3 面向长尾产品的特征-观点挖掘模型
3.1 问题描述
3.2 面向长尾产品的特征-观点挖掘模型构建
3.3 实验结果分析
3.4 本章小结
4 基于产品评价特征的多样化搜索结果识别研究
4.1 问题描述
4.2 预备知识
4.3 混合数据的统一相似性度量问题研究
4.4 多样化搜索结果识别算法构建
4.5 实验结果分析
4.6 本章小结
5 基于消费者动态偏好的多样化搜索结果识别研究
5.1 问题描述
5.2 消费者动态偏好分析模型构建
5.3 搜索结果大相关-多样性问题研究
5.4 实验结果分析
5.5 本章小结
6 基于消费者在线查询的问题研究
6.1 问题描述
6.2 基于在线查框架构建
6.3 实验结果分析
6.4 本章小结
7 新背景下全机制研究的机遇与挑战
7.1 新背景下全机制研究的意义
7.2 全机制研究梳理
7.3 现有研究的不足与未来的研究方向
8 结论与展望
8.1 研究结论
8.2 研究展望
参考文献
1大数据时代搜索技术面临的挑战
1.1研究背景
1.1.1大数据时代下消费者对信息多样性的需求
来,信息技术和互联网应入蓬勃发展期,以“互联网+”为代表的互联网思维催生出云计算、物联网、大数据等诸多颠覆技术。这些前沿技术被广泛地应用到了经济与社会发展的方方面面,给各个传统行业带来了的变革,这也导致整个社会的信息量呈指数形态疯狂增长。IDC①18年发布的《数据时代25》白皮书中的数据显示,18年全球产生的数量达到了33ZB,到25年,全球数据规模预计将会增长到175ZB,在这8年间全球数据规模将以平均每年26.9%的速度不断膨胀,如图1-1所示。虽然高速发展的互联网和信息技术为网络消费者带来了丰富的信息,但是消费者自身有限的信息处理能力,使得消费者很难从海量的信息中寻找并发现自己感兴趣的相关内容,这种现象被称为信息过载问题(Eppler et al.,04)。以电子商务网站网为例,全球知名的市场研究机构eMarketer 披露的数据显示,截至19年,网在线商品达到10亿件,消费者规模升至7.55亿。消费者要想从这10亿件商品中找到符合自己各种偏好需求的商品并不是一件容易的事情,他们甚至会在搜索商品、做出购买决策的过程中感到不堪重负。另一个鲜活的实例便是在线搜索,根据知名计算机软件供应商Smart insight的调研,谷歌(Google)每搜索量能达到35亿次,也就是说全球消费者每秒钟就行4万多次搜索,消费者想要在短时间内找到符合自己需求的信息绝非易事,为了搜索到自己真正想要的答案其至会花费掉消费者数小时的时间。互联网为消费者提供了无限的信息资源供其浏览,但是通常情况下消费者很难找到与自身需求相关的有用信息(Gao et al,)。
……