--什么是Web数据挖掘

本站首页 管理页面写新日志退出

« Mar.2026 »
日一二三四五六
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

公告

暂无公告...

我的分类（专题）

日志更新

当当天梭表之争看电商渠道价格监控的必要性
什么是网上商城价格离散度
企业竞争情报分析工具--Mozenda研
社会化BI(Social BI)和Tib
什么是游戏化(gamification)
什么是Web数据挖掘
卓越网商品数据分级抓取
抓取京东商城商品价格

留言板

签写新留言

链接

Blog信息

blog名称:
日志总数:8
评论数量:18
留言数量:0
访问次数:72456
建立时间:2009年4月22日

什么是Web数据挖掘　
原创空间, 读书笔记, 软件技术, 电脑与网络

FullerHua 发表于 2011/1/30 11:05:54

今天读了一篇长E文Web Content Mining，从题目看好像没有什么特别，也许是普通的商业软文，但是，看了第一段后发现是关于Dr. Bing Liu of the University of Illinois Chicago的，所以打足精神一句一句把它读完。第一次遇到Bing Liu这个名字是在一年前，华中科技大学一博士朋友推荐给我《Sentiment Analysis and Subjectivity》这篇综述，就是Bing Liu写的，然后又阅读了《Opinion Spam and Analysis》。都是翻来覆去精读，因为几年前就想着手开发一个web数据挖掘软件，主要用于企业竞争情报分析，酝酿了很多年都不敢下手，理论性太强，担心吃不透或吃不准。直到2009年底开始陆续接触了几个网络舆情监测项目，也承接了好几个行业的类似项目，才下定决心投入SliceProfile的开发，这个项目投入巨大，资源投入十分集中，但开发周期很短（5个月），因为整个框架早就在头脑中酝酿成型了，尤其阅读《Sentiment Analysis and Subjectivity》获得的灵感更多，还阅读了大量引文，再三权衡学术和商业的分界线的位置。所以今天看这篇文章的动力决不是因为有中国名字的人写了一篇E文而已。这篇文章好像是对刘博士新书《Web Data Mining》的介绍和读后感，没有读过这本书，所以这篇文章的部分内容没有理解，而且有些观点不知道是刘博士的还是文章作者的。一些重要结论和一些本人的疑惑一并记录下来，作成一篇读书笔记。 Web数据挖掘的种类刘博士将Web Data Mining分成三类： Web Usage Mining：挖掘用户访问网站的行为模式，例如，挖掘clickstreams，可能会用到用户TCP/IP地址和用户帐号信息，以便做关联分析 Web Structure Mining：挖掘超链接背后的知识，例如，分析web信息是怎样聚类的 Web Content Mining：从网页内容挖掘知识 Web内容挖掘要做哪些工作根据这篇文章，要达到Web内容挖掘的目的，需要做： Structured Data Extraction：结构化数据提取 Information Integration：信息集成（结构化的信息） Opinion Mining(Information Extraction)：观点挖掘（非结构化的信息抽取）什么是结构化数据提取读到这一段，首先感慨刘博士写书不是凑的，还真有些实践体验，例如，关于从亚马逊（amazon.com）上提取商品列表和商品详细信息这类活动，应该是我们这些信息劳工常做的事。引出了一个概念：entity，但是没有搞懂对实体（entity）的界定与数据挖掘是什么关系，为什么要讲这个概念。然后讲到结构化数据挖掘和非结构化数据挖掘，更是一头雾水。 wrapper induction这个词感觉是给MetaSeeker的协同式网页信息提取提供了理论支持，因为在信息提取领域HTML Wrapper一般是指将网页内容进行结构化提取的软件。但是，文章的解释： The word inductive means guessed, and therefore wrapper induction implies guessing the text which frames a structured data object. 确实没有领会guess是指什么。根据刘博士的胶片（slides），wrapper induction采用监督学习方法（supervised），看来真的是“guess”，需要读一下他的书去仔细领会下。关于非结构化数据挖掘比较容易理解，automatic extraction正是GooSeeker现在的研发方向，我认为很有价值且能指导我们研发规划的一句话： Algorithms exist for this purpose, but I believe this area could be more customized when someone has a specific scientific goal in mind. 什么是信息集成文章用机票搜索服务为例说明信息集成需要解决的问题，GooSeeker网站上的比价系统案例也需要解决信息集成问题。从不同网站上提取到的信息进行比对，识别出同义内容，例如，京东和卓越上的同一个商品用不同标题和不同的产品描述，需要识别出来。文章提到了多种方法： make a bridging assumption：按我的理解就是一些映射或者转换规则 query probing：按我的理解就是将上述的转换规则封装成一个服务或者模块，由它进行转换。只是模块化更好，可能就像corba或者SOA一样给人展示一幅看起来很美好的图画。通过计算相似性来做聚类：似乎太高科技了。不过在比价系统中我确实想用这种方法尝试一下，可以用比较简化的方法，例如，通过一些特征词构成的向量空间，计算向量夹角也许能行。根据刘博士的slides，信息集成被清晰地分成两类： schema match：将不同表的字段进行匹配，识别出元数据语义相同的字段来 data instance match 什么是观点挖掘本文开篇提到的刘博士的那两篇文章都是有关观点挖掘的，根据我使用SliceProfile部署奇瑞汽车和中信信用卡危机监测和舆情分析系统的感受，主观倾向性分析的准确度很难提高，而且客户的理解和要求也各不相同。普通的文本分类算法效果比较差，不得不增加大量的规则进行修正。结论也许Web Content Mining的作者有其独特的经历和视角，所以文中有些观点一时难以理解，看来还是有必要直接阅读刘博士的新书《Web Data Mining》。更多参考资料：包括视频。

阅读全文(5711) | 回复(1) | 编辑 | 精华

回复:什么是Web数据挖掘
原创空间, 读书笔记, 软件技术, 电脑与网络

Trust Dating(游客)发表评论于2011/7/11 21:49:50

正想做WEB数据挖掘呢，谢谢了。

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

» 1 »

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.723 second(s), page refreshed 144809785 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号