以文本方式查看主题

-  W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术 』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  一位数据挖掘成功人士 给 数据挖掘在读研究生 的建议  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=48189)


--  作者:DMman
--  发布时间:6/8/2007 10:06:00 AM

--  一位数据挖掘成功人士 给 数据挖掘在读研究生 的建议
来自 http://blogger.org.cn/blog/more.asp?name=idmer&id=15785#53359

关于数据挖掘领域的研究   
   
数据挖掘者 发表于 2006-6-23 12:26:02  

这个是我回复北京某大学一位研究生的eMail,讨论数据挖掘领域研究选题的一些个人观点,欢迎大家批评指正。

原信:(2006-6-7)
====================================

师兄:

     你好
     我所学专业为数据挖掘,很想在这方面有所作为,但是一段时间发现效果不佳,我觉得我对整个领域不是很了解,师兄能否谈谈如何经过怎样的努力,才可能在两年后,三年后有高水平的论文和研究成果出来呢?能否谈谈您当前学习的方法和数据挖掘领域就业的想法呢?

    My honor to have your reading, really.


    ohmyfuture
    北京邮电大学计算机学院
回复:(2006-6-12)
====================================

ohmyfuture,

  最近一直很忙,抱歉回信晚了。

  关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等研究方向不同的是,数据挖掘更侧重于应用的层面。

  因此来说,数据挖掘融合了相当多的内容,试图全面了解所有的细节会花费很长的时间。因此我建议你的第一步是用大概三个月的时间了解数据挖掘的几个常用技术:分类、聚类、预测、关联分析、孤立点分析等等。这种了解是比较粗的,目标是明白这些技术是用来干什么的,典型的算法大致是怎样的,以及在什么情况下应该选用什么样的技术和算法。

  经过初步了解之后,就要进入选题的阶段,选择自己感兴趣的某个具体方向,然后通读该方向的经典论文(综述、主要发展方向、应用成果)。选题阶段可能会花费较长的时间,比如一年。此时,要逐渐明确突破点,也就是将来你论文的创新点。创新对于研究来说非常重要,一方面该创新的确比原来的方法要好,另一方面该创新的确具有实用的价值。

  随后,就要来实现自己的想法。通常对于硕士论文来说,需要建立原型系统,进行试验,并用试验结果来支持自己的论文主题。原型系统就是对自己创新点的实现,需要很好地设计和开发。需要注意的是,原型系统的建立和开发商用系统不同,需要体现比较好的理论基础。也就是说,原型系统并不是简单地用于实现功能,而是将你的一整套理论付诸实现。这种理论基础也将会包含在你的论文中,以体现论文的理论高度。

  原型系统的搭建以及产生令人信服试验结果,这个过程一般需要至少一年的时间。所以要集中精力于核心部分(体现论文创新点的部分),外围的界面等等不应投入太多的精力,以免进度失控。

  最后是论文的整理和写作了。建议你在之前的阶段中逐步先写出一些篇幅较短的论文(用于发在期刊、会议上),比如综述、体系框架、算法内核、应用等等。这样在最后写毕业论文时就有了足够多的内容,会写得更好更快一些。

  以上只是泛泛而谈。其实我觉得其中的关键点在于选题,而选题的好坏取决于你对数据挖掘研究现状的了解、你的兴趣和专长、以及该方向在应用上的意义。建议你和导师、同行多交流,能够让自己的方向更清晰。

  至于数据挖掘领域的就业,应该来说还是前景不错的。如果你对研究有兴趣,象微软研究院、Google、高校研究所都是不错的地方;如果你对实际应用有兴趣,很多大的公司包括IBM、Accenture、亚信等等都有相应的人力需求,当然一些甲方的单位比如证券、保险、金融等等单位也都需要分析人才。

Best Regards,
Sunstone Zhang

[此贴子已经被作者于2007-6-8 19:27:26编辑过]

--  作者:sangyei
--  发布时间:6/14/2007 5:00:00 PM

--  
有启发性,前人的经验可以让后人少走弯路.
--  作者:eyounx
--  发布时间:6/14/2007 5:15:00 PM

--  
看到有人说写综述,想说一声,综述是由一个领域的前瞻性大师写的,综述不仅仅是简单的把以前别人的工作总结一下,要对这个领域有深刻的理解,才能理出发展得脉络,指出潜在得问题和前景。刚入门几年的学生写不了好综述,写出来得也没有人看,如果是投到比较有名的杂志会议上,反而会对作者产生不利的影响。
--  作者:zhou123456
--  发布时间:6/14/2007 6:02:00 PM

--  
谢谢,学习了
--  作者:zhengfrance
--  发布时间:6/15/2007 3:05:00 PM

--  
to eyounx:
引用
看到有人说写综述,想说一声,综述是由一个领域的前瞻性大师写的,综述不仅仅是简单的把以前别人的工作总结一下,要对这个领域有深刻的理解,才能理出发展得脉络,指出潜在得问题和前景。刚入门几年的学生写不了好综述,写出来得也没有人看,如果是投到比较有名的杂志会议上,反而会对作者产生不利的影响。

说的很对


--  作者:vipsupply
--  发布时间:6/18/2007 1:55:00 PM

--  
找到出路了
--  作者:lovezhou_2006
--  发布时间:7/7/2007 9:57:00 AM

--  
谢谢大师们!!
--  作者:nana_2007
--  发布时间:7/7/2007 8:04:00 PM

--  
我的毕业设计打算做数据挖掘,不过我现在还什么都不会呢
--  作者:clentor
--  发布时间:7/9/2007 9:08:00 AM

--  
现在研究生教育哪给你这么多时间在论文上....
--  作者:lly6614
--  发布时间:7/16/2007 9:49:00 PM

--  
目前的我,一开始的选题不是很好,费时费力,最后老师建议改变一下想法。
看来有时选择比努力更重要。
--  作者:DMman
--  发布时间:7/17/2007 8:44:00 AM

--  
没有努力的尝试 也是很难确定选择的正确与否
--  作者:qyn
--  发布时间:7/28/2007 12:06:00 PM

--  
题倒是选定了,信息抽取,现在在艰难的做下去
--  作者:nalfs
--  发布时间:8/18/2007 9:22:00 AM

--  
有启发。谢谢!
--  作者:chairmanwei
--  发布时间:8/19/2007 9:37:00 AM

--  
都快研二了,还没有选题,着急啊。。。
--  作者:DMman
--  发布时间:8/19/2007 4:50:00 PM

--  
不用着急啊 偶也没选题啊;
春节回来才选呢。
--  作者:why4000
--  发布时间:8/23/2007 8:05:00 PM

--  
学习了一下
--  作者:woshishui106
--  发布时间:8/24/2007 1:26:00 PM

--  
听君一席话,胜读十年书啊!
不错,不错!
--  作者:haofila
--  发布时间:8/26/2007 2:10:00 PM

--  
谢谢
--  作者:listeningsea
--  发布时间:8/30/2007 10:14:00 PM

--  
不错
正迷茫中,看到这篇文章,感觉很有指导意义。
--  作者:hongma
--  发布时间:9/1/2007 6:55:00 PM

--  
集中精力于核心部分(体现论文创新点的部分),
这个比较南啊!
--  作者:skalidis
--  发布时间:9/7/2007 8:40:00 PM

--  
集中精力于核心部分(体现论文创新点的部分),
这个比较南啊!
______________________________

楼主不如谈谈自己的研究之路让我们学习一下更有价值。


--  作者:DMman
--  发布时间:9/7/2007 9:54:00 PM

--  
以下是引用skalidis在2007-9-7 20:40:00的发言:
______________________________

楼主不如谈谈自己的研究之路让我们学习一下更有价值。



   楼主自惭,正在宽泛的学习数据挖掘,还没有确定具体研究方向。
   我觉得要想确定好的方向,首先应该宽泛了解。然后准备大点的数据集,对算法做实验,观察比较结果。只有把自己的想法付诸实验,才有可能找到有价值创新点。有些论文号称对算法做了有价值的改进,但是他所说的改进部分恐怕还不如不改进时的性能。固然如此,思路可贵。
   数据挖掘基本都是平时挤出时间自学,导师安排任务多的时候自己时间少,学习缓慢。
   知识积累中...

--  作者:bluebirdme
--  发布时间:9/9/2007 2:41:00 PM

--  
我就是刚入门的,现在看得是云里雾里的。
--  作者:realcs
--  发布时间:9/11/2007 4:08:00 PM

--  
我们老师说,写综述怎么也得在这个领域是个有点影响的人物,否则千万别写。

--  作者:realtaotao
--  发布时间:9/12/2007 9:02:00 AM

--  
我觉得这个建议倒好像是给这个方向的博士研究生的建议,硕士研究生的主要目标应该是掌握技术,博士研究生的主要目标是理论创新,然后用硕士阶段掌握的技术来实现。
--  作者:DMman
--  发布时间:9/12/2007 10:59:00 AM

--  
以下是引用realtaotao在2007-9-12 9:02:00的发言:
我觉得这个建议倒好像是给这个方向的博士研究生的建议,硕士研究生的主要目标应该是掌握技术,博士研究生的主要目标是理论创新,然后用硕士阶段掌握的技术来实现。

硕士的论文也要体现创新点啊
--  作者:jordan.z
--  发布时间:9/18/2007 3:42:00 PM

--  
对我的毕业论文有帮助
--  作者:Cat_Dim
--  发布时间:9/20/2007 1:29:00 PM

--  
楼主的话: 我觉得要想确定好的方向,首先应该宽泛了解。然后准备大点的数据集,对算法做实验,观察比较结果。只有把自己的想法付诸实验,才有可能找到有价值创新点。

很有道理啊! 刚来这里,请各位同仁多多指教!!


--  作者:twwwgauts
--  发布时间:9/21/2007 9:13:00 PM

--  
有启发,谢谢
--  作者:hinder
--  发布时间:9/26/2007 9:57:00 PM

--  
我的毕业设计打算做数据挖掘,不过我现在还什么都不会呢
--  作者:yxxzl1982
--  发布时间:10/7/2007 10:29:00 AM

--  
同意3楼的
--  作者:tyhoho
--  发布时间:10/14/2007 5:21:00 PM

--  
说的很好
--  作者:yumin1983
--  发布时间:1/16/2008 11:09:00 PM

--  
请问下大师:聚类可有研究前景阿?把聚类应用到电子商务里面,我的研究方向就是这个,但感觉文章也不太好写,看过许多文章,也只是提出一些理论框架,并没有具体的实现。比较宽泛。。。
--  作者:fichellewff
--  发布时间:1/22/2008 3:32:00 PM

--  
产论文可不能真的做学究,时间限制,俺们又不是老板
--  作者:wowolee
--  发布时间:2/27/2008 10:32:00 AM

--  
前人很好的建议
--  作者:drizzitt
--  发布时间:2/27/2008 7:01:00 PM

--  
我一直期待有一个很好的科研环境,当然可能是我自己没去寻找,没去创造。
感谢楼主的分享
--  作者:zhumzhu
--  发布时间:3/13/2008 10:50:00 AM

--  
说的很好
--  作者:waza
--  发布时间:3/18/2008 11:09:00 AM

--  
看看
--  作者:lchsi324
--  发布时间:3/20/2008 12:02:00 PM

--  
谢谢
--  作者:lchsi324
--  发布时间:3/20/2008 2:29:00 PM

--  
dddd
--  作者:krens
--  发布时间:3/20/2008 7:55:00 PM

--  
正在选题时,不知从何下手中。。
--  作者:mcat
--  发布时间:3/20/2008 9:32:00 PM

--  
需要做数据挖掘呢~好好学阿
--  作者:zjfxx2901
--  发布时间:3/26/2008 3:31:00 PM

--  
THANKS
--  作者:zjfxx2901
--  发布时间:4/2/2008 3:18:00 PM

--  
Thanks!
--  作者:aduderek
--  发布时间:4/5/2008 1:20:00 AM

--  
非常感谢
--  作者:moonlight_1013
--  发布时间:4/6/2008 8:52:00 PM

--  
选题真的好难,找不到切入点
--  作者:周驰
--  发布时间:4/8/2008 10:13:00 PM

--  
周期太长了吧。。
--  作者:fighterchaung
--  发布时间:6/17/2008 10:40:00 AM

--  
to eyounx:
引用
看到有人说写综述,想说一声,综述是由一个领域的前瞻性大师写的,综述不仅仅是简单的把以前别人的工作总结一下,要对这个领域有深刻的理解,才能理出发展得脉络,指出潜在得问题和前景。刚入门几年的学生写不了好综述,写出来得也没有人看,如果是投到比较有名的杂志会议上,反而会对作者产生不利的影响。

说的不错!我也听过好几个导师和教授有这样的见解!
但我的看法是:尽管较低水平的综述可能会对你的学术生涯产生影响,但是,这种搜集资料、整理资料,激发自己的观点,并把自己的观点和前人成果融为一体的能力的训练是很重要的。
也就是说,在研究初期,对一个选定方向认真的写出一篇综述,对后面的研究过程是很有意义的。


--  作者:xiaoyatou_00
--  发布时间:9/8/2008 4:42:00 PM

--  
谢谢楼主的建议,对我们这些刚刚入门的人来说很有帮助,谢谢
--  作者:ssbs2004
--  发布时间:9/10/2008 9:08:00 AM

--  
说的很好,谢谢,学习中.
--  作者:Rain2whu
--  发布时间:9/14/2008 11:15:00 PM

--  
学习中

--  作者:dvdface
--  发布时间:10/24/2008 6:49:00 PM

--  
我觉得这种适合硕博连读的人搞的.
现在的硕士太短了, 根本来不及, 反而搞得就业的时候很尴尬
--  作者:smart_stone
--  发布时间:10/26/2008 3:28:00 PM

--  
值得借鉴呀!
--  作者:smart_stone
--  发布时间:10/26/2008 3:29:00 PM

--  
值得借鉴呀!
--  作者:zjfxx2901
--  发布时间:10/30/2008 2:03:00 PM

--  
谢谢
--  作者:zjfxx2901
--  发布时间:10/30/2008 2:04:00 PM

--  
谢谢
--  作者:seasonjie
--  发布时间:11/1/2008 6:46:00 PM

--  看了有些启发
看了有些启发 ,谢了
--  作者:依晶
--  发布时间:11/6/2008 4:04:00 PM

--  
很受启发
--  作者:huangbo2008
--  发布时间:11/12/2008 6:08:00 PM

--  
现在正在做数据挖掘在电子商务中个性化设计,用了java data mining,不知有没有的建议,或者是相关的资料
--  作者:wendyneil
--  发布时间:3/6/2009 1:50:00 AM

--  
同意48楼的观点。
不断地写总结
可以加深自己对已经掌握的知识的理解
让自己更好的把握学习研究的方向
--  作者:maymol
--  发布时间:3/10/2009 2:52:00 PM

--  
谢谢各位大虾的建议
--  作者:shanghz
--  发布时间:3/23/2009 4:06:00 PM

--  
很不错
受教了
我现在一直很迷茫!
--  作者:wt010863
--  发布时间:4/2/2009 6:41:00 PM

--  
学习了》谢谢!!
--  作者:tolixiang
--  发布时间:5/21/2009 6:05:00 PM

--  
THANK Y
--  作者:tolixiang
--  发布时间:5/21/2009 6:05:00 PM

--  
THANK Y
--  作者:依晶
--  发布时间:5/21/2009 10:16:00 PM

--  
真的很感谢
--  作者:青鸟之梦
--  发布时间:6/3/2009 10:03:00 AM

--  
谢谢楼主啦,很好的帖子。支持一下!!!
--  作者:zeb1982
--  发布时间:6/3/2009 11:22:00 AM

--  
创新点啊……还是东西看得太少的缘故吧,都找不到什么创新点。唉~愁啊
--  作者:jane0303
--  发布时间:6/9/2009 3:10:00 PM

--  
借鉴一下
--  作者:lht_1115
--  发布时间:6/25/2009 7:09:00 PM

--  
引用:看到有人说写综述,想说一声,综述是由一个领域的前瞻性大师写的,综述不仅仅是简单的把以前别人的工作总结一下,要对这个领域有深刻的理解,才能理出发展得脉络,指出潜在得问题和前景。刚入门几年的学生写不了好综述,写出来得也没有人看,如果是投到比较有名的杂志会议上,反而会对作者产生不利的影响。

我这样认为,文献综述是一个初学者进入一个新的领域尽快明确方向,理解这个领域的主要知识或原理,发现问题,选择自己的研究方向的前提和基础。是一个人必走的路。如果这一步走不好,对你以后的影响会产生严重的影响。当然,一个初学者在写文献综述的时候,目的要明确——决不是为了发出去,而是在写作过程中加深理解,发现问题!!从而产生一些新的想法,或许能够激发你写出一篇好的论文来。这是我个人深刻体会,有不当之处,请大家批评指正。


--  作者:frandos
--  发布时间:7/3/2009 9:35:00 PM

--  
题倒是选择了
可现在还是比较迷茫
不知道该如何具体下手
--  作者:passionthean
--  发布时间:7/31/2009 5:20:00 PM

--  
不够详细啊,能否提供些参考书目,学习论论坛之类的,那样就跟完美了。
--  作者:07wlm
--  发布时间:9/4/2009 5:08:00 PM

--  
看看~~~~~~~~~~~
--  作者:myacmilan
--  发布时间:9/9/2009 6:11:00 PM

--  
不了解某领域的研究现状,哪里来的选题?通常所说的大量阅读文献,占有资料,就是说的掌握研究现状。
无论什么水平的研究综述,都应该写写,供自己参考。
期刊上的研究综述,实际上有多数是由(博士)研究生写的,老板只是挂名。


--  作者:amay2008
--  发布时间:9/11/2009 10:20:00 AM

--  
能不能推荐好的机器学习前沿的论文?哪种期刊或者会议会有最新的机器学习的相关方向?
--  作者:muyu7823
--  发布时间:10/8/2009 8:15:00 PM

--  
我正在准备题目
有点头大
--  作者:wangkevin
--  发布时间:11/14/2009 10:01:00 PM

--  
谢谢前辈
--  作者:pexia1
--  发布时间:11/18/2009 11:34:00 PM

--  
新手
有启发!
--  作者:lbylwxz
--  发布时间:12/8/2009 3:59:00 PM

--  
感觉选题好难
--  作者:lbylwxz
--  发布时间:12/8/2009 4:02:00 PM

--  
提议:建一个专门讨论数据挖掘问题的群
--  作者:dola
--  发布时间:3/15/2010 3:04:00 PM

--  
恩, 是的,选题是个很难的东东
--  作者:lancxy
--  发布时间:9/3/2010 3:35:00 PM

--  
真牛
我们也招人啊,这样的人才真的是太难招了
各位精英们
北京阳光安吉互联网技术有限公司 高薪诚聘 “Web数据挖掘工程师”
1、对互联网和搜索引擎技术有浓厚兴趣;
2、有大规模数据挖掘、算法分析1年以上技术背景;
3、具有深厚的统计学、数学、人工智能和数据挖掘知识基础;精通数据挖掘方法论,熟练掌握Logistic回归、决策树、聚类等算法及应用; 熟悉数据挖掘项目过程;
4、有很强的分析问题和解决问题的能力,对数据很敏感,具有较好的技术创新能力;
5.具有海量数据挖掘、分析相关项目实施的工作经验
6、有Lucene开发经验或领导技术团队经验者优先。
7.英文水平较佳者优先。
工作地点:北京朝阳区
欢迎大家加入我们,有意向者请和我们联系。
QQ:147372562 联系电话:010-52088868-803
我们期待您的加入!!!
--  作者:ifloat
--  发布时间:10/5/2010 10:53:00 PM

--  
谢谢指点,受教了
--  作者:luoxingxian
--  发布时间:10/19/2010 10:10:00 PM

--  
是张磊博士的,在他的博客中看到过。
--  作者:92960
--  发布时间:10/26/2010 5:54:00 PM

--  
经济、网络等方面的EI检索论文转让
http://www.17winner.com/News/Show.asp?id=174

1.遗传SVR在人民币汇率预测中的应用
2.基于粒子群与支持向量机的水质预测
3.基于RBF神经网络与遗传算法的水资源需求预测
5.基于遗传支持向量机的宏观经济预测
6.基于支持向量机的网络可靠性预测


W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
285.156ms