以文本方式查看主题

-  W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL  (http://bbs.xml.org.cn/index.asp)
--  『 人工智能 :: 机器学习|数据挖掘|进化计算 』  (http://bbs.xml.org.cn/list.asp?boardid=62)
----  关于数据集与源代码  (http://bbs.xml.org.cn/dispbbs.asp?boardid=62&rootid=&id=23401)


--  作者:eyounx
--  发布时间:10/21/2005 12:56:00 AM

--  关于数据集与源代码
任务繁重,好久没有来这里了,真是愧对版主职责。

看到很多人要数据集和源代码,这里说几句,

UCI数据集是一个常用的标准测试数据集,下载地址在
http://www.ics.uci.edu/~mlearn/MLRepository.html
我的主页上也有整理好的一些UCI数据集:
http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip

在看别人的论文时,别人使用的数据集会给出数据集的出处或下载地址(除非是很机密的数据,例如与国家安全有关)。如果你看的论文没有给出数据集的出处,请立即停止看这篇论文,并且停止看刊发这篇论文的期刊上的所有文章。因为可以断定这些文章质量很差。

关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
http://www.cs.waikato.ac.nz/ml/weka/
很多的机器学习的经典算法都在里面。而且公布源程序,易于修改。

如果作者没有公布源程序,可以到作者主页找找,也可以写信给作者要,一般论文开头都会有作者的email地址。写信的时候要注意要很有礼貌,否则作者,尤其是著名学者,很有可能不会理睬。如果算法简单,可以自己实现。

关于论文的下载,如果能够访问电子图书馆是最好的,很多学校都买了IEEE, Elsevier, Kluwer等,上面的期刊都不错。有一些很好的期刊是免费的,像JAIR和JMLR,分别在:
http://www.cs.washington.edu/research/jair/home.html
http://www.jmlr.org/
如果能访问的免费期刊太少,可以到CiteSeer上搜索(http://citeseer.ist.psu.edu/),上面搜集了很多免费论文(但是要注意,论文的质量参差不齐),或者用Google(www.google.com)搜索。

再嘱咐两点,要做研究,首先要打好基础,例如数学基础和程序设计能力,要学会熟练使用google等搜索引擎,还有一定要看高质量的论文。


--  作者:jsnjjjxy
--  发布时间:10/21/2005 11:10:00 PM

--  
经验之谈,研究之道
--  作者:dududjf
--  发布时间:10/28/2005 12:30:00 PM

--  
同意
--  作者:左飞飞
--  发布时间:11/22/2005 10:25:00 AM

--  
嗯 不错的收获:)  谢谢!
--  作者:c_x_g
--  发布时间:12/13/2005 5:45:00 PM

--  
Thank you very much!请问源代码太多(上万行),读不完怎么办?
--  作者:topcio
--  发布时间:2/23/2006 5:19:00 PM

--  
好贴,我需要数据呢,多谢了
--  作者:businiao
--  发布时间:2/28/2006 11:57:00 PM

--  
好贴呀
--  作者:enova
--  发布时间:3/13/2006 11:20:00 AM

--  
很久没来了,冒下头~~
--  作者:EliteDesperado
--  发布时间:5/11/2006 10:44:00 PM

--  
感觉楼主是知无不言,言无不尽啊。好人啊呵呵
--  作者:birdflying
--  发布时间:6/9/2006 12:12:00 PM

--  
我做语音识别的就没有那么幸运了,数据都是收费的
--  作者:awenxm
--  发布时间:6/16/2006 3:49:00 PM

--  
楼主, 我想问个问题
数据集中,有3个算法,其中1NN和naive Bayesnet两个算法是出自哪几篇文章? 因为,若我想用这些数据的话(做比较),好像要写出它们的出处吧?
^_^
--  作者:DavidPotter
--  发布时间:6/20/2006 3:29:00 PM

--  
前不久毕业设计找不到数据集,写了一个用于数据自动生成程序用来挖掘关联规则和检验算法正确性的。不过还不完善,有时间改改传上来,希望能有用。
是关于超市数据库的。
--  作者:suiyun0234
--  发布时间:8/21/2006 2:57:00 PM

--  
可以知道楼主是谁了,呵呵
我还要加紧努力才可以下
--  作者:ddzw3china
--  发布时间:8/26/2006 9:46:00 PM

--  
问楼主哪里有模糊学习的数据集?
--  作者:xiangzy
--  发布时间:1/25/2007 11:27:00 PM

--  
好贴呀
--  作者:flykk
--  发布时间:1/30/2007 5:47:00 PM

--  
搂主
学者风范!! 谢谢!!
--  作者:zyphoenixjp_2007
--  发布时间:4/2/2007 7:53:00 PM

--  
十分感谢楼主提供的资源。
--  作者:归来的虎子
--  发布时间:4/17/2007 11:37:00 PM

--  
实验偷懒一大法宝 —— 厚着脸皮狂法邮件问作者要......
--  作者:mycatboys
--  发布时间:5/8/2007 6:12:00 PM

--  
感觉楼主是知无不言

----------------------------------------------------
要疯掉了,每天到[url=http://www.118cy.net/host]虚拟主机[/url]上下班要3个多小时,从今天开始,存钱买车。但好像还是不做[url=http://www.118cy.net/china]中国域名注册[/url]这份工换个近点的公司划算,呵呵


--  作者:zachary
--  发布时间:5/19/2007 11:15:00 PM

--  
good,thx
--  作者:lingpost
--  发布时间:6/1/2007 10:06:00 PM

--  
非常感谢
--  作者:bjg2006
--  发布时间:6/2/2007 4:03:00 AM

--  
好贴,可惜不会用
--  作者:sxf
--  发布时间:6/30/2007 1:46:00 PM

--  
xie
--  作者:lingpost
--  发布时间:9/1/2007 9:07:00 PM

--  谢谢!
好帖!
--  作者:lanseliuying
--  发布时间:9/10/2007 9:51:00 PM

--  
我上不去UCI数据集下载那个页面,谁下了,能不能给我发一下啊,拜托。谢谢!
simaping2007@126.com
--  作者:第二天
--  发布时间:11/10/2007 9:15:00 PM

--  
好贴! 谢谢!

--  作者:第二天
--  发布时间:11/10/2007 9:25:00 PM

--  
好贴!谢谢楼主!
楼主真的好厉害!看了你的主页,牛!
--  作者:chsffly
--  发布时间:11/26/2007 7:31:00 PM

--  
楼主好人啊啊啊啊啊啊!
顶一个
--  作者:ynifbs215
--  发布时间:12/5/2007 1:51:00 AM

--  
第一次来……
--  作者:wl820609
--  发布时间:12/31/2007 5:47:00 PM

--  
谢谢版主!!
--  作者:netjian
--  发布时间:2/13/2008 9:29:00 PM

--  
慢慢体会。
--  作者:crazy.stone
--  发布时间:2/27/2008 2:57:00 PM

--  
谢谢哦!!!
--  作者:meerom
--  发布时间:3/31/2008 3:49:00 PM

--  
非常感谢啊
--  作者:xxzhlt
--  发布时间:4/4/2008 5:14:00 PM

--  

同意


--  作者:xxzhlt
--  发布时间:4/4/2008 5:16:00 PM

--  

很感谢,非常感谢!!!


--  作者:kadhuige
--  发布时间:5/6/2008 10:59:00 PM

--  不错不错
如题
--  作者:wflyinghawk
--  发布时间:5/15/2008 11:42:00 AM

--  
肺腑之言

--  作者:阿达
--  发布时间:5/23/2008 11:14:00 PM

--  
谢谢楼主。
--  作者:pawkitty
--  发布时间:7/22/2008 10:09:00 AM

--  
确实如此,做起来易!
--  作者:ljdiao
--  发布时间:7/29/2008 4:57:00 PM

--  
好帖
--  作者:mjl_1103
--  发布时间:8/28/2008 3:19:00 PM

--  
感谢感谢!!
--  作者:shawnyoung
--  发布时间:9/19/2008 2:27:00 PM

--  
感谢楼主
--  作者:jyj407
--  发布时间:2/15/2009 4:34:00 PM

--  
赞一个!
--  作者:ieee.org
--  发布时间:3/7/2009 2:26:00 AM

--  
谢谢楼主分享!!!!
--  作者:tanjunlu
--  发布时间:4/26/2009 11:57:00 PM

--  
支持
--  作者:好好学习
--  发布时间:4/27/2009 8:44:00 AM

--  
楼主:
上次登录: 2007-11-21 13:30:00 ?

可惜啊!


--  作者:哪吒闹海
--  发布时间:9/3/2009 9:25:00 PM

--  
多谢多谢多谢多谢
--  作者:lbylwxz
--  发布时间:12/8/2009 4:14:00 PM

--  
俺是学数学的
代码都编不出来
--  作者:cutegirl2451
--  发布时间:5/6/2010 9:58:00 AM

--  
真是好人呀 请问怎么积分呀
--  作者:cutegirl2451
--  发布时间:5/6/2010 10:31:00 AM

--  
版主 我想问一下ARFF文件用什么软件打开呀?是WEKA吗?在哪下呀?谢谢
--  作者:liqun8438
--  发布时间:5/22/2010 10:07:00 AM

--  
醍醐灌顶啊,谢谢
--  作者:92960
--  发布时间:10/26/2010 5:55:00 PM

--  
经济、网络等方面的EI检索论文转让
http://www.17winner.com/News/Show.asp?id=174

1.遗传SVR在人民币汇率预测中的应用
5.基于遗传支持向量机的宏观经济预测
6.基于支持向量机的网络可靠性预测


--  作者:djboy1971
--  发布时间:12/27/2010 2:03:00 PM

--  
thanks a lot!
--  作者:ylzhu
--  发布时间:3/10/2011 9:28:00 PM

--  
谢谢楼主,很有用的帖子!
--  作者:datatree
--  发布时间:8/10/2011 10:49:00 AM

--  
同意楼主说法,论文要是不标明数据集的引用,基本上不可信。前两天发现了一个找数据集的好地方,叫数据堂,网址www.datatang.com,貌似数据还比较全,但就是旧了点,凑合着用,总比木有强。
--  作者:wincentto
--  发布时间:5/1/2015 5:15:00 PM

--  
UCI测试是不是太专门了一些,领域不同的可能要引入知识做先验调整吧。,谢谢楼主提供资源,刚进来。
--  作者:wendyneil
--  发布时间:9/14/2015 11:43:00 AM

--  
哈哈,我又回来了。赞一个。
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
234.375ms