<?xml version="1.0" encoding="gb2312"?>

<!-- RSS generated by oioj.net on 4/16/2004 ; 感谢LeXRus提供 RSS 2.0 文档; 此文件可自由使用，但请保留此行信息 --> 
<!-- Source download URL: http://blogger.org.cn/blog/rss2.asp       -->
<rss version="2.0">

<channel>
<title>技术以人为本</title>
<link>http://blogger.org.cn/blog/blog.asp?name=eng2chi</link>
<description>eng2chi的博客</description>
<copyright>blogger.org.cn</copyright>
<generator>W3CHINA Blog</generator>
<webMaster>webmaster@blogger.org.cn</webMaster>
<item>
<title><![CDATA[成功学书籍(1)]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=eng2chi&amp;id=7876</link>
<author>eng2chi</author>
<pubDate>2005/8/18 13:34:39</pubDate>
<description><![CDATA[
<P><FONT size=4>&lt;致加西亚的信&gt; 阿尔伯特-哈伯德</FONT></P>
<OL>
<LI><STRONG>关键词: </STRONG>敬业,忠诚,道德,信用,相信</LI>
<LI><STRONG>一句话: </STRONG>对上级的托付,立即采取行动,全心全意去完成任务, "把信送给加西亚"</LI>
<LI><STRONG>评论: </STRONG>道德重要, "有才华的穷人"太多. 相信自己所做的</LI></OL>
<P><FONT size=4>&lt;科学管理原则&gt; 泰勒</FONT></P>
<OL>
<LI><STRONG>关键词: </STRONG>科学管理,系统化,高效能</LI>
<LI><STRONG>一句话:</STRONG> 一切科学化,以劳资双方利益融合为目标,创造高效能</LI>
<LI><STRONG>评论: </STRONG>经验办事不足取,科学化生产和管理</LI></OL>]]></description>
</item><item>
<title><![CDATA[学纵横码]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=eng2chi&amp;id=7863</link>
<author>eng2chi</author>
<pubDate>2005/8/17 16:58:03</pubDate>
<description><![CDATA[<P>今天开始学纵横码，</P> <P>先从单字开始学习，打字特别慢。</P> <P>悄悄地炒作</P> <P>可怜粉丝</P>]]></description>
</item><item>
<title><![CDATA[行与言与思]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=eng2chi&amp;id=7859</link>
<author>eng2chi</author>
<pubDate>2005/8/17 12:01:38</pubDate>
<description><![CDATA[<P>&nbsp; 行与言与思, 孰轻孰重? &nbsp;</P> <P>&nbsp; 行胜于言, 言胜于思. </P> <P>&nbsp; 但是, 绝大多数人,把这个颠倒了. </P> <P>&nbsp; 因为, 绝大多数人, 把多半的时间用来空想, 少半的时间来瞎说, 留给实干的时间,非常少!</P> <P>&nbsp; 你会说成功人士, 领导层决策层就只要动脑筋想. </P> <P>&nbsp; 错! 那是因为他们手下有大群人人去帮着说帮着做. </P> <P>&nbsp; 想想金字塔形的人员配置结构, 就知道就整体组织架构而言, 他们遵从了行胜于言,言胜于思的原则. 这里的"胜", 至少可解释为"多".</P> <P>&nbsp; 论及思, 头脑中冒出创意和想法不是难事. 其中99%都是无足轻重, 飘逝也没什么大不了. &nbsp;还不计其中卑鄙的龌龊的DIRTY MIND.</P> <P>&nbsp; 思维能力是有限的, 想象力不丰富就不丰富, 文思枯竭就是枯竭, 一塘死水就是死水. 一辈子, 颇为自得的, 或者真有其价值的想法其实没几个. 但许多人还是很信奉自己的脑袋, 思来想去, 为自己得意. 以为脑子里盛了许多不传之秘. </P> <P>&nbsp; &nbsp;言包括写的和说的, 其中, 写要比说来得正式, 而且, 不是靠嘴谋生或者不喜多说的人, 写是言的表达的主要形式. 这世界夸夸其谈/洋洋万言的人多, 但也没什么值得鄙弃, 说其实能够创造些价值, 而且它是宣泄思维的渠道(另外一种渠道是遗忘和睡觉).</P> <P>&nbsp;&nbsp; 天底下做的人少, 做成的人更少. 所谓知易行难, "知"在思的层次,&nbsp;"行" 却需要水平.&nbsp;</P> <P>&nbsp;&nbsp; ----------------------------------------------------</P> <P>&nbsp;&nbsp;&nbsp;就象正常人一样, 我不缺想法, 但肯定缺好的想法. 拿些想法敝帚自珍, 放在思维的角落里, 重复, 收藏, 要么遗忘,要么裹足不前......</P> <P>&nbsp;&nbsp; 我又象普通人一样,不喜多言. </P> <P>&nbsp;&nbsp; 然后, 我缺乏动力去身体力行. </P> <P>&nbsp;&nbsp; 做什么呢? 那就来BLOG吧! 哈哈</P> <P>&nbsp;</P> <P>&nbsp;&nbsp; &nbsp;</P> <P>&nbsp;&nbsp; </P> <P>&nbsp;</P> <P></P>]]></description>
</item><item>
<title><![CDATA[中文分词之于搜索(1)]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=eng2chi&amp;id=7854</link>
<author>eng2chi</author>
<pubDate>2005/8/17 11:36:08</pubDate>
<description><![CDATA[<P>中文分词(WORD SEGMENTATION)是中文信息处理需要掌握的技术, 这源于中文文不加空格的传统[想想如果没有五四时引进的标点, 中文断句还会是种要解决的问题].</P>
<P>英文文本处理没有这个问题, 每个单词都被分割开, 而且每个单词在表达词的意义上来得强, 而中文单字不能说具有词的意味, 多以二到四字成词居多.</P>
<P>中文分词的处理的研究和应用, 也有了多个年头, 基本上可以认为, 达到了可以应用的层次. 因为最好的分词正确率已经超过了90%,有的甚至好过95%.</P>
<P>中文分词的技术,从简单到复杂, 应该可以列举出许多:</P>
<P>最简单的一种,是N-GRAM. 这个在英文里面也有, 因为要从中找出英文词组, 选定一个N的具体数值, 比如2~4, 然后将每每N个字抽取出来当做一个词. 这是很偷懒但也有些效用的做法, 虽然运用在中文处理上会带来许多垃圾词, 和错误的词.</P>
<P>然后就是最长匹配, 可以顺着来,也可以倒着来. 从一个字开始, 检查词库中有没有这个字做为词, 然后推进一个字, 看这两个字组成的词能否在词库种找到, 就这样继续,直到一个最大的长度, 再进一步便无法在词库中找到词为止.</P>
<P>比较好的分词,则是最长匹配的加强. 词库中的词配套有相应的统计频度或者似然/机率. 在一系列不同长度的词长中, 挑选具有最大机率的词作为结果. 这就是统计的做法,已经成为各种高性能分词的主要法门.</P>
<P>分词还要处理一些细节问题,比如新词的辨认, 人名/地名/其他专有名词的辨认, 以及一些专门的任务比如电话号码等等的抽取等.....</P>
<P>下节谈谈一些已成型的分词程序.</P>
<P>&nbsp;</P>
<P>&nbsp;</P>]]></description>
</item><item>
<title><![CDATA[语音识别初探(2)]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=eng2chi&amp;id=7848</link>
<author>eng2chi</author>
<pubDate>2005/8/16 16:05:24</pubDate>
<description><![CDATA[<P><A href="http://www.microsoft.com/speech/download/sdk51/">Microsoft&reg; Speech SDK 5.1</A>&nbsp;是微软比较为人所知的语音处理包, 支持TTS和语音识别(SPEECH RECOGNITION).&nbsp; 为了能支持中文, 还必须下载<A href="http://download.microsoft.com/download/speechSDK/SDK/5.1/WXP/EN-US/speechsdk51LangPack.exe">5.1 Language Pack. </A><BR>[不知微软的<A href="http://www.microsoft.com/speech/techinfo/techarticles/MSS_2004_R2_Introduction.htm">Microsoft Speech Server (MSS) 2004 R2</A>&nbsp;和<A href="http://www.microsoft.com/downloads/details.aspx?FamilyId=1194ED95-7A23-46A0-BBBC-06EF009C053A&amp;displaylang=enhttp://www.microsoft.com/downloads/details.aspx?FamilyId=1194ED95-7A23-46A0-BBBC-06EF009C053A&amp;displaylang=en">Microsoft Speech Application SDK (SASDK) Version 1.1</A> 有何独特之处, 似乎胜过SDK 5.1]</P>
<P>下载安装SDK 5.1之后,在 本地 Microsoft Speech SDK 5.1\Samples 的目录可以找到些例子, 用C#, VB, DHTML等写成, 有些很别致有趣. 比如SCRIPTS 里面的DHTML用网页的形式提供TTS功能. </P>
<P>测试了一下VB目录下RecoVB的程序, 它主要用来展示识别的功能. 因为没有话筒, 参照 <A href="http://msdn.microsoft.com/library/default.asp?url=/library/en-us/SAPI51sr/Whitepapers/WP_Persisting_Recognized_Wave_Audio.asp">Using Wave File Input with the Speech Recognition Engines</A>&nbsp;修改成WAV文件的输入, 从网络和一些电台录了些短小句子进行测试, 结果不甚理想:</P>
<P>原句(语速慢简单): <EM>我是陈小英</EM></P>
<P>识别:<EM>和吸引全一起熬一</EM></P>
<P>原句(语速快,电台节目音): <EM>获胜,&nbsp;所以说短线日元走势还相对平稳,我个人认为后期可能日元比美元还将保持这种上行的空间</EM></P>
<P>识别:<EM>奥胜队的损害人口是很难得很牢了日元对美元和良好的安全利益</EM></P>
<P>原句(较难): <EM>They agreed that the one he who&nbsp;first succeeded in&nbsp;making&nbsp;the traveller take his clothes off should be considered stronger than any other</EM></P>
<P>识别:<EM>They agreed that that when he first succeeded in making a talented cast club got to be considered found at Bundy and</EM></P>
<P>总体看来, 英文识别还是有一定水平,难怪BILL敢说三到四年会有明显进步,估计是针对英文识别说的. 而中文就挑战大得多, 初步来看,只是有个别字词可以听出来.</P>
<P>&nbsp;</P>
<P>&nbsp;</P>]]></description>
</item><item>
<title><![CDATA[语音识别初探(1)]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=eng2chi&amp;id=7844</link>
<author>eng2chi</author>
<pubDate>2005/8/16 15:24:32</pubDate>
<description><![CDATA[
<P>　语音识别(speech recognition)行之有年, 但进展缓慢. BILL GATES <A href="http://blog.joycode.com/saucer/archive/2005/07/07/58619.aspx" target=_parent>预测</A></P>
<DIV style="BORDER-RIGHT: #cccccc 1px solid; PADDING-RIGHT: 5px; BORDER-TOP: #cccccc 1px solid; PADDING-LEFT: 5px; BACKGROUND: #f3f3f3; PADDING-BOTTOM: 5px; MARGIN: 5px 20px; BORDER-LEFT: #cccccc 1px solid; PADDING-TOP: 5px; BORDER-BOTTOM: #cccccc 1px solid">speech recognition will go mainstream in three to four years</DIV>
<P>, 但明显挑战大过机会,这点他自己也有清醒的认识:</P>
<DIV style="BORDER-RIGHT: #cccccc 1px solid; PADDING-RIGHT: 5px; BORDER-TOP: #cccccc 1px solid; PADDING-LEFT: 5px; BACKGROUND: #f3f3f3; PADDING-BOTTOM: 5px; MARGIN: 5px 20px; BORDER-LEFT: #cccccc 1px solid; PADDING-TOP: 5px; BORDER-BOTTOM: #cccccc 1px solid">Even the elusive promise of speech recognition will be realized in three to four years, Gates said. He noted that in an artificial environment, the computer already comes close to humans in recognizing speech. What it does not quite have -- yet -- is the human ability to distinguish background noise from significant signals. But, pointing to the reduction in error rates, Gates predicted that the problems facing speech recognition will be solved in this decade. </DIV>
<P>在虚假人工的环境里的声音辨识,计算机已经接近和人媲美的程度(这点仍值得怀疑,至少得考察一下微软在声音识别上最新的进展才行). 而在有噪音的真实环境里的声音识别,还远未能及人的能力. </P>
<P>鉴于BILL通常对于未来过于乐观,我想无论是3到4年里明显的技术进步,还是十年内真实环境声音识别的突破,都要打个折扣. </P>
<P>话虽如此, 许多大的公司,研究团体对语音识别的努力是有目共睹,取得的贡献也多少值得欢欣. 作为语音识别相辅相成一面的TEXT TO SPEECH(文本朗读), 如今就多少接近一般人的低级水平.</P>
<P>下一节, 探讨一下微软的Speech SDK 5.1 ,根据实用的结果, 辨识结果的确令人啼笑皆非. 原来以为,低一点的识别率无关紧要, 能够应用到海量的语音信息的检索也能功不可没,但如此低的识别, 还是有点令人失望. 当然,这也证实了需要训练集和一些学习算法的重要性,因为目前测试到的差结果是没有经过训练和迭代优化和加强的.<BR></P>]]></description>
</item><item>
<title><![CDATA[好得不得了的电子书搜索平台]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=eng2chi&amp;id=7842</link>
<author>eng2chi</author>
<pubDate>2005/8/16 14:57:10</pubDate>
<description><![CDATA[<P><A href="http://cris.siteburg.com/books.php" target=_parent>Damn good links search engine </A>是个很强大的电子书下载搜索平台. 截止8月16日,它搜索18384个在open dirs and ftps的文件,以及超过14000个放置在rapidshare,&nbsp; betah等文件共享空间里的电子书资料. 相信对rapidshare有些了解的人,该明白能够搜索rapidshare的非凡意义了, 因为能搜到的东西绝对是精品. (几大出名的文件共享站点1.rapidshare.de 2.mytempdir.com 3.betah.co.il 4.megaupload.com 5.qfile.de, 6.savefile.com, 7.fixdown.com)</P>
<P>除了质量够好,数量够多, 它有完全免费,界面干净的特点.初次注册可以使用14天,此后每提供一个真实的图书文件连接可以延长3个星期[相信大家总有些收藏的电子书连接可以共享-注意:只能加电子书]</P>
<P>该平台采取记录IP的模式,每个IP只能一个帐号,所以它也催促用代理上网的人快点去注册了:)</P></FONT>]]></description>
</item>
</channel>
</rss>