百度网络技术公司自2000年李彦宏在北京创立后,至今已有16年,对百度公司来说,16年里有喜有悲,我们今天就来整理一下。1999年李彦宏和徐勇从美国硅谷离开,回到中国大陆,并在北京中关村开始创立百度公司。2000年现今仍有传闻的百度七剑客聚首,分别为李彦宏、徐勇、刘建国、郭眈、雷鸣、王啸以及崔姗姗。其中,徐勇负责销售事务、李彦宏负责治理运营,而刘建国则负责研发部;2001年9月22日百度搜索引擎正式上线,在百度公司最初创立,公司主要方向是为门户网站提供搜索服务。百度需要通过门户网站才干了解客户,而百度搜索引擎则是由幕后上升到用户面前的一步,百度可以直接面向用户,了解用户需求。2002年百度创始人李彦宏判定,当前中国市场中,最大的竞争对手就是谷歌(两大搜索引擎简直就是宿敌)。由此决定百度公司启动闪电计划,对搜索引擎各项能力进行提升。事实也说明,李彦宏的目标或者说策略是正确的,在2002年底,闪电计划完美完成,在网页数量、更新频率、反应速度以及相关性等方面,都提升了很多,其中网页数量和更新频率更是超过了中文谷歌搜索引擎。2003年年初推出百度新闻、百度图片,在年中,百度推出百度贴吧,也是现在最大的社区平台。推广百度贴吧后,也正式代表了搜索引擎进入社区化时代。2004年百度举办公测活动,百度随机抽取一万名用户,对百度和谷歌搜索引擎进行抉择。最终评价的结果,百度与谷歌各占一半。虽然也有人说,其中有内幕,但是也从侧面表明了,百度的市场占有率。2005年是百度的时代,8月5日,百度成为了纳斯达克神话,因为百度成功上市。05年之后的百度整理,下月为大家讲述!
中文分词技术,在各大领域都属于最基础,但是最核心的一块技术。尤其是SEO应用中,合理使用分词技术,可以极大提高内容相关性和页面关键词标签的准确性。中文分词与英文分词有极大的差点,英文分词更简陋容易一些,中文分词在有些情况下还需要根据语境进行词切分。常用的分词引擎有如下几种:Paodingmmseg4j(切分速度、准确率较高)Imdict-chinese-analyzerAnsjHttpcwshttps://github.com/nltk/nltkNLTK自然语言处理包http://www.ltp-cloud.com/document哈工大LTP语言云http://bosonnlp.com/dev/centerBosonNLPhttp://www.oschina.net/p/ikanalyzerIKAnalyzerhttp://ictclas.nlpir.org/docsNLPIRhttp://www.xunsearch.com/scws/docs.phpSCWS中文分词https://github.com/fxsjy/jieba结巴分词http://pangusegment.codeplex.com/盘古分词https://code.google.com/p/paoding/庖丁解牛(准确率、分词速度、新词识别等,最棒)http://www.sogou.com/labs/webservice/搜狗分词http://www.qcloud.com/wiki/API%E8%AF%B4%E6%98%8E%E6%96%87%E6%A1%A3腾讯文智http://www.sinacloud.com/doc/sae/python/segment.html新浪云https://github.com/thunlp/THULAC清华大学THULAChttp://hanlp.hankcs.com/HanLP在Python领域,应用最广的是结巴分词,有很多故意思的特性。在使用全文检索引擎领域,Solr和ElasticSearch普遍使用IKAnalyzer分词。其余的,以哈工大、清华和HanLP在应用性上比较广泛。以前分享为一段代码,使用Python开发结巴分词,配合自定义分词,快速提取文章标签。核心逻辑就是加载自定义词典,在自定义词典中设置自定义的词性。通过jieba.load_userdict('user.txt')加载自定义词典。分词之后,通过过滤词性。将自己的词拿出来,达到快速匹配标签的功能。在内存加载完词典之后,每秒可处理上千文章的标签提取。公司项目BrandInsights,原WI-ORM系统,核心技术,就是使用Elasticsearch做海量数据的检索。里面核心基础的部份就是分词技术的应用。我们在IK分词器的基础上,做了代码升级迭代及优化。以支持更高效的分词和数据处理。在分词的基础上,还可以进行情感正负面分析和语义分析,关键词提取,摘要提取等诸多功能。有爱好的同事可以进一步交流。