​达莫斯塔葡萄园的白葡萄酒(达莫斯塔葡萄园的白葡萄酒好喝吗)

达莫斯塔葡萄园的白葡萄酒(达莫斯塔葡萄园的白葡萄酒好喝吗)

达莫斯塔葡萄园的白葡萄酒,在国内市场上很受欢迎。这些年,我们一直致力于打造中国最好的葡萄酒,希望通过自己的努力,让更多人喝上真正的好酒。”张建国说。。据了解,目前,张建国的公司拥有两个酿酒基地,一个位于山东烟台,另一个位于辽宁丹东。其中,丹东基地占地面积约3000亩,建筑面积约10万平米,年产能达1.5万吨,主要生产高粱酒、黄酒、葡萄酒等产品。

说到大数据和人工智能,大家首先联想到往往就是朴素贝叶斯公式或是贝叶斯分类!贝叶斯,现在已不仅仅是一个数学名词,更代表了大数据和人工智能技术的一种基本的思维方式。托马斯贝叶斯,这个生活在二百多年前的业余数学家,几乎成了今天大数据与人工智能,主要哲学思想和算法的奠基人。

图1—贝叶斯

其实不仅仅是贝叶斯,今天大数据处理、统计、预测领域内几乎所有的算法,诸如:高斯概率密度函数,最小二乘法、逻辑回归、k均值等,它们的数学原理和思维方式,都已经是存在已久且被无数次证明过的经典理论。就连现在最热最酷的神经网络和复杂网络系统,在半个多世纪之前也已经是非常成熟的理论了。

由此看出,大数据在数学和理论层面早已不是什么新鲜概念,只是受制于人类笔算的计算极限,在计算机问世之前,没有办法来实现浩瀚数据的分析。直到1945年首台电子计算机的出现,科学家们才看到了机器智能的曙光。于是在半个多世纪以前,才有了阿兰图灵提出的“图灵试验”和皮斯等人的神经网络理论。

图2-神经网络理论

1956年,一群年轻的学者汇集在达特莫斯学院,召开了一次关于机器智能的会议上,人工智能第一次被完整的提出,那一年被称为人工智能的元年。

既然,不论是算法、思维还是应用方向,甚至是各行业的细分的数学分析模型,包括最新的神经网络,都早已不是什么新东西了。那为什么半个多世纪以来,人工智能都没有太多的进展?直到最近10年,我们才仿佛看到了一点人工智能的曙光?

带着这个问题,我们回到40年前的1970年代初。那还是大型计算机的时代,微型计算机还要等几年才能出现,今天大家熟悉的微软、甲骨文,苹果等公司也还不存在。那时候的电脑还是少数政府部门或者大企业才能拥有的奢侈品,体积巨大,价格高昂。那时候数据存储还是以kb为单位,要想完成哪怕是一个最简单的迭代计算,或者是统计分析都成了不可完成的任务,那时巨型计算机的计算能力,可能还不如今天的一块智能手表。

受制于计算能力的局限,我们虽然有成熟的理论,虽然统计学和计量经济学的教授们,也提出了几乎各个学科和应用领域的分析模型,但是没有强大的计算能力这个金刚钻,还真是没有人敢揽这个瓷器活。

图3-第一台电子计算机

计算机技术日新月异,到了20年前,无论是计算能力,还是软件构架都得到了长足的发展。一颗奔腾2处理器的计算性能,已经远远超越了70年代的巨型计算机;而且数据库也有了长足的发展,甚至还演变出了网格计算这样的新概念(2000年前后,oracle发布了具有网格计算能力的10g),人们那颗躁动的心再次跃跃欲试,大家都觉得现在的计算能力,也许,应该能够处理一部分过去无法完成的任务了吧!况且计算机已经遍布政治、经济、社会的各个角落,数据产生已经初具规模,很多模型所需要的数据量已经达到了所需的规模。

于是,一批软件企业提出:“积累数据,再利用已经成熟了几十年的模型和上百年的算法,去发现梦寐以求的数据之间隐含的相关性,最终达到分析和预测的目的,用以指导我们的生产、生活和决策!”

这就是2000前后曾经一度火热的“数据仓库”。很多人都会把“数据仓库”和“数据库”混淆,其实“数据仓库”是一个过程,说的是建立一个积累数据的过程,就如同一个储存数据的仓库一样。数据仓库除了名称以外,其实与数据库根本没有什么必然的关系。其实数据仓库行业,还有一个更好听的说法:数据挖掘。

图4-数据仓库处理流程图

讲到这里,很多人会说:“你说的这个数据仓库,数据挖掘,怎么跟现在很多人说的大数据一样啊!”是的,其实数据仓库就是今天大数据的前身,你之所以认为刚才我说的数据仓库与你认为的大数据的概念相似,是因为你并不了解真正的“大数据”,或者说,这些天天嘴上说大数据的人,并不真正的了解大数据。

大数据之所以叫大数据,而不叫数据仓库,其中的区别绝不仅仅是称谓上的变化。最主要的原因,其实还是老生常谈的那个问题:计算能力!

图5-计算与分析能力

我们言归正传,话说2000年前后,数据仓库曾经火的一塌糊涂,很多软件公司甚至把数据仓库作为了公司未来的主要业务方向,但是好景不长。

随着互联网的发展和信息化的进步,那些部署了数据仓库的政府和企业,在几年之后都无一例外的发现了一个问题:当数据库积累的数据超过1亿条的时候,他们无论怎么增加服务器,更换更快的处理器,他们的智能算法和数据模型始终都无法正常的运行,而小数据量的时候,这些算法和模型给出的结果根本是南辕北辙!

于是兴旺一时的数据仓库行业便这样沉寂了下来,卡死在了一亿条数据库记录的门槛下。而且即使通过优化数据存储过程、将计算机硬件性能进行大幅度提升,数据库的处理能力达到了5-6亿条,我们的分析模型依然无法获得充足的原始数据….数据仓库行业把希望寄托给了开发数据库系统这样的基础软件的开发企业身上:希望他们能够开发出性能更强劲的数据库产品,最好还能支持线性扩展。但是,在新的数据库问世之前,数据仓库和所谓的数据挖掘最终还是冷了下来。

(注:“线性扩展“在计算机领域主要是指:能够不改变系统构架,仅仅是增加服务器数量就能够提高整个系统的性能,这称为“线性扩展”)

然而,有需求就会有解决方案。记得木偶剧中阿凡提曾经说过:有一千个难题,就有一千零一个解决的办法!

谷歌公司,登场了!

据说,谷歌公司最开始只是发明了一套倒排数据的方法(这一点,跟后面出场的Dutting先生的做法如出一辙),用以解决用户高速检索数据的需要。但是,随着互联网上的数据越来越多,谷歌的爬虫甚至能够每天抓取超过1亿个网页….一亿个网页,每天!My GOD,没有什么数据库能承受如此之大的数据量以及每天的数据增量。而这仅仅是开始,很快,谷歌的爬虫每天能够抓取超过了10亿个网页。大家都惊奇的发现,谷歌的搜索服务不仅没有因为数据量的庞大,出现问题,反而还越来越好用了!

随着谷歌宣布自己抓取的网页突破100亿、1000亿…大家发现:谷歌抓取的网页越多,用户的检索体验就越好,搜索的结果就越精确!

图6-Google公司

谷歌一定是找到了,某种解决海量数据存储和计算的新方法,不然为什么会有如此好的用户体验!而且谷歌的这个方法一定还是支持线性扩展的,不然谷歌为什么建立了那么多由数据中心,而且采用的还都是廉价的pc,连服务器都不愿意采购。

业内确实猜对了!谷歌确实找到了能够存储和计算海量数据的新方法,并且还真的就是可以线性扩展的!

终于,大数据时代的另一个主角登场了!

当大家猜到了,谷歌公司解决了这个业内无法解决的问题的时候,整个业界都想弄清楚谷歌是怎么干的!在这些人中有一个叫Doug Cutting的年轻父亲。他也想山寨一个谷歌的系统,但是总是失败。在谷歌解决海量数据之前,Cutting也是研究搜索的,只不过是他的研究是一个文件检索系统,这就是今天大名鼎鼎的开源搜索引擎——lucene。后来他又搞了一个叫nutch的爬虫,他希望通过lucene和nutch的配合能实现搜索引擎的功能。

图7-Doug Cutting

很显然,Cutting也遇到了和谷歌当年同样的问题,为此Cutting还给nutch开发了一个分布式的文件系统,但是总是不太好用。可以想象这时的Cutting也是非常苦恼,他一定在想:google到底是怎么作的?

这是一个划时代的事件!

2003年和2004年,谷歌连续发表了三篇论文,分别阐述了自己的分布式文件系统(gfs),分布式计算框架(MapReduce)以及非关系型存储-大表(BigTale)。这三篇论文毫无保留的,揭示了谷歌的搜索引擎是如何运作的,从此以NOSQL和分布式计算为核心的搜索引擎技术,拉开了海量数据处理的新篇章!

正在苦思冥想的Cutting当然不会错过这个机会,两年以后,一个山寨版的谷歌搜索引擎出现在了一个叫apche的开源社区上!它的核心就是以谷歌分布式文件系统(gfs)和mapreduce的设计思路为蓝本的:hadoop!

跟谷歌的论文中的蓝图一样,Hadoop也由两部分组成,分别是hdfs和mapreduce;hdfs其实就是gfs的开源实现(其实就是山寨),而mapreduce就直接是照搬了。说到Hadoop,大家都知道它的logo是一头大象,这头大象据Cutting说,是他儿子的一个黄色的毛绒质玩具大象,这个黄色大象的名字就叫Hadoop。谷歌的“大表”是一种有效的非关系型存储(nosql)的思路,今天的非关系型数据库,基本上都是依照其原理设计的。Hadoop和nosql正是今天大数据技术的核心组成。

图8-Hadoop

2006年,Cutting把以Hadoop为代表的,谷歌搜索引擎系统的山寨版代码放到了apche开源社区上,经过众多编程爱好者的努力,Hadoop逐渐成了气候,很多商业公司也竞相加入到了Hadoop的代码贡献者中,甚至包括谷歌也在帮助完善Hadoop生态圈。越来越多的公司开始开发组件,帮助完成Hadoop不具备的一些功能。终于,Hadoop成了行业公认的标准,apche社区,也成了先进技术的汇集地,成了有史以来最成功的开源社区。

Hadoop一经推出就得到了数据仓库行业的追捧,这简直就是数据仓库行业之前,梦寐以求的那个解决制约计算能力的关键所在,这就是他们梦想中的那个完美的“数据库”——能够高效的存储和处理海量数据,可以进行线性扩展,更无需昂贵的硬件!

沉寂已久的数据仓库行业再次焕发了青春,为了区别以前的数据仓库,也为了打消客户对数据仓库的负面情绪,更为了表白自己已经不是那个华而不实,纸上谈兵的数据仓库,于是一个高大上的新名词出现了,这个新名词,简单、直白、又一语中的,这就是——大数据!

图9-大数据时代

然而,Hadoop并不完美,由于Hadoop是开源社区的计算机技术的爱好者,在近乎于没有系统的任务管理的状态下开发的,Hadoop难以像商业软件那样简单易用,也没有标准的技术支持文档。随着大数据市场的扩大,越来越多的人反应“Hadoop虽然性能强大,但是也太深奥了”。似乎只有计算机的极客才能玩转,一般人根本无法掌握,特别是那些学数据建模的数据科学家们,Hadoop生态圈对他们来说更是难于上青天。

商业发行版Hadoop呼之欲出!

且看下回:《更快、更易用的Hadoop:从cloudera到大快搜索!》

大快搜索—孙

备注:1、关系型数据库,也就是我们常说的数据库,常用SQL来表示,其优点是存储的数据以表的方式,以行为单位,精确存储,天生的支持数据库事务,不足是前面说过的,无法胜任海量数据的存储和复杂的机器学习等大数据算法的计算;关系型数据库中“关系”两个字是指表与表之间,字段间的数据关联性对应关系。

2、非关系型数据库,主要类型是以谷歌的大表为蓝本,用NOSQL表示,优点是天生与分布式文件系统相得益彰,以列式存储为特征;缺点是无法胜任“事务”虽然一些非关系型数据库号称支持回滚,能够实现事务,但是这往往是以牺牲集群性能为代价的,这是剑走偏锋,得不偿失。

The End

相关推荐

​开会流程(会议流程)

​开会流程(会议流程)

147

开会流程(会议流程) 编辑导语:在工作中,沟通是很重要的一项技能,良好的沟通方式能够带来舒适的工作环境。本篇文章中作者关于为什么要进行工作沟通,工作沟通要做些什么,...

​女生的感情经历简短(一个女人的感情经历)

​女生的感情经历简短(一个女人的感情经历)

179

女生的感情经历简短(一个女人的感情经历) 大牛忙婚姻情感案例系列 关键词:婚姻、离婚、爱情 文章长度:4100字 原创文章、抄袭必究 在感情的世界里,红尘是数不尽的是是非非,...

​梁武帝是哪个朝代(梁武帝是哪个朝代的-)

142

梁武帝是哪个朝代(梁武帝是哪个朝代的-) 大家好,近期很多朋友对于 梁武帝是哪个朝代 产不是很理解。然后还有一些网友想弄清楚梁武帝是哪个朝代的?,(www)已经为你找到了相...

​盛唐酒庄干红价格(贺轩酒庄干红价格)

​盛唐酒庄干红价格(贺轩酒庄干红价格)

165

盛唐酒庄干红价格(贺轩酒庄干红价格) 盛唐酒庄干红价格的提升,也是中国葡萄酒市场发展的一个缩影。近年来,随着消费升级,中国葡萄酒市场的竞争日趋激烈,消费者对高品质、健...

​全新KTM Duke390国内上市!售价47800

57

全新KTM Duke390国内上市!售价47800 二月二龙抬头,在今天早上KTMR2R官方正式发布了新款Duke390的中国售价,价格为 47800 ! 外观 这一代全新Duke390相比较上一代令人过目不忘的设计还当属那...

​win10桌面图标间距突然变大怎么解决

​win10桌面图标间距突然变大怎么解决

113

win10桌面图标间距突然变大怎么解决 win10桌面图标间距突然变大该怎么办?如何解决变大?下面一起学习一下吧。 材料/工具 win10电脑 方法 同时按【Win】+【R】键,打开运行。 点击输入...

​gta5多少钱(GTA5线下可以购买什么资产)

​gta5多少钱(GTA5线下可以购买什么资产)

73

gta5多少钱(GTA5线下可以购买什么资产) 线下资产一共有25个,每个角色攒够一定金额即可购买 所有资产位置一览 胡奇酒吧 花费 $60w 老麦、小富可购买 每周盈利 $4700 声纳打捞码头 花费...

​梦见请客是什么意思

​梦见请客是什么意思

64

梦见请客是什么意思 梦见请客在一定程度上代表着尊重和关爱。请客可能表明梦者想要向他人展示自己的慷慨和热心。在这篇文章中,我们将探讨梦见请客的象征意义和可能的解释。...

​不孝顺父母的人,多半会有这3种报应

​不孝顺父母的人,多半会有这3种报应

168

不孝顺父母的人,多半会有这3种报应 不孝顺父母的人,多半会有这3种报应 一、事业不顺 孝顺是做人的根本,连自己的父母都不在乎,怎么会重视自己的事业呢?一个不孝顺父母的人...

​盘点足球史上五大球王,没有梅罗,中国上榜

130

盘点足球史上五大球王,没有梅罗,中国上榜 足球运动一直深受世界人民的喜爱,不过想要踢得好,那可是相当困难的,目前,世界上有被公认的五大球王,我们来看一下分别是谁。...