您的位置: 花繁落烬 > 女性

十八岁拉!聊聊大数据的”中文户口“

2019-08-10来源:花繁落烬


仪式,是很多人经常忽略的一个词。其实,在无聊的生活中,我们都需要一份恰如其分的仪式感,去度过平淡的日子。

图片来自互联网,侵删


十八岁,Big Data正在如何蜕变?


☆ Big Data-从图书馆歪打正着的正确的错误信息开始


Big Data,相信很多人都喜欢翻译成大数据,这种潜意识里透露着尺寸担忧的命名的确是误导了很多人。(大数据我一直都认为是人们,担心尺寸而曲解的命名),我更愿意成之为巨量数据集合


【起名字】1944年-1980年

                  1944年——Wesleyan University Librarian成功的预测了信息爆炸(是根据图书馆的图书量来预测,信息爆炸,提及了数据量庞大)

                   1980年——Charles Tilly在他有记载的文章中使用了Big data。

                  1989年——作家Erik Larson在Harpers杂志首次提出,商业分析对于利润增长有促进作用,也展示了数据泛滥带来的影响。


图片来自1989 HARPERS 侵删


                  1990年——Denning确定了Big Data可行性,以及价值。

                  ……

作家Erik Larson图片来自互联网,侵删


               2001年 Doug Laney,Meta Group(Gartner)提出了注明的3V。


【上户口】2005年 Tim O‘Reilly在阐述Web 2.0时明确使用Big Data一词来指代不可能用传统商业工具管理和处理的数据。


图片来自NYTIME 侵删


【起中文名】Big Data华丽变身大数据


    给洋品牌上个中文户口,给中文名配一个洋气的英文名,似乎已经成为了强调关爱,提升到特别重要的优先级的重要事儿……虽然我也不知道究竟重要在哪,但似乎已经成了“标配”。


    于是“华伦天奴•清丽” “华伦天奴•红玉”  (中意混血)

           “华伦天奴•古奇”、“纪梵希•华伦天奴” (奢侈品混血)

    各种奇怪的搭配,翻译名字层出不穷,这里吐槽下金拱门带来的新变化哈。

   Big Data一词如何被直译成大数据,笔者特意翻阅了期刊库,总算是在92-94年的期刊中,找到了大数据流建立和处理的说明期刊。


谁第一个把Big Data翻译成中文可能找不到了(侵删)


    可Big Data随着互联网和移动化,数据量的到来变成了一个特别热门的词,在信息快速传递的今天,任何一个三四线的中国老百姓多可以讲出量子卫星,大数据等热门话题(具体什么场景,什么应用,什么叫大数据就不得而知了)


META Delta介绍Big Data的公开文件


【强大】到底有多大?


    翻开IDC报告预测,2013年至2020年期间,全球数据量将从4.4 zettabytes指数增长到44 zettabytes。到2025年,IDC预测将有163 zettabytes数据。对于大型企业来说,一个问题是确定谁应该拥有影响整个组织的大数据计划。


    这里需要面对尺寸和大小的问题 zettabytes是多大?


1EiB = 1,024 PiB

1EiB = 1,048,576 (1024)TiB

1EiB = 1,073,741,824 (1024)GiB

1EiB = 1,099,511,627,776 (1024)MiB

1EiB = 1,125,899,906,842,624 (1024)KiB

1EiB = 1,152,921,504,606,846,976 (1024)B


1Byte(相当于一个英文字母,您的名字相当6Bytes(6B)。

Kilobyte(KB)=1024B相当于一则短篇故事的内容。

Megabyte(MB)=l024KB相当于一则短篇小说的文字内容。

Gigabyte(GB)=1024MB相当于贝多芬第五乐章交响曲的乐谱内容。

Terabyte(TB)=1024GB相当于一家大型医院中所有的X光图片资讯量。

Petabyte(PB)=l024TB相当于50%的全美学术研究图书馆藏书资讯内容。

Exabyte (EB)=1024PB;5EB相当于至今全世界人类所讲过的话语。

Zettabyte(ZB)=1024EB如同全世界海滩上的沙子数量总和。

Yottabyte(YB)=1024ZB相当于7000位人类体内的微细胞总和。

(以上内容来自百度百科,因为太懒,就直接copy过来,侵删)


     一是数据体量巨大。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。


    二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。


    三是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。


    四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。


    插播一个小插曲,数据存储的寿命是多少?


    以IBM的存储设备磁盘柜的寿命来看,一般的服务器寿命是10年。

    机械硬盘的理论寿命大概有3万小时以上,也就是说,7x24小时不间断地使用硬盘,硬盘的寿命应该在5年,如果是您如果正常使用,6、7年应该没有问题。(大数据会带来一个新的问题,那就是数据保存和应急保障,数据迁移等等等等配套措施,这部分太复杂,由专门的技术人员和公司有解决方案。)

    所以单从个例看,机器设备存储,目前看没有纸张存储的时间长(对比几百年前出土的某些纸质文献)。


进入大数据领域的必备技术之Hadoop,什么是Hadoop,下一篇内容继续唠。


本文由花繁落烬整理,内容仅供参考,未经书面授权禁止转载!图片来源图虫创意,版权归原作者所有。

相关阅读