“數據(ju)(ju)科(ke)學(xue)(xue)家”在2009年由Natahn Yau首次提(ti)出,其概念是采用(yong)科(ke)學(xue)(xue)方法、運用(yong)數據(ju)(ju)挖掘工具尋找新的(de)數據(ju)(ju)洞察(cha)的(de)工程師(shi)。數據(ju)(ju)科(ke)學(xue)(xue)家集(ji)技術專家與數量分(fen)析師(shi)的(de)角色于一身,與傳統數量分(fen)析師(shi)相(xiang)比:后者(zhe)通(tong)(tong)常利(li)用(yong)企業的(de)內部數據(ju)(ju)進(jin)行分(fen)析,以支(zhi)持領導層的(de)決策;而前者(zhe)更多(duo)的(de)是通(tong)(tong)過關注面向用(yong)戶(hu)的(de)數據(ju)(ju)來創造不同特(te)性(xing)的(de)產(chan)品和流(liu)程,為客戶(hu)提(ti)供有意義的(de)增值服務。
面向客(ke)戶的(de)性質決(jue)定了大(da)部分(fen)數據科(ke)學(xue)家(jia)擔任公司(si)產品(pin)開(kai)發或營銷部門的(de)職位,或是效力于首(shou)席技(ji)(ji)術(shu)官。那(nei)么(me)數據科(ke)學(xue)家(jia)需要具備哪些(xie)核(he)心能(neng)力呢?科(ke)技(ji)(ji)記者Derrick Harris在其文(wen)章中介紹了數據科(ke)學(xue)家(jia)應具備的(de)一(yi)些(xie)技(ji)(ji)能(neng)。
他表示(shi),在你詢問別(bie)人什么是(shi)數(shu)(shu)(shu)據科(ke)(ke)學(xue)(xue)家,或者數(shu)(shu)(shu)據科(ke)(ke)學(xue)(xue)家是(shi)做什么的(de)(de)(de)(de)時候,很容易發現:“數(shu)(shu)(shu)據科(ke)(ke)學(xue)(xue)家”其(qi)實是(shi)從(cong)“大數(shu)(shu)(shu)據”引(yin)發的(de)(de)(de)(de)術語混(hun)亂中(zhong)形成的(de)(de)(de)(de)。數(shu)(shu)(shu)據科(ke)(ke)學(xue)(xue)的(de)(de)(de)(de)核心(xin)能力被定義為:SQL、統計、預(yu)測建模和編程、Python等(deng),這(zhe)些聽起(qi)來很合理(li)。但(dan)是(shi)很快就有(you)更多名詞添加到其(qi)中(zhong):Hadoop/MapReduce、機(ji)器(qi)學(xue)(xue)習、可(ke)視化,甚至還有(you)傳(chuan)統的(de)(de)(de)(de)數(shu)(shu)(shu)學(xue)(xue)、物理(li)、計算機(ji)科(ke)(ke)學(xue)(xue)等(deng)類似能力。
許多人呼吁專業(ye)領(ling)域、商業(ye)智慧(hui)、創造(zao)(zao)力及表達能力也是(shi)(shi)同樣(yang)重要(yao)的(de)(de)。一(yi)(yi)個數(shu)據(ju)科學(xue)家不能只擅長數(shu)字(zi)(這種人被稱(cheng)為(wei)(wei)統計學(xue)家或分析師),也要(yao)能夠理解(jie)業(ye)務(wu):什(shen)(shen)么(me)樣(yang)的(de)(de)數(shu)據(ju)或結果才是(shi)(shi)有參考性的(de)(de);能夠找到新(xin)的(de)(de)數(shu)據(ju)集并(bing)為(wei)(wei)其創造(zao)(zao)新(xin)產品(pin);然(ran)后能夠讓CEO們(men)理解(jie)這一(yi)(yi)切。這是(shi)(shi)一(yi)(yi)個艱(jian)巨的(de)(de)任務(wu),這個世界上這類(lei)人是(shi)(shi)很少的(de)(de)。作為(wei)(wei)頂尖(jian)的(de)(de)數(shu)據(ju)科學(xue)家,不要(yao)求(qiu)他(ta)(ta)們(men)對(dui)環境做出什(shen)(shen)么(me)積極的(de)(de)改變(bian),但是(shi)(shi)需要(yao)他(ta)(ta)們(men)嘗試做一(yi)(yi)些真正先進的(de)(de)東(dong)西,幫(bang)助大家更好的(de)(de)解(jie)決(jue)業(ye)務(wu)上的(de)(de)問題。
數據科學(xue)家的六種能力:
1.對數據的(de)提取與綜合能力;
2.統計分(fen)析能力;
3.數據(ju)洞(dong)察與信(xin)息挖掘能(neng)力;
4.開發(fa)軟件能力;
5.網(wang)絡編程能力;
6.數據的可(ke)視化表示能(neng)力。
數據科學家涉及學科:
1.計算機科學:數(shu)(shu)據(ju)獲取、數(shu)(shu)據(ju)解析、數(shu)(shu)據(ju)存放、和數(shu)(shu)據(ju)安全(quan)
2.數(shu)理統計學:數(shu)據分析、數(shu)據過濾、數(shu)據挖掘、和(he)數(shu)據優化
3.圖(tu)形(xing)設計學(xue):顯示數(shu)據(ju)結(jie)果,比如將數(shu)據(ju)表達成三(san)維圖(tu)形(xing),以(yi)便更好地理解和利(li)用
4.人機交互學:在(zai)用(yong)戶(hu)和數據之間建立有機聯系,使得人對數據的使用(yong)更方便