揭秘發(fā)現(xiàn)別人未知的數(shù)據(jù)科學(xué)家
點(diǎn)擊:900
A+ A-
所屬頻道:新聞中心
企業(yè)要想保持競(jìng)爭(zhēng)力,就必須比大數(shù)據(jù)分析做的更多。如果不去評(píng)估企業(yè)手中的數(shù)據(jù)質(zhì)量,期望的結(jié)果,以及預(yù)計(jì)從這種數(shù)據(jù)分析中獲得多少利潤(rùn),這將很難正確地找出哪些數(shù)據(jù)科學(xué)項(xiàng)目能夠盈利,哪些不能。
大數(shù)據(jù)分析提升企業(yè)競(jìng)爭(zhēng)力
商業(yè)領(lǐng)域的數(shù)據(jù)科學(xué)家和偵探類(lèi)似,去探索未知的事物。不過(guò),當(dāng)他們?cè)谶@個(gè)旅程中冒險(xiǎn)的時(shí)候,他們很容易落入陷阱。所以要明白,這些錯(cuò)誤是如何造成的,以及如何避免。
相關(guān)關(guān)系和因果關(guān)系之間的混亂
大部分的數(shù)據(jù)科學(xué)家在處理大數(shù)據(jù)時(shí)假設(shè)相關(guān)關(guān)系直接影響因果關(guān)系。使用大數(shù)據(jù)來(lái)理解兩個(gè)變量之間的相關(guān)性通常是一個(gè)很好的實(shí)踐方法,但是,總是使用“因果”類(lèi)比可能導(dǎo)致虛假的預(yù)測(cè)和無(wú)效的決定。要想實(shí)現(xiàn)利用大數(shù)據(jù)的最好效果,數(shù)據(jù)科學(xué)家必須理解相關(guān)關(guān)系和根源的區(qū)別。關(guān)聯(lián)往往是指同時(shí)觀察X和Y的變化,而因果關(guān)系意味著X導(dǎo)致Y。在數(shù)據(jù)科學(xué),這是兩個(gè)完全不同的事情,但是許多數(shù)據(jù)科學(xué)家往往忽視了它們的區(qū)別。
知彼知己,百戰(zhàn)不殆
基于相關(guān)性的決定可能足以采取行動(dòng),我們不需要知道原因,但這還是完全依賴(lài)于數(shù)據(jù)的類(lèi)型和要解決的問(wèn)題。每位數(shù)據(jù)科學(xué)家都必須懂得——“數(shù)據(jù)科學(xué)中相關(guān)關(guān)系不是因果關(guān)系”。如果兩個(gè)關(guān)系出現(xiàn)彼此相關(guān)的情況,也不意味著是一個(gè)導(dǎo)致了另一個(gè)的產(chǎn)生。
沒(méi)有選擇合適的可視化工具
大部分的數(shù)據(jù)科學(xué)家專(zhuān)心學(xué)習(xí)于分析的技術(shù)方面。他們不能通過(guò)使用不同的可視化技術(shù)理解數(shù)據(jù),即那些可以令他們更快獲得洞察力的技術(shù)。如果數(shù)據(jù)科學(xué)家不能選擇合適的可視化發(fā)展模型,監(jiān)控探索性數(shù)據(jù)分析和表示結(jié)果,那么即使是最好的機(jī)器學(xué)習(xí)模型,它的價(jià)值也會(huì)被稀釋。事實(shí)上,許多數(shù)據(jù)科學(xué)家根據(jù)他們的審美選擇圖表類(lèi)型,而不是考慮數(shù)據(jù)集的特征。這個(gè)可以通過(guò)定義可視化的目標(biāo)避免。
無(wú)問(wèn)題/計(jì)劃的分析
數(shù)據(jù)科學(xué)是一個(gè)結(jié)構(gòu)化的過(guò)程,以明確的目標(biāo)開(kāi)始,隨后出現(xiàn)一些假設(shè)的問(wèn)題,最終實(shí)現(xiàn)我們的目標(biāo)。數(shù)據(jù)科學(xué)家往往站在數(shù)據(jù)之上而不考慮那些需要分析回答的問(wèn)題。數(shù)據(jù)科學(xué)項(xiàng)目必須要有項(xiàng)目目標(biāo)和完美的建模目標(biāo)。數(shù)據(jù)科學(xué)家們?nèi)绻恢浪麄兿胍裁?,最終的結(jié)果也會(huì)差強(qiáng)人意。
為了避免這種情況,數(shù)據(jù)科學(xué)家應(yīng)該集中精力獲得正確的分析結(jié)果,這可以通過(guò)明確實(shí)驗(yàn),變量和數(shù)據(jù)準(zhǔn)確性和清晰明白他們想要從數(shù)據(jù)中獲得什么實(shí)現(xiàn)。這將簡(jiǎn)化以往通過(guò)滿(mǎn)足假設(shè)的統(tǒng)計(jì)方法來(lái)回答商業(yè)問(wèn)題的過(guò)程。先確定明確的問(wèn)題是及其重要的,能夠?qū)崿F(xiàn)任何企業(yè)的數(shù)據(jù)科學(xué)目標(biāo)。
僅關(guān)心數(shù)據(jù)
數(shù)據(jù)科學(xué)家常常因?yàn)榈玫絹?lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)而興奮,并開(kāi)始創(chuàng)建圖表和可視化來(lái)做分析報(bào)告,忽視發(fā)展所需的商業(yè)智慧。這對(duì)任何組織來(lái)說(shuō)都是危險(xiǎn)的事情。數(shù)據(jù)科學(xué)家經(jīng)常給與數(shù)據(jù)太多決策制定的權(quán)力。他們不夠重視發(fā)展自身商業(yè)智慧,不明白分析如何令企業(yè)獲益。數(shù)據(jù)科學(xué)家應(yīng)該不僅僅讓數(shù)據(jù)說(shuō)話,而且善于運(yùn)用自身的智慧。數(shù)據(jù)應(yīng)該是影響決策的因素而不是數(shù)據(jù)科學(xué)項(xiàng)目決策制定的最終聲音。企業(yè)雇傭的數(shù)據(jù)科學(xué)家應(yīng)該是可以將領(lǐng)域知識(shí)和技術(shù)特長(zhǎng)結(jié)合起來(lái)的,這是避免錯(cuò)誤的理想情況。
忽視可能性
數(shù)據(jù)科學(xué)家經(jīng)常傾向性忘記方案的可能性,這將導(dǎo)致作出更多的錯(cuò)誤決策。數(shù)據(jù)科學(xué)家經(jīng)常犯錯(cuò),因?yàn)樗麄兘?jīng)常說(shuō),如果企業(yè)采取了X操作一定會(huì)實(shí)現(xiàn)Y目標(biāo)。對(duì)于特定的問(wèn)題這沒(méi)有唯一的答案,因此要確認(rèn)數(shù)據(jù)科學(xué)家從不同可能性中所做的選擇。對(duì)指定問(wèn)題存在不止一個(gè)可能性,它們?cè)谀撤N程度是不確定的。情景規(guī)劃和可能性理論是數(shù)據(jù)科學(xué)的兩個(gè)基本核心,不應(yīng)該被忽視,應(yīng)該用以確認(rèn)決策制定的準(zhǔn)確性頻率。
(審核編輯: 智慧羽毛)
分享