欧美午夜精品一区二区三区,国产91麻豆免费观看,囯产亚洲日韩欧美看国产,亚洲国模精品一区,亚洲欧美日韩精品永久在线,亚洲国产成人精品久久久国产成人一区二区三区综合区精品久久久中文字幕一区 ,国产福利电影一区二区三区 ,欧美日韩亚洲综合一区二区三区

產(chǎn)品推薦

海瑞思Preciset機(jī)房空調(diào)
海瑞思Precise系列專(zhuān)為中小型機(jī)房設(shè)計(jì)的機(jī)房專(zhuān)用空調(diào)Precise...【詳細(xì)】
MPS 10-100 kVA UPS
MPS系列UPS設(shè)備確保任何類(lèi)型的負(fù)載,最大限度的保護(hù)和電能質(zhì)...【詳細(xì)】

聯(lián)系我們

服務(wù)熱線
010-62104284

地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:jhcxkj@163.com

首頁(yè) > 新聞中心 > 能夠簡(jiǎn)化數(shù)據(jù)科學(xué)的6種工具

能夠簡(jiǎn)化數(shù)據(jù)科學(xué)的6種工具

雙擊自動(dòng)滾屏 發(fā)布者:精密空調(diào) 發(fā)布時(shí)間:2019-07-03 08:45:32 閱讀:次【字體:

新的工具捆綁了數(shù)據(jù)清理,拖放式編程以及云計(jì)算,可以幫助任何熟悉電子表格的人充分利用數(shù)據(jù)科學(xué)的力量。

數(shù)據(jù)科學(xué)可能從來(lái)都不是那么容易的,但它正變得越來(lái)越容易深入。像"機(jī)器學(xué)習(xí)"、"回歸"和"降維"這樣的術(shù)語(yǔ)雖然依然和以往一樣難以理解,但是人們正普遍希望能夠從這些技術(shù)中獲得好處,這導(dǎo)致產(chǎn)生了一些很好的工具,它們可以方便的為數(shù)據(jù)創(chuàng)建生產(chǎn)線,為我們想要尋找的答案提供支持。

這個(gè)秘密就類(lèi)似于制造業(yè)的革命。正如標(biāo)準(zhǔn)化的部件幫助啟動(dòng)了工業(yè)革命一樣,各種工具供應(yīng)商的數(shù)據(jù)科學(xué)家已經(jīng)開(kāi)發(fā)了一系列非常強(qiáng)大、擁有廣泛適應(yīng)性的分析例程。他們標(biāo)準(zhǔn)化了接口,使得使用這些可互換的數(shù)據(jù)科學(xué)工具來(lái)構(gòu)建自定義管道變得更加簡(jiǎn)單了。

數(shù)據(jù)科學(xué)家過(guò)去常常需要絞盡腦汁,因?yàn)?0%的工作都是通過(guò)用Python,Java或他們喜歡的語(yǔ)言來(lái)制作自定義例程并準(zhǔn)備分析數(shù)據(jù)的,所以R或SASS中那些復(fù)雜的統(tǒng)計(jì)工具都可以完成它們的工作。而現(xiàn)在市場(chǎng)上充斥著各種復(fù)雜的工具,它們將數(shù)百個(gè)經(jīng)過(guò)良好設(shè)計(jì)的例程捆綁到了一個(gè)包中,以便為你完成大量重復(fù)且令人不快的數(shù)據(jù)清理和標(biāo)準(zhǔn)化工作。

這些新工具也為熟悉電子表格的人提供了機(jī)會(huì)。它們不會(huì)讓所有的準(zhǔn)備工作都消失,但它們會(huì)讓事情變得更加容易。無(wú)需對(duì)數(shù)據(jù)格式大驚小怪,因?yàn)檫@些工具足夠聰明,可以做正確的事情。通常你只要打開(kāi)文件就可以開(kāi)始學(xué)習(xí)了。

這些工具還為云計(jì)算節(jié)省了大量成本。過(guò)去,數(shù)據(jù)科學(xué)家往往需要更強(qiáng)大的計(jì)算機(jī)來(lái)處理大數(shù)據(jù)集。而現(xiàn)在我們可以在云中租用更大、更快的機(jī)器,在提高處理速度的同時(shí)在每月報(bào)表完成時(shí)將硬件返回到池中,從而節(jié)省成本。

對(duì)于只需要訓(xùn)練算法來(lái)預(yù)測(cè)明年趨勢(shì)的核心數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師來(lái)說(shuō),這些工具都是一個(gè)福音。所有用戶(hù)都可以享受使用復(fù)雜工具來(lái)正確處理數(shù)據(jù)的樂(lè)趣。不過(guò),標(biāo)準(zhǔn)化也為全新的研究團(tuán)隊(duì)深入研究數(shù)據(jù)科學(xué)提供了可能。現(xiàn)在,你不需要掌握R語(yǔ)言或Python編程就可以開(kāi)始了。

當(dāng)然,我們?nèi)匀恍枰钊胨伎冀y(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。這些工具雖然還不能回答關(guān)于什么情況下使用神經(jīng)網(wǎng)絡(luò)或聚類(lèi)算法能夠獲得更好結(jié)果的策略性問(wèn)題,但是它們可以使獲取所有數(shù)據(jù)變得簡(jiǎn)單,并快速?lài)L試這兩種方法。當(dāng)每個(gè)人能夠更容易的參與工業(yè)革命時(shí),正如標(biāo)準(zhǔn)化消除了長(zhǎng)期學(xué)徒和熟練工匠的需求一樣,這些數(shù)據(jù)工具也釋放出了越來(lái)越多的企業(yè)人員轉(zhuǎn)向復(fù)雜的數(shù)據(jù)分析以尋求進(jìn)一步指導(dǎo)的潛力。

以下是有助于使數(shù)據(jù)科學(xué)實(shí)現(xiàn)民主化的六種工具。

Alteryx Alteryx平臺(tái)的核心是它的設(shè)計(jì)工具,一個(gè)可視化編程IDE,允許用戶(hù)拖放圖標(biāo),而不是輸入文本程序。Alteryx平臺(tái)的目標(biāo)用戶(hù)既包括數(shù)據(jù)科學(xué)家,也包括了普通的"公民用戶(hù)",很好的迎合了那些不想在清理數(shù)據(jù)和修改數(shù)據(jù)以進(jìn)行分析的細(xì)節(jié)方面遇到麻煩的人。該平臺(tái)試圖通過(guò)使用其可視化的編程模型來(lái)簡(jiǎn)化準(zhǔn)備工作以"顛覆數(shù)據(jù)準(zhǔn)備中的80/20法則"。你只要將圖標(biāo)拖放到數(shù)據(jù)管道中的正確位置,它就可以應(yīng)用許多標(biāo)準(zhǔn)化的任務(wù),比如按客戶(hù)編號(hào)來(lái)實(shí)現(xiàn)分組或連接兩個(gè)文件。

Alteryx還提供了許多用于分析數(shù)據(jù)和繪圖推斷的預(yù)定義預(yù)測(cè)模型。這些看起來(lái)像是用于數(shù)據(jù)處理的圖標(biāo),實(shí)際上都是相應(yīng)的R或Python程序,Alteryx為你省去了處理它們的復(fù)雜性和基于文本編碼的麻煩。在設(shè)計(jì)工具中,數(shù)據(jù)會(huì)自己沿著圖標(biāo)之間的直線流動(dòng),你不需要擔(dān)心逗號(hào)、方括號(hào)或其他的編碼問(wèn)題。

現(xiàn)在,Alteryx平臺(tái)正朝著一個(gè)更多的以服務(wù)器驅(qū)動(dòng)的模式發(fā)展,在這個(gè)模型中,你構(gòu)建的代碼將駐留在一個(gè)可以擴(kuò)展到更大數(shù)據(jù)集的服務(wù)器上。如果你的數(shù)據(jù)需要增強(qiáng),Alteryx也已經(jīng)從Dun & Bradstreet或DigitalGlob等公司獲得了商業(yè)數(shù)據(jù)集授權(quán),可以幫你自動(dòng)填寫(xiě)表格。

當(dāng)你在個(gè)人PC上完成模型的設(shè)計(jì)時(shí),Alteryx也提供了將模型發(fā)布到中央服務(wù)器的基礎(chǔ)設(shè)施,然后將圖形化摘要分發(fā)給業(yè)務(wù)中的每一個(gè)人。Promote工具會(huì)負(fù)責(zé)將日常生產(chǎn)數(shù)據(jù)分發(fā)給企業(yè)中合適的人員,以便他們能夠使用預(yù)測(cè)建模的結(jié)果。

這款設(shè)計(jì)工具的標(biāo)價(jià)是每位用戶(hù)每年5195美元,但是如果想要使用附加的功能,比如包含人口統(tǒng)計(jì)數(shù)據(jù)或空間數(shù)據(jù)的數(shù)據(jù)集,則可能會(huì)增加33,800美元。中央服務(wù)器的起價(jià)為58,500美元,此外,Promote還提供了用于協(xié)作和連接的額外功能。

Domino Domino也是圍繞實(shí)驗(yàn)室開(kāi)始的一個(gè)可視化集成開(kāi)發(fā)環(huán)境(IDE),能夠通過(guò)將圖標(biāo)和管道連接在一起來(lái)構(gòu)建模型。不同之處在于Domino也對(duì)其他工具開(kāi)放。所有主要的和不太重要的基于Web的IDE都受到了支持,因?yàn)橄到y(tǒng)設(shè)計(jì)為所有這些IDE都進(jìn)行了開(kāi)放。大多數(shù)人可能會(huì)使用Jupyter或R-Studio,但其他工具,如Apache Zeppelin或SAS的工具也都得到了很好的支持。

Domino大部分的功能都致力于將數(shù)據(jù)轉(zhuǎn)換為模型所需的所有基礎(chǔ)設(shè)施。Domino的后端會(huì)仔細(xì)跟蹤各種版本的數(shù)據(jù)以及在此過(guò)程中的所有修訂和實(shí)驗(yàn)。所有這些變更都會(huì)被無(wú)情地保存并鏈接到結(jié)果當(dāng)中,以確保你可以隨時(shí)重新運(yùn)行和復(fù)制結(jié)果。它非常強(qiáng)調(diào)存儲(chǔ)查詢(xún)的準(zhǔn)確再現(xiàn),以便其他人可以在稍后發(fā)現(xiàn)并重用該工作。

與單一平臺(tái)相比,Domino更像是一個(gè)基于Web的云網(wǎng)絡(luò)操作系統(tǒng)。該平臺(tái)的開(kāi)放性依賴(lài)于一種相對(duì)標(biāo)準(zhǔn)的機(jī)制,用于將數(shù)據(jù)存儲(chǔ)在文件中并保持修訂的一致性。幸運(yùn)的是,磁盤(pán)存儲(chǔ)比以往任何時(shí)候都要更加便宜。

Domino的主要賣(mài)點(diǎn)之一是它的云集成。你的實(shí)驗(yàn)將運(yùn)行在與他人共享的強(qiáng)大機(jī)器池中。如果你碰巧希望將自己的代碼部署到堆棧中,那么底層體系結(jié)構(gòu)將完全圍繞Docker來(lái)進(jìn)行封裝和構(gòu)建。你可以為你的作業(yè)配置最佳大小,并從池中借用硬件,這對(duì)于數(shù)據(jù)科學(xué)工作來(lái)說(shuō)是一個(gè)很好的解決方案,這些工作通常是斷斷續(xù)續(xù)的,并且在代碼準(zhǔn)備好時(shí)以塊的形式進(jìn)行分派。這是一個(gè)很好的解決方案,特別適用于那些在每周、每月或每季度數(shù)據(jù)準(zhǔn)備就緒時(shí)才會(huì)進(jìn)行批量處理大部分計(jì)算的情況。

Domino的定價(jià)是"根據(jù)Domino所運(yùn)行的位置(我們的托管基礎(chǔ)設(shè)施、你的私有云或內(nèi)部環(huán)境)而定的年度訂閱"。云選項(xiàng)將根據(jù)所消耗的資源對(duì)你進(jìn)行收費(fèi)。

RapidMiner RapidMiner是一個(gè)將數(shù)據(jù)轉(zhuǎn)換為可操作模型的自動(dòng)化程度更高的工具。它的IDE允許用戶(hù)將數(shù)據(jù)轉(zhuǎn)換構(gòu)建為由線來(lái)連接的圖標(biāo)集合的可視化描述。最有用的部分可能是其AutoModel功能,它可以根據(jù)你的數(shù)據(jù)和目標(biāo)為你組裝許多這樣的圖標(biāo)。完成之后,你就可以打開(kāi)模型并調(diào)整各個(gè)部分了。

有大量的擴(kuò)展可以用來(lái)幫助你處理許多更奇特的挑戰(zhàn),比如理解從網(wǎng)站上下載下來(lái)的非結(jié)構(gòu)化文本。還有許多用于處理時(shí)間序列數(shù)據(jù)的工具,例如用于重建丟失的數(shù)據(jù)元素以及形成(和測(cè)試)對(duì)未來(lái)的預(yù)測(cè)的工具。

如果你的數(shù)據(jù)集較大,RapidMiner也可以滿(mǎn)足你的需求。那些擁有并行解決方案的人可以使用RapidMiner的擁有Hadoop和Hive集成的版本"Radoop"。還有一個(gè)基于服務(wù)器的解決方案,可以從AWS,Azure或您自己的本地服務(wù)器配置云計(jì)算機(jī)。基于服務(wù)器的生態(tài)系統(tǒng)促進(jìn)了與集中的數(shù)據(jù)和分析存儲(chǔ)庫(kù)的協(xié)作,這些數(shù)據(jù)和分析可以安排在生產(chǎn)中交付報(bào)告和見(jiàn)解。

每種產(chǎn)品的定價(jià)模型都是獨(dú)立的。桌面版有一個(gè)免費(fèi)的社區(qū)版,但它缺少兩個(gè)最吸引人的特性:用于清理數(shù)據(jù)的TurboPrep和用于生成結(jié)果的AutoModel。一個(gè)初級(jí)版本的價(jià)格為每位用戶(hù)每年2,500美元起,該版本的數(shù)據(jù)行數(shù)限制為100,000行。更大的數(shù)據(jù)集和部署更多處理器的能力則需要更高的成本。在辦公場(chǎng)所安裝自己版本的服務(wù)器工具起價(jià)為15,000美元,但你也可以在RapidMiner的云版本上購(gòu)買(mǎi)使用時(shí)間,起價(jià)為每小時(shí)6.75美元。

Knime Knime是一個(gè)開(kāi)源的數(shù)據(jù)分析平臺(tái),具有一個(gè)可視化的IDE,可以將各種數(shù)據(jù)處理和分析例程鏈接在一起。其核心軟件是免費(fèi)發(fā)布的,但是一些插件和擴(kuò)展也有相應(yīng)的商業(yè)版本,并且費(fèi)用主要用于支持開(kāi)發(fā)。你還可以使用在云中或你自己的計(jì)算機(jī)上運(yùn)行的服務(wù)器版本。

該軟件的基礎(chǔ)是用Java編寫(xiě)的,所以Knime的許多集成都依賴(lài)于Java生態(tài)系統(tǒng)。用戶(hù)也許會(huì)注意到Knime IDE是構(gòu)建在Eclipse之上的,這使得Java開(kāi)發(fā)人員可能會(huì)更加熟悉它。該平臺(tái)可以處理所有主要的數(shù)據(jù)庫(kù)(MySQL,PostgreSQL)和云服務(wù)Amazon Athena,Redshift)中的數(shù)據(jù)以及任何其他具有JDBC兼容連接器的數(shù)據(jù)。Knime提供了一個(gè)與"數(shù)據(jù)庫(kù)內(nèi)處理"特別緊密的集成,這可以加速你的工作。它還集成了下一代的分布式數(shù)據(jù)工具,如Apache Spark。

它擁有一個(gè)強(qiáng)大的開(kāi)源社區(qū)以支持大量的擴(kuò)展和工作流程,可以自由使用,修改和定制,其大多數(shù)代碼托管在GitHub或Bitbucket上。此外,它還有大量的商業(yè)擴(kuò)展,并提供集成支持。

那些嚴(yán)重依賴(lài)Google Web應(yīng)用程序的公司也可能會(huì)喜歡更深層次的集成。Knime可以讀取和寫(xiě)入Google表格中的數(shù)據(jù),這也是一種將數(shù)據(jù)分析引入經(jīng)常使用Google電子表格的辦公室的潛在有效方式。

其企業(yè)服務(wù)器產(chǎn)品有三種規(guī)格,包括了不同的額外功能。初級(jí)版本支持5個(gè)用戶(hù)和8個(gè)核心,每年8500美元起,主要針對(duì)分析團(tuán)隊(duì)。而高級(jí)版本則允許你將結(jié)果分發(fā)給組織內(nèi)的其他人。

Talend Talend提供了一系列可以在桌面、本地?cái)?shù)據(jù)中心或云中運(yùn)行的應(yīng)用程序。該公司的多層工具可以在轉(zhuǎn)換數(shù)據(jù)并進(jìn)行分析之前使用,它會(huì)從各個(gè)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)中收集數(shù)據(jù)。例如,管道設(shè)計(jì)器提供了一個(gè)可視化設(shè)計(jì)工具,用于從各種數(shù)據(jù)源提取數(shù)據(jù),然后可以使用標(biāo)準(zhǔn)工具或Python擴(kuò)展對(duì)其進(jìn)行分析。

其開(kāi)源版本可以在幾個(gè)包中免費(fèi)獲得,比如open Studio for Data Quality和Stitch數(shù)據(jù)加載器。云計(jì)算版本的起售價(jià)為每位用戶(hù)每月1,170美元,年度用戶(hù)和規(guī)模更大的團(tuán)隊(duì)也可享受折扣。價(jià)格是按人數(shù)計(jì)算的,而不是基于消耗的計(jì)算資源。而Data Fabric的定價(jià)則是通過(guò)報(bào)價(jià)來(lái)完成的。

Looker Looker瞄準(zhǔn)的是那些常因太多數(shù)據(jù)源和太多數(shù)據(jù)版本而引起混亂的用戶(hù)。它的產(chǎn)品創(chuàng)建了一個(gè)可靠精確的、受版本控制的數(shù)據(jù)來(lái)源,可以由下游的任何用戶(hù)操縱和繪制圖表。從業(yè)務(wù)用戶(hù)到后端開(kāi)發(fā)人員,每個(gè)人都可以創(chuàng)建自己的儀表板,其中可以包含根據(jù)個(gè)人喜好配置的數(shù)據(jù)和圖表。 該平臺(tái)是圍繞著開(kāi)源世界的許多標(biāo)準(zhǔn)而構(gòu)建的。數(shù)據(jù)和代碼可以在Git的控制下發(fā)展。儀表板可視化則來(lái)自D3。你可以使用LookML來(lái)從SQL數(shù)據(jù)庫(kù)中收集數(shù)據(jù),LookML是一種類(lèi)似于常規(guī)命令式編程語(yǔ)言的自定義查詢(xún)語(yǔ)言。

谷歌最近宣布將收購(gòu)Looker并將其集成到谷歌云中。這次收購(gòu)將如何影響該平臺(tái)還有待觀察。其價(jià)格可按要求進(jìn)行提供。

其他能夠使數(shù)據(jù)更容易訪問(wèn)的工具 上述工具并不是改變我們處理數(shù)據(jù)方式的唯一選擇。一些其他的工具和平臺(tái)也在集成類(lèi)似的想法。主要的云計(jì)算公司也都提供了分析存儲(chǔ)系統(tǒng)中數(shù)據(jù)的工具。例如,Azure的Databricks提供了用于配置Apache Spark的靈活用戶(hù)界面,而Data Factory則提供了一個(gè)用于提取,轉(zhuǎn)換和加載所有數(shù)據(jù)的可視化工具。

一些工具會(huì)更側(cè)重于機(jī)器學(xué)習(xí)和其他形式的人工智能。亞馬遜的SageMaker簡(jiǎn)化了構(gòu)建、培訓(xùn)和部署機(jī)器學(xué)習(xí)流程的工作,在一個(gè)開(kāi)放的市場(chǎng)上提供了100多種算法和模型。H20.ai則提供了他們所謂的"無(wú)人駕駛AI",這是一個(gè)使用Apache Spark構(gòu)建的開(kāi)源平臺(tái),可以用來(lái)簡(jiǎn)化模型創(chuàng)建和分析。

以上這些都集中在了一組工具集上,這些工具可以提升我們探索數(shù)據(jù)的能力,讓我們更清楚地理解所有數(shù)字的含義。

來(lái)源:精密空調(diào) http://lbjsjzl.com

?
在線咨詢(xún) 電話咨詢(xún)