最新精品久久,欧美亚洲福利,表妹免费在线观看,久久国产二区,国产三级电影网站,日本特黄久久,成人a在线视频免费观看

大數(shù)據(jù):70多個(gè)網(wǎng)站讓你免費(fèi)獲取大數(shù)據(jù)存儲(chǔ)庫(kù)

來(lái)源:網(wǎng)絡(luò)

點(diǎn)擊:3040

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞: 大數(shù)據(jù),物聯(lián)網(wǎng),存儲(chǔ)庫(kù)

      你是否需要大量的數(shù)據(jù)來(lái)檢驗(yàn)?zāi)愕腁PP性能?最簡(jiǎn)單的方法是從網(wǎng)上免費(fèi)數(shù)據(jù)存儲(chǔ)庫(kù)下載數(shù)據(jù)樣本。但這種方法最大的缺點(diǎn)是數(shù)據(jù)很少有獨(dú)特的內(nèi)容并且不一定能達(dá)到預(yù)期的結(jié)果。以下是70多家可以獲得免費(fèi)大數(shù)據(jù)存儲(chǔ)庫(kù)的網(wǎng)站。

      Wikipedia:Database :向感興趣的用戶提供所有可用的內(nèi)容的免費(fèi)副本??梢缘玫蕉喾N語(yǔ)言的數(shù)據(jù)。內(nèi)容連同圖片可以下載。

      Common crawl 建立并維護(hù)一個(gè)所有人都可以訪問(wèn)的開(kāi)放的網(wǎng)絡(luò)。這個(gè)數(shù)據(jù)保存在亞馬遜s3bucket中,請(qǐng)求者可能花費(fèi)一些錢來(lái)訪問(wèn)它。

      Common crawl :建立并維護(hù)一個(gè)開(kāi)放的網(wǎng)絡(luò),向所有人開(kāi)放。

      EDRM File Formats Data Set:由381個(gè)文件夾200種文件格式組成。

      Apache Mahout  TLP項(xiàng)目創(chuàng)建一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)算法。Mahout有許多免費(fèi)的和付費(fèi)的語(yǔ)料庫(kù)語(yǔ)料。

      EDRM Enron Email Data Set v2由安然公司郵件信息和附件組成,存在兩組可下載的壓縮文件中:XML和PST。

      ClueWeb09用來(lái)支持信息檢索和相關(guān)人類語(yǔ)言技術(shù)研究的資料庫(kù)。它包含了從2009年1月到2月間收集的大約10億個(gè)網(wǎng)頁(yè),包含10種語(yǔ)言。資料庫(kù)被若干TREC會(huì)議的追蹤檢測(cè)使用。

      DMOZ –最大的、最全面的人工編輯的開(kāi)放式網(wǎng)站目錄。它收集了不同類型的網(wǎng)站鏈接。Dmoz是互聯(lián)網(wǎng)搜索引擎的一個(gè)主要來(lái)源。

      theinfo.org –這是一個(gè)大數(shù)據(jù)集網(wǎng)站,在這里學(xué)者、設(shè)計(jì)師、藝術(shù)家等可以交流技巧和竅門,一起開(kāi)發(fā)和共享工具,并開(kāi)始整合他們獨(dú)有的項(xiàng)目。

      Project Gutenberg 提供超過(guò)36000免費(fèi)電子書(shū)的下載,可以下載到個(gè)人電腦、Kindle, Android, iOS or 或其他便攜式設(shè)備。

      Million song data set:與tracks 和藝術(shù)家有關(guān)的數(shù)據(jù)

      AWS (Amazon Web Services) Public Data Sets:提供了可以無(wú)縫融入AWS(亞馬遜網(wǎng)絡(luò)服務(wù))云應(yīng)用的公共數(shù)據(jù)集的集中存儲(chǔ)庫(kù)。

      BigML big list of public data sources.

      Bioassay data:研究文章“生物測(cè)定數(shù)據(jù)的虛擬篩選”,由Amanda Schierz編寫,有21個(gè)生物測(cè)定數(shù)據(jù)集(活性/非生理活性成分),可以下載。

      Bitly 1.usa.gov data:匿名點(diǎn)擊政府鏈接

      Canada Open Data:有許多政府和地理空間的數(shù)據(jù)集的試點(diǎn)項(xiàng)目

      Canada Open Data:許多政府和地理空間數(shù)據(jù)集的試點(diǎn)項(xiàng)目。

      Causality Workbench:數(shù)據(jù)存儲(chǔ)庫(kù)

      Corral Big Data repository:在德克薩斯高級(jí)計(jì)算中心,提供以數(shù)據(jù)為中心的技術(shù)。

      Data Source Handbook:公開(kāi)數(shù)據(jù)指南

      Datacatalogs.org:來(lái)自美國(guó)、歐盟、加拿大、CKAN以及其他的公開(kāi)政府?dāng)?shù)據(jù)

      Data.gov.uk:英國(guó)的公共可用數(shù)據(jù)(London datastore也是)

      Data.gov/Education:對(duì)于教育數(shù)據(jù)資源的主要指南,包括高價(jià)值的數(shù)據(jù)集、數(shù)據(jù)可視化、課堂資源、創(chuàng)建自公開(kāi)數(shù)據(jù)的應(yīng)用程序以及其他。

      DataMarket:可視化的世界經(jīng)濟(jì)、社會(huì)、自然和工業(yè),擁有來(lái)自聯(lián)合國(guó),世界銀行,歐盟統(tǒng)計(jì)局和其他重要數(shù)據(jù)提供者的一億時(shí)間序列。

      Datamob:可以很好利用的公開(kāi)數(shù)據(jù)

      DataSF.org:可向City & County of San Francisco, CA.購(gòu)買的數(shù)據(jù)集信息交流中心

      DataFerrett:一個(gè)用來(lái)訪問(wèn)和使用The Data Web的數(shù)據(jù)挖掘工具,許多網(wǎng)上美國(guó)政務(wù)數(shù)據(jù)集的集合。

      EconData:大量經(jīng)濟(jì)學(xué)的時(shí)間序列,由許多美國(guó)政府機(jī)構(gòu)編制。

      Enron Email Dataset:來(lái)自大約150個(gè)用戶的數(shù)據(jù),這些用戶大多數(shù)是安然公司高級(jí)管理人員

      Europeana Data:包含2000萬(wàn)文字,圖片,視頻開(kāi)放的元數(shù)據(jù),以及由歐洲數(shù)位圖書(shū)館收集的聲音,對(duì)于歐洲文化遺產(chǎn)內(nèi)容值得信賴的、全面的資源。

      Europeana Data:

      FEDSTATS:一個(gè)美國(guó)統(tǒng)計(jì)資料的綜合資源以及更多

      FIMI repository for frequent itemset mining:工具和數(shù)據(jù)集

      Financial Data Finder at OSU:大型財(cái)務(wù)數(shù)據(jù)集目錄

      GDELT:關(guān)于事件、位置和音調(diào)的全球數(shù)據(jù),被英國(guó)衛(wèi)報(bào)形容為“生命、宇宙和一切的大數(shù)據(jù)歷史”

      GEO (GEO Gene Expression Omnibus):一個(gè)支持MIAME兼容數(shù)據(jù)提交的基因表達(dá)/分子豐度信息庫(kù),一個(gè)精心策劃的網(wǎng)上資源,用于基因表達(dá)數(shù)據(jù)的瀏覽,查詢和檢索。

      GeoDa Center:地理和空間數(shù)據(jù)

      Google ngrams datasets:來(lái)自數(shù)Google掃描的百萬(wàn)書(shū)籍文本

      Grain Market Research:財(cái)務(wù)數(shù)據(jù),包括股票、期貨等

      Hilary Mason research-quality Big Data sets收集許多文本和圖片數(shù)據(jù)集

      HitCompanies Datasets:HitCompanies隨機(jī)取樣的1萬(wàn)個(gè)英國(guó)公司全面的數(shù)據(jù),采用人工智能/機(jī)器學(xué)習(xí)進(jìn)行自動(dòng)更新。

      ICWSM-2009 dataset:包含2008年8月1日到10月1日之間的4400萬(wàn)個(gè)博文

      Infochimps:一個(gè)數(shù)據(jù)開(kāi)放的目錄和集合,允許分享、出售和下載關(guān)于任何內(nèi)容的數(shù)據(jù)。

      Investor Links:包含財(cái)物數(shù)據(jù)

      KDD Cup center:數(shù)據(jù)、工作表和結(jié)果

      Kevin Chai list of datasets:文本、SNA和其他領(lǐng)域

      KONECT:科布倫茨網(wǎng)絡(luò)收集,擁有大量各種類型的網(wǎng)絡(luò)數(shù)據(jù)集,以便在網(wǎng)絡(luò)挖掘領(lǐng)域進(jìn)行研究。

      Linking Open Data 工程,免費(fèi)向所有人提供數(shù)據(jù)

      MIT Cancer Genomics gene expression datasets and publications:來(lái)自麻省理工Whitehead Center用于基因組研究

      ML Data:歐盟Pascal2網(wǎng)絡(luò)數(shù)據(jù)儲(chǔ)存庫(kù)

      NASDAQ Data Store:提供市場(chǎng)數(shù)據(jù)

      National Government Statistical Web Sites:來(lái)自大約70個(gè)網(wǎng)站的數(shù)據(jù)、報(bào)告、統(tǒng)計(jì)年鑒、新聞和其他,包括非洲、歐洲、亞洲和拉丁美洲的國(guó)家。

      National Space Science Data Center (NSSDC):美國(guó)國(guó)家航空航天局的數(shù)據(jù)集,包含行星探索、空間和太陽(yáng)物理學(xué)、生命科學(xué)、天體物理學(xué)以及其他方面。

      Open Data Census:評(píng)估世界各地的開(kāi)放數(shù)據(jù)的狀態(tài)。

      OpenData from Socrata:允許訪問(wèn)超過(guò)10000個(gè)數(shù)據(jù)集,包括商業(yè)、教育、政府和娛樂(lè)

      Open Source Sports:大量運(yùn)動(dòng)數(shù)據(jù)庫(kù),包括棒球、足球、籃球和曲棍球

      Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因組有關(guān)的出版物數(shù)據(jù)庫(kù)

      Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.

      qunb:一個(gè)用來(lái)發(fā)現(xiàn)和可視化的數(shù)據(jù)資料的平臺(tái)

      Robert Schiller data:住房建筑、股票市場(chǎng)和更多的來(lái)自于他的書(shū) Irrational Exuberance的數(shù)據(jù)

      SMD: Stanford Microarray Database,存儲(chǔ)來(lái)自微陣列實(shí)驗(yàn)的原始的和標(biāo)準(zhǔn)的數(shù)據(jù)

      Jerry Smith dataset collection:財(cái)經(jīng)、政府、機(jī)器學(xué)習(xí)、科學(xué)和其他數(shù)據(jù)

      SourceForge.net Research Data:包含大約10萬(wàn)個(gè)項(xiàng)目和超過(guò)100萬(wàn)注冊(cè)用戶的活動(dòng)的歷史和現(xiàn)狀的統(tǒng)計(jì)數(shù)據(jù)的項(xiàng)目管理網(wǎng)站。

      StatLib,卡內(nèi)基梅隆大學(xué)數(shù)據(jù)檔案

      STATOO Datasets part 1和 STATOO Datasets part 2

      Time Series Data Library

      Visual Analytics Benchmark Repository.

      UCI KDD Database Repository :適用于機(jī)器學(xué)習(xí)和知識(shí)發(fā)現(xiàn)研究的大數(shù)據(jù)集

      UCI Machine Learning Repository.

      UCR Time Series Data Archive:提供數(shù)據(jù)集、論文、鏈接和代碼

      United States Census Bureau.

      Wikiposit:一個(gè)(虛擬的)融合了來(lái)自許多不同網(wǎng)站的數(shù)據(jù)(大多數(shù)是金融的),允許用戶合并來(lái)自不同來(lái)源的數(shù)據(jù)

      Wolfram Alpha disease and patient level dat.

      Yahoo Sandbox datasets:語(yǔ)言、圖表、評(píng)級(jí)、廣告與營(yíng)銷、競(jìng)賽

      Yelp Academic Dataset:30家大學(xué)的250個(gè)最接近商業(yè)的所有數(shù)據(jù)和評(píng)論,為學(xué)生和學(xué)者來(lái)探討和研究

    (審核編輯: 小丸子1)

    聲明:除特別說(shuō)明之外,新聞內(nèi)容及圖片均來(lái)自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請(qǐng)聯(lián)系我們刪除。