數(shù)據(jù)庫的前世今生

2021-02-04 分類：網(wǎng)站建設(shè)

被稱之為基礎(chǔ)軟件三駕馬車之一的數(shù)據(jù)庫，在經(jīng)歷了層次型和網(wǎng)狀型、關(guān)系型數(shù)據(jù)型庫以及更加強大的數(shù)據(jù)管理功能等三個時期之后，其在未來的發(fā)展歷程中還有哪些更多的可能性？

基于此，卡內(nèi)基梅隆大學計算機科學系數(shù)據(jù)庫學副教授 Andy Pavlo 曾于 2015 年為 CMU 計算機科學系 50 周年慶典上寫下了自己對于數(shù)據(jù)庫未來 50 年的構(gòu)想。

在本文中，他提出了幾點：關(guān)系模型對于大多數(shù)應用而言仍將占據(jù)主導地位，開發(fā)框架和數(shù)據(jù)庫管理系統(tǒng)將更加緊密地耦合在一起，從而使所有數(shù)據(jù)庫交互都透明化，SQL 仍然是與 DBMS 交互的實際語言，但人類永遠都不會真正編寫 SQL，將以自然語言查詢相關(guān)數(shù)據(jù)問題，這將導致編程方式發(fā)生重大變化。無所不在的「物聯(lián)網(wǎng)」意味著每個設(shè)備都能收集其環(huán)境的數(shù)據(jù)，對于新硬件，更靈活和可編程的處理結(jié)構(gòu)將更為普遍，人類作為數(shù)據(jù)庫管理員的角色將不復存在，DBMS 最終將完全自治和自我修復，星際設(shè)備的數(shù)據(jù)庫事務將興起，最終，「我將在 50 年后去世」。

數(shù)據(jù)庫的前世今生

數(shù)據(jù)庫的過去

第一個數(shù)據(jù)庫管理系統(tǒng)(DBMS)在1968年上線。IBM的IMS用于跟蹤土星5號和阿波羅太空探索項目的供應和零部件庫存。它引入了這樣一種思想，即應用程序的代碼應該與它所操作的數(shù)據(jù)分離。由此支持開發(fā)人員編寫只關(guān)注數(shù)據(jù)訪問和操作的應用程序，而不關(guān)注與執(zhí)行這些操作和確保數(shù)據(jù)安全相關(guān)的復雜性和開銷。IMS之后，在20世紀70年代早期，IBM的System R和加州大學的INGRES率先開發(fā)了第一個關(guān)系型DBMS。

第一批系統(tǒng)的數(shù)據(jù)庫工作負載沒有今天那么復雜和多樣化。在這些早期的應用程序中，操作員通過終端啟動事務，然后手動向系統(tǒng)輸入新數(shù)據(jù)。此時，DBMS的預期峰值吞吐量僅為每秒數(shù)十到數(shù)百個事務，響應時間以秒為單位度量。這些早期DBMS的體系結(jié)構(gòu)也基于當時流行的計算硬件。它們通常部署在只有一個CPU核心和少量主內(nèi)存的計算機上。對于這些系統(tǒng)來說，磁盤是數(shù)據(jù)庫的主要存儲位置，因為磁盤能夠存儲比內(nèi)存更大的數(shù)據(jù)，而且成本更低。

數(shù)據(jù)庫的前世今生

數(shù)據(jù)庫的現(xiàn)在

盡管在50年后，我們使用數(shù)據(jù)庫的方式發(fā)生了很大的變化，關(guān)系模型和SQL仍然是組織數(shù)據(jù)庫并與之交互的主要方式。許多互聯(lián)網(wǎng)應用程序需要每秒支持數(shù)十萬甚至數(shù)百萬個事務，每個事務的處理延遲以毫秒為單位。這是因為它們同時與數(shù)百萬用戶和其他計算機系統(tǒng)相連?，F(xiàn)在，企業(yè)和組織能夠從這些應用程序中收集大量的數(shù)據(jù)，他們希望分析這些數(shù)據(jù)來推斷新的信息，以指導他們的決策。基于此，近年來我們看到了針對特定應用場景的專門系統(tǒng)的興起，這些應用場景的性能比基于1970年代架構(gòu)的通用DBMS要好得多?，F(xiàn)在有一些DBMS旨在為聯(lián)機事務處理(OLTP)應用程序快速獲取新信息，還有一些DBMS旨在為復雜的聯(lián)機分析處理(OLAP)程序存儲大量數(shù)據(jù)。

這些較新的DBMS還利用了近年來出現(xiàn)的三種主要硬件趨勢。首先是大內(nèi)存計算機的出現(xiàn)，這使得現(xiàn)在可以部署少量的機器，這些機器有足夠的DRAM來存儲除了大的OLTP數(shù)據(jù)庫之外的所有數(shù)據(jù)。將數(shù)據(jù)存儲在內(nèi)存中可以確保DBMS能夠以較低的延遲同時處理許多事務。根據(jù)我們的經(jīng)驗，用于現(xiàn)代OLTP應用程序的數(shù)據(jù)庫的大小通常為幾百GB。與OLAP數(shù)據(jù)倉庫相比，DBMS可以管理幾個PB大小的數(shù)據(jù)庫。這是因為OLTP數(shù)據(jù)庫存儲應用程序的當前狀態(tài)(例如，最近90天的訂單)，而OLAP數(shù)據(jù)庫存儲組織的所有歷史信息(例如，所有下過的訂單)。因此，OLAP DBMS仍然主要存儲在磁盤上，并使用一些優(yōu)化，如壓縮或柱狀存儲，以克服它們較長的訪問時間。

第二個硬件趨勢是從提高單核CPU時鐘速度到多核CPU的轉(zhuǎn)變。時鐘頻率已保持了幾十年的增長，但現(xiàn)在增長已經(jīng)停止，因為硬功率限制和復雜性的問題。復雜的、無序的、超標量的處理器正在被簡單的、有序的、單問題核心所取代。在DBMS中利用這種增加的并行性是很困難的，因為協(xié)調(diào)數(shù)百個線程的共享數(shù)據(jù)的訪問非常復雜?，F(xiàn)代DBMS使用低開銷并發(fā)控制和其他無鎖技術(shù)來提高系統(tǒng)的可伸縮性。

第三個趨勢是商品硬件的成本降低。這在云計算平臺中尤為明顯?，F(xiàn)在可以部署一個大型集群，其處理和存儲能力只相當于十年前的一小部分。這種變化與1980-1990年代相比，過去十年中沒有共享的DBMS的數(shù)量在不斷增加。

盡管取得了這些進展，但仍然存在一些重大問題，由此阻礙了許多人部署數(shù)據(jù)密集型應用程序。所有這些的一個主要主題是，數(shù)據(jù)庫仍然是計算系統(tǒng)(例如，部署、配置、管理)的人工密集型組件。使用兩個獨立的DBMS分離OLTP和OLAP工作負載，以避免其中一個工作負載減慢另一個工作負載的速度，但是它需要額外的進程來將數(shù)據(jù)從系統(tǒng)傳輸?shù)搅硪粋€工作負載。除此之外，調(diào)優(yōu)DBMS以獲得特定應用程序的好性能是出了名的困難。許多組織求助于雇傭?qū)＜襾頌轭A期的工作量配置系統(tǒng)。但是，隨著數(shù)據(jù)庫的規(guī)模和復雜性的增長，優(yōu)化DBMS以滿足這些應用程序的需求已經(jīng)超出了人類的能力。

數(shù)據(jù)庫的前世今生

數(shù)據(jù)庫的未來

在接下來的50年里，就像之前一樣，我們將看到數(shù)據(jù)庫領(lǐng)域的重大變化。除了存儲的數(shù)據(jù)量和速度明顯增大之外，數(shù)據(jù)庫在應用程序中的使用方式以及它們所部署的硬件類型也將發(fā)生重大變化。很難預測該領(lǐng)域的主要范式轉(zhuǎn)變是什么，預測哪些數(shù)據(jù)庫公司和產(chǎn)品仍然可用也是不現(xiàn)實的。因此，我發(fā)表一下對幾個廣泛主題的看法。

關(guān)系模型仍將主導大多數(shù)應用程序，但開發(fā)人員將不再需要過于擔心其應用程序使用的數(shù)據(jù)模型。編程框架和DBMS之間的耦合將更加緊密，這樣所有的數(shù)據(jù)庫交互都將是透明的(并且是好的)。同樣，SQL(或它的某種方言)將仍然是與DBMS交互的實際語言，但人類真實上永遠不會編寫SQL。相反，他們會用自然語言詢問有關(guān)數(shù)據(jù)的問題。這些變化將導致我們編寫程序的方式發(fā)生重大轉(zhuǎn)變;開發(fā)人員以一種最容易被人類理解的方式對其數(shù)據(jù)進行建模，然后框架(與DBMS一起)將自動為其生成好存儲方案。所有程序都將使用強一致的ACID事務執(zhí)行。也就是說，在當今基于Web的應用程序中使用的最終一致性方法將避免增加管理的復雜性。在網(wǎng)絡(luò)通信、并發(fā)控制和資源管理方面將會有重大的改進，這將使用ACID事務變得更好并具有可伸縮性。

將來會有越來越多的應用程序更自然地將數(shù)據(jù)存儲在數(shù)組或矩陣中。這是因為組織需要分析大量的非結(jié)構(gòu)化信息，尤其是視頻。我們將掌握將所有非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成半結(jié)構(gòu)化格式的能力，這種格式在DBMS中更容易組織和索引。作為其中的一部分，時效性也將變得重要，因為它關(guān)系到信息如何隨時間的變化。目前的系統(tǒng)無法解釋這一點，因為在一個時間序列中存儲提取的每個視頻幀的信息的開銷很大。

無處不在的“物聯(lián)網(wǎng)”將意味著每臺設(shè)備都能夠收集有關(guān)其環(huán)境的數(shù)據(jù)。這將包括從小型嵌入式傳感器到大型自主機器人。小型設(shè)備將使用片上DBMS，就像手機現(xiàn)在包含片上視頻解碼器一樣。所有這些系統(tǒng)的數(shù)據(jù)庫將完全可以通過一些標準API(可能是SQL)進行組合和簡易的聯(lián)合。這意味著DBMS將以零配置彼此通信。你只需將兩個DBMS相互指向?qū)Ψ?，它們就會立即傳遞它們的信息，并確保它們是同步的。某些管理器服務將能夠根據(jù)需要跨設(shè)備分發(fā)查詢執(zhí)行。人們將不需要手動配置提取-轉(zhuǎn)換-加載實用程序或其他工具來保持不同系統(tǒng)上的數(shù)據(jù)一致。以這種方式使所有不同的DBMS可組合和可互操作將是一項重要的工程工作。因此，將會有一個使用人工智能或機器學習的工具包來自動地將不同的DBMS變體映射到彼此以進行相同的操作。

對于新的硬件，更靈活和可編程的制程將更普遍。DBMS將把程序的關(guān)鍵部分(例如鎖管理器)編譯到一個硬件加速器中。我們還將看到易失性和非易失性內(nèi)存之間的二分法的消失。DBMS將假定所有內(nèi)存都是快速和持久的，不需要維護變化無常的緩存。這種新存儲器將比今天可用的存儲器大幾個數(shù)量級。因此，DBMS將在預先計算的物化視圖中存儲其數(shù)據(jù)的多個副本，以便快速響應任何可能的查詢。

數(shù)據(jù)庫管理員的角色將不復存在。這些未來的系統(tǒng)太復雜了，人類無法推理。DBMS最終將完全自治和自修復。同樣，編程框架和DBMS之間的緊密耦合將支持系統(tǒng)在組織數(shù)據(jù)、提供資源和優(yōu)化執(zhí)行方面做出比人工生成計劃更好的決策。

我們將看到星際設(shè)備(如太空探測器)數(shù)據(jù)庫事務的增長。在這種情況下，在這些容器上運行的DBMS彼此之間的距離將比在地球上運行的系統(tǒng)要遠得多，并且會導致明顯較長的延遲(即延遲時間，分鐘或小時)。這意味著在今天基于web的應用程序中使用的弱一致性技術(shù)和實踐將被應用到這些星際系統(tǒng)中。

最后的最后，50年后我也已離開人世了吧。

新聞名稱：數(shù)據(jù)庫的前世今生
本文地址：http://redsoil1982.com.cn/news/99051.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App設(shè)計、企業(yè)網(wǎng)站制作、定制網(wǎng)站、網(wǎng)站設(shè)計公司、Google、云服務器

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

快來體驗Linux！Linux Mint 19.2安裝教程 2021-02-04
開發(fā)小程序還是app好 2021-02-04
聊聊大數(shù)據(jù)Lambda架構(gòu) 2021-02-04
百度SEO怎么收費？如何推廣才有流量？ 2021-02-04
一分鐘帶你了解建設(shè)網(wǎng)站對于企業(yè)的真正意義 2021-02-04
智能客服為何能夠快速滲透各行各業(yè)？ 2021-02-04
模板建站類型有哪些？看看你適合做哪種網(wǎng)站 2021-02-04
跨境電商運營模式包括哪些？ 2021-02-04