2010年7月27日 星期二

NoSQL數據庫探討之一- 為什麼要用非關係數據庫?

隨著互聯網web2.0網站的興起,非關係型的數據庫現在成了一個極其熱門的新領域,非關係數據庫產品的發展非常迅速。 而傳統的關係數據庫在應付web2.0網站,特別是超大規模和高並發的SNS類型的web2.0純動態網站已經顯得力不從心,暴露了很多難以克服的問題,例如:

1、High performance - 對數據庫高並發讀寫的需求
web2.0網站要根據用戶個性化信息來實時生成動態頁面和提供動態信息,所以基本上無法使用動態頁面靜態化技術,因此數據庫並發負載非常高,往往要達到每秒上萬次讀寫請求。 關係數據庫應付上萬次SQL查詢還勉強頂得住,但是應付上萬次SQL寫數據請求,硬盤IO就已經無法承受了。 其實對於普通的BBS網站,往往也存在對高並發寫請求的需求,例如像JavaEye網站的實時統計在線用戶狀態,記錄熱門帖子的點擊次數,投票計數等,因此這是一個相當普遍的需求。

2、Huge Storage - 對海量數據的高效率存儲和訪問的需求
類似Facebook,twitter,Friendfeed這樣的SNS網站,每天用戶產生海量的用戶動態,以Friendfeed為例,一個月就達到了2.5億條用戶動態,對於關係數據庫來說,在一張2.5億條記錄的表裡面進行SQL查詢,效率是極其低下乃至不可忍受的。 再例如大型web網站的用戶登錄系統,例如騰訊,盛大,動輒數以億計的帳號,關係數據庫也很難應付。

3、High Scalability && High Availability- 對數據庫的高可擴展性和高可用性的需求
在基於web的架構當中,數據庫是最難進行橫向擴展的,當一個應用系統的用戶量和訪問量與日俱增的時候,你的數據庫卻沒有辦法像web server和app server那樣簡單的通過添加更多的硬件和服務節點來擴展性能和負載能力。 對於很多需要提供24小時不間斷服務的網站來說,對數據庫系統進行升級和擴展是非常痛苦的事情,往往需要停機維護和數據遷移,為什麼數據庫不能通過不斷的添加服務器節點來實現擴展呢?

在上面提到的“三高”需求面前,關係數據庫遇到了難以克服的障礙,而對於web2.0網站來說,關係數據庫的很多主要特性卻往往無用武之地,例如:

1、數據庫事務一致性需求
很多web實時系統並不要求嚴格的數據庫事務,對讀一致性的要求很低,有些場合對寫一致性要求也不高。 因此數據庫事務管理成了數據庫高負載下一個沉重的負擔。

2、數據庫的寫實時性和讀實時性需求
對關係數據庫來說,插入一條數據之後立刻查詢,是肯定可以讀出來這條數據的,但是對於很多web應用來說,並不要求這麼高的實時性,比方說我(JavaEye的robbin)發一條消息之後,過幾秒乃至十幾秒之後,我的訂閱者才看到這條動態是完全可以接受的。

3、對複雜的SQL查詢,特別是多表關聯查詢的需求
任何大數據量的web系統,都非常忌諱多個大表的關聯查詢,以及復雜的數據分析類型的複雜SQL報表查詢,特別是SNS類型的網站,從需求以及產品設計角度,就避免了這種情況的產生。 往往更多的只是單表的主鍵查詢,以及單表的簡單條件分頁查詢,SQL的功能被極大的弱化了。

因此,關係數據庫在這些越來越多的應用場景下顯得不那麼合適了,為了解決這類問題的非關係數據庫應運而生,現在這兩年,各種各樣非關係數據庫,特別是鍵值數據庫(Key-Value Store DB)風起雲湧,多得讓人眼花繚亂。 前不久國外剛剛舉辦了NoSQL Conference,各路NoSQL數據庫紛紛亮相,加上未亮相但是名聲在外的,起碼有超過10個開源的NoSQLDB,例如:

Redis,Tokyo Cabinet,Cassandra,Voldemort,MongoDB,Dynomite,HBase,CouchDB,Hypertable, Riak,Tin, Flare, Lightcloud, KiokuDB,Scalaris, Kai, ThruDB, ......

這些NoSQL數據庫,有的是用C/C++編寫的,有的是用Java編寫的,還有的是用Erlang編寫的,每個都有自己的獨到之處,看都看不過來了,我(robbin)也只能從中挑選一些比較有特色,看起來更有前景的產品學習和了解一下。 這些NoSQL數據庫大致可以分為以下的三類:

一、滿足極高讀寫性能需求的Kye-Value數據庫:Redis,Tokyo Cabinet, Flare

高性能Key-Value數據庫的主要特點就是具有極高的並發讀寫性能,Redis,Tokyo Cabinet, Flare,這3個Key-Value DB都是用C編寫的,他們的性能都相當出色,但出了出色的性能,他們還有自己獨特的功能:

1、Redis
Redis是一個很新的項目,剛剛發布了1.0版本。 Redis本質上是一個Key-Value類型的內存數據庫,很像memcached,整個數據庫統統加載在內存當中進行操作,定期通過異步操作把數據庫數據flush到硬盤上進行保存。 因為是純內存操作,Redis的性能非常出色,每秒可以處理超過10萬次讀寫操作,是我知道的性能最快的Key-Value DB。

Redis的出色之處不僅僅是性能,Redis最大的魅力是支持保存List鍊錶和Set集合的數據結構,而且還支持對List進行各種操作,例如從List兩端push和pop數據,取List區間,排序等等,對Set支持各種集合的並集交集操作,此外單個value的最大限制是1GB,不像memcached只能保存1MB的數據,因此Redis可以用來實現很多有用的功能,比方說用他的List來做FIFO雙向鍊錶,實現一個輕量級的高性能消息隊列服務,用他的Set可以做高性能的tag系統等等。 另外Redis也可以對存入的Key-Value設置expire時間,因此也可以被當作一個功能加強版的memcached來用。

Redis的主要缺點是數據庫容量受到物理內存的限制,不能用作海量數據的高性能讀寫,並且它沒有原生的可擴展機制,不具有scale(可擴展)能力,要依賴客戶端來實現分佈式讀寫,因此Redis適合的場景主要局限在較小數據量的高性能操作和運算上。 目前使用Redis的網站有github,Engine Yard。

2、Tokyo Cabinet和Tokoy Tyrant
TC和TT的開發者是日本人Mikio Hirabayashi,主要被用在日本最大的SNS網站mixi.jp上,TC發展的時間最早,現在已經是一個非常成熟的項目,也是Kye-Value數據庫領域最大的熱點,現在被廣泛的應用在很多很多網站上。 TC是一個高性能的存儲引擎,而TT提供了多線程高並發服務器,性能也非常出色,每秒可以處理4-5萬次讀寫操作。

TC除了支持Key-Value存儲之外,還支持保存Hashtable數據類型,因此很像一個簡單的數據庫表,並且還支持基於column的條件查詢,分頁查詢和排序功能,基本上相當於支持單表的基礎查詢功能了,所以可以簡單的替代關係數據庫的很多操作,這也是TC受到大家歡迎的主要原因之一,有一個Ruby的項目miyazakiresistance將TT的hashtable的操作封裝成和ActiveRecord一樣的操作,用起來非常爽。

TC/TT在mixi的實際應用當中,存儲了2000萬條以上的數據,同時支撐了上萬個並發連接,是一個久經考驗的項目。 TC在保證了極高的並發讀寫性能的同時,具有可靠的數據持久化機制,同時還支持類似關係數據庫表結構的hashtable以及簡單的條件,分頁和排序操作,是一個很棒的NoSQL數據庫。

TC的主要缺點是在數據量達到上億級別以後,並發寫數據性能會大幅度下降,NoSQL: If Only It Was That Easy提到,他們發現在TC裡面插入1.6億條2-20KB數據的時候,寫入性能開始急劇下降。 看來是當數據量上億條的時候,TC性能開始大幅度下降,從TC作者自己提供的mixi數據來看,至少上千萬條數據量的時候還沒有遇到這麼明顯的寫入性能瓶頸。

這個是Tim Yang做的一個Memcached,Redis和Tokyo Tyrant的簡單的性能評測,僅供參考

3、Flare
TC是日本第一大SNS網站mixi開發的,而Flare是日本第二大SNS網站green.jp開發的,有意思吧。 Flare簡單的說就是給TC添加了scale功能。 他替換掉了TT部分,自己另外給TC寫了網絡服務器,Flare的主要特點就是支持scale能力,他在網絡服務端之前添加了一個node server,來管理後端的多個服務器節點,因此可以動態添加數據庫服務節點,刪除服務器節點,也支持failover。 如果你的使用場景必須要讓TC可以scale,那麼可以考慮flare。

flare唯一的缺點就是他只支持memcached協議,因此當你使用flare的時候,就不能使用TC的table數據結構了,只能使用TC的key-value數據結構存儲。

二、滿足海量存儲需求和訪問的面向文檔的數據庫:MongoDB,CouchDB

面向文檔的非關係數據庫主要解決的問題不是高性能的並發讀寫,而是保證海量數據存儲的同時,具有良好的查詢性能。 MongoDB是用C++開發的,而CouchDB則是Erlang開發的:

1、MongoDB
MongoDB是一個介於關係數據庫和非關係數據庫之間的產品,是非關係數據庫當中功能最豐富,最像關係數據庫的。 他支持的數據結構非常鬆散,是類似json的bjson格式,因此可以存儲比較複雜的數據類型。 Mongo最大的特點是他支持的查詢語言非常強大,其語法有點類似於面向對象的查詢語言,幾乎可以實現類似關係數據庫單表查詢的絕大部分功能,而且還支持對數據建立索引。

Mongo主要解決的是海量數據的訪問效率問題,根據官方的文檔,當數據量達到50GB以上的時候,Mongo的數據庫訪問速度是MySQL的10倍以上。 Mongo的並發讀寫效率不是特別出色,根據官方提供的性能測試表明,大約每秒可以處理0.5萬-1.5次讀寫請求。 對於Mongo的並發讀寫性能,我(robbin)也打算有空的時候好好測試一下。

因為Mongo主要是支持海量數據存儲的,所以Mongo還自帶了一個出色的分佈式文件系統GridFS,可以支持海量的數據存儲,但我也看到有些評論認為GridFS性能不佳,這一點還是有待親自做點測試來驗證了。

最後由於Mongo可以支持複雜的數據結構,而且帶有強大的數據查詢功能,因此非常受到歡迎,很多項目都考慮用MongoDB來替代MySQL來實現不是特別複雜的Web應用,比方說why we migrated from MySQL to MongoDB就是一個真實的從MySQL遷移到MongoDB的案例,由於數據量實在太大,所以遷移到了Mongo上面,數據查詢的速度得到了非常顯著的提升。

MongoDB也有一個ruby的項目MongoMapper,是模仿Merb的DataMapper編寫的MongoDB的接口,使用起來非常簡單,幾乎和DataMapper一模一樣,功能非常強大易用。

2、CouchDB
CouchDB現在是一個非常有名氣的項目,似乎不用多介紹了。 但是我卻對CouchDB沒有什麼興趣,主要是因為CouchDB僅僅提供了基於HTTP REST的接口,因此CouchDB單純從並發讀寫性能來說,是非常糟糕的,這讓我立刻拋棄了對CouchDB的興趣。

三、滿足高可擴展性和可用性的面向分佈式計算的數據庫:Cassandra,Voldemort

面向scale能力的數據庫其實主要解決的問題領域和上述兩類數據庫還不太一樣,它首先必須是一個分佈式的數據庫系統,由分佈在不同節點上面的數據庫共同構成一個數據庫服務系統,並且根據這種分佈式架構來提供online的,具有彈性的可擴展能力,例如可以不停機的添加更多數據節點,刪除數據節點等等。 因此像Cassandra常常被看成是一個開源版本的Google BigTable的替代品。 Cassandra和Voldemort都是用Java開發的:

1、Cassandra
Cassandra項目是Facebook在2008年開源出來的,隨後Facebook自己使用Cassandra的另外一個不開源的分支,而開源出來的Cassandra主要被Amazon的Dynamite團隊來維護,並且Cassandra被認為是Dynamite2.0版本。 目前除了Facebook之外,twitter和digg.com都在使用Cassandra。

Cassandra的主要特點就是它不是一個數據庫,而是由一堆數據庫節點共同構成的一個分佈式網絡服務,對Cassandra的一個寫操作,會被複製到其他節點上去,對Cassandra的讀操作,也會被路由到某個節點上面去讀取。 對於一個Cassandra群集來說,擴展性能是比較簡單的事情,只管在群集裡面添加節點就可以了。 我看到有文章說Facebook的Cassandra群集有超過100台服務器構成的數據庫群集。

Cassandra也支持比較豐富的數據結構和功能強大的查詢語言,和MongoDB比較類似,查詢功能比MongoDB稍弱一些,twitter的平台架構部門領導Evan Weaver寫了一篇文章介紹Cassandra:http://blog. evanweaver.com/articles/2009/07/06/up-and-running-with-cassandra/,有非常詳細的介紹。

Cassandra以單個節點來衡量,其節點的並發讀寫性能不是特別好,有文章說評測下來Cassandra每秒大約不到1萬次讀寫請求,我也看到一些對這個問題進行質疑的評論,但是評價Cassandra單個節點的性能是沒有意義的,真實的分佈式數據庫訪問系統必然是n多個節點構成的系統,其並發性能取決於整個系統的節點數量,路由效率,而不僅僅是單節點的並發負載能力。

2、Voldemort
Voldemort是個和Cassandra類似的面向解決scale問題的分佈式數據庫系統,Cassandra來自於Facebook這個SNS網站,而Voldemort則來自於Linkedin這個SNS網站。 說起來SNS網站為我們貢獻了n多的NoSQL數據庫,例如Cassandar,Voldemort,Tokyo Cabinet,Flare等等。 Voldemort的資料不是很多,因此我沒有特別仔細去鑽研,Voldemort官方給出Voldemort的並發讀寫性能也很不錯,每秒超過了1.5萬次讀寫。

從Facebook開發Cassandra,Linkedin開發Voldemort,我們也可以大致看出國外大型SNS網站對於分佈式數據庫,特別是對數據庫的scale能力方面的需求是多麼殷切。 前面我(robbin)提到,web應用的架構當中,web層和app層相對來說都很容易橫向擴展,唯有數據庫是單點的,極難scale,現在Facebook和Linkedin在非關係型數據庫的分佈式方面探索了一條很好的方向,這也是為什麼現在Cassandra這麼熱門的主要原因。

如今,NoSQL數據庫是個令人很興奮的領域,總是不斷有新的技術新的產品冒出來,改變我們已經形成的固有的技術觀念,我自己(robbin)稍微了解了一些,就感覺自己深深的沉迷進去了,可以說NoSQL數據庫領域也是博大精深的,我(robbin)也只能淺嚐輒止,我(robbin)寫這篇文章既是自己一點點鑽研心得,也是拋磚引玉,希望吸引對這個領域有經驗的朋友來討論和交流。

從我(robbin)個人的興趣來說,分佈式數據庫系統不是我能實際用到的技術,因此不打算花時間深入,而其他兩個數據領域(高性能NoSQLDB和海量存儲NoSQLDB)都是我很感興趣的,特別是Redis,TT/TC和MongoDB這3個NoSQL數據庫,因此我接下來將寫三篇文章分別詳細介紹這3個數據庫。

摘自:http://robbin.javaeye.com/blog/524977

沒有留言:

wibiya widget