焦點(diǎn)要聞:提升 Apache Hudi Upsert 性能的三個(gè)建議
Apache Hudi 社區(qū)一直在快速發(fā)展,各公司正在尋找方法來(lái)利用其強(qiáng)大的功能來(lái)有效地?cái)z取和管理大規(guī)模數(shù)據(jù)集。 每周社區(qū)都會(huì)收到一些常見(jiàn)問(wèn)題,最常見(jiàn)的問(wèn)題與 Hudi 如何執(zhí)行更新插入有關(guān),以確保以低延遲訪(fǎng)問(wèn)最新數(shù)據(jù)。
選擇合適的存儲(chǔ)表類(lèi)型快速更新插入的主要考慮因素之一是選擇正確的存儲(chǔ)表類(lèi)型。 Hudi 支持兩種不同的存儲(chǔ)表類(lèi)型——Copy-On-Write (COW) 和 Merge-On-Read (MOR)。 由于處理數(shù)據(jù)更新的方法不同,每種表類(lèi)型都會(huì)對(duì) upsert 性能產(chǎn)生不同的影響。
COW表與 MOR 表相比,COW 表的操作更簡(jiǎn)單,因?yàn)樗懈露紝?xiě)入 Apache Parquet 格式的基礎(chǔ)文件。不需要運(yùn)行像壓縮這樣的單獨(dú)服務(wù)來(lái)管理任何日志文件以提高讀取或存儲(chǔ)效率。COW通過(guò)完全重寫(xiě)文件以生成新版本的基本文件來(lái)處理更新。 因此 COW 表表現(xiàn)出更高的寫(xiě)放大,因?yàn)閯?chuàng)建新的基本文件版本會(huì)進(jìn)行同步合并。 然而 COW 表的一個(gè)關(guān)鍵優(yōu)勢(shì)是它們的零讀取放大,因?yàn)樗袛?shù)據(jù)都在基礎(chǔ)文件中可用,隨時(shí)可以讀取。 查詢(xún)所需的磁盤(pán)讀取很少,因?yàn)樗鼈儾恍枰x取多個(gè)位置或合并數(shù)據(jù)。
(資料圖片僅供參考)
MOR表與 COW 表相比,MOR 表具有更高的操作復(fù)雜性。 MOR 不會(huì)重寫(xiě)整個(gè)文件,而是將更新寫(xiě)入單獨(dú)的日志文件,然后這些日志文件稍后與基本文件合并為一個(gè)新的文件版本,這是通過(guò)壓縮服務(wù)完成的。 需要壓縮來(lái)限制日志文件的增長(zhǎng),這樣查詢(xún)性能就不會(huì)下降并優(yōu)化存儲(chǔ)。
直接寫(xiě)入日志文件避免了多次重寫(xiě)整個(gè)基本文件,從而降低了寫(xiě)入放大——如果正在處理流數(shù)據(jù),這種差異就會(huì)變得很明顯,也就是說(shuō) MOR 表進(jìn)行了寫(xiě)入優(yōu)化。 但是由于需要讀取基本文件和日志文件并動(dòng)態(tài)合并數(shù)據(jù),MOR 表在壓縮之間對(duì)快照查詢(xún)有更高的讀取放大。
COW 和 MOR 表的注意事項(xiàng)如果更新插入比率很高并且對(duì)攝取延遲很敏感,那么更適合使用 MOR 表。 如流數(shù)據(jù)源——通常會(huì)希望更快地根據(jù)洞察采取行動(dòng),以便為用戶(hù)提供相關(guān)和及時(shí)的信息。 但是如果工作負(fù)載更多地基于插入,并且可以容忍合理的攝取延遲,那么更適合使用 COW 表。
根據(jù)記錄鍵選擇正確的索引類(lèi)型通過(guò)利用索引,Hudi 在更新插入期間查找記錄時(shí)避免全表掃描,這比較耗費(fèi)時(shí)間和資源。 Hudi 的索引層將記錄鍵映射到相應(yīng)的文件位置,索引層是可插拔的,有多種索引類(lèi)型可供選擇。 需要考慮的是索引延遲取決于多種因素,例如正在攝取多少數(shù)據(jù)、表中有多少數(shù)據(jù)、是否有分區(qū)表或非分區(qū)表、選擇的索引類(lèi)型、工作負(fù)載的更新程度和記錄鍵的時(shí)間特性。 根據(jù)所需的性能和唯一性保證,Hudi 提供了不同的開(kāi)箱即用的索引策略,可以分為全局或非全局索引。
全局與非全局索引非全局索引:Hudi 確保一對(duì)分區(qū)路徑和記錄鍵在整個(gè)表中是唯一的。 索引查找性能與正在攝取的傳入記錄之間的匹配分區(qū)的大小成正比。 ?
全局索引:該索引策略在表的所有分區(qū)中強(qiáng)制執(zhí)行鍵的唯一性,即保證對(duì)于給定的記錄鍵,表中恰好存在一條記錄。 全局索引提供了更強(qiáng)的保證,但是更新/刪除成本隨著表的大小而增長(zhǎng)。
由于唯一性保證的差異,全局與非全局之間的主要考慮因素之一與索引查找延遲有關(guān):非全局索引僅查找匹配的分區(qū):例如如果有 100 個(gè)分區(qū)并且傳入的批處理僅包含最后 2 個(gè)分區(qū)的記錄,則只會(huì)查找屬于這 2 個(gè)分區(qū)的文件組。 對(duì)于大規(guī)模的更新插入工作負(fù)載可能需要考慮非全局索引,例如非全局布隆、非全局簡(jiǎn)單索引和桶索引。全局索引查看所有分區(qū)中的所有文件組:例如如果有 100 個(gè)分區(qū)并且傳入的記錄批次中有最后 2 個(gè)分區(qū)的記錄,則將查找所有 100 個(gè)分區(qū)中的所有文件組(因?yàn)?Hudi 必須保證整個(gè)表中只有一個(gè)版本的記錄鍵)。 這會(huì)增加大規(guī)模更新插入工作負(fù)載的延遲。
Hudi 提供開(kāi)箱即用的索引類(lèi)型布隆索引:這是一種索引策略,可以有效地管理文件組中的更新插入和記錄查找。 該索引利用布隆過(guò)濾器,這是一種概率數(shù)據(jù)結(jié)構(gòu),有助于確定給定記錄鍵是否存在于特定文件組中。適用于全局和非全局索引。
簡(jiǎn)單索引:這是一種索引策略,它提供了一種將記錄鍵映射到其相應(yīng)文件組的直接方法。它針對(duì)從存儲(chǔ)表中提取的鍵執(zhí)行傳入更新/刪除記錄的連接。適用于全局和非全局索引。
HBase索引:該索引策略使用HBase存儲(chǔ)索引來(lái)映射記錄鍵及其在文件組中對(duì)應(yīng)的文件位置。 適用于全局索引。
桶索引:這是一種索引策略,它使用散列將記錄路由到靜態(tài)分配的文件組。 適用于非全局索引。
一致性哈希桶索引:這是一種索引策略,是桶索引的高級(jí)版本。 雖然桶索引需要為每個(gè)分區(qū)預(yù)先分配文件組,但使用一致的哈希索引可以根據(jù)負(fù)載動(dòng)態(tài)地增加或收縮每個(gè)分區(qū)的文件組。 適用于非全局索引。
更新密集型工作負(fù)載要考慮的索引類(lèi)型Bloom 索引:如果記錄鍵按某些標(biāo)準(zhǔn)(例如基于時(shí)間戳)排序并且更新與最近的數(shù)據(jù)集相關(guān),那么這對(duì)于更新繁重的工作負(fù)載是一個(gè)很好的索引策略。 例如如果記錄鍵是根據(jù)時(shí)間戳排序的,并且我們?cè)谧罱鼛滋旄聰?shù)據(jù)。Bloom 索引用例:假設(shè)每 10 分鐘就會(huì)攝取一批新數(shù)據(jù)。 我們假設(shè)新批次包含最近 3 天內(nèi)的數(shù)據(jù)更新。 Hudi 根據(jù)布隆索引,識(shí)別出文件組中的候選更新記錄,并從基礎(chǔ)文件頁(yè)腳中獲取布隆過(guò)濾器,進(jìn)一步裁剪文件組中每個(gè)文件中要查找的記錄。 如果沒(méi)有找到記錄則被視為插入。?簡(jiǎn)單索引:如果偶爾更新整個(gè)表范圍內(nèi)的文件并且記錄鍵是隨機(jī)的,即不基于時(shí)間戳,那么這對(duì)于更新繁重的工作負(fù)載是一個(gè)很好的索引策略。簡(jiǎn)單索引用例:如果有一個(gè)維度表,其中記錄鍵是旅行 ID(隨機(jī) UUID)并且分區(qū)是按城市 ID。 如果我們要更新分布在一系列城市的 10000 條行程,Hudi 首先根據(jù)傳入的城市 ID 識(shí)別相關(guān)分區(qū)。 Hudi 通過(guò)執(zhí)行連接有效地找到包含記錄的文件。桶索引:如果每個(gè)分區(qū)存儲(chǔ)的數(shù)據(jù)總量在所有分區(qū)中都相似,這是一個(gè)很好的索引策略。 每個(gè)分區(qū)的桶(或文件組)數(shù)量必須預(yù)先為給定的表定義。更多細(xì)節(jié)參考如下文檔。桶索引用例:當(dāng)定義桶數(shù)量后,Hudi會(huì)對(duì)記錄鍵應(yīng)用一個(gè)哈希函數(shù)來(lái)將記錄均勻地分布在桶中。 哈希函數(shù)將每個(gè)記錄 ID 分配給一個(gè)桶號(hào),當(dāng)更新時(shí) Hudi 將哈希函數(shù)應(yīng)用于記錄 ID 并確定相應(yīng)的桶,然后 Hudi 將寫(xiě)入委托給相應(yīng)的桶(文件組)。分區(qū)路徑粒度分區(qū)是一種技術(shù),用于根據(jù)數(shù)據(jù)集中的某些屬性或列將大型數(shù)據(jù)集拆分為較小的、易于管理的部分。 這可以大大提高查詢(xún)性能,因?yàn)樵诓樵?xún)期間只需要掃描數(shù)據(jù)的一個(gè)子集。 然而分區(qū)的有效性在很大程度上取決于分區(qū)的粒度。
一個(gè)常見(jiàn)的誤區(qū)是將分區(qū)設(shè)置得過(guò)于精細(xì),例如按
劃分分區(qū)。 根據(jù)工作負(fù)載每小時(shí)粒度的數(shù)據(jù)可能不足,從而導(dǎo)致許多只有幾千字節(jié)的小文件。 如果小文件越多,磁盤(pán)尋道成本就越高,查詢(xún)性能就會(huì)下降。 其次在攝取方面,小文件也會(huì)影響索引查找,因?yàn)樾藜舨幌嚓P(guān)文件需要更長(zhǎng)的時(shí)間。 根據(jù)正在使用的索引策略,這可能會(huì)影響寫(xiě)入性能。因此建議用戶(hù)始終從較粗糙的分區(qū)方案開(kāi)始,如
標(biāo)簽:
相關(guān)文章
焦點(diǎn)要聞:提升 Apache Hudi Upsert 性能的三個(gè)建議
?ApacheHudi社區(qū)一直在快速發(fā)展,各公司正在尋找方法來(lái)利用其強(qiáng)大的功能來(lái)有效地?cái)z取和管理大規(guī)模數(shù)據(jù)集。每
朱自清的匆匆寫(xiě)的是什么意思_朱自清的匆的原文|全球最新
?1、《匆匆》是現(xiàn)代著名作家朱自清的一篇著名散文。文章緊扣“匆匆”二字,細(xì)膩地描繪了時(shí)光流逝的痕跡,表
全球信息:戀愛(ài)中的道德要求和道德規(guī)范_戀愛(ài)中的道德規(guī)范包括哪些
?1、戀愛(ài)中的道德規(guī)范主要有,尊重人格平等,自覺(jué)承擔(dān)責(zé)任,文明相親相愛(ài)。2、尊重人格平等,戀人間彼此尊重
世界滾動(dòng):中國(guó)諺語(yǔ)故事_諺語(yǔ)故事
?1、要想身體好,吃飯不過(guò)飽。2、寧叫嘴受窮,莫教病纏身。3、運(yùn)動(dòng)運(yùn)動(dòng),百病難碰。4、有錢(qián)難買(mǎi)老來(lái)瘦。5、
焦點(diǎn)精選!楊紫待播劇520物料,《要久久愛(ài)》上演滑冰,《長(zhǎng)相思》偷偷過(guò)節(jié)
?520這一天,眾多的待播劇都公布了節(jié)日海報(bào),而要想從中脫穎而出,既需要有新意的突出主題,又需要演員之間
元宵節(jié)是法定節(jié)假日么_元宵節(jié)會(huì)放假嗎
?元宵節(jié)是法定節(jié)假日么,元宵節(jié)會(huì)放假嗎很多人還不知道,現(xiàn)在讓我們一起來(lái)看看吧!1、元宵節(jié)不是國(guó)定假日。
招聯(lián)好期貸借款逾期26天延遲還款影響征信嗎
?網(wǎng)貸逾期一般會(huì)上征信,有些借貸機(jī)構(gòu)在用戶(hù)逾期后一天后就會(huì)上報(bào)給征信機(jī)構(gòu),而有些借貸機(jī)構(gòu)則是會(huì)在幾天后
頭臀長(zhǎng)與孕周對(duì)照表圖_頭臀長(zhǎng)與孕周
?1、你可以計(jì)算出預(yù)期的交貨日期。2、如果絕經(jīng)時(shí)間長(zhǎng)于懷孕的月份,可以在觀(guān)察一周后復(fù)查b超。3、如果寶寶發(fā)
俄副外長(zhǎng):西方國(guó)家向?yàn)蹩颂m提供F-16戰(zhàn)機(jī)將為其自身帶來(lái)巨大風(fēng)險(xiǎn)_當(dāng)前關(guān)注
?美國(guó)白宮高級(jí)官員19日透露,美國(guó)總統(tǒng)約瑟夫·拜登告訴七國(guó)集團(tuán)領(lǐng)導(dǎo)人,美方將支持向?yàn)蹩颂m提供美制F-16等先
B站CEO陳睿:年輕人愛(ài)學(xué)習(xí) 超8成985、211學(xué)生是B站用戶(hù) 即時(shí)看
?B站CEO陳睿:年輕人愛(ài)學(xué)習(xí)超8成985、211學(xué)生是B站用戶(hù)快科技5月20日消息,在上??萍紓鞑ゴ髸?huì)上,B站CEO陳
【天天快播報(bào)】工銀如意貨幣基金等產(chǎn)品增聘基金經(jīng)理
?證券時(shí)報(bào)券中社訊,5月20日工銀如意貨幣基金、工銀現(xiàn)金貨幣基金等產(chǎn)品公告稱(chēng),增聘郝瑞為新任基金經(jīng)理。郝
起訴!起訴!300億巨頭又出大事
?中國(guó)基金報(bào)米洛 股東糾葛之際,中炬高新兩名“土生土長(zhǎng)”的高管被起訴?! ?月19日晚間,中炬高新發(fā)布
世界最資訊丨三大工人運(yùn)動(dòng)失敗的原因_三大工人運(yùn)動(dòng)
?1、①三次工人運(yùn)動(dòng)爆發(fā)的時(shí)間及其名稱(chēng):19世紀(jì)三四十年代,法國(guó)里昂絲織工人兩次武裝起義;英國(guó)憲章運(yùn)動(dòng);
萬(wàn)達(dá)回應(yīng)裁員傳聞:消息不實(shí),確有優(yōu)化,有部門(mén)人員還在增加
?封面新聞?dòng)浾吒段某眨邢⒎Q(chēng)萬(wàn)達(dá)集團(tuán)大規(guī)模裁員。5月20日,萬(wàn)達(dá)集團(tuán)在官網(wǎng)發(fā)布聲明稱(chēng),網(wǎng)傳萬(wàn)達(dá)大規(guī)
世界熱點(diǎn)評(píng)!打死一只蚊子會(huì)來(lái)更多的蚊子嗎 沒(méi)打死的蚊子會(huì)記仇嗎
?現(xiàn)在夏天很容易出現(xiàn)蚊蟲(chóng)叮咬的情況,而蚊子出沒(méi)的地方是很多人都討厭的存在,看到蚊子第一時(shí)間都會(huì)去打死。
對(duì)烏軍援預(yù)算吃緊 美國(guó)防部想改賬_世界熱消息
?新華社北京5月19日電美國(guó)五角大樓發(fā)言人薩布麗娜·辛格18日承認(rèn),已發(fā)現(xiàn)美國(guó)對(duì)烏克蘭軍事援助存在裝備估值
關(guān)于天舟貨運(yùn)飛船的“專(zhuān)有名詞”你了解多少?
?不久前,天舟六號(hào)貨運(yùn)飛船成功發(fā)射,給“天宮”送去了滿(mǎn)滿(mǎn)的物資。關(guān)于天舟貨運(yùn)飛船的“專(zhuān)有名詞”你了解多
《股東來(lái)了》2023投資者權(quán)益知識(shí)競(jìng)賽甘肅片區(qū)啟動(dòng)儀式順利舉行
?5月18日,由中國(guó)證監(jiān)會(huì)投資者保護(hù)局指導(dǎo),甘肅證監(jiān)局、中證中小投資者服務(wù)中心聯(lián)合主辦,華龍證券股份有限
天天觀(guān)熱點(diǎn):你對(duì)圓臺(tái)平面磨床的技術(shù)規(guī)格了解多少呢?
?圓臺(tái)平面磨床作為一種精密加工設(shè)備,具有廣泛的應(yīng)用領(lǐng)域。其主要用途是鎢鋼模具等高精度工件的磨削加工。為
中國(guó)隊(duì)?wèi)?zhàn)勝印尼隊(duì)進(jìn)入蘇迪曼杯四強(qiáng)
?新華社蘇州5月19日電(記者丁文嫻、許仕豪、王恒志)19日在蘇迪曼杯世界羽毛球混合團(tuán)體錦標(biāo)賽賽場(chǎng),在近660
觀(guān)戰(zhàn)臺(tái):曼聯(lián)利物浦爭(zhēng)四白熱化 曼城贏切爾西將提前奪冠_天天熱推薦
?本周末,五大聯(lián)賽繼續(xù)進(jìn)行。英超方面,利物浦和曼聯(lián)爭(zhēng)四進(jìn)入白熱化階段,如果阿森納本輪不贏,將提前送曼城
頭疼頭暈怎么辦最快最有效緩解_頭疼頭暈怎么回事啊 全球關(guān)注
?1、患者頭痛和頭暈原因如下:2、一、最常見(jiàn)的可能是神經(jīng)衰弱,患者容易熬夜,休息不好。3、第二,如果患者
你好安怡吧_安義吧_環(huán)球微速訊
?1、廣東省南方技師學(xué)院深圳分校的錄取通知書(shū),我也收到了。2、準(zhǔn)備去報(bào)名!。
許昌人才信息官網(wǎng)_許昌人事人才網(wǎng)官網(wǎng)|簡(jiǎn)訊
?1、人事人才網(wǎng)還是比較可信的。2、比同類(lèi)那幾個(gè)人才網(wǎng)站可信度高一些。
今天歌詞粵語(yǔ)_今天歌詞
?1、今天詞:陳樂(lè)融曲:黃慶元走過(guò)歲月我才發(fā)現(xiàn)世界多不完美成功或失敗都有一些錯(cuò)覺(jué)滄海有多廣江湖有多深局
環(huán)球新資訊:ps軟件是什么軟件_PS軟件是什么
?1、PS軟件通常指AdobePhotoshop,簡(jiǎn)稱(chēng)“PS”,是AdobeSystems公司開(kāi)發(fā)和發(fā)行的圖像處理軟件
太龍股份:5月18日公司高管蘇芳減持公司股份合計(jì)79萬(wàn)股
?證券之星訊,根據(jù)5月19日市場(chǎng)公開(kāi)信息、上市公司公告及交易所披露數(shù)據(jù)整理,太龍股份(300650)最新董監(jiān)高
引導(dǎo)大學(xué)生靜下心來(lái)多讀書(shū)讀經(jīng)典 這所高校以讀書(shū)節(jié)引領(lǐng)“悅讀新時(shí)代”
?交匯點(diǎn)訊?“梁家河是一部有字之書(shū)、無(wú)字之書(shū),也是一部心靈之書(shū)、永遠(yuǎn)讀不完的大書(shū)!青年學(xué)子讀書(shū)勵(lì)志成才
蘇魯豫皖再聚首,黃淮核心產(chǎn)區(qū)up!
?本文由知酒原創(chuàng)未經(jīng)授權(quán)不得轉(zhuǎn)載文|知酒團(tuán)隊(duì)近日,中國(guó)食品工業(yè)協(xié)會(huì)聯(lián)合蘇、魯、豫、皖四省食品工業(yè)協(xié)會(huì)共
每日資訊:華克醫(yī)療擬投資1000萬(wàn)設(shè)立全資子公司華克智慧輻射科技(深圳)有限公司
?挖貝網(wǎng)5月19日,華克醫(yī)療(837371)近日發(fā)布公告,為了能夠進(jìn)一步擴(kuò)大公司的產(chǎn)能,提升公司的綜合實(shí)力,根