Google跨平臺資料儲存引擎BigLake開始支援Iceberg開放格式

,建構開放格式資料湖。Apache Iceberg是一種熱門的開源表格格式,提供企業資料倉儲的許多功能,包括交易DML、架構演變和用於效能最佳化的後設資料等。

而BigLake是一種儲存引擎,供用戶可以在Google雲端儲存上,以Parquet等開放格式儲存資料,並且使用BigQuery和Spark等開源框架,以精細度存取控制來使用資料。

Iceberg的開放規範讓用戶可以對多個查詢引擎,使用同一份儲存在物件儲存中的資料副本,Google提到,在Iceberg社群不斷壯大的情況下,Iceberg儼然已成為資料湖泊的開放標準,可用於混合分析工作負載,以及提供跨雲端平臺的互通性。

開源分析引擎運用Iceberg創建表格,也能夠使用BigQuery進行讀取, 像是在Spark創建表格,也可以使用BigQuery查詢。由於Apache Spark已經對Iceberg提供豐富支援,Google雲端用戶可以使用Dataproc執行Spark,或是使用BigQuery對Spark的內建支援,處理託管在Cloud Storage的表格,官方提到,無論用戶以哪一種方式使用Spark,BigLake都可以自動對這些表格提供查詢。

企業管理能夠提供終端用戶Iceberg表格,而不需要授予用戶存取底層儲存桶的權限,透過BigLake進行委派,進而簡化了存取和治理,管理員設置能運用精細度存取控制,像是資料遮蔽或是資料列保護等,進一步保護Iceberg表格。

在GCP上執行Iceberg好處不受限於這些核心功能,Google提到,用戶還可以運用原生BigQuery和GCP整合,在Analytics Hub安全地交換Iceberg資料,資料提供者可以在Google雲端儲存共享Iceberg表格,而其他資料消費者可以使用任何相容的查詢引擎來使用資料。

用戶還可以使用Cloud DLP探索、偵測和保護PII資料,並使用BigLake的精細度安全模型保護敏感資料,滿足工作負載的法遵要求。另外,用戶可以透過BigQueryML,將機器學習工作負載,擴展到儲存在Google雲端儲存上的Iceberg表格,在儲存於BigQuery之外的資料上實作人工智慧。

https://www.ithome.com.tw/news/153796

您可能也會喜歡…