BigQuery十年最大升級,終於通吃非結構化資料

圖片來源/GCP

今年Next大會最重要的產品發布就是BigQuery大升級,這個在2010年首度亮相,2011年正式推出的史上第一款Serverless雲端資料倉儲,發布了10年來最大一次的功能升級,終於開始支援非結構化資料。

早在2010年的Google IO大會上,Google就展示了最早的BigQuery服務,可以提供結構化資料的機器學習預測,隔年正式推出。圖片來源/GCP

GCP從去年開始展開BigQuery產品線的升級,推出了多雲部署版本BigQuery Omni,可以將BigQurey部署到其他公雲,如AWS和Azure上,來提供跨多雲的單一大數據分析平臺能力,而不用像過去得將所有資料集中到GCP才能使用BigQuery。但這一步,只是BigQurey產品大升級的前奏。

BigQuery成為Google發展通用資料平臺的關鍵,去年先推出BigQuery Omni將BigQuery體驗帶入到其他公有雲,今年開始展開BigQuery各項升級和強化。圖片來源/GCP

到了2022年1月,BigQuery更開始跨出結構化資料的範疇,正式支援半結構化資料JSON資料格式,引起各界高度關注。因為JSON是Web應用最常用的資料格式,這一步讓GCP超強的大數據分析工具,可以直接匯入、原生處理各種Web應用、行動App產生的第一手資料,更容易成為各類Web應用的主要分析資料集散中心。

關鍵升級1:今年開始支援非結構化資料

沒想到,GCP對BigQuery布局不只如此,到了10月Next大會,更進一步宣布BigQuery將開始支援非結構化資料,從圖片、聲音、影片、串流影像到龐大的Log檔案,通通都可以支援。

BigQuery今年開始支援非結構化資料,可以用SQL指令建立工作流程,提供非結構化資料進行查詢、合併、預測、治理和共享等處理。圖片來源/GCP

BigQuery推出了物件表格(Object Tables)預覽版,可以將非結構化資料原始檔案和相關的後設資料,儲存到欄位式的資料表中,也能用來建立SQL指令所設計的工作流程,近一步提供查詢、合併、預測、治理和共享等處理方式,讓企業DBA或開發人員以慣用的SQL指令來處理非結構化的資料。

BigQuery推出物件表格(Object Tables)預覽版,可以將非結構化資料原始檔案和相關的後設資料,包括圖片、聲音、影片等儲存到欄位式的資料表上使用SQL指令。圖片來源/GCP

BigQuery研發負責人Google Cloud產品總監Brian Welcker指出,BigQuery支援非結構化資料最大的價值是,可以強化Google的AI技術優勢,直接用BigQuery SQL來運用Google各種AI產品。

BigQuery是第一個將運算和儲存徹底分開的資料倉儲服務,來提供高可用性和擴充性,特色是支援SQL相容語法指令,提供欄或列等級的精細存取控制、顧客自管加密金鑰等安全性。

目前,BigQuery資料用量達到PB級的企業,超過了1百家,BigQuery平均每一秒要處理110TB的顧客資料,所搭配的記憶體式分析BI引擎,每個月查詢次數超過了30億次。

但是,過去10年來,BigQuery一直有一個最大的不足,就是只能支援結構化資料。因為許多電腦視覺、語音辨識、語言翻譯、自然語言處理等AI成熟應用,大多是以非結構化資料為主要素材,過去,要使用GCP上這類影音相關AI,得使用GCP其他雲端儲存服務來保存訓練資料。資料分散多套平臺,想要統一權限管理、管理政策、資料治理,開發者或維護團隊得到不同平臺上,使用不同的機制來建立同樣的政策,版本維護和政策同步也相當麻煩,更提高了配置錯誤的風險。

不只是管理機制的複雜化,非結構化資料的儲存服務往往由基礎架構維運團隊負責,而結構化資料則由資料團隊負責,想要建立一個通吃兩類資料的分析模型,需要兩組維運團隊合作,更添加了組織分工的成本和協作溝通的複雜度。

許多資料倉儲大廠,早在多年前,就紛紛從結構化資料,開始支援非結構化資料,就是為了將各種資料集結到單一資料倉儲系統中來統一治理,但是BigQuery遲遲沒有支援,直到今年。

透過這個BigQuery新發表的Object Tables功能,可以將儲存在Google儲存Bucket上的各種類型的物件,以資料表的形式呈現在BigQuery中,可以使用SQL指令查詢這些完整的物件後設資料,也可以建立SQL工作流程,能簡化增量處理作業,建立物件資料表後也可以提供顆粒度更細緻(例如按資料欄位控制)的權限控制機制,也能安全的共享這些非結構化資料。

另外,也可以直接在BigQuery中套用GCP現成的AI框架和機制來訓練這些非結構化資料,甚至直接使用內建或訓練好的機器學習模型來推論。例如直接用真實房屋屋內照片結合出租紀錄,建立一個用真實屋內設備來預測出租結果的模型。

「 Google資料雲戰略的目標是,建立一個開放、整合和智慧的資料生態圈,來加速企業顧客的創新。」Brian Welcker指出:「BigQuery正是Data Cloud的核心。」

因此,不只是擴大所支援的資料類型,GCP更早從去年就開始陸續布局,各種擴大BigQuery資料接觸面、資料流通力的機制,要以BigQuery來打造更完整的資料生態圈。目前已經累計超過800家資料雲合作廠商。

關鍵升級2:強化與商用資料庫的遷移和互通機制

今年初發表的BigQuery遷移服務,也在10月的Next大會中正式GA,可以支援12種資料來源的轉移作業,包括了Teradata資料倉儲、IBM Netezza、Oracle 資料庫和Amazon Redshift。這是GCP用來吸引企業搬遷舊有資料倉儲上雲的重要手段。

另外,GCP的變動資料擷取服務Datastream也開始支援BigQuery,目前是預覽版,可以將多個企業級資料庫的串流資料的變動,將資料和Schema即時複製擷取到BigQuery中,不需要另外的處理程序,來強化BigQuery對於即時OLTP資料的分析能力。可以支援甲骨文資料庫、MySQL資料庫、PostgreSQL(預覽版)和AlloyDB。這也是另一個用來打通BigQuery與現有商用資料庫間的重要資料互通機制,可以快速複製現有資料庫的即時資料。

關鍵升級3:支援JSON強化Log大數據分析

支援Log資料分析也是BigQuery今年的主打特色,除了原本就提供的Storage Write API資料匯入服務,可以提供到每秒百萬次操作不影響查詢效能的能力,來搜集各種即時串流的Log資料,另外,新增了對原生JSON資料型態的支援,能夠直接匯入json文件來產生以欄位儲存的表格,也提供了新的文字搜尋索引,可以對龐大的JSON等log資料進行精確搜尋,快速找出符合特定文字模板的資料列,「這是媲美在草叢中找針的精準搜尋能力。」Brian Welcker這樣比喻。

關鍵升級4:視覺化SQL除錯和優化工具

SQL查詢是BigQuery最大賣點,但要從複雜的SQL指令來了解執行指令的運作情況和效能瓶頸,對DBA來說是一大挑戰,GCP這次大會中,也發表了一款SQL查詢除錯工具Query Inspetor預覽版,可以用視覺化方式來除錯、解決SQL查詢指令的效能問題,例如產生查詢指令的運作流程圖,來了解不同查詢任務之間的資料流向,來找出影響效能的瓶頸。

「這是用來管理所有查詢、診斷、比較同類查詢和優化查詢的一站式工具。」Brian Welcker補充。

另外,過去在Google Workspace商用付費版本才提供的Connected sheets功能,可以用Google Sheets試算表直接連結BigQuery,來讀取資料進行分析,現在變成了免費功能,個人版也能連結BigQuery,以分析人員或業務人員熟悉的操作介面,來存取BigQuery上的分析報表和數據。

SQL查詢除錯工具Query Inspetor預覽版,可以用視覺化方式來除錯、解決SQL查詢指令的效能問題。圖片來源/GCP

關鍵升級5:將GCP全套MLOps工具帶進BigQuery

BigQuery早在2018年就內建整合了機器學習功能推出BigQuery ML,可以用標準SQL查詢指令,在BigQuery中訓練ML模型,雖然在這次Next大會上,沒有太多更新,但是,這次也推出了一個殺手級的連結機制,可以將BigQuery ML的模型,整合到 Vertex AI平臺的模型儲存庫。

Vertex AI是Google去年推出的全託管式機器學習平臺,將一系列Google內部所用的機器學習工具和框架,組合成了一套AI訓練服務平臺,也包括了一系列的MLOps工具,涵蓋了訓練資料管理、ML訓練、雛形開發、實驗、模型部署,甚至是模型解釋,以及模型上線後的監控,可以提供端到端到維運的完整ML應用生命周期管理。

例如提供了像Vertex Model Monitoring、ML Metadata與Pipelines這些MLOps工具,可以用來建立自助式的ML模型,以及提高重複利用率。BigQuery ML新增了一項與 Vertex AI模型儲存庫的連結機制,可以將BigQuery ML訓練出來的模型,自動註冊到這個儲存庫,來進行管理、追蹤、版本控管,甚至可以儲存BigQuery ML模型的後設資料和各種runtime相依性作為日後重複部署之用。

不只如此,建立連結之後,還能將BigQuery ML的模型,整合到Vertex AI模型評估和部署機制上,來進行離線評估或上線的追蹤,也可以統一管理在BigQuery的機器學習模型發布流程,從模型審查、核准、發布甚至是到退版都能管理。換句話說,雖然只是ML儲存庫的連結,但這一步等於將Vertex AI的全套企業級MLOps管理平臺,帶進了BigQuery資料倉儲。

關鍵升級6:同一套SQL支援更多種類分析任務

使用SQL指令來完成各種分析任務是BigQuery最大的賣點,Google也不斷擴充SQL指令可以完成的任務,一方面,除了強化BigQuery機器學習開發流程之外,GCP在幾年前所併購的ETL資料處理工具Dataform,現在終於整併到BigQuery產品線中,推出了新的預覽版,可以提供一個類SQL的語言稱為SQL X來撰寫各種資料轉換工作流程,管理各種不同的ETL資料處理流程,也能搭配GitHub進行版本控管,引進軟體開發流程來強化資料分析團隊的協作,這個產品可以強化BigQuery資料前處理能力。

在強化查詢指令的功能上,BigQuery SQL也開始支援Spark串流分析運算,可以將Spark程式寫成Stored Procedure,然後直接在BigQuery中執行Spark的任務,也能套用同樣的資安和治理政策,例如套用GCP IAM權限,或是套用與BigQuery上同樣的精細權限控管(欄或列)設定等。

在結構化資料當道的時候,BigQuery 曾經被譽為最強的大數據分析工具之一,但隨著AI技術成熟,各種非結構資料暴增,非結構化資料成了企業分析需求的大宗,各家雲端儲存服務、資料湖和資料倉儲系統也紛紛跟進,形成多家競逐,各有擅長的態勢。

GCP今年開始大力押寶BigQuery,BigQuery 在推出11年之後,終於跨入了非結構化資料場域,後發能否再度搶下頭名,這正是GCP新資料戰略接下來的考驗。

 新策略  搶攻SRE、SecOps和NetOps維運大數據需求

在今年Next大會上,BigQuery除了大規模翻新產品功能之外,在產品推廣策略上,也鎖定了企業最常見的大數據分析應用場景,就是維運大數據分析需求。

Google Cloud產品經理Christopher Crosbie指出,今年特別要瞄準企業三大維運場景的Log分析需求,一種是DevOps和SRE場景,想要觀察和了解各種AP的行為,加快除錯速度來縮短系統當機的復原時間(MTTR),第二種是SecOps場景,企業想要從龐大資安Log中,更容易調查與資安相關的攻擊事件資料。最後一類是IT網路維運(NetOps),需要整合各方資料來提供更完善的網路洞察。

但是,企業要處理的Log資料需求和類型非常多元,常會運用不同的Log分析系統,來處理上述不同類型的需求。但是Christopher Crosbie指出,Log系統越多套,會衍生不少問題,例如,資料經過越多系統,到達最終系統會產生延遲問題,其次,不同系統或處理機制對資料可能有不同的轉換處理,會導致缺乏清楚的單一資料正確來源,當要套用ML訓練時,要整合多套資料來源的串接,容易導致ML流程的斷裂,對維運團隊而言,也得經常在不同系統間切換和轉移資料,更增加工作流程的複雜。

BigQuery在邁向通吃各類資料和各種分析需求的大戰略之下,也想要成為通吃不同類型Log分析需求的單一大數據平臺,早在1年前,GCP先推出了Stroage Wirte API,可以快速將各類Log資料來源寫入到BigQuery中,GCP宣稱可以達到每秒100萬筆寫入操作,也不會影響查詢效能。

在今年Next大會,Google Cloud產品總監Brian Welcker就表明,BigQuery要推出Log大數據分析,除了原本的Stroage Wirte API之外,再加上了原生JSON資料類型支援正式GA,也新推出了龐大資料的搜尋索引功能。

Christopher Crosbie表示,不只可以支援從多種資料類型批次轉換成JSON,也可以跟Dataflow、JDBC、Biglake Tables整合,將SQL查詢結果快速輸出成JSON來提供他用。而搜尋索引則不需要知道原本的資料結構,也能搜尋結構化或非結構化的獨特資料,也提供時序性資料的最近幾筆查詢條件的優化,例如最近30筆,可以用於Log分析常用最新變化查詢之用。

Google還在自家Cloud Logging服務下,用BigQuery打造了一個新的Log分析預覽版,可以用來彙整來自各種雲端環境的Log分析,可以利用SQL語法來處理和分析這些雲端Log。

https://www.ithome.com.tw/news/153753

您可能也會喜歡…