以下文章來(lái)源于谷歌云服務(wù),作者 Google Cloud
陸鋒
Google Cloud 亞太區(qū)數(shù)據(jù)分析架構(gòu)師
在 AI 時(shí)代,數(shù)據(jù)是引擎,但對(duì)大多數(shù)企業(yè)而言,這個(gè)引擎正被數(shù)據(jù)孤島、復(fù)雜的工具鏈和緩慢的洞察周期所拖累。數(shù)據(jù)工程師在繁瑣的 ETL 中筋疲力盡,數(shù)據(jù)科學(xué)家因數(shù)據(jù)準(zhǔn)備不足而束手無(wú)策,業(yè)務(wù)團(tuán)隊(duì)則因報(bào)表延遲而錯(cuò)失良機(jī)。這使得 AI 計(jì)劃往往雷聲大雨點(diǎn)小,難以規(guī)?;?。正如一句老話所說(shuō),"你無(wú)法在一個(gè)破碎的數(shù)據(jù)地基上,構(gòu)建一個(gè)可靠的 AI 未來(lái)。"
為了應(yīng)對(duì)這一挑戰(zhàn),Google Cloud 推出了下一代 AI Lakehouse 解決方案。它不僅僅是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖的簡(jiǎn)單組合,而是一個(gè)專為 AI 時(shí)代設(shè)計(jì)的,集開(kāi)放性、高性能、統(tǒng)一治理和原生智能于一體的綜合數(shù)據(jù)平臺(tái)。本文將深入探討 Google Cloud AI Lakehouse 的核心理念、關(guān)鍵組件及其如何幫助企業(yè)將數(shù)據(jù)雄心轉(zhuǎn)化為業(yè)務(wù)現(xiàn)實(shí)。
核心理念: 一個(gè)為 AI 而生的開(kāi)放式數(shù)據(jù)湖倉(cāng) (Open Data Lakehouse)
傳統(tǒng)的分析架構(gòu)往往在數(shù)據(jù)倉(cāng)庫(kù) (用于結(jié)構(gòu)化數(shù)據(jù)分析) 和數(shù)據(jù)湖 (用于存儲(chǔ)海量原始數(shù)據(jù)) 之間形成壁壘。這種分離導(dǎo)致了數(shù)據(jù)冗余、治理復(fù)雜和分析效率低下,嚴(yán)重阻礙了 AI 應(yīng)用的開(kāi)發(fā)。當(dāng)數(shù)據(jù)被鎖在特定的格式或工具中時(shí),團(tuán)隊(duì)協(xié)作變得困難,創(chuàng)新也因此受到束縛。
Google Cloud 的 AI Lakehouse 旨在徹底打破這些壁壘,其核心理念根植于三大支柱:
●打破數(shù)據(jù)邊界:無(wú)論數(shù)據(jù)存儲(chǔ)在 BigQuery 原生存儲(chǔ)中,還是以 Apache Iceberg 等開(kāi)放格式存在于 Google Cloud Storage (GCS) 上,都能通過(guò)統(tǒng)一的平臺(tái)進(jìn)行訪問(wèn)和管理,無(wú)需數(shù)據(jù)遷移或復(fù)制。這意味著數(shù)據(jù)可以 "原地" 被分析,從而形成一個(gè)無(wú)摩擦的協(xié)作環(huán)境和企業(yè)級(jí)的單一事實(shí)來(lái)源。
●激活數(shù)據(jù)全部潛力:提供無(wú)與倫比的性能,讓企業(yè)能夠無(wú)限制地進(jìn)行分析、運(yùn)營(yíng)和創(chuàng)新。這不僅關(guān)乎查詢速度,更關(guān)乎處理海量多模態(tài)數(shù)據(jù) (文本、圖片、音視頻) 并從中實(shí)時(shí)提取價(jià)值的能力,從而驅(qū)動(dòng)更智能的業(yè)務(wù)決策。
●普及 AI 驅(qū)動(dòng)的洞察:將 Gemini 等前沿 AI 模型深度集成到數(shù)據(jù)生命周期的每個(gè)環(huán)節(jié),讓從數(shù)據(jù)工程師到業(yè)務(wù)用戶的每個(gè)人都能輕松使用 AI。目標(biāo)是讓 AI 像 SQL 一樣,成為數(shù)據(jù)工作者觸手可及的基礎(chǔ)能力,將他們的工作從 "做什么" 提升到 "為什么做"。
架構(gòu)概覽: 統(tǒng)一與開(kāi)放的完美結(jié)合
Google Cloud AI Lakehouse 的架構(gòu)設(shè)計(jì)巧妙地將各個(gè)功能層協(xié)同起來(lái),充分體現(xiàn)了其開(kāi)放性和統(tǒng)一性。

Google Cloud AI Lakehouse 架構(gòu)圖
●存儲(chǔ)層 (Storage):底層由BigQuery Native Storage和基于 GCS 的Iceberg Native Cloud Storage構(gòu)成,支持托管和自管理的開(kāi)放格式,為數(shù)據(jù)提供了靈活且經(jīng)濟(jì)高效的存儲(chǔ)選項(xiàng)。
●統(tǒng)一管理層 (Unified Management):BigLake是整個(gè)架構(gòu)的核心,它作為一個(gè)統(tǒng)一的控制平面,允許用戶以一致的方式管理和訪問(wèn)所有數(shù)據(jù),無(wú)論其物理位置或格式如何。
●多引擎處理層 (Multi-Engine Processing)平臺(tái)支持多樣化的計(jì)算引擎,包括BigQuery SQL、Google Cloud Serverless for Apache Spark(搭載革命性的Lightning Engine)、Dataproc和AlloyDB SQL,確保用戶可以使用最適合其工作負(fù)載的工具。
●統(tǒng)一治理層 (Unified Governance):Dataplex Universal Catalog為從數(shù)據(jù)到 AI 模型的整個(gè)生命周期提供全面的治理能力,確保數(shù)據(jù)的可信、安全和合規(guī)。
●體驗(yàn)層 (Experience):面向不同角色提供豐富的工具,包括BigQuery Notebook、Vertex AI Workbench、Looker以及創(chuàng)新的Data Agents,極大地提升了數(shù)據(jù)團(tuán)隊(duì)的生產(chǎn)力。
這些層次的無(wú)縫集成,確保了數(shù)據(jù)在整個(gè)平臺(tái)內(nèi)能夠自由、安全、高效地流動(dòng),為上層 AI 應(yīng)用提供了堅(jiān)實(shí)可靠的保障。
三大核心引擎: 解鎖極致性能、原生智能與無(wú)限開(kāi)放性
BigLake: 數(shù)據(jù)湖倉(cāng)的 "通用護(hù)照"
BigLake 是實(shí)現(xiàn)開(kāi)放式湖倉(cāng)的關(guān)鍵。您可以把它想象成一本數(shù)據(jù)的 "通用護(hù)照",讓數(shù)據(jù)可以在不同的計(jì)算引擎 (國(guó)家) 之間自由穿行,而無(wú)需繁瑣的數(shù)據(jù)復(fù)制和 ETL (簽證) 流程。它創(chuàng)建了一個(gè)虛擬層,將 BigQuery 強(qiáng)大的企業(yè)級(jí)功能 (如精細(xì)的權(quán)限控制、高性能查詢和 AI/ML 集) 擴(kuò)展到 GCS 上的開(kāi)放數(shù)據(jù)格式 (如 Iceberg、Delta Lake、Parquet)。這意味著:
●真正的互操作性:數(shù)據(jù)只需存儲(chǔ)一次,就可以被 BigQuery、Spark、Trino 等多種引擎無(wú)縫訪問(wèn)和分析。這不僅節(jié)省了大量的存儲(chǔ)成本,也杜絕了因數(shù)據(jù)副本不一致而導(dǎo)致的分析錯(cuò)誤。
●一致的治理:通過(guò)與 Dataplex 的集成,所有訪問(wèn)請(qǐng)求都遵循統(tǒng)一的安全和治理策略。無(wú)論您使用哪種工具,數(shù)據(jù)的訪問(wèn)權(quán)限和審計(jì)日志都集中管理,大大簡(jiǎn)化了合規(guī)工作。
● 避免廠商鎖定:企業(yè)可以自由選擇最適合的工具,同時(shí)保留對(duì)數(shù)據(jù)的完全控制權(quán)。您的數(shù)據(jù)以開(kāi)放格式存儲(chǔ),未來(lái)可以輕松接入任何支持這些格式的新技術(shù),確保了技術(shù)棧的靈活性和未來(lái)發(fā)展的可持續(xù)性。
BigQuery: 不僅僅是數(shù)據(jù)倉(cāng)庫(kù),更是 AI 平臺(tái)
作為 Google Cloud 數(shù)據(jù)戰(zhàn)略的核心,BigQuery 已經(jīng)進(jìn)化為一個(gè)集分析與 AI 于一體的超級(jí)平臺(tái)。
●內(nèi)置 AI,而非 "外掛":
○B(yǎng)igQuery ML:允許用戶使用簡(jiǎn)單的 SQL 語(yǔ)句直接在 BigQuery 中訓(xùn)練和部署預(yù)測(cè)性和生成式 AI 模型。例如,營(yíng)銷團(tuán)隊(duì)無(wú)需數(shù)據(jù)科學(xué)家的幫助,僅用幾行 SQL 就能構(gòu)建一個(gè)客戶流失預(yù)測(cè)模型。
○多模態(tài)向量搜索 (Vector Search):支持對(duì)文本、圖像等非結(jié)構(gòu)化數(shù)據(jù)的向量嵌入進(jìn)行高效的相似性搜索,是構(gòu)建高級(jí) RAG (檢索增強(qiáng)生成) 應(yīng)用的基礎(chǔ)。這使得您可以構(gòu)建能夠理解產(chǎn)品手冊(cè)、客戶評(píng)論甚至設(shè)計(jì)圖紙的智能客服或搜索應(yīng)用。
○AI Query Engine (預(yù)覽版):由 Gemini 驅(qū)動(dòng),讓用戶可以在 SQL 查詢中使用自然語(yǔ)言來(lái)處理和分析多模態(tài)數(shù)據(jù),例如直接提問(wèn) "這張廣告圖片中包含了哪些產(chǎn)品?" 或者 "總結(jié)一下上個(gè)季度所有關(guān)于 '電池續(xù)航' 的負(fù)面客戶評(píng)論"。
●為性能而生的多引擎架構(gòu):
○B(yǎng)igQuery Advanced Runtime:通過(guò)先進(jìn)的運(yùn)行時(shí)優(yōu)化,能夠在無(wú)需用戶干預(yù)的情況下,將復(fù)雜分析查詢的性能提升高達(dá) 200 倍。
○Serverless Spark with Lightning Engine:Google Cloud 的下一代 Spark 性能引擎Lightning Engine,通過(guò)向量化查詢執(zhí)行和智能緩存,實(shí)現(xiàn)了比開(kāi)源 Apache Spark 快4.3 倍的驚人性能,同時(shí)顯著降低了資源消耗。這不僅僅是速度的提升,更意味著過(guò)去需要數(shù)小時(shí)才能完成的復(fù)雜分析任務(wù),現(xiàn)在可以在幾分鐘內(nèi)完成,從而極大地加速了從數(shù)據(jù)到?jīng)Q策的周期。
Dataplex: 從 "數(shù)據(jù)治理" 到 "AI 治理"
隨著 AI 模型的廣泛應(yīng)用,治理的范疇也從傳統(tǒng)的數(shù)據(jù)表擴(kuò)展到了 AI 特征、模型和 Notebook。Dataplex Universal Catalog 正是為應(yīng)對(duì)這一 "治理危機(jī)" 而生,它將治理從被動(dòng)的 "規(guī)則手冊(cè)" 轉(zhuǎn)變?yōu)橹鲃?dòng)的 "智能向?qū)?。
●通用性 (Universal):自動(dòng)發(fā)現(xiàn)和編目 Google Cloud 內(nèi)外的所有數(shù)據(jù)和 AI 資產(chǎn),包括基于 Iceberg 的開(kāi)放湖倉(cāng),消除治理盲點(diǎn)。
●AI 賦能 (AI-powered):利用 AI 自動(dòng)生成元數(shù)據(jù) (如表和列的描述)、提供自然語(yǔ)言搜索能力 (例如,搜索 "顯示中國(guó)地區(qū)包含 PII 的客戶表"),并主動(dòng)推薦數(shù)據(jù)洞察。
●智能化 (Intelligent):Dataplex 不僅僅是元數(shù)據(jù)的存儲(chǔ)庫(kù),它通過(guò)構(gòu)建一個(gè) "知識(shí)引擎" (Knowledge Engine),分析查詢歷史、元數(shù)據(jù)和數(shù)據(jù)剖析結(jié)果,自動(dòng)推斷數(shù)據(jù)間的關(guān)系和業(yè)務(wù)語(yǔ)義。這為 AI Agent 提供了可靠的上下文,確保其生成的結(jié)果既準(zhǔn)確又可信。
Agentic AI: 開(kāi)啟數(shù)據(jù)交互的新紀(jì)元
為了進(jìn)一步解放數(shù)據(jù)團(tuán)隊(duì)的生產(chǎn)力,并讓數(shù)據(jù)洞察惠及企業(yè)中的每一個(gè)人,Google Cloud 引入了 "Agentic AI" 的理念,推出了一系列Data Agents。您可以將這些智能體想象成一個(gè)為您每個(gè)數(shù)據(jù)角色配備的 "智能副駕" 或 "數(shù)字專家團(tuán)隊(duì)"。他們不是簡(jiǎn)單地執(zhí)行命令,而是能理解您的意圖,主動(dòng)協(xié)作并自動(dòng)化完成整個(gè)數(shù)據(jù)生命周期中的復(fù)雜工作。
這些強(qiáng)大 Agent 的背后,是 Dataplex 中一個(gè)關(guān)鍵的大腦——知識(shí)引擎 (Knowledge Engine)。這是 Dataplex Universal Catalog 中的一個(gè)核心模塊,其根本任務(wù)是將靜態(tài)的元數(shù)據(jù)記錄,轉(zhuǎn)變?yōu)橐粋€(gè)動(dòng)態(tài)的、具備上下文感知的 "知識(shí)網(wǎng)絡(luò)" (living, context-aware knowledge fabric)。
它不再是被動(dòng)地存儲(chǔ)元數(shù)據(jù),而是主動(dòng)地分析和連接來(lái)自整個(gè) Google Cloud 數(shù)據(jù)與 AI 技術(shù)棧的信號(hào)。它所 "消化" 的輸入包括:
●來(lái)自Data Profile的模式分布和統(tǒng)計(jì)數(shù)據(jù)。
●來(lái)自Data Quality的有效性和新鮮度結(jié)果。
●來(lái)自Business Glossary的企業(yè)術(shù)語(yǔ)定義。
●以及數(shù)據(jù)血緣 (Lineage)、查詢?nèi)罩?(Usage histories)和元數(shù)據(jù)注解。
知識(shí)引擎將來(lái)自BigQuery、Spanner、AlloyDB、Cloud SQL、Vertex AI 和 Looker的信息編織在一起,構(gòu)建了一個(gè)覆蓋從事務(wù)型數(shù)據(jù)庫(kù)到分析型倉(cāng)庫(kù),再到 AI 模型的全景圖。
最終,它構(gòu)建出一個(gè)動(dòng)態(tài)的企業(yè) "知識(shí)圖譜"。這使 Dataplex 從一個(gè)靜態(tài)的資產(chǎn)注冊(cè)表 (static registry)進(jìn)化為一個(gè)動(dòng)態(tài)的關(guān)系構(gòu)建者 (dynamic relationship builder)。這個(gè)知識(shí)圖譜的核心目的,就是為 Agentic AI 提供必要的 "錨定" 上下文 (grounding context)。
知識(shí)引擎通過(guò)以下方式,將 Data Agents 從 "工具" 提升為 "伙伴":
●提供準(zhǔn)確的上下文:當(dāng) Agent 接收到一個(gè)模糊的請(qǐng)求,如 "分析上季度的客戶流失情況" 時(shí),知識(shí)引擎會(huì)提供必要的上下文: 它知道哪些表是 "客戶主數(shù)據(jù)",哪個(gè)字段代表 "最后活躍日期",以及業(yè)務(wù)上如何定義 "流失"。這為 Agent 的行動(dòng)提供了堅(jiān)實(shí)的基礎(chǔ),有效避免了 AI 模型常見(jiàn)的 "幻覺(jué)" 問(wèn)題,確保其響應(yīng)是基于事實(shí)的。
●實(shí)現(xiàn)復(fù)雜的推理:基于知識(shí)圖譜,Agent 能夠理解并執(zhí)行跨領(lǐng)域、多步驟的復(fù)雜任務(wù)。例如,用戶可以提出 "找出在最近一次營(yíng)銷活動(dòng)中,對(duì)高利潤(rùn)產(chǎn)品反應(yīng)最積極的客戶群體,并分析他們的共同特征",Agent 能夠自主地關(guān)聯(lián)營(yíng)銷、銷售和產(chǎn)品數(shù)據(jù),完成這一系列復(fù)雜的分析。
●確保內(nèi)置的安全性與合規(guī)性:由于知識(shí)引擎本身就是 Dataplex 治理框架的一部分,它對(duì)所有數(shù)據(jù)安全策略 (如 IAM 策略、PII 標(biāo)識(shí)) 都有全面的認(rèn)知。因此,當(dāng)一個(gè)業(yè)務(wù)分析師嘗試查詢包含敏感客戶信息的字段時(shí),即使他沒(méi)有明確意識(shí)到,Agent 也會(huì)在生成結(jié)果前自動(dòng)應(yīng)用數(shù)據(jù)脫敏規(guī)則,只展示聚合后的、符合隱私政策的數(shù)據(jù)。這實(shí)現(xiàn)了安全于無(wú)形,讓數(shù)據(jù)民主化與合規(guī)性并行不悖。
有了知識(shí)引擎的加持,Data Agents 才能真正發(fā)揮其潛力:
●Data Engineering Agent:過(guò)去,數(shù)據(jù)工程師可能需要幾天時(shí)間編寫(xiě)和調(diào)試復(fù)雜的 Spark 作業(yè)?,F(xiàn)在,他們只需告訴 Agent: "將 Salesforce 的客戶數(shù)據(jù)和 SAP 的訂單數(shù)據(jù)進(jìn)行合并,按季度聚合銷售額,并將結(jié)果加載到 BigQuery 的 'quarterly_sales' 表中",Agent 就能自動(dòng)生成、優(yōu)化并執(zhí)行整個(gè)數(shù)據(jù)管道。
●Data Science Agent:數(shù)據(jù)科學(xué)家不再需要手動(dòng)進(jìn)行繁瑣的探索性數(shù)據(jù)分析 (EDA) 和特征工程。他們可以指示 Agent: "針對(duì)這份客戶數(shù)據(jù),進(jìn)行 EDA 分析,找出與客戶流失最相關(guān)的特征,并構(gòu)建一個(gè)初步的預(yù)測(cè)模型",Agent 將自動(dòng)完成數(shù)據(jù)可視化、特征選擇和模型訓(xùn)練,并返回一份詳盡的報(bào)告。
●Conversational Analytics Agent:業(yè)務(wù)用戶能以對(duì)話的方式探索數(shù)據(jù)、獲取洞察、進(jìn)行根本原因分析甚至預(yù)測(cè)未來(lái)趨勢(shì),真正實(shí)現(xiàn)數(shù)據(jù)的全民化。例如,銷售總監(jiān)可以直接在聊天界面中提問(wèn): "對(duì)比上個(gè)季度,我們哪個(gè)產(chǎn)品的銷售額增長(zhǎng)最快?根本原因是什么?"Agent 會(huì)自動(dòng)查詢數(shù)據(jù)、分析趨勢(shì)并給出基于數(shù)據(jù)的合理解釋。
這些植根于可信知識(shí)的 Agent,標(biāo)志著人與數(shù)據(jù)交互方式的一次革命性飛躍。
結(jié)論: 構(gòu)建面向未來(lái)的數(shù)據(jù)戰(zhàn)略
Google Cloud AI Lakehouse 提供了一個(gè)清晰的藍(lán)圖,幫助企業(yè)應(yīng)對(duì) AI 時(shí)代的復(fù)雜數(shù)據(jù)挑戰(zhàn)。它通過(guò)一個(gè)統(tǒng)一、開(kāi)放、智能和 Agentic的平臺(tái),不僅解決了當(dāng)前的數(shù)據(jù)孤島和治理難題,更為未來(lái)的創(chuàng)新奠定了堅(jiān)實(shí)的基礎(chǔ)。
在這個(gè) AI 決定未來(lái)的時(shí)代,您的數(shù)據(jù)戰(zhàn)略就是您的 AI 戰(zhàn)略。選擇正確的平臺(tái),將不再是讓數(shù)據(jù)服務(wù)于工具,而是讓智能服務(wù)于業(yè)務(wù)的每一個(gè)角落。選擇 Google Cloud AI Lakehouse,意味著您選擇的不僅是一個(gè)解決當(dāng)下數(shù)據(jù)問(wèn)題的平臺(tái),更是一個(gè)能夠與您的 AI 雄心共同成長(zhǎng)、不斷進(jìn)化的智能基礎(chǔ)。它將幫助您在 AI 時(shí)代,始終領(lǐng)先一步。與其讓數(shù)據(jù)復(fù)雜性定義您的業(yè)務(wù)邊界,不如讓 Google Cloud AI Lakehouse 成為您創(chuàng)新的起點(diǎn)。是時(shí)候打破壁壘,擁抱智能,與我們一起構(gòu)建您的 AI 未來(lái)。
-
Google
+關(guān)注
關(guān)注
5文章
1799瀏覽量
60143 -
AI
+關(guān)注
關(guān)注
89文章
37536瀏覽量
293277 -
模型
+關(guān)注
關(guān)注
1文章
3627瀏覽量
51613
原文標(biāo)題:超越孤島,賦能智能: Google Cloud AI Lakehouse 如何重塑您的數(shù)據(jù)未來(lái)
文章出處:【微信號(hào):Google_Developers,微信公眾號(hào):谷歌開(kāi)發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
vivo攜手Google Cloud推動(dòng)智能手機(jī)邁入AI新時(shí)代
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的未來(lái):提升算力還是智力
Google Cloud展示一系列前沿技術(shù)更新
加速AI未來(lái),睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)
AI的未來(lái),屬于那些既能寫(xiě)代碼,又能焊電路的“雙棲人才”
【書(shū)籍評(píng)測(cè)活動(dòng)NO.64】AI芯片,從過(guò)去走向未來(lái):《AI芯片:科技探索與AGI愿景》
Google推出全新Cloud WAN解決方案
NetApp與Google Cloud合作,簡(jiǎn)化云端高性能工作負(fù)載的擴(kuò)展
請(qǐng)問(wèn)NanoEdge AI數(shù)據(jù)集該如何構(gòu)建?
FPGA+AI王炸組合如何重塑未來(lái)世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......
非結(jié)構(gòu)化數(shù)據(jù)中臺(tái):企業(yè)AI應(yīng)用安全落地的核心引擎
Arm技術(shù)助力Google Axion處理器加速AI工作負(fù)載推理

Google Cloud AI Lakehouse如何構(gòu)建企業(yè)數(shù)據(jù)未來(lái)
評(píng)論