Meta開源奠基於全球網路內容的AI知識語料庫Sphere

圖片來源: 

GitHub

一個爬梳全球網路內容的AI知識語料庫Sphere,號稱是全球最大的同類型語料庫,並利用Sphere打造了一個Side模型,可用來改善維基百科(Wikipedia)所引用的資訊的關聯性與正確性。

語料庫(Corpus)為知識密集型自然語言處理(Knowledge-Intensive Natural Language Processing,KI-NLP)的基礎,KI-NLP模型爬梳數位檔案來尋求問題的解答或進行事實查核,因此,語料庫的規模愈大,所能解答的問題也愈多。

在現階段的KI-NLP研究領域中,研究人員多半是透過商業搜尋引擎或是Wikipedia來尋找答案,但Meta的研究人員認為,商業搜尋引擎就像是個黑盒子,人們可能不知道自己遺失了哪些重要訊息,而就算Wikipedia相對精確、有良好的格式,而且因為規模小而方便使用,但它畢竟是個眾包平臺,並未容納網路上的所有內容。

而Sphere即是一個奠基在全球開放網路內容的語料庫,它是開源的、通用的、未經組織的、非結構化的知識來源,因此可支援各種KI-NLP任務。它內含1.34億個文件,具備9.06億個段落,每個段落都含有100個標記,比現今最大的知識語料庫多了一個數量級。

Sphere的建置源自於Meta AI所開發的CCNet,CCNet為Common Crawl的變種,把每月固定爬梳全球網路的Common Crawl檔案去蕪存菁而來。

想知道最厲害的網頁設計公司嚨底家!

RWD(響應式網頁設計)是透過瀏覽器的解析度來判斷要給使用者看到的樣貌

網頁設計公司推薦不同的風格,搶佔消費者視覺第一線

透過選單樣式的調整、圖片的縮放比例、文字的放大及段落的排版對應來給使用者最佳的瀏覽體驗,所以不用擔心有手機版網站兩個後台的問題,而視覺效果也是透過我們前端設計師優秀的空間比例設計,不會因為畫面變大變小而影響到整體視覺的美感。

推薦評價好的iphone維修中心

擁有專業的維修技術團隊,同時聘請資深iphone手機維修專家,現場說明手機問題,快速修理,沒修好不收錢

Meta的AI研究人員指出,Sphere與搜尋引擎最大的不同在於它開放研究人員存取完整的語料庫,研究人員不僅能夠檢視並控制語料庫,也能展開不同的實驗來推動檢索技術的發展,另一方面,開源社群也將協助Meta辨識Sphere的檢索盲點。

研究人員將可利用Sphere來訓練檢索器,以處理更廣泛的文件,或者是建置自動化系統來檢查不實資訊、噪音或不連貫的文字。

,可用來協助強化維基百科的引用資訊,因為維基百科的編輯可能無法仔細檢查每一個引用的資訊,或是志願者在撰寫時無意中流露出的偏見。

目前Sphere仍是個研究中的產品,尚未實際應用於Meta自家的平臺上,也未與維基百科合作,只是以Side模型作為示範案例。

來源鏈接:https://www.ithome.com.tw/news/151893

如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!

以設計的實用美學觀點,規劃出舒適、美觀的視覺畫面,有效提昇使用者的心理期待,營造出輕鬆、愉悅的網站瀏覽體驗。

最熱情、專業有口碑的網頁設計公司讓您的網站改頭換面。

如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!

以設計的實用美學觀點,規劃出舒適、美觀的視覺畫面,有效提昇使用者的心理期待,營造出輕鬆、愉悅的網站瀏覽體驗。

您可能也會喜歡…