AI趨勢周報第198期：文生圖不夠看，Meta AI最新模型能將文字轉為高品質影片

由 admin · 2022 年 11 月 9 日

文生圖不夠看，Meta AI最新模型能將文字轉為高品質影片

Meta創辦人祖克柏分享自家AI研究院最新成果Make-A-Video，這是一款AI系統，可根據文字描述產出一段高品質的影片。近2年，許多科技巨頭鑽研文字轉圖片的Transformer模型，如OpenAI的DALL-E，Meta也不例外，他們今年早些時候也發表過多模態的文生圖系統Make-A-Scene，並在這個基礎上開發出Make-A-Video。

Meta AI團隊開發Make-A-Video的想法很簡單，就是讓模型從一組組文字-圖片的配對中，來學習現實世界的樣貌，並從非監督式影片來學習這個世界如何動作。他們解釋，Make-A-Video有不少優勢，比如不必從頭學習影像和多模態表徵，因此加速文字轉影片模型的訓練，以及不需要成對的文字-影片訓練資料。而且，該系統產生的影片，皆具備現有文生圖的多樣性（如奇幻色彩）。

在模型設計上，他們先拆解完整的時序型網路U-Net和注意力張量，並讓它們在時空間裡逼近。接著，團隊設計一個時空工作管線，來產出高解析度的幀率影片。Meta表示，用來訓練Make-A-Video的資料都來自於公開資料集，系統目前已，可根據輸入文字產生3種不同風格的影片，包括超現實、寫實和風格化影片。Meta也希望透過使用者回饋，和自家負責任AI框架，來動態調整系統。

Yann LeCun 深度學習 自監督學習

Yann LeCun：目前大多數AI都實現不了真正的智慧，但自監督學習有潛力

卷積網路（CNN）之父Yann LeCun日前接受ZDNet採訪時透露，他對目前的深度學習方法持懷疑態度，因為現有的高階深度學習方法無法實現真正的智慧，其中包括以Transformer架構為基礎的大型語言模型GPT-3。他點出，Transformer的擁護者相信，只要將一切標記化，模型就能精準預測，也就是AI。「這麼說沒錯，」但Yann LeCun話鋒一轉，「它可能是未來智慧系統的一部分，但仍缺少真正核心的部分。」

在他看來，所有的AI都面臨一個基本問題，也就是如何測量資訊量。比如，人們不可能只造梯子就登月，而是得造火箭。他在6月發表一篇論文，講述的就是這個火箭的基本原理。他認為，基於能量的自監督學習，是通往真正智慧的深度學習方法。

臺北榮總 醫療大數據 避風港計畫

北榮建置醫療大數據基礎架構，下一步要展開資安避風港計畫

為整合散落各處的龐大醫療大數據，臺北榮總近年來建置大數據整合基礎架構，打造出可順暢接軌的數據池，將所有數據集中一處儲存。臺北榮總大數據中心負責人朱原嘉表示，這麼做，就能用機器學習，來將這些數據轉化為更高價值的洞察資訊，提高院內醫學論文產量，也能協助醫師診斷、用藥更精準。

這些基礎設施是北榮與戴爾共同打造，他們也進一步發展AI平臺架構，甚至為在2050年達到淨零碳排目標，將運用AI來計算最佳電力使用模型。此外，北榮也在這個平臺上部署聯邦式學習，讓數據留在醫院本地端、權重在雲端的模式，以AIoT終端裝置收集病患的血壓值、心律管理、生理資訊量測等數據，再透過自動化分析工具提供有價值的資訊給醫生，加速診療判斷。最後，他也透露，為進一步保護病患隱私與個資，北榮未來將建置避風港計畫（Sheltered Harbor Program），來強化資安韌性、保護關鍵資料，讓醫療服務不中斷。

DeepMind 聊天機器人 Sparrow

DeepMind開發更安全的聊天機器人Sparrow

DeepMind打造聊天機器人Sparrow，可即時用Google搜尋來尋找答案，也能透過人類與Sparrow的對話來改善機器人對話內容。DeepMind指出，近來各種大型語言模型已在問答、摘錄和對話等任務上頗有成效，但，基於LLM的對話聊天機器人還是會出現不準確、歧視或鼓勵不安全行為的對話。

為解決問題，聊天機器人必須從人類的回應來學習。Sparrow就是以這樣的強化學習方式訓練而成，它會向人類展示不同模型對同一問題的答案，並選出人類最喜歡的答案，也讓人類持續以中性或敵對等方式與Sparrow互動，同時擴大用來訓練資料集。DeepMind也建立簡單的規則，確保Sparrow的行為是安全的，比如當人類要求Sparrow教他如何靠電線短路來發動汽車時，Sparrow會說這可能違法而拒絕回答；或者當人類問及Sparrow個人問題時，Sparrow會坦承自己不是人類。

OpenAI 自動語音辨識 Whisper

Open AI開源自動語音辨識系統Whisper

回頭車貨運收費標準，宇安交通關係企業，自成立迄今，即秉持著「以誠待人」、「以實處事」的企業信念

好山好水露營車漫遊體驗

露營車x公路旅行的十一個出遊特色。走到哪、玩到哪，彈性的出遊方案，行程跟出發地也可客製

網頁設計公司推薦不同的風格，搶佔消費者視覺第一線

透過選單樣式的調整、圖片的縮放比例、文字的放大及段落的排版對應來給使用者最佳的瀏覽體驗，所以不用擔心有手機版網站兩個後台的問題，而視覺效果也是透過我們前端設計師優秀的空間比例設計，不會因為畫面變大變小而影響到整體視覺的美感。

太陽光電發電設備是否會產生噪音?

找對廠商很重要喔，東陽能源是擁有核心技術、產品研發、系統規劃設置、專業團隊的太陽能發電廠商。

最熱情、專業有口碑的網頁設計公司讓您的網站改頭換面。

南投搬家公司費用需注意的眉眉角角，別等搬了再說!上新台中搬家公司提供您一套專業有效率且人性化的辦公室搬遷、公司行號搬家及工廠遷廠的搬家服務

想知道購買電動車哪裡補助最多?台中電動車補助資訊懶人包彙整

節能減碳愛地球是景泰電動車的理念，是創立景泰電動車行的初衷，滿意態度更是服務客戶的最高品質，我們的成長來自於你的推薦。

電動車補助

Open AI近日開源語音辨識系統Whisper，號稱英文辨識能力達人類水平，並支援其它98種語言的自動語音辨識。Whisper可執行語音辨識和翻譯任務，能將各種語言的語音轉為文字，也能將這些文字翻譯成英文。

Whisper系統目前有9種模型，它們的參數量和功能不一，這些模型共經68萬小時語音訓練，也比對了從網路上蒐集而來的文字轉寫內容，當中68%的資料為英文語音與英文文字，另有18%的非英文語音及英文文字。雖然Whisper支援98種語言，但只有不到10種的語言實現強大的自動識別能力。Open AI期望，Whisper模型的轉錄功能可用來改善無障礙工具。

Nvidia 大型語言模型 部署

Nvidia發表多項大型語言模型服務更新

Nvidia最近發布多項大型語言模型（LLM）新服務和框架，包括能自定義模型的服務NeMo LLM、擴展LLM在製藥和生物技術產業的科學用服務BioNeMo，以及NeMo Megatron端到端框架公開測試版，供開發人員訓練和部署大型語言模型。

用戶可用NeMo LLM服務中的Nvidia託管雲端API，在公、私有雲大規模自定義和部署大型語言模型。NeMo LLM是一款高計算效率的服務，能將脈絡嵌入用戶查詢中，只要數百個樣本就能得到高精準度。而NeMo Megatron可用來訓練、部署數兆參數的大型語言模型，並於Azure、AWS、甲骨文雲端提供公開測試板。另一方面，BioNeMo服務則以NeMo Megatron為基礎，提供AI藥物探索工作流程的統一雲端環境，支援化學和蛋白質組學類的Transformer模型，以及OpenFold預測蛋白質結構的工作流程。

OpenAI DALL-E 應用程式

不必候補！OpenAI開放民眾直接使用DALL-E了

OpenAI最近移除文生圖模型DALL-E測試版的候補名單，民眾可直接註冊、使用DALL-E功能，輸入文字就能產出各種圖片了。OpenAI表示，目前每日都有150多萬名使用者用DALL-E，創作超過200萬張圖片，這些創作者的反饋，讓OpenAI不只新添一項可腦補、延伸繪畫的功能Outpainting，也加強DALL-E的過濾器、打造新的偵測器，來拒絕生成色情、暴力等違反內容規範的圖像。目前，OpenAI也在與數名顧客測試DALL-E API，未來將提供給開發者和企業，來在DALL-E系統上開發應用程序。

Google 機器人 SayCan

Google用超強語言模型讓家務機器人聽懂指令

Google日前發表新機器人AI模型PaLM-SayCan，來強化Alphabet開發的事務幫手型機器人對指令的理解力，更聰明執行任務。進一步來說，SayCan就像是理解使用者指令的大腦，而機器人就是手和眼睛，根據大腦理解的意思來執行指令。SayCan能理解551種技能和17種物件的指令語義，機器人執行一個動作後，SayCan會將描述附加到PaLM模型，來查詢、重複該過程，直到它完成動作。

後來，團隊在15種物品的模擬廚房中，向機器人發出101條命令來測試系統。他們發現，機器人計畫有效動作的成功率為84%，而成功執行這些動作的比例為74%。在現實生活的廚房中，機器人的成功率分別是81%和61%。

圖片來源／Meta、DeepMind、OpenAI

AI近期新聞

1. Meta發表英文編輯工具EditEval，能把文章修得更好

2. 漢莎航空運用深度學習預測瑞士白斯風提高航班準點率

資料來源：iThome整理，2022年9月

https://www.ithome.com.tw/news/153372

AI趨勢周報第198期：文生圖不夠看，Meta AI最新模型能將文字轉為高品質影片

您可能也會喜歡…

近期文章

分類

彙整

AI趨勢周報第198期： 文生圖不夠看，Meta AI最新模型能將文字轉為高品質影片

您可能也會喜歡…

利比亞炸藥捕魚猖獗 破壞海洋生態又擾安寧

別更新！iPhone 上的新版 Chrome 瀏覽器爆出啟動後就卡住災情

市場電動車需求上升，Nissan將對現有車款EV化

近期文章

標籤

分類

彙整

AI趨勢周報第198期：文生圖不夠看，Meta AI最新模型能將文字轉為高品質影片

利比亞炸藥捕魚猖獗破壞海洋生態又擾安寧