2023 年,,人工智能領(lǐng)域無疑成為了行業(yè)的焦點(diǎn),帶來了深刻的變革,。本文概述了這一年中最有影響力的大事件,,這些事件預(yù)示著這一創(chuàng)新領(lǐng)域未來的發(fā)展方向。
人工智能的發(fā)展
不像去年的 ChatGPT 或圖像生成器的推出那樣革命性的創(chuàng)新,,今年的人工智能發(fā)展雖然取得了顯著的成就,,但主要是專注于現(xiàn)有技術(shù)的完善,。盡管沒有帶來令人震驚的效果,真正的通用人工智能(AGI)仍然還有很長的路要走,,但今年是從過去的重大突破向更加強(qiáng)大的技術(shù)轉(zhuǎn)變的過渡期。為了更好地展示這一轉(zhuǎn)變,,我們制作了一張基于時間線的路線圖:
圖像生成
Adobe Firefly:Adobe Firefly 和 Generative Fill 為多樣化的視覺內(nèi)容創(chuàng)作提供了強(qiáng)大的支持,,這包括插畫、藝術(shù)概念設(shè)計和照片編輯,。Adobe Firefly 被集成進(jìn) Photoshop,,從而普及了 AI 技術(shù),使其得以廣泛服務(wù)于更多用戶,。此外,,文本效果功能的推出,也標(biāo)志著技術(shù)的一大進(jìn)步,,使用戶能夠?qū)⑻囟L(fēng)格或紋理應(yīng)用于文字和短語,。
Midjourney:Midjourney 的 V.5 模型在圖像生成領(lǐng)域是一個重要的里程碑,,它展示了在效率,、連貫性和高分辨率方面的顯著改進(jìn)。最新的 alpha 版本,,Midjourney V.6,,引入了額外的增強(qiáng)功能,,如更精準(zhǔn)的提示跟隨,、擴(kuò)展的模型知識庫和一定程度的文本繪制能力。
DALL·E 3:基于 ChatGPT 的 DALL·E 3 簡化了圖像生成過程,,減少了復(fù)雜提示工程的需求,。此外,,ChatGPT 還引入了一項(xiàng)幫助用戶根據(jù)反饋優(yōu)化提示,,進(jìn)而調(diào)整圖像效果的功能。
Shutterstock.AI:Shutterstock,,一家圖庫巨頭,,通過集成 AI 功能,,讓用戶可以把文字提示轉(zhuǎn)換成可授權(quán)使用的圖像。Shutterstock 采取了保護(hù)藝術(shù)家權(quán)益和報酬的措施,,這在AI內(nèi)容創(chuàng)作領(lǐng)域是前無古人的,可以看作是 AI 道德發(fā)展的第一個重要舉措,。
2007 年與 2023 年文本到圖像算法的演進(jìn)
視頻生成
Stability AI:Stability AI 推出了 Stable Video Diffusion,一個創(chuàng)新的開源視頻生成模型,,已在 GitHub 上開源。它有望在 AI 生成視頻的各個領(lǐng)域發(fā)揮關(guān)鍵作用,,這與 AI 圖像生成趨勢 是相輔相成的,。
HeyGen:一家 AI 創(chuàng)業(yè)公司推出了一款集聲音克隆,、嘴唇動作調(diào)整和語言翻譯于一體的視頻工具,。
Runway Gen-2:Runway 發(fā)布了 Gen-2 模型,,用戶現(xiàn)可僅用文本提示,、圖像或視頻輕松生成完整視頻,。
Pika 和 Pika 1.0: 首次發(fā)布便吸引了五十萬用戶,,每周產(chǎn)生數(shù)百萬視頻,。隨后,Pika 1.0 的升級版 AI 模型讓用戶能夠更多樣化地創(chuàng)作和編輯視頻,,風(fēng)格涵蓋 3D 動畫,、動漫,、卡通到電影等,。
Meta 的 Codec Avatars:Meta 的 Pixel Codec Avatars(PiCA)模型使我們在視頻通話中看到更逼真的 3D 人臉,,使遠(yuǎn)程會議效果更接近真實(shí),。
文本生成
Bard 和 Gemini:Google 的 Bard 為聊天機(jī)器人領(lǐng)域引入了更貼近人類的情感和情緒。Google 在 Bard 聊天機(jī)器人中融入了基于多模態(tài)數(shù)據(jù)集訓(xùn)練的 Gemini,,它被譽(yù)為目前“最強(qiáng)大”的 AI 模型,,是 OpenAI 的 ChatGPT 最強(qiáng)的競爭對手之一。
Grok:Elon Musk 的創(chuàng)業(yè)公司 xAI 展示了其對 AI 開發(fā)的承諾,,并可能與 OpenAI 展開競爭,。他們發(fā)布了 “Grok”,,這是一款具有幽默感,、反叛精神,,并通過 ?? 平臺獲得實(shí)時知識的聊天機(jī)器人,。xAI 承諾,,Grok 被設(shè)計來 回答其他 AI 系統(tǒng)拒絕的挑釁性問題,。
OverflowAI:Stack Overflow 的 OverflowAI 加強(qiáng)了知識整理能力,,支持在 Visual Studio Code 和 Slack 中進(jìn)行 AI 驅(qū)動的答案搜索,。
Llama 2:Meta 發(fā)布了 Llama 2,,這是其開源大型語言模型的最新版本,,顯示了效率方面的提升,。Meta 的精調(diào) LLM 在對話用例中經(jīng)過優(yōu)化,多數(shù)基準(zhǔn)測試中超過其他開源模型。
GPT-4:OpenAI 的 GPT-4 現(xiàn)在可以處理圖像輸入,,生成標(biāo)題,、分類,,進(jìn)行聽說交流,,并支持 實(shí)時網(wǎng)頁瀏覽,。OpenAI 擴(kuò)展了插件支持,推動了開源生態(tài)系統(tǒng)的發(fā)展,。GPT-4 代表了 OpenAI 在開發(fā)通用人工智能(AGI)路上的下一步,。
Mistral 7B:Mistral AI 在今年 估值達(dá)到約 20 億美元,,發(fā)布了 Mistral 7B,,一款挑戰(zhàn) GPT-4 和 Claude 2 的大型語言模型,。Mistral AI 強(qiáng)調(diào)其技術(shù)開放性,免費(fèi)提供模型的下載,。
Mixtral 8x7B:Mistral AI 還推出了 Mixtral 8x7B,,這是一個高質(zhì)量的稀疏專家混合模型(SMoE),,擁有開放權(quán)重和總計 46.7B 的參數(shù),,代表了在提高真實(shí)性和減少偏見方面模型開放性的新階段,。
Yi-34B llm:今年估值達(dá)到 10 億美元,李開復(fù)的創(chuàng)業(yè)公司 01.AI 發(fā)布了 Yi-34B —— 一款開源神經(jīng)網(wǎng)絡(luò)模型,,參數(shù)數(shù)量超過競爭對手,,強(qiáng)調(diào)了它在成本和效率方面的優(yōu)勢。