【3】Hume AI發(fā)布語音引擎OCTAVE
【4】南洋理工大學(xué)推出超分技術(shù)InvSR
【6】OpenAI正式發(fā)布o(jì)3模型
【8】支付寶面向商家營銷推出AI創(chuàng)意生成服務(wù)
【9】可靈1.6版本提升物理規(guī)律真實(shí)感
Domo AI推出v2v真實(shí)模型,可以進(jìn)行反向操作,將動漫類型的視頻轉(zhuǎn)換成真人視頻,還可以通過Prompt將視頻里的對象轉(zhuǎn)成別的真實(shí)事物,如將一個圣誕老人轉(zhuǎn)成一只圣誕兔子,功能類似于Runway推出的Act one功能。
訊飛星火對其瀏覽器插件進(jìn)行升級,增加了多項(xiàng)AI能力。集成了訊飛星火V4.0底層能力,兼容Chrome、Edge等主流瀏覽器。新增“繼續(xù)提問”功能,隨時(shí)深入討論,獲取高質(zhì)量答案;實(shí)現(xiàn)網(wǎng)頁全局對照翻譯;新增“一鍵朗讀”功能,實(shí)現(xiàn)邊聽邊看;支持句子、段落總結(jié)。
Hume AI推出OCTAVE的文本與語音引擎,該引擎能夠通過簡單的文本描述一段5秒的語音錄音,生成或克隆出逼真的語音和人格特質(zhì)。不僅能夠生成自然的語音,還能精確地模仿說話者的性別、年齡、口音、情緒語調(diào)及職業(yè)特定的說話風(fēng)格,能夠在毫秒級別內(nèi)完成語音生成,實(shí)現(xiàn)了真正的實(shí)時(shí)對話,并且還允許用戶實(shí)時(shí)動態(tài)地調(diào)整生成內(nèi)容。
南洋理工大學(xué)的研究團(tuán)隊(duì)發(fā)布圖像超分辨率(SR)技術(shù),該技術(shù)基于擴(kuò)散反演(Diffusion Inversion),通過充分利用大型預(yù)訓(xùn)練擴(kuò)散模型中的圖像先驗(yàn)信息,提升圖像的分辨率和清晰度。與現(xiàn)有的超分辨率方法相比,這項(xiàng)技術(shù)具有更加靈活高效的采樣機(jī)制,可以支持從一個到五個任意數(shù)量的采樣步驟。
清華大學(xué)與騰訊ARC實(shí)驗(yàn)室的研究團(tuán)隊(duì)推出ColorFlow的新型圖像序列上色模型。解決了在黑白圖像序列上色的同時(shí),保持角色和物體身份一致性的問題,能夠利用上下文信息,通過參考圖像池為黑白圖像序列準(zhǔn)確生成顏色。與以往需要針對每個角色進(jìn)行微調(diào)的技術(shù)不同,ColorFlow通過具備泛化能力的檢索增強(qiáng)上色管道,簡化了色彩生成的過程。
OpenAI在第十二天技術(shù)直播中正式發(fā)布了o3模型,在全球著名的編碼競賽平臺Codeforces中得分是2727,位于排列榜單第175名,超越了99.99%的人類。在數(shù)學(xué)競賽AIEM2024中接近滿分,在評估人工智能在高級數(shù)學(xué)推理方面能力的FrontierMath中成功率為25.2%,與之對比,GPT-4和Gemini1.5Pro的成功率不足2%。目前不知道o3什么時(shí)候放出,但是OpenAI又基于o3訓(xùn)練了3個小尺寸的o3模型,其中o3-mimi預(yù)估在1月底可以對外開放。
AI創(chuàng)意工具Krea AI宣布在Krea Editor推出自定義訓(xùn)練功能,可以在幾秒鐘內(nèi)將真實(shí)產(chǎn)品添加到任何圖像中。從官方的演示視頻來看,在實(shí)際操作中只需涂抹需要替換的區(qū)域,如“涂抹模特臉上的墨鏡”,然后選擇商品圖“VR眼鏡”,AI就會自動處理,將VR眼鏡戴到模特臉上。用戶還可以繼續(xù)擴(kuò)圖處理,用同樣的方法繼續(xù)涂抹區(qū)域,選擇其它商品,AI就會把商品融合到模特身上。
支付寶宣布推出AI創(chuàng)意平臺“螞上有創(chuàng)意”,這是一個面向商務(wù)機(jī)構(gòu)的AI營銷服務(wù)。“螞上有創(chuàng)意”可以為客戶提供AI快速生成創(chuàng)意素材、營銷廣告智能分析等服務(wù),還免費(fèi)開放多項(xiàng)營銷圖片素材。據(jù)介紹,過去一年支付寶將AI全面應(yīng)用于商業(yè)開放生態(tài),共接入近70個業(yè)務(wù)場景,累計(jì)為生態(tài)商家機(jī)構(gòu)生成8700萬張AI素材。
快手旗下AI視頻生成工具可靈(Kling)發(fā)布1.6版,主要在物理規(guī)律真實(shí)感、人物表演能力和語義理解水平三個核心維度提升。①對物理世界的精準(zhǔn)演繹:在切西紅柿的測試中,可靈1.6版展現(xiàn)出近乎專業(yè)廚師的精準(zhǔn)操作,無論是刀具與食材的互動,還是切片的力度都非常真實(shí)。倒茶、貓咪踩沙發(fā)、狗狗奔跑等日常場景中的物理效果也更加真實(shí);②人物表情和動作:從細(xì)微的眉頭皺起到優(yōu)雅的芭蕾舞姿,再到中國古典水下舞蹈,可靈1.6版都能準(zhǔn)確捕捉人物細(xì)微的情感變化和復(fù)雜的肢體動作;③語義理解:更強(qiáng)的場景理解能力,無論是“摘下眼鏡擁抱小鹿”這樣的連續(xù)動作,還是“后退舉槍”等復(fù)雜場景,都能準(zhǔn)確理解并生成符合預(yù)期的視頻內(nèi)容。
Google發(fā)布新AI工具Whisk,允許用戶使用圖片作為提示詞生成圖片??梢陨蟼鲌D片來指定AI生成圖像的主題、場景和風(fēng)格,并且可以為這三者分別使用多張圖片。如果你手頭沒有合適的圖片,可以點(diǎn)擊骰子圖標(biāo),讓谷歌自動填充一些圖片作為提示。Whisk還為每張生成的圖片提供了文字提示。如果對結(jié)果滿意,可以收藏或下載圖像,如果想要進(jìn)一步優(yōu)化,可以在文本框中添加更多文字,或直接點(diǎn)擊圖像編輯文字提示。
作者:百度MEUX鏈接:https://www.zcool.com.cn/article/ZMTY1MDUzMg==.html來源:站酷著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。