AI日报:百川智能金融大模型发布;ChatGPT新增跨对话记忆功能;DeepSeek大模型一开发者将加盟小米;OpenAI最强推理模型o3
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、OpenAI发布o3:AI 推理能力的重大突破,得分高达87.5%
OpenAI最近推出了其最新的o-Model推理系列模型o3,标志着在数学和科学推理领域的重大进展。o3在ARC AGI基准测试中得分87.5%,显示出其在解决复杂逻辑和数学问题方面的显著能力提升。该模型结合了神经符号学习与概率逻辑,能够有效处理多步推理挑战,展现出在教育、医疗和软件开发等多个领域的广泛应用潜力。
【AiBase提要:】
🧠 o3在ARC AGI基准测试中得分87.5%,展现出显著的推理能力提升。
🔍 在高级数学测试中,o3的成功率达到96.7%,科学推理准确率提升10%。
💻 o3的应用潜力广泛,能够在教育、医疗和软件开发等领域提供实际支持。
2、Adobe推新AI音频具Sketch2Sound ,只需哼唱和模仿声音就能创建音效
Adobe Research与西北大学联合推出的Sketch2Sound是一款创新的人工智能工具,旨在革新声音设计师的工作流程。用户可以通过哼唱、模仿声音和简单文本描述来生成专业音效。该系统分析音量、音色和音高,并结合文本生成所需声音,特别适合Foley艺术家,提升影视音效的制作效率。
【AiBase提要:】
🎵 Sketch2Sound是一个新开发的AI工具,能通过哼唱和文本描述来创建音效。
🔊 该系统分析音量、音色和音高,将用户的声音输入与文本结合生成目标音效。
🎬 特别适合Foley艺术家使用,能够快速生成影视音效,提升工作效率。
详情链接:https://hugofloresgarcia.art/sketch2sound/
3、百川智能发布金融大模型Baichuan4-Finance
百川智能最近发布了其全新的金融大模型Baichuan4-Finance,该模型通过创新的领域自约束训练方案,在金融能力和通用能力上实现了双重提升,显著增强了在金融场景中的适用性。根据评测数据,Baichuan4-Finance在多个金融领域的准确率均超越了竞争对手GPT-4o。
【AiBase提要:】
🚀 Baichuan4-Finance通过领域自约束训练方案,提升金融和通用能力。
🏆 在多个评测中,Baichuan4-Finance的整体准确率达到93.62%,领先GPT-4o近20%。
📊 该模型在银行、保险、基金和证券等领域的准确率均突破95%。
详情链接:https://platform.baichuan-ai.com/finPage
4、清华大学联合腾讯出品!ColorFlow:自动给黑白漫画上色,保持角色一致性
ColorFlow是清华大学与腾讯ARC实验室联合研发的新型图像序列上色模型,旨在解决黑白图像上色时角色身份一致性的问题。该模型通过双分支设计和创新的检索增强上色管道,显著提升了上色效果与效率。ColorFlow在多个指标上超越了现有先进模型,展现出更高的美学质量,适用于黑白漫画、线条艺术等多种艺术场景。
【AiBase提要:】
🌟 ColorFlow是创新的黑白图像序列上色模型,能够保持角色身份一致性。
🎨 该模型采用双分支设计,分别用于色彩身份提取和实际上色,提升了上色的效果和效率。
🏆 ColorFlow在多项指标上超越了现有的先进模型,展现出更高的美学质量和实用性。
详情链接:https://zhuang2002.github.io/ColorFlow/
5、CAP4D:上传参考图即可生成高质量4D角色头像
CAP4D模型是一项革命性的技术,能够通过任意数量的参考图像生成高质量的4D头像。该模型采用双阶段工作流程,首先生成不同视角和表情的图像,然后结合参考图像重建可实时控制的4D头像。通过使用先进的面部追踪技术和随机采样的方式,CAP4D显著提升了图像重建效果和细节呈现。
【AiBase提要:】
🌟 CAP4D模型通过任意数量的参考图像生成高质量的4D头像,采用双阶段工作流程。
🖼️ 该技术可以生成多种不同视角的头像,显著提高了图像重建效果和细节呈现。
🎤 CAP4D与语音驱动动画模型相结合,实现音频驱动的动态头像,拓展了虚拟头像的应用场景。
6、OpenAI推出ChatGPT新记忆功能:能跨对话回忆用户交流
OpenAI最近推出了一项全新的记忆功能,使得其AI助手ChatGPT能够在用户开启新对话时回忆起以往的交流内容。这一更新旨在提升用户体验,允许用户全面管理自己的记忆设置,包括删除或归档特定信息。与此类似,谷歌也加快了其聊天机器人Gemini的记忆功能的推出,显示出AI行业在个性化服务方面的持续努力。
【AiBase提要:】
🔍 OpenAI推出新记忆功能,ChatGPT可跨对话回忆用户过往交流。
🔒 用户可随时管理记忆设置,删除或归档特定信息。
🤖 谷歌也推出类似功能,旨在提升AI助手的个性化服务。
7、震惊!你的AI聊天对象竟然偷偷学会了“读心术”!—— INFP带你解锁双人对话新姿势
INFP技术的出现,标志着AI虚拟头像在双人对话中的互动能力得到了质的飞跃。通过模仿人类的表情和动作,INFP使得虚拟角色能够在对话中展现出真实的互动,仿佛与真人交流。其背后的技术创新,不仅提升了用户体验,也为未来的AI对话系统提供了新的可能性。
【AiBase提要:】
🤖 INFP技术通过模仿人类的表情和动作,提升了AI虚拟头像的互动能力。
🎤 该技术利用音频分析,动态调整AI头像的状态,实现自然流畅的对话。
📊 DyConv数据集为INFP提供了丰富的对话素材,确保学习效果和表现的优越性。
详情链接:https://grisoon.github.io/INFP/
8、DeepSeek开源大模型开发者之一罗福莉将加盟小米
罗福莉,DeepSeek-V2的关键开发者,近期宣布加入小米,担任AI实验室的领导,负责大模型团队的建设。此举引发广泛关注,尤其是在小米加大大模型领域布局的背景下。罗福莉拥有北京大学的硕士学位,并在自然语言处理领域表现突出,曾在阿里巴巴达摩院任职,参与多语言预训练模型的开发。
【AiBase提要:】
🌟 罗福莉将加盟小米,领导AI实验室的大模型团队。
💰 雷军对小米在AI大模型领域的发展表示担忧,并高薪挖人。
📈 小米AI实验室已经设立专门团队,致力于推动大模型技术的发展。
9、AI终于迈过这道槛!Livekit 开源模型精准识别“你是否说完”!
在语音助手和客服机器人领域,如何准确判断用户是否说完一直是个难题。Livekit推出的开源精准语音轮次检测模型,通过结合Transformer模型与传统语音活动检测,显著提升了人机对话的自然度与流畅性。该模型能够减少AI的错误打断,提升用户体验,未来有望使人机对话更加智能和自然。
【AiBase提要:】
🔍 结合Transformer和传统VAD技术,提升语音轮次检测的准确性。
💬 新模型减少AI的错误打断率达85%,使人机对话更加自然。
🎥 演示视频展示AI耐心等待用户说完,提升交互体验。
详情链接:https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-detector
10、李飞飞团队前瞻性研究 多模态AI模型初显空间智能
斯坦福大学教授李飞飞及其团队的研究揭示了多模态大模型在空间智能方面的初步能力,展示了它们在记忆和回忆空间的潜力。研究开发了VSI-Bench工具,评估视觉空间智能,尽管模型表现仍低于人类,但在某些任务上已接近人类水平。
【AiBase提要:】
🛠️ 研究团队推出VSI-Bench工具,评估视觉空间智能,包含5000多个高质量问答对。
📈 多模态模型在某些任务上已接近人类水平,Gemini-1.5Pro在房间大小估计任务中表现突出。
🌍 李飞飞创办的World Labs专注于开发具备空间智能的AI模型,已获得多家知名机构投资。
11、特朗普正式任命白宫AI政策高级顾问
近日,美国前总统唐纳德・特朗普确认Sriram Krishnan担任白宫科技政策办公室的人工智能高级政策顾问。Krishnan曾是Andreessen Horowitz的合伙人,将负责协调政府的AI政策,并与前PayPal首席运营官David Sacks合作。
【AiBase提要:】
🌟 Sriram Krishnan被任命为特朗普的人工智能政策高级顾问,负责协调政府的AI政策。
🤝 他将与前PayPal首席运营官David Sacks合作,共同推动AI和加密货币相关政策。
💼 Krishnan曾在多家知名科技公司担任领导职务,并在《纽约时报》中分享了对AI趋势的看法。
12、闪极AI拍拍镜宣布预售售罄:999元5万台一天抢光
闪极科技最近推出了其首款AI拍拍镜,标志着国内AI拍摄眼镜领域的重要进展。该产品以1499元的价格上市,首批5万台以999元的优惠价迅速售罄,显示出市场的热烈反响。此外,闪极还推出了一个吸引人的促销活动,用户在300天内打卡200天可获得全额退款。
【AiBase提要:】
📸 这款AI拍拍镜售价1499元,首批5万台以999元的优惠价售罄,显示出强劲的市场需求。
🎉 用户在300天内打卡200天可获得全额退款,增加了产品的吸引力。
🔍 该眼镜搭载索尼1600万像素摄像头,支持多种智能功能,提供丰富的用户体验。