ChatGPT发布之后,AI大模型快速向前迭代发展,变得更加智能。可以说,这是一条看不到尽头的进击之路。
前段时间,上海人工智能实验室一位科学家也表示,大模型再演化,“一定是朝一些更高级的智能能力演化”。
而现实中,“智能能力演化”有了最新注解。
12月18日,火山引擎在上海举行“FORCE2024原动力大会·冬”,现场发布了豆包视觉理解大模型,其对视觉内容有更强的识别能力,具有更强的理解和推理能力以及更细腻的视觉描述等能力。
更重要的是,不只有豆包视觉理解大模型,大会还发布了升级的通用语言模型、音乐模型、文生图模型等。结合起来,字节跳动由此构建出国内最全面的大模型家族,媒体称之为“豆包全家桶”。
与此相应的背景是,在此之前,豆包大模型已然展现强悍实力:在11月的全球月活跃排行榜上,豆包APP的MAU达到5998 万,仅次于ChatGPT,位列全球第二;豆包海外版Cici的MAU也达到1267万,位居第22位;根据AI产品榜,豆包已经成为用户最多的ToC AI产品。
而从本次大会的角度看,全新豆包大模型的发布堪称关键里程碑,能力最全面的大模型家族的构建,为满足用户多元需求以及带来AI的持续价值,提供了行业最优解。虽然AI圈三天两头就会出现“王炸”,但豆包是真的炸到了普通人的生活里。
关键里程碑:豆包视觉理解模型凭实力“点睛”
今年以来,大模型等智能助手表现得越来越像“人”。
之所以有这样的朴素追求,是因为人类可以借助各种模态,包括但不限于视觉、语言、声音等来感知、理解这个世界。其中,最关键的当属视觉,研究显示,人类接受的信息超过80%来自视觉,而人类的视觉高度依赖眼睛。
在大模型领域,视觉理解即是大模型的“眼睛”,其依托识别、理解、推理等能力,拓展大模型的能力边界,同时降低人类和大模型的交互门槛,为大模型落地、解锁丰富的应用场景打下坚实基础。
以上述逻辑审视最新发布的豆包视觉理解模型,我们会发现,说它是大模型“智能能力演化”的最新注解可谓名副其实。
这是因为,豆包视觉理解模型某种程度上真正做到了为大模型点亮“眼睛”。
在发布会现场,火山引擎总裁谭待介绍称,豆包视觉理解模型不仅可以精准识别视觉内容,还拥有出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。同时,还具备细腻的视觉描述和创作能力。
比如,给豆包一张动物影子的照片,它能根据轮廓识别出这是一只猫;当用户给出一张地标建筑照片时,豆包可以介绍背后的历史和文化细节,相当于“随叫随到”的优秀讲解员。
而在推理层面,当尺度商业要求“求解方程x^3-3x+2=0的根,需要通过泰勒展开、洛必达法则等高级技巧”时,豆包很快给出清晰的思路和解法,包括用泰勒展开法解题,最后还指出洛必达法则不适合直接用于求解多项式方程的根。而事实正是如此,洛必达法则主要用于求解不定式极限。
发布会上的实测视频也显示,解答微积分题和今年的高考物理题时,豆包视觉理解模型都能正确理解题意,并根据提示给出清晰解题思路。
至于创作能力,尺度商业给出一张石雕佛像图,要求豆包创作一首有禅意的古诗,得到一首《观佛崖刻》:“青山壁上佛身留,岁月沧桑刻韵悠。云卷云舒天际外,禅心不动忘春秋。”不得不说,这首诗基于准确的图片内容识别,写出了禅意,超出预期。
不难看出,豆包视觉理解模型实现的“视觉理解+语言生成”,凭业界领先的实力为大模型“点睛”,进而高效满足不同用户在生活、学习和工作等各类场景中的需求。
从行业视角看,这是大模型发展的关键里程碑,接下来,则是加速落地应用的广阔天地。
多模态交互:更低成本更低门槛,力拓AI应用边界
豆包视觉理解模型的发布,增强了豆包大模型多模态交互的能力。
事实上,用户遇到问题,会第一时间选择豆包,主要原因是“问问豆包最快”,而“豆包最快”的一大关键,是在产品设计上注重多模态。
比如,视觉理解之外,还有语音,豆包语音能快速、准确转录各种语音信号,识别不同语言、方言、口音,也能对人名、生词进行准确识别,且能结合上下文做出准确分析。也就是说,用户输入更快更方便,得到结果快而准确。
正因为多模态交互能释放各方面的能力优势,因此被视为大模型发展的趋势,不少企业希望能“做趋势的朋友”。
谭待直言:“今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。”
问题在于,这趟“列车”票价如何?是否能助力自己达到预期的“目的地”?对于这两个核心问题,豆包大模型提供了业界瞩目的解决方案。
首先,从价格看,豆包视觉理解模型千tokens输入价格仅为3厘,一元钱即可处理284张720P的图片,比行业价格便宜85%。换句话说,继大语言模型之后,视觉理解模型也迎来“厘时代”。
需要注意的是,豆包视觉理解模型的低价格并不是不计成本地“内卷”。据谭待介绍,3厘/千tokens的价格,对于豆包视觉理解模型来说仍有合理的毛利。
其背后的逻辑在于:对于To B的业务,如果毛利是负的,规模越大亏损越多,商业模式是不成立的。能做到低价,是豆包大模型技术能力、工程能力、软硬件结合能力整合的结果。比如算法上,预训练阶段的特别优化,工程上的错峰和混部,大规模的P/D推理分离等。
实际上,这便是以更高的效率,以实现对应更低的成本,同时,在技术先行下,进而实现更高的智能。
其次,从使用门槛看,豆包不断降低AI应用落地的门槛,火山引擎推出了一系列平台和工具,包括火山方舟、扣子专业版、HiAgent、AI 全栈云等产品,助力企业更快落地应用。
以扣子专业版为例,它拥有丰富的AI交互形态,Chatbot之外,还可以直接在扣子上闭环实现具有AI能力的小程序、网页等应用形态,支持接入各类硬件生态,更包含海量精品模板,覆盖智能客服、内容营销、聊天陪伴等业务场景,企业可一键复制使用,门槛极低。
与此类似,作为火山引擎推出的一款企业专属AI应用创新平台,HiAgent发布了100种行业“样板间”,企业客户可以一键复刻,使用模板开发属于自己的应用。
成本更低,门槛更低,大模型进入“价值创造阶段”便水到渠成。据了解,豆包大模型已经在消费、教育、电商、旅游、金融、医疗、汽车等领域落地,不断拓展AI应用的场景和边界。
以消费行业龙头飞鹤为例,和火山引擎合作,飞鹤搭建了智能问答机器人,完善了知识库,打造出“鹤小飞”企业形象,用户体验和业务管理效率跃升。数据显示,销售预测、供应链物流预测准确率提高85%,消费者问答场景响应率提升100%,消费者问答场景准确率提升95%。
在智能终端行业,获得火山引擎助力后,OPPO推出四个 AI 智能体,在新发布的OPPO Find X8手机中,豆包大模型显著提升了其用户的使用体验;小米旗下的“小爱同学”也运用豆包大模型提升自身能力,既精准把握用户需求,又快速响应、全面满足。
企业能用得起、用得好,带来实实在在的价值,豆包大模型因此成为各行业头部公司和成长型公司的心水之选。
当然,这只是开始,当算力价格不断降低,AI技术更加普惠,大模型在各行各业的应用将从拓展边界逐渐变成“无界”,产生更多反馈,激活更多创新,B端、C端共享AI繁荣,全民AI时代将照进现实。
豆包领跑行业背后:与行业一起炼成最优解
除了豆包视觉理解模型,发布会上,豆包3D生成模型也首度亮相。该模型与火山引擎数字孪生平台veOmniverse结合使用,支持文生3D、图生3D及多模态生成,1分钟精准生成高保真高质量3D资产,是一套支持 AIGC 创作的物理世界仿真模拟器。
与此同时,豆包大模型多款产品升级发布:豆包通用模型pro全面对齐GPT-4o,使用价格仅为后者的八分之一;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品,而用户只需要简单的描述或上传一张图片;文生图模型2.1版本,在业界首次实现精准生成汉字和一句话P图的产品化能力,该模型已接入即梦AI和豆包App。
这些模型的发布和升级,使“豆包大模型家族”拥有领先而最全面的能力,加上广泛的落地应用,豆包大模型得以在行业中强势领跑。
从C端看,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍之多。特别是在多模态方面,截至今年9月,豆包的日均生成图片量已经达到5000万张。这些数据,力证豆包大模型能力之强。
随着最全面的大模型家族的形成,大模型能力向上升级、跃迁,豆包在C端的表现将更为强劲。
而从B端看,数据显示,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。
同时,豆包大模型也赢得众多业态的企业客户的信赖:最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景同样大幅增长。
B端、C端的优异表现佐证了豆包大模型的产品价值,但这并非全部。近日,国泰君安、太平洋证券、平安证券等多家机构研判,豆包大模型将给相关产业链带来新机遇,产业链公司将持续受益。
诸多机构之所以一致肯定,是因为看到了豆包大模型的产品价值、产业价值与生态价值。具体而言,凭借技术与场景的深度结合,一站式满足B端、C端用户需求,字节跳动与产业链公司价值共赢,筑就了行业最优解。
在《必然》一书的结尾,未来学家凯文·凯利提出,在一种新的系统中,我们创造的东西让自己成为更好的人,同时,我们也离不开自己的发明。
从这个角度看,在大模型这一“新系统”中,豆包等中国大模型的努力,不仅使个人“更好”,也通过高效赋能,使各行业更好,正如谭待所言,“火山引擎希望帮助企业做好AI创新,驶向更美好的未来”。
显而易见,这是中国大模型的星辰大海。