• 开云(中国)Kaiyun官方网站并附上一句浮浅的 Prompt:帮我写代码-ky体育app登录平台在线

    发布日期:2026-02-05 20:53    点击次数:76

    开云(中国)Kaiyun官方网站并附上一句浮浅的 Prompt:帮我写代码-ky体育app登录平台在线

    豆包的"眼睛"升级了开云(中国)Kaiyun官方网站,当今让它看一眼APP 截图,就能胜仗给你生成代码!

    话未几说,咱们胜仗给它上一个难度。

    举例咱们先随即截取一张网站的图片:

    再来到火山方舟的大模子广场,pick 一下最新的 Doubao-vision-pro-32k 版块:

    (PS:该模子也不错在豆包 APP 中体验)

    然后把刚才的截图"喂"给豆包,并附上一句浮浅的 Prompt:

    帮我写代码,克隆这个 APP。

    只见豆包先是秒看出这是一个音乐 APP 的界面,紧接着就唰唰唰地敲起了代码。

    从代码的功能上来,包括了菜单栏、播放列表框架、播放列表列表框和情景栏。

    模拟的播放列表中包含了几首歌曲的信息,包括标题、艺术家、时长和点赞数等。

    况兼这些王人是在不到 30 秒内完成的。

    要是念念达成更复杂的功能,咱们亦然不错连续用说的:

    那连续帮我达成更复杂的音乐播放运用。

    这一次,也只是耗时1 分钟,在原先代码的基础上,新增了边界面板、播放按钮、更新程度条等内容。

    嗯,当今缔造一个 APP,简直酿成截张图的事儿了。

    这等于豆包最新发布的新模子——豆包 · 视觉相识模子。

    笼统来看,它的亮点不错归结为如下三点:

    内容识别更强:复旧 OCR、图像学问、四肢情愫、位置情景等,尤其对中国传统文化相识更深。

    相识与推理增强:优化数学、逻辑、代码的推理与问答智商。

    视觉态状细巧:提供详备图像态状,可创作多种文学内容,如居品先容、故事、视频剧本等。

    更伏击的少量,发布即大降价——0.003 元 / 千 tokens。

    相当于1 块钱不错处理284 张图片!

    不外有一说一,毕竟践诺大模子"视力"这事,不成只看单一的居品。

    因此,接下来,咱们就组个擂台,望望哪个大模子的"视力"更好使。

    大模子"视力"大比拼

    咱们请出的打擂台选手,恰是目下大模子的顶流之一—— OpenAI 的GPT-4o。

    比试法例也很浮浅,就是通过不同维度的试题,来望望作答的扫尾。

    Round 1:复杂、疏远物体识别

    第一轮比试中,咱们先小试牛刀一下一个不常见的生果,请看图:

    然后咱们分辩问一下两位选手:

    图中的是什么东西?

    △上图为豆包作答;下图为 GPT-4o 作答(下同)。

    从回报内容上来看,二者固然王人回报对了,但脾气各有不同。

    豆包 · 视觉相识模子回报愈加与金铃子紧密相关;而 GPT-4o 则是更倾向于金铃子与苦瓜的不同。

    要是比试条件是与图中物体高度相关,那么随机豆包 · 视觉相识模子的回报更优质一些。

    再来一张冷门的图像,请看题:

    这是什么?

    再来看一下两位选手的作答:

    它们王人看出来这是一个冷门乐器,不外这一次,豆包 · 视觉相识模子显豁回报的要更精确一些——乐器叫作念 Mizmar。

    不仅如斯,它还把其材质、文化脾气等信息王人敷陈了出来;而 GPT-4o 这边的回报,只可说是态状了能够。

    这一轮,豆包 · 视觉相识模子,Win!

    Round 2:世界来找茬

    要比视力,那"世界来找茬"这个游戏就竣工不成错过啦 ~

    请看题目:

    找出 10 个不同点。

    咱们来看一下两位选手的回报:

    这一轮的比拼中,问题就比较显豁了,两位选手王人莫得齐备给出正确谜底(部分正确)。

    看来 AI 玩世界来找茬如故具备一定的挑战性。

    Round 3:反向猜 Prompt

    当今 AI 图片生成的智商可谓是半谈披缁,但当咱们看到一幅满意的作品,却苦于无法复刻 Prompt 时,又该怎样办?

    这谈题,是时候不错交给"会看"的大模子来处理了。

    举例咱们随即来一张比较抽象的艺术作品:

    然后分辩让豆包 · 视觉相识模子和 GPT-4o 来猜一下它的 Prompt:

    看这张图,帮我写一段能够重腾达成雷同作品的 Prompt。

    为了公道起见,咱们不接受豆包和 ChatGPT 自带的生图功能,而是将两段 Prompt 交给第三方Midjourney来处理,扫尾如下:

    △上图:基于豆包的 Prompt;下图:基于 GPT-4o 的 Prompt

    从规复度上来看,随机豆包 · 视觉相识模子给出的 Prompt,是愈加逼近原作的那一个。

    Round 4:数学竞赛大比拼

    数学题目是测试大模子逻辑推贤达商很好的步调。

    因此,咱们胜仗上一起AIME 数学竞赛题,望望够不够"开门"。

    (AIME:好意思国数学邀请赛,是介于 AMC10、AMC12 及好意思国数学奥林匹克竞赛之间的一个数学竞赛。)

    这谈题目翻译过来是这么的:

    每天清晨,Aya 会进行一段长度为 9 公里的散布,然后在一家咖啡店停留。当她以每小时 s 公里的恒定速率行走运,通盘这个词散布加上在咖啡店停留的时代一共需要 4 小时,其中包含在咖啡店停留的 t 分钟。当她以 s+2 公里每小时的速率行走运,通盘这个词进程(包括在咖啡店停留的时代)需要 2 小时 24 分钟。

    假定 Aya 以 s+1/2 公里每小时的速率行走,求她在这种情况下(包括在咖啡店停留的时代)的总时代(以分钟为单元)。

    这个任务的难度在于,AI 需要先准确识别晦涩的数学问题和公式,此后再进行精确的推理。

    接下来,咱们分辩来看下豆包 · 视觉相识模子和 GPT-4o 的推崇(凹凸滑动搜检):

    这谈题目官方给出的正解是204 分钟。

    而 GPT-4o 的扫尾却并非如斯,因此,本轮豆包 · 视觉相识模子大获全胜。

    Round 5:夙昔实用任务

    其实在夙昔责任、学习生涯中,如故存在好多需要 AI 看图来扶助完成的任务。

    举例提真金不怕火复杂表格的数据,随机就会让好多东谈主烦扰,尤其是准确性方面。

    因此,咱们临了一轮就以苹果第四季度财务陈述中的一个表格来作念测试(凹凸滑动搜检):

    帮我抽取并整理图中的数据,用中语来表述。

    先来看下豆包 · 视觉相识模子的回报(凹凸滑动搜检):

    不出丑出,豆包 · 视觉相识模子额外明晰地将财报数据以表格的状貌展现了出来,不错说是一目了然。

    然而,同样的需求给到 GPT-4o 这边,固然数据是提真金不怕火了出来,但在呈现花样上却有所欠缺,依然是经典的胪列式(凹凸滑动搜检):

    在几轮"擂台比拼"事后不出丑出,豆包 · 视觉相识模子在智商上如故具备了一定的上风。

    但"眼睛"的升级,还只是豆包大模子这次发布内容的一隅。

    说、唱智商王人升级了

    没错,除了"看"除外,"说"和"唱"的智商也升级了。

    而这也正对应了豆包大模子的三大类:

    大讲话模子

    语音大模子

    视觉大模子

    最初在大讲话模子方面,豆包的通用模子 pro与小半年前比较:

    笼统智商普及了 32%

    数学智商普及 43%

    专科学问普及 54%

    代码智商普及 58%

    其次是语音大模子方面,豆包 · 音乐模子当今不错胜仗生成3 分钟齐备音乐!

    举例咱们在其 APP海绵音乐里输入一个浮浅的 Prompt:

    三分钟音乐,沧桑,男声,民谣,岁月蹉跎。

    来听一下扫尾:

    生成三分钟音乐的难度,并非只是浮浅的堆叠时长,而是更多波及到的是前奏、主歌、副歌、间奏、尾奏等齐备结构。

    不仅如斯,这也和视频生成雷同,对前后的一致性建议了更高的条件。

    而从这个音乐片断中不从邡出,如实是作念到了上述的条件,况兼如故复旧改词的那种哦 ~

    除了不错用 Prompt 来生成音乐除外,当今豆包 · 音乐模子还复旧用图片来作曲了。

    举例咱们"喂"给海绵音乐底下这张图:

    这次的扫尾是这么的:

    从音乐中不错听出,AI 是识别到了图里《黛玉葬花》的嗅觉,歌词和配乐充满了哀伤之情。

    据悉,豆包 · 音乐模子目下复旧多达到 17 种曲风、11 种热沈,以及 6 种特征的音乐。

    临了,在视觉模子方面,除了咱们刚才展示的豆包 · 视觉相识模子除外,豆包 · 文生图模子也迎来了升级——

    当今,一句话不错处分 P 图这件事了:

    戴上眼镜。

    不仅如斯,作念海报,亦然几句话的事,况兼如故能生成汉字的那种:

    生成一张海报,主体是汉字"量子位",充满科技感和畴昔感。

    由此可见,这一次,豆包大模子在"说"、"唱"、"看"三大维度上如实是普及了不小的实力。

    不看告白只看疗效

    不外有一说一,实力是一方面,站在大模子运用为王确当下,随机好用才是实在的硬道理。

    在把 AI 用起来这件事上,其实豆包亦然拿出了一份收获单。

    最初从数据上来看,边界 12 月 18 日,豆包大模子日均 tokens 使用量如故毁坏4 万亿大关。

    其次再看本色落地,据悉豆包大模子如故上岗科教、金融、医疗、企业办事和汽车等浩荡行业,如故与多个头部企业达成结合。

    商场和用户对豆包的买账程度,可见一斑。

    而在此进程中,"易落地"亦然一个要道点。

    这就不得不提这次也同样迎来升级的两大法宝:左手" HiAgent ",右手"扣子"。

    举例 HiAgent 提供超 100 个行业运用模板和 GraphRAG 时代,普及学问处理准确性,复旧多模态交互与复杂场景需求,企业无需从零缔造即可快速上线。

    再如扣子领有百万缔造者和丰富生态,复旧 200 万智能体,粉饰智能客服、内容营销等场景,极大裁汰缔造与部署时代。

    除此除外,它兼容小要领、网页等多种状貌,复旧及时语音交互与硬件集成,企业可粗陋达成 AI 智商无缝镶嵌。

    一言蔽之,低门槛模板、浩大的生态复旧和多平台兼容,是使得 HiAgent 和扣子能够快速适配企业场景,达成高效落地的要道。

    那么关于豆包这次浩荡的升级,你对哪个更感兴趣兴趣呢?宽饶体验事后转头相通哦 ~

    —  完  —

    点这里� � 柔软我,难忘标星哦~

    一键三连「共享」、「点赞」和「在看」

    科技前沿进展日日再见 ~