我们需要什么样的AI
今天来填个坑,讲讲我之前想说的,需要什么样的 AI 工具。
代码:AI的最佳试验田¶
其实大语言模型经验这两年,从24年底ChatGPT 开始让我们真的感觉有聊天的这个,到现在26年6月。实际上大语言模型能直接完整解决的任务只有写代码。
当然,这个写代码能这么快搞定的,一个是写代码本身是一个对大语言模型来说,自闭环的评,很容易评价好坏的一个过程。第二,就是这个 GitHub,这个开源代码库啊,它既贡献了开源,又覆灭了程序员。
但是我最近对于 Claude Code,因为 Fable 5模型刚发布嘛。其实哪怕最先进的大模型,你看上去做个 demo 可能只需要几句话。实际投入工业应用的时候,使用者的判断力跟指导能力,就是组织语言、全局架构把控,这种能力是很关键的。远远不是说一个大模型,就能取代程序员。
但跑题了。其实今天讲我们要什么工具,我只是从程序员引入。因为程序员用的这个客户端,Claude Code 这种。一开始都是类似于命令行,对吧?哪怕到现在,其实也是那种类似命令行的一个交互方法。其实我并不觉得这个方法对一般人很通用。对于经常写代码的人当然也无所谓,这样觉得敲得快呀,简洁啊,极客啥的。一般在做应用的时候,这反而不通用。我们需要用的 AI 工具应该是一个对于你平常使用无感接入的。程序员因为之前的编代码的方法,和 Claude Code 这种类似于命令行的回馈特别的契合,他本来就是干那活的,知道吧?所以对于 Claude Code 对于程序员来说,他是无感接入的。但是对于一般人使用,尼玛跟天书一样,对吧?
所以,我们到目前为止,你能看到市面上的这种 AI 工具,要么就是网页版的,要么就是一个类似于聊天框的。哪怕它扩展很多倍,花里胡哨的,你像CodeX。但是它给你的感觉就像一个能和你聊天的机器人。我们现在没有找到这种 AI 如何去快速嵌入一般工作流的过程。因为我们这个整个做 AI 的,它是基于 LLM 的大语言模型。那么这个大语言模型它本身就是一个聊天。我们用什么提示词,上下文如何量化去,向量化,然后去传给模型,其实本质上还就是聊天。所以,工程上你第一感觉我们就该做个聊天的东西。你像程序员的那种 Claude Code,它虽然是打字是聊天,但是它是无缝用命令行那种形式接入了原来那套工作流。所以它可以在编程的过程中有很棒的感觉。
但是你想想,像 AutoCAD 这种其实用命令去建模,它其实本质上也是很贴合这个大语言模型的生成模式,其实很方便,应该去扩展,大语言模型也可以通过给 AutoCAD 输入命令来去建模。但是你看看我们实际上工业化能够去这种无缝嵌入 AutoCAD 的,几乎是没有,对吧?只有一些个人,或者说相对小众的人会去把智能体去对接这样一个东西。
无感接入¶
所以我一直在想,我们的 AI 到底需要做什么?其实从产品层面讲,最核心的要求就是无感接入。要能丝滑地和你整个的工作相契合。我差不多在5月底到6月初,不停地迭代和优化我做视频的一个流程。中间已经自己搞过差不多20个智能体。从原来的流程,很多东西自动化了。你像原来我得开ComfyUI去绘制图片。然后因为这个图片它是有上下文参考的,也可能要把我的模型嵌进去,对吧?整个这个过程以前,有很多重复的人工。我在这个里面,我把API开放出来,接入远端。我依然用Nano Banana或者这个GPT Image2去生成图片,而且也同样生成参考。但是我已经可以基本上做到完全不用人工去干预了。我现在稿件写完,就是人工写稿写完的话,然后出完分镜。分镜我过一遍,过一遍之后,我那个文档,那个Markdown文档,我传入到我的绘图工作流里面,它就会可能二三十分钟吧,能把我一整篇文案的图出出来。我只能说,哎,这100张图里,啊,这个,这几张不行,你重新画一下。然后他就重新画一下,然后我说,好,可以了,他就可以进行下一步。这是一个实际的一个流程。但问题在于,其实它中间这个过程呢,并不是无感接入的。我整个接入的过程呢,你说是程序开发吧,它也不是。那就是一个跟智能体的聊天,但是跟智能体聊天的过程中,你就会感觉这个并没有那么好用。但结果上确实提高了很多效率。搭建的过程中,我觉得如果没有足够的知识和平常的实际需求。通过智能体来提高生产力。并且,想解放人的创造力是没有那么容易的。而且,因为你实现的过程中要注意很多细节,然后不停地去迭代。哪怕有的时候你看我把 API 文档给大语言模型,其实也会理解错。大多数文档阅读没问题,但是上下文有的时候长了也有问题。问题一方面是工程软件给你的感觉接入不是无感。
另一方面是整个上下文其实有限制,有的时候写太长了,你真的一兆也不够用,对吧?而且,现在说的一兆上下文,它越前面的内容,它还是有一点点遗忘,对吧?哪怕那个上下文,它是没有被压缩的时候,它还是会有一点点遗忘的。
另外,这个其实。如何做理想的工具形态?我想可能任何一行。你想无感接入。这种东西,我很难得抽象出来。但是如果实际上,如果他是一个文员,他这个要面对很多 Word 表、Word 文档。那么其实,这个时候你应该从传统工具接入,对吧?无感接入才是你应该实现的。然后那个时候,你像以前,像 Word 的右下角助手,你现在觉得,那个助手当时像个SB一样。但现在,你在做 Word右下角的助手,接入大语言模型,并且给它赋予足够的工具能力,那么它就是非常厉害的。应该也是比较不敢接入的。然后你其实你说,P 图。我们虽然像 GPT Image 2有很强的出图和编辑图文能力。但是有的时候我如果在一个类似 PS 的软件里,它能高度集成 GPT Image 2,然后把这个功能能够放大出来,那个时候才能对接它的工业设计吧。是这样吧?其实正版的这个 PS 里面已经有一部分这个能力,但是这个能力还我认为还远远不够。
就终归来说,我觉得就是要在你做的那个工具中,无感接入。如果是需要创造的话,那么这个 AI 的这个能够解放的生产力就放不太出来。
草台班子¶
另外话说回来,我是觉得啊,像你像以后的程序员呢,可能不需要那么强的动手能力,他更多的是文科嘛,你要理解整个计算机的架构啊,软件如何去设计啊。对吧?你比方说你的软件,你如果有很多个子类需要实现,然后你要抽,要有个抽象类,你肯定要有一个什么工厂模式嘛,对吧?你像我们软件学的设计模式,其实反而变得很关键。这种工厂模式。你如果不明确点给 AI 他也不知道。你不能指望提示词里,或者说别人的 skill 里。给你把所有的这个经验参数总结进去,他肯定是没有的。但是你你得告诉他用这个。我们总嘲笑世界是个草台班子。其实当你有了 AI,你有了巨大的生产力以后,你自己就是草台班子,对吧?你不知道要做什么,你拿着可以制造核武器的东西在这里挖煤,还嘲笑别人是草台班子,是不是滑稽?