资讯可视化-如何提升生成内容的质量

总结

Multi-Agent、小模型是质量提升的关键。

目前,我们对 prompt 的依赖程度过高,大部分逻辑都通过 prompt 来实现,这一现状带来了大量的不确定性与稳定性问题。对此,我认为较为合理的改进方向应从两个层面着手:
第一,将部分工作从 prompt 转移到工程化层面,尤其是那些具备确定性的工作,比如一些程序化计算流程的管理等;
第二,对于必须由模型操作、或与语义理解相关的内容,则应该拆解成多个子任务。每个子任务可使用不同的小参数模型来处理,这就需要我们对特定领域的小参数模型进行微调,使其专门用于语义理解、指标识别、可视化图表推荐,甚至能通过语义化的方式进行业务校验。举个例子,在资讯场景的业务特性中,会明确哪些场景适合输出某些图表或某些指标,哪些图表或指标不能同时出现、或必须同时出现。比如在做面分析时,某些财务分析指标就不能一起呈现。
接下来,我们需要将微调小模型的任务组加入到现有流程中。具体来说,可以先从一个相对简单、功能明确的子任务入手,通过微调一个小参数模型来解决该任务。一旦这个子任务完成并将对应的小模型纳入任务组,后续就可以逐步增加更多任务,继续用小模型来解决。通过这样的方式,整个项目的 AI 集成度会不断提升,最终生成结果的质量也会同步提高。
在我看来,整个项目最终的形态应类似于 Cloud Code 这样的多 Agent 调度模式。其中,Agent 需要以树状结构进行衍生与扩展。当任务到来后,我们通过调度将其分配给不同的 Agent,并且这些 Agent 还可以继续向下细分。这种模式能够以极低的成本实现复杂的 Agent 调度;同时,经过拆分后,每一次处理的上下文也会得到精简。从本质上来说,这与 Cloud Code 的 Sub-Agent 设计理念是相同的。

(TODO)技术架构优化-Context Engineering的5种策略

https://mp.weixin.qq.com/s/P5lB1wjDajO1bXlxWSmjpQ

我们发现的问题

多维度数据怎么展示

得有个可视化设计上的规范
3456,散点图
多维度的y轴问题是个可以琢磨的方向

分chunk的问题

纯程序分割,不管是用逗号还是句号分割,都有问题,比如US.这种会被截断。
感觉还是需要程序+小模型(比如0.6B的小模型)结合的方式来处理

生成的内容是否有意义

比如inline,给诸如“America”这种也生成了,这是没有意义的。
还有一些错误的,比如特朗普和特朗普儿子这种。
可以在当前的策略跑完后,让大模型再跑一遍(全文+生成的每个chunk的信息),进行是否有意义的Review。
这就是ReAct模式,让LLM执行自检功能。

数量的限制问题

当前是基于文本字数等,计算密度来约束数量的,这只应作为数量上限的约束条件,不能解决生成的内容是否有意义的问题。

业务知识如何加入

标注、SFT

可视化的通用选原则怎么加进去

标注、SFT

业务方反馈的规则和问题

别匆忙上线

担心影响SEO评级。

单位的精度

是不是还是结合小模型来处理?
工程抽数据sample + 小模型语义判断

行情数据不该走这个

走行情图

空值率不能太高

一个图多个指标的情况

比如净利润+归母净利润
参考AIME,附加关联指标
给点例子,让LLM学习指标关联关系

文章的分类

比如技术面文章,不能出现财务类指标的图表

从指定的指标池子中选择

https://www.ainvest.com/chat/
类似之前的F10 Pluto

接入GPT-VIS

解决一些小的问题

断轴和对数的接入

对数:华尔街日报的长期股价图

双Y轴、多Y轴

接入ifind的模型,最多支持4个轴

数字币

该搜什么数据?

纳指?黄金?关联的币?
币怎么关联?关联几个?

关于本次讨论的一些感想

没有重视如何提升最终的质量

为了尽快完事而简化,没注重意义,单纯的砍功能

业务方不知道怎么写例子的问题

CoT的过程,才能让LLM学习到
股票+纳指+黄金的例子
把F10的规则给他们参考下

术语不一致

资讯同事写的一些词汇我们不理解