资讯可视化-如何提升生成内容的质量

总结

Multi-Agent、小模型是质量提升的关键。

目前，我们对 prompt 的依赖程度过高，大部分逻辑都通过 prompt 来实现，这一现状带来了大量的不确定性与稳定性问题。对此，我认为较为合理的改进方向应从两个层面着手：
第一，将部分工作从 prompt 转移到工程化层面，尤其是那些具备确定性的工作，比如一些程序化计算流程的管理等；
第二，对于必须由模型操作、或与语义理解相关的内容，则应该拆解成多个子任务。每个子任务可使用不同的小参数模型来处理，这就需要我们对特定领域的小参数模型进行微调，使其专门用于语义理解、指标识别、可视化图表推荐，甚至能通过语义化的方式进行业务校验。举个例子，在资讯场景的业务特性中，会明确哪些场景适合输出某些图表或某些指标，哪些图表或指标不能同时出现、或必须同时出现。比如在做面分析时，某些财务分析指标就不能一起呈现。
接下来，我们需要将微调小模型的任务组加入到现有流程中。具体来说，可以先从一个相对简单、功能明确的子任务入手，通过微调一个小参数模型来解决该任务。一旦这个子任务完成并将对应的小模型纳入任务组，后续就可以逐步增加更多任务，继续用小模型来解决。通过这样的方式，整个项目的 AI 集成度会不断提升，最终生成结果的质量也会同步提高。
在我看来，整个项目最终的形态应类似于 Cloud Code 这样的多 Agent 调度模式。其中，Agent 需要以树状结构进行衍生与扩展。当任务到来后，我们通过调度将其分配给不同的 Agent，并且这些 Agent 还可以继续向下细分。这种模式能够以极低的成本实现复杂的 Agent 调度；同时，经过拆分后，每一次处理的上下文也会得到精简。从本质上来说，这与 Cloud Code 的 Sub-Agent 设计理念是相同的。

(TODO)技术架构优化-Context Engineering的5种策略

https://mp.weixin.qq.com/s/P5lB1wjDajO1bXlxWSmjpQ

我们发现的问题

多维度数据怎么展示

得有个可视化设计上的规范
3456，散点图
多维度的y轴问题是个可以琢磨的方向

分chunk的问题

纯程序分割，不管是用逗号还是句号分割，都有问题，比如US.这种会被截断。
感觉还是需要程序+小模型(比如0.6B的小模型)结合的方式来处理

生成的内容是否有意义

比如inline，给诸如“America”这种也生成了，这是没有意义的。
还有一些错误的，比如特朗普和特朗普儿子这种。
可以在当前的策略跑完后，让大模型再跑一遍(全文+生成的每个chunk的信息)，进行是否有意义的Review。
这就是ReAct模式，让LLM执行自检功能。

数量的限制问题

当前是基于文本字数等，计算密度来约束数量的，这只应作为数量上限的约束条件，不能解决生成的内容是否有意义的问题。

业务知识如何加入

标注、SFT

可视化的通用选原则怎么加进去

标注、SFT

业务方反馈的规则和问题

别匆忙上线

担心影响SEO评级。

单位的精度

是不是还是结合小模型来处理？
工程抽数据sample + 小模型语义判断

行情数据不该走这个

走行情图

空值率不能太高

一个图多个指标的情况

比如净利润+归母净利润
参考AIME，附加关联指标
给点例子，让LLM学习指标关联关系

文章的分类

比如技术面文章，不能出现财务类指标的图表

从指定的指标池子中选择

https://www.ainvest.com/chat/
类似之前的F10 Pluto

接入GPT-VIS

解决一些小的问题

断轴和对数的接入

对数：华尔街日报的长期股价图

双Y轴、多Y轴

接入ifind的模型，最多支持4个轴

数字币

该搜什么数据？

纳指？黄金？关联的币？
币怎么关联？关联几个？

关于本次讨论的一些感想

没有重视如何提升最终的质量

为了尽快完事而简化，没注重意义，单纯的砍功能

业务方不知道怎么写例子的问题

CoT的过程，才能让LLM学习到
股票+纳指+黄金的例子
把F10的规则给他们参考下

术语不一致

资讯同事写的一些词汇我们不理解

#Agent

从J2EE思考可视化的基建该如何建设上一篇

你还能写多久代码下一篇