Text2Option
基于钱晓东的分享整理的笔记。
这个有research and development的概念了。
核心概念
- 自定义术语:Text2Option (T2O) - 将自然语言转为可视化配置
参考项目
Agentar-Scale-SQL
https://github.com/antgroup/Agentar-Scale-SQLAwesome-Text2SQL
https://github.com/eosphoros-ai/Awesome-Text2SQLOpenSearch-SQL(推荐作为课程入门项目)
https://github.com/OpenSearch-AI/OpenSearch-SQL关键文件:
workflow_builder.pyPrompt 文件:
src/llm/all_prompt.py
数据集与基准
BIRD-SQL 基准(排行榜)
bird-bench.github.io开源数据集
llava_echarts_sameformatted_date
https://huggingface.co/datasets/ar9av/llava_echarts_sameformatted_date
相关论文
- arXiv 2502.14913
链接:https://arxiv.org/pdf/2502.14913
概念:NLQ (Natural Language Query)
构建数据相关
待办:构建训练数据库(基于上次提到的 demo 平台数据处理)
关键问题:需要多少数据?数据量小是否可以省略投票机制?
生成方法:学习“全部 AI 生成 SQL”的方法
不微调的原因
Option 在不断迭代,因此暂不考虑微调方案
执行流程
输入信息提取
生成初始配置
调优(1 和 2 可生成模型校验代码)
语法调优:字段是否存在、数据类型和格式校验(可用 Zod 纯工程实现)
进阶用法调优:检查和调优 option 的函数型配置对象
写法和样式调优:例如 id=290 例子中,分段颜色用
visualMap还是三条折线?
投票机制:尽可能贴近原始 query(结构后),通过 image2text 进一步选择更优 option
注意事项
Query 的解构是关键环节
可针对可视化方向撰写论文