闲聊LLM技术应用(一) - 数据产品
date
May 17, 2024
slug
数据产品LLM应用(一)
status
Published
tags
数据产品
知识图谱(KG)
大模型(LLM)
summary
随着大模型(LLM)技术日新月异的发展,它凭借着自身那无与伦比的独特能力,烈火燎原般的渗透到科技行业的各个角落。在数据产品领域,微软、Tableau、阿里云等一众企业,都提供了自己的大模型数据产品或解决方案,这些大模型功能或产品已渗透到了元信息生产、数据生产、数据管理和数据消费的各个环节。在这个过程中,建设一套更好的数据资产体系和配套的知识体系,是大模型数据产品在业务中成功落地的关键之一。
type
Post
随着大模型(LLM)技术日新月异的发展,它凭借着自身那无与伦比的独特能力,烈火燎原般的渗透到科技行业的各个角落。博主参加工作以来的十来年,都在从事跟大数据相关的工作,涉及数据挖掘、数据仓库、数据服务和数据产品等大数据领域各方面。在最近半年,带着对大模型(LLM)技术的好奇和相信,工作内容也转向大模型数据产品方向。经过了半年的观察、实践和思考,有自己的些许感悟和观点,在这篇文章中做总结和分享。
观点1. 大模型数据产品刚起步
近1年(截止24.04),大数据产业生态内的上下游企业,都参与到了大模型数据产品的开发和市场开拓中,下面是一些例子。
- 微软:主要包含两个产品,Copilot in Fabric 和 Power BI Copilot。其中Copilot in Fabric 持代码补全和生成(创建图表、过滤数据、应用转换、机器学习模型)、自动执行日常任务、提供行业标准代码模板等功能,Power BI Copilot 主要用于对仪表盘上的可视化内容进行 “总结” 和 “查询” 这 2 类操作。
- Tableau:Einstein Copilot for Tableau,包含问题推荐(Recommended Questions)、CUI 数据探索(Conversational Data Exploration)和计算字段创建引导(Guided Calculation Creation)这三项能力。
- Crux:一家初创公司,提供 Gen-AI 驱动的 BI 工具,包括Onboarding Agent、Clarification Agent、Querying Agent和Insight Agent。其中Clarification Agent是其当前产品力的核心。
- 阿里云:推出DMS 数据工作站,Notebook + 逻辑数仓(统一查询)+ Data Copilot(生成式 AI),并且创新性的融入“知识库”能力。
- Kyligence:Kyligence Copilot,以AI + 指标平台构建数智竞争力,基于 Kyligence Zen(一站式指标平台)的 AI 数智助理。
- OpenAI:数据科学实习生 GPTs,用 code_interpreter 和给定思考数据分析任务和解决问题的方法论,得到一个真实好用的数据分析实习生。
除了上述企业和产品外,还有Databricks、Google、羚羊、华为、网易和神策分析等企业,都提供了自己的大模型数据产品或解决方案。这些大模型功能或产品已渗透到了元信息生产、数据生产、数据管理和数据消费的各个环节,在各自的用户群体内部培养用户的心智和使用习惯,同时通过用户的反馈来打造更加适应市场的产品和功能。
观点2.产品落地需要依赖知识
在大模型产品百花齐放的盛况下,在用户实际使用中却碰到不小的问题(只涉及AI取数),主要表现为:
- 大模型产品返回的取数结果不正确。主要表现在3方面:取数口径没对齐、描述方式没对齐、没有找到正确的数据。
- 大模型产品没有所需要的数据。主要表现在2方面:指标/维度缺失、数据表缺失。
针对上述的问题,在个人看来,并不是因为LLM写代码(SQL/Python)的能力不行,而是没有给到大模型完整且正确的“信息”,主要表现为2方面:数据资产冗余混乱不完整和行业及产品专用知识缺失。上述的问题,导致大模型对业务需求的理解出现歧义,因而无法交付准确的结果。因此建设一套更好的数据资产体系和配套的知识体系,就成为大模型数据产品在业务中成功落地的关键之一。这也是本人当前工作的主要方向,后续会陆续分享这方面的一些思考和实践。