AIGC创业大盘点系列之四:大语言模型创业方向分析

系列:

我们大概来归纳一下大模型的创业方向:

大语言基座模型本身我们就不要想了,动辄几千万的训练费用,这不是我们能碰的。

我们能够考虑的,应该就是【大语言模型微调+应用开发】,也就是在基座模型上,添加数据与逻辑。

或者说,在某个垂直的领域着力

1、专业资料库:

这大概是最容易想到的方向,在医疗和法律这种知识密集型行业,已经有很多人开始进入了。

从技术上讲,用Langchain+LLM或者干脆自己搭建一个搜索系统+LLM,能够很快搭建一个这样的系统。具体的方式我们下一期具体聊技术架构。

如果我们的期望结果是返回搜索文档,真的需要借助大语言模型吗?

如果我们的期望结果是直接获得答案,也就是借助大语言模型的逻辑能力,去理解每个文件中的知识结构,大语言模型能够做到吗?

或者说,当大语言模型直接返回了结果,而不是返回了参考文档,我们能够直接相信这个结果吗?

在对ChatGPT的使用中,经常出现幻觉式答案,实战中应该如何避免?

所以如果想保证结果的正确性,很可能不仅仅是微调就能够搞定的,有可能需要优化基座大模型。

从商业上分析,最大的问题可能是需求真的强烈吗?

首先,去哪里搞这么多行业数据?

其次,如上所述,搞一个返回搜索文档的系统并不太复杂,但是和现在的系统拉不开差距;

而如果真的费劲建立一个能够直接回答问题的资料库,

谁来买单??

资料库并不是能够直接提升行业利润的工具。

作为创业者,我们要明只有和收入直接挂钩的工具,B端才有足够的掏钱动力。

现在,对基于大语言模型资料库这个市场,还没有被广泛验证。

另外,如果是热门行业,大公司有很大概率进入,也就是甲方直接下场开搞。

所以对创业者来说,除非你的背景足够厚,不太建议直接冲入这个领域。

当然,如果你能接到甲方的项目,利用甲方的数据与钱来完成项目...这是最好不过。

2、教育:

教育中能够很好使用【对自然语言的理解】与【推理能力】这两个大语言模型的特点

从数据角度讲,教育的数据比较容易获得,各种教材与题库机会都是公开的。

教育一直以来都被认为是很难以IT化的行业,因为教育的交流性太高了。我们人类的学习的过程中非常依赖于交流。这也是小班课远远贵于大班课,还有这么多市场的原因。

所以毫无疑问,客户有着强烈的付费意愿。

从技术上讲,提升推理能力到能够为教育行业服务并不是一件容易的问题。或者说推理能力本来就是衡量大模型能力的重要指标之一。所以如果你对这个领域感兴趣决定做点什么,与其下苦功夫去提升大语言模型的能力,不如去找一些不那么需要推理能力的领域。

3、娱乐/游戏:

 国内应该已经有公司给NPC装上大语言模型,那个效果还不错,但是完全不足以改变游戏的盈利能力。简单说,【使用自然语言与NPC对话】应该是一个锦上添花的优化,而不是雪中送炭的改变。作为创业者,如果想进入这个方向,最好还是先通过demo来验证这个玩法对玩家是否真的有足够的吸引力。

不过大语言模型可能能够取代娱乐中服务者的角色,比如大语言模型是否能够应用于类似海龟汤或者剧本杀这样的行业之上?如果能够解放DM,对剧本杀的成本将是一个巨大的降低。

最近有一个虚拟小镇开源了,我很好奇这个是否有可能创造一个完全不同的游戏体验,如果后面研究出什么结果,我专门做一期聊这个。

另外,就在这一期刚刚做完的时候,OpenAI收购了一家游戏公司,这家游戏公司的产品非常类似于【我的世界】,所以OpenAI打算做什么,已经不言而喻了。

 

4、工程辅助/自动化系统:

这应该是大家很熟悉的领域了,辅助编程已经被大规模应用,大家看看自己属性的工作流程中有没有可以嵌入的。

从技术上说,应该没有太大的障碍,但是从商业上说,我觉得找创业者需要找一个平衡点

如果领域太宽,比如代码完成、文档的生成、PPT的制作...我们可能很难在这样明牌的领域中如何对抗大公司;

如果领域太窄,则可能客户范围太小...

还是那句话,创业者最好能找到一个垂直领域,不太建议去直接和大公司刚正面。

如果大语言模型可以分析数据并给出结论

如果大语言模型可以完成自动编程

那么,有没有可能个,使用大语言模型来完成一个自动升级的系统呢?或者说一个自我完善的系统?

 这一期讲得主要是市场,下一期尝试聊聊如果想搭建一个AIGC的系统,技术上应该如何架构