认识模型家族:按能力挑工具,而不是追品牌

AI 模型不是一种,而是一个家族。理解大语言模型、文生图、文生视频等各自擅长什么、不擅长什么,你才能为每个教学任务挑对工具。

K12AI素养大语言模型文生图文生视频

一句话总结:与其记住几十个产品名,不如理解三四类模型的能力边界。能力是稳定的,产品名换得很快。

新工具几乎每周都在出,今天还在用的产品,明年可能就被取代。如果你的能力建立在”会用某个 App”上,它很容易过时;但如果你理解的是”这一类模型擅长什么、在哪里会失灵”,那么无论市面上的工具怎么变,你都能迅速判断该用哪一个。这一章带你建立这张”能力地图”。下面每一类我都会同时举国内和海外的例子,但请记住:例子只是为了让概念落地,真正要掌握的是类别本身。

大语言模型:处理文字的通用引擎

大语言模型(LLM)是目前最成熟、教师用得最多的一类,你接触到的”对话式 AI”基本都属于它。国内常见的有 DeepSeek、豆包、通义、文心一言、Kimi,海外则有 ChatGPT、Claude、Gemini。它们的共同本领是处理语言:写教案、改作文、解释概念、拟通知、把一段复杂内容讲得更浅显,都是它的主场。

它的能力来自上一章讲过的机制——预测下一个词。这决定了它擅长”有大量人类文本可参照”的任务,比如改写、总结、起草;也决定了它的两个软肋:一是涉及精确事实和最新信息时容易出错,二是真正的数理推理并非它的强项(虽然有些模型专门针对推理做了优化,会把解题步骤一步步写出来)。

对教师而言,挑选 LLM 时与其纠结哪个”最强”,不如关注几个实际维度:它对中文教育语境的理解够不够地道,能不能上传教材文件、一次处理多长的内容,以及它的训练数据截止到什么时候。比如需要一次性读完整本作文集或长篇论文时,支持超长上下文的模型会明显占优;而需要贴合本土课程表达时,国产模型往往更顺手。

文生图:把抽象概念变成画面

文生图模型接收一段文字描述,生成对应的图片。教学里它的价值很直接:科学插图、历史场景复原、概念图解、班级海报、奖状卡片,过去要么找现成素材、要么求人画,现在可以按需生成。国内有即梦、通义万相、文心一格等,海外有 Midjourney、DALL·E、Stable Diffusion。

用它的关键,是认清它”懂画面、不懂事实”。它能生成一张漂亮的”细胞结构图”,但细胞器的位置和标注未必科学准确;它画得出”丝绸之路商队”,但服饰、地理细节可能经不起推敲。所以文生图适合用在示意、氛围、装饰这类对精确度要求不高的场景;凡是要当作科学事实呈现给学生的图,都必须由你核对。此外它在生成清晰、规范的文字(比如图中的中文标签)上普遍较弱,需要的话往往得自己后期加。一个实用技巧是在描述里限定风格,比如注明”教育插图、简笔画风格”,可以避免它生成过度艺术化、不适合课堂的画面。

文生视频:成本最高、最需谨慎的一类

文生视频模型能根据文字或图片生成一段动态视频,是目前最”惊艳”也最不稳定的一类。国内有可灵、即梦,海外有 Sora、Runway、Veo 等。用在教学里,它可以做知识点动画、情境短片、课文意境演绎。

但要清醒看待它的局限:生成时间长、对画面的可控性差,常出现物理上不合理的画面(人物多出一只手、文字扭曲、动作违反常识),而且生成几秒钟的视频就可能消耗不少额度。对多数教师来说,它现阶段更适合”锦上添花”的展示,而不是必须依赖的教学环节。一个更稳妥的用法,是把它和别的工具配合——比如先用 LLM 写脚本,再用图文成片类工具(很多视频剪辑软件已内置)把课文、配音、字幕自动拼成视频,可控性比纯文生视频高得多。

多模态与”会看”的模型:打通文字、图像和声音

早期的模型只能处理单一类型的内容,而现在主流模型大多是多模态的——同一个模型既能读文字,也能”看”图片、“听”音频。这对教师特别实用:你可以拍一张学生手写作业的照片让它批改,上传一页教材截图让它出配套练习,或者把一段口语录音转成文字再分析。语音识别类能力(中英混说、口语转写)在双语和英语听说教学里尤其好用,国内的讯飞星火等在中文语音上表现不错。

多模态不改变上一章的基本规律:它”看”图、“听”音的方式同样是统计式的识别与生成,照样会看错、听错。把它当成一个反应很快但需要复核的助手,而不是精确的测量仪器。

怎么为一个任务挑对模型

把上面几类放在一起,挑工具其实可以归结成一个简单的思路:先想清楚你的任务产出的是哪种形态——文字、图片、视频还是混合,据此定位到对应的模型类别;再看这个任务对”精确度”的要求有多高,要求越高,你需要预留的核查就越多;最后才在这一类里,按中文适配、文件支持、额度成本这些实际因素挑具体产品。

举两个例子。“帮我把这篇说明文改写成适合六年级的版本”——产出是文字,精确度要求中等,选一个中文顺手的 LLM 即可。“为校园科技节做一张主视觉海报”——产出是图片,对科学事实没要求,文生图就很合适,记得限定风格。反过来,“生成一张准确的人体消化系统示意图直接发给学生”,虽然也是图片任务,但精确度要求很高,这时更稳的做法是用文生图出草稿、再由你或专业素材把关,而不是直接采用。

记住这套”按能力挑工具”的思路,你就不会被层出不穷的新产品牵着走。下一章我们进入真正的操作:无论面对哪一类模型,怎么把话说清楚,让它给出你要的结果。


本文属于《给老师的 AI 指南》系列。具体来源、参考资料与 AI 使用说明见系列目录页。