使用大模型 AI 的基本原则
众所周知,AI 助手深刻改变了我们在网上找答案的方式,过去依靠搜索引擎排序和自己去挨个读链接中的网页,如今 AI 可以把答案编辑好给我们。但是这里面有一些基本的原则可以产生更高质量的内容,避免AI生成内容的陷阱,甚至避免一些严重后果。
知道AI的能做什么,以及能做到多好。 目前的(2026.05)LLM 大语言模型一般是多模态的,基于海量文本数据和可能的图像、音视频信息训练的,一般来说对于文本类任务具有很好的效果,对于多媒体任务(音视频等)则视具体的模型和应用而有所区分,字节跳动 Seed 团队的 Seedance、Google 的 Veo、OpenAI 的 Sora 等都已经能生成相当惊艳的视频,所以经常能看到各种AI生成的视频大行其道(例如刘华强买瓜宇宙)。目前在生产力层面,AI Agent 辅助编程或者代码生成已经在行业内广泛应用了,主流搜索引擎也普遍在结果中集成了 AI 摘要,同时也出现了 Perplexity、ChatGPT Search 等 AI 原生搜索产品,在文书类工作例如翻译、撰写内容、文章润色、头脑风暴、问答等任务表现出色。有理由相信 AI 会向更多领域渗透并且做得更好。让我们拭目以待。
知道AI会犯错。 知道AI幻觉的存在——AI可能无中生有或者张冠李戴一些内容,信誓旦旦地告诉你这就是事实,例如编造不存在的历史人物和事件。AI 幻觉源于模型的生成机制——它本质上是在预测下一个最合理的词,倾向于产生流畅、看起来合理的文本,而不是去验证事实。虽然各种技术用来减少这些错误,但是错误是无法100%消除的。
知道AI不能做什么。 AI 在训练数据稀缺或长尾的领域可能表现较差,例如某些非常小众的地方性考试、公司内部文档、最新发生但还未被广泛报道的事件等,全网可能都没有足够的相关信息,那么AI也无法提供有用的参考。另外要注意训练数据的截止日期(knowledge cutoff)——每个模型都有自己的训练数据时间窗口,问"现在谁是某公司CEO"或"最新发布的XX是什么"这类时效性问题,得到的可能是过期答案,这种情况下要么开启联网搜索模式,要么自己去核实。AI 在纯文本推理下做长链算术也容易出错,但现在主流模型都可以调用代码执行工具进行精确计算,涉及关键数字时建议让 AI 用代码算,或者自己用计算器/表格复核。
大胆应用AI,但是以人脑思考和判断为主。 对于关键领域的工作或者涉及数据,我们必须反复核对信息和数据,考察其依据和信源,避免盲目采信。对于事实性陈述,可以要求 AI 给出来源链接,并自己点开核实。一个有用的技巧是,对于AI生成的观点和分析,我们再用AI来挑战它,找出漏洞,这个技巧称为魔鬼代言人 (Devil’s Advocate)。还要注意 LLM 有讨好用户的倾向(sycophancy)——你说"我觉得 A 对",它就更容易附和 A,所以问开放性问题时尽量中立表述,或者明确要求"不要附和我,给出诚实评估"。
安全和隐私。 涉及商业机密、客户数据、医疗记录、身份证件等敏感信息时要谨慎上传到 AI 助手里,这有可能带来泄密问题。不同产品的数据政策差异很大(例如 Claude.ai 自称默认不用对话训练模型,ChatGPT 可以在设置里关闭训练,企业版/API 通常有更强的隐私承诺),使用前最好了解一下你所用产品的数据政策。另外,AI 生成内容的版权归属和可商用性因平台和司法管辖区而异,商用前需了解相关条款。
学习如何让AI更有效地生成内容。 对于同一个大模型,采用不同的设置会带来不同的返回时间和生成质量,深度思考模式往往质量更高,代价是回答更慢并且消耗更多的 Tokens;简单问题用快速模式就够了,对所有任务都用同一种模式要么浪费 token 要么得到敷衍答案。同时也要善用模型的工具能力——开启联网搜索可以获得最新信息,开启代码执行可以做精确计算和数据分析,开启文件上传可以让 AI 直接读你的文档。对于同一个大模型,不同水平的输入有可能带来天差地别的输出——所以要学习如何更好地问AI问题(下一篇的灵感有了),对于 Chatbots 类的AI,基本来说需要给出具体而非笼统的描述、给出约束、给出期望的输出格式和语气,最好还能给出点例子,这样大模型才更有可能生成你想要的结果;对于初次结果未尽人意的时候,需要迭代式提问,产生更优的结果。