【万字长文】 GPT 最佳实践的六种策略

全文内容较长较干,如果你对 AI 和提示语工程不是很了解,甚至连 ChatGPT 也不是很了解,那我建议你从提示语学院基础篇开始阅读。基础篇更多的会从新手的角度教你如何使用 AI 产品,如果觉得还挺有趣,不妨再深入探索下!

我们还做了一期视频专门来介绍「提示语工程师」这个职业。

**GPT 最佳实践的六种策略**是我们在OpenAI 官方最佳实践的基础上翻译后加入了更多的示例,希望能对你有帮助。

本文所有示例都是基于目前最先进的大模型「小语 4.0(即 GPT-4)」,旨在帮助大家更好地利用 GPT 获取最优质的答案。这些介绍的策略和技巧有时可以组合使用以达到更好的效果。请多多进行实验,并找出最适合你的方法。

? 策略一: 指令 的内容清晰明确

GPT无法读懂你的心思,如果输出答案太啰嗦,请要求它简洁回复;如果输出太简单,请要求以专业水平写作;如果你不喜欢格式,请展示你想看到的格式。GPT越少猜测你的意图,你获得的结果就更可能符合预期。

一、在提问时给出更多的细节以获得更相关的答案

为了获得满意的回答,请在提问时明确需求细节。让模型去猜测你的心思,将无法获得最理想的答案。

不太有效的 更好的
如何在Excel中进行数值相加? 如何在Excel中将一行美元金额相加?我希望对整个工作表中的所有行进行自动求和,并将所有的总和以“Total”列的形式显示在右侧。
谁是现任总统? 2021年墨西哥的总统是谁?选举多久进行一次?
编写一段计算斐波那契数列的代码 编写一个高效计算斐波那契数列的 TypeScript 函数。请在代码中添加充分的注释,解释每个部分的功能以及为什么以这种方式编写。
总结会议记录 用一个段落总结会议记录。然后以 Markdown 列表的形式列出与会人员及其要点。最后,如果有的话,列出与会人员建议的下一步行动或待办事项。

二、给模型设定身份角色

为了获得满意的回答,请在提问中设定角色信息。为模型设定角色有助于获得更符合场景的答案。

提示语示例:

你是一位小学老师,能够将复杂的内容解释得让7或8岁的孩子也能理解。请重新编写以下句子,使它们更容易理解。

OpenAI是一个美国人工智能(AI)研究实验室,由非营利组织OpenAI Incorporated(OpenAI Inc.)和其盈利子公司OpenAI Limited Partnership(OpenAI LP)组成。 OpenAI旨在推广和发展友好型人工智能,并使用世界第五大超级计算机进行研究。该组织于2015年由Sam Altman、Reid Hoffman、Jessica Livingston、Elon Musk、Ilya Sutskever、Peter Thiel等人在旧金山创立,共承诺捐赠10亿美元。Musk于2018年从董事会辞职但仍然是捐赠者。微软于2019年向OpenAI LP提供了10亿美元的投资,并在2023年1月提供了第二笔多年期投资,金额据报道为100亿美元。

小语 4.0 回复是这样的:

OpenAI是一个在美国的智能机器人研究地方,它有两个部分,一个是不赚钱的,另一个是赚钱的。OpenAI的目标是让智能机器人对人类有好处,并用一个非常强大的电脑来做研究。这个组织是在2015年由Sam Altman、Reid Hoffman、Jessica Livingston、Elon Musk(特斯拉的老板)、Ilya Sutskever、Peter Thiel等人在美国旧金山成立的,他们一起答应给这个组织10亿美元。虽然Elon Musk在2018年离开了领导位置,但他还是会给钱。微软这个大公司在2019年给了OpenAI 10亿美元,并在2023年1月又给了很多钱,大概是100亿美元。

三、使用分隔符清晰地标示输入的不同部分

通过分隔符(如”””、 标签、章节标题等)划分需要区别对待的文本部分。 对于一些简单任务,使用分隔符可能不会对输出质量产生影响。然而,任务越复杂,消除任务细节的歧义就越重要。不要让 GPT 辛苦地去理解你到底在要求它们做什么。在处理更复杂的问题时,请确保提供明确、详细的指示,并通过使用分隔符等方式明确标识需要特殊处理的文本部分。这样有助于获得更准确、高质量的回答。

三重引号”””我们之前已经举了很多例子,这里只针对 标签和章节标题举例说明。

XML标签示例

提示语:

你将收到一对关于同一主题的文章(用XML标签分隔)。首先概括每篇文章的观点。然后指出哪篇文章的论据更有力,并解释原因。
 



























<article>生成式预训练变换器(GPTs)在自然语言处理领域无疑是强大的工具,能够根据从大量数据中学到的模式生成类似人类的文本。然而,尽管GPTs在语言生成方面表现出色,但它们在本质上缺乏推理能力。作为一种认知过程,推理涉及逻辑思考、推断和根据手头信息得出结论的能力。GPTs作为统计模型,仅限于识别和模仿训练数据中的模式,而无法真正理解其中的概念或它们之间的关系。
 


















GPTs在推理方面的一个重要局限是它们无法进行因果推理,这需要理解给定上下文中不同元素之间的因果关系。GPTs可以生成看似涉及推理的文本,但实际上,它们只是根据某些词语或短语一起出现的统计可能性生成句子,而没有理解它们之间的因果联系。此外,GPTs无法评估它们生成的陈述的真实性或有效性,因为它们缺乏对涉及的概念的必要理解。这种无法推理的能力,最终意味着虽然GPTs可以生成看似连贯和符合上下文的文本,但不能依赖它们提供准确或逻辑上合理的信息或结论。</article>
 











<article>生成式预训练变换器(GPTs)确实能进行一定形式的推理。它们通过利用从大量数据中学到的模式生成在上下文中通常具有逻辑意义的回应。一个引人注目的推理能力例子是它们能够解决从未见过的数学问题。这表明GPTs不仅仅是复述记忆中的信息,而是能够将所学的原理和模式应用于新情境,这是推理的特征。例如,当被问及关于一部小说的问题时,GPT可以通过识别和综合文本中的相关信息来提供准确的答案。GPTs还可以通过基于所学模式生成假设场景的可能结果来进行假设性推理。这种推理能力是GPT设计和实用性的基本方面。
 












然而,重要的是要认识到GPTs的推理能力存在局限性。虽然它们可以生成连贯且与上下文相关的回应,但它们对概念的理解可能比人类推理要浅薄。这是因为GPTs主要依赖于识别数据中的模式和关联,而不是深入理解概念的因果关系。因此,它们的推理有时可能导致错误或荒谬的结论,特别是在输入数据模糊或矛盾的情况下。尽管存在这些局限性,GPTs在人工智能领域取得了重要进展,展示了在广泛场景中进行推理和生成类似人类回应的令人印象深刻的能力。继续完善和改进这些模型以进一步提高它们的推理能力,并更好地理解这项技术的潜在应用和影响至关重要。</article>

小语 4.0 回复:

文章1观点概括:生成式预训练变换器(GPTs)在自然语言处理领域表现出色,但在本质上缺乏推理能力,特别是在因果推理方面。GPTs只能识别和模仿训练数据中的模式,而无法真正理解概念或它们之间的关系。
 



























文章2观点概括:生成式预训练变换器(GPTs)确实能进行一定形式的推理,例如解决从未见过的数学问题和进行假设性推理。然而,GPTs的推理能力存在局限性,因为它们主要依赖于识别数据中的模式和关联,而不是深入理解概念的因果关系。
 


















在这两篇文章中,文章2的论据更有力。文章1强调了GPTs在推理方面的局限性,特别是在因果推理方面。然而,文章2承认了GPTs的局限性,同时也提供了关于GPTs在推理方面的实际应用和能力的例子,如解决从未见过的数学问题和进行假设性推理。文章2还强调了继续完善和改进这些模型以提高它们的推理能力的重要性。因此,文章2在论证GPTs推理能力方面提供了更全面和平衡的观点。

若你不清楚XML语法,可查阅 W3cschool-XML语法

章节标题示例

提示语:

我们将为您提供一份论文摘要和建议的论文标题。论文标题应该能让读者清楚理解论文的主题,同时也要引人入胜。如果标题无法满足这些要求,请提供5个备选标题。

摘要:我们在此报道了GPT-4的开发过程,这是一个大规模的多模态模型,能够接收图像和文本输入,并产生文本输出。尽管在许多现实场景中,GPT-4的能力仍然不如人类,但它在各种专业和学术基准测试中展现出了人类水平的表现,包括在模拟的律师资格考试中,得分位于前10%的考生之列。GPT-4是一个基于Transformer的模型,预训练用于预测文档中的下一个词元。后期训练的对齐过程导致在事实性和符合期望行为的度量上的表现得到了提升。该项目的核心组成部分是开发出能在各种规模范围内预测行为的基础设施和优化方法。这使我们能够准确预测基于不超过GPT-4计算能力千分之一的模型训练的GPT-4的某些表现。
 


















标题:GPT-4技术报告

小语 4.0 回复:

备选标题:
1. GPT-4:大规模多模态模型的开发与应用
2. 探索GPT-4:人工智能领域的新突破
3. GPT-4:跨越图像和文本的智能模型
4. GPT-4:基于Transformer的多模态人工智能模型
5. GPT-4:实现人类水平表现的智能模型

四、明确指定完成任务所需的步骤

有些任务最好通过一系列步骤来指定。明确地写出这些步骤可以使模型更容易执行。

提示语示例:

根据以下步骤指示应对用户输入。
步骤一 - 用户会提供以三重引号包裹的文本,你需要用一句话概括这段文本,并以"摘要:"作为前缀。
步骤二 - 将步骤一中的摘要翻译成英语,并以"翻译:"作为前缀。
 


















"""阿波罗计划,又名阿波罗项目,是美国国家航空航天局(NASA)进行的第三个载人航天计划,从1968年到1972年成功准备并使第一批人类登陆月球。它最初在1960年的艾森豪威尔总统任期内设想为一个三人航天器,以接替将第一批美国人送入太空的水星计划。阿波罗后来致力于肯尼迪总统在1961年5月25日对国会的演讲中为1960年代的国家目标——“使人类登陆月球并安全返回地球”。这是美国的第三个载人航天计划,前面是1961年设想的双人宇宙飞船双子座计划,以支持阿波罗计划。
 











肯尼迪的目标在阿波罗11号任务中得以实现,当时宇航员尼尔·阿姆斯特朗和巴兹·奥尔德林于1969年7月20日登陆他们的阿波罗登月舱(LM)并在月球表面行走,而迈克尔·柯林斯则在指挥和服务舱(CSM)中留在月球轨道,所有三人于7月24日安全降落在太平洋。此后的五次阿波罗任务也使宇航员登陆了月球,最后一次是1972年12月的阿波罗17号。在这六次太空飞行中,有十二人登上了月球。
 












阿波罗计划从1961年到1972年进行,首次载人飞行在1968年。1967年,阿波罗1号舱室火灾在预发射测试中造成全体机组人员死亡,这是一个重大挫折。在第一次成功登陆后,有足够的飞行硬件进行九次后续登陆,计划进行扩展的月球地质和天体物理探索。预算削减迫使取消了其中的三次。剩下的六次任务中有五次成功登陆,但阿波罗13号的登陆被在飞往月球途中的氧气罐爆炸阻止,使得指挥和服务舱失去功能。机组人员几乎是用登月舱作为“救生艇”在返回旅程中安全返回地球。阿波罗使用土星系列火箭作为发射载具,这些火箭也用于阿波罗应用计划,包括天空实验室,这是一个在1973-1974年支持三次载人任务的空间站,以及1975年的阿波罗-联盟试验项目,这是一个美苏联合的低地球轨道任务。
 









阿波罗设定了几个重要的载人航天里程碑。它是唯一一个发送载人任务超出低地球轨道的。阿波罗8号是第一个绕行另一个天体的载人航天器,阿波罗11号是第一个使人类登陆另一个天体的载人航天器。
 















总的来说,阿波罗计划向地球返回了842磅(382千克)的月球岩石和土壤,极大地增加了我们对月球组成和地质历史的理解。该计划为NASA后续的载人航天能力奠定了基础,并资助了其约翰逊太空中心和肯尼迪太空中心的建设。阿波罗还推动了许多与火箭和载人航天有关的技术领域的进步,包括航空电子学、电信和计算机。
 









-摘自https://en.wikipedia.org/wiki/Apollo_program"""

小语 4.0 回复:

摘要:阿波罗计划是美国NASA的第三个载人航天计划,旨在实现人类登陆月球并安全返回地球,共有12名宇航员登上月球,为后续载人航天能力奠定基础并推动相关技术领域的进步。
翻译:Summary: The Apollo Program was the third manned space program of NASA, aiming to achieve human landing on the moon and safely return to Earth, with a total of 12 astronauts landing on the moon, laying the foundation for subsequent manned space capabilities and promoting advances in related technology fields.

五、提供示例

通常来说,给 GPT一个【具象的示例】 比给一个【宽泛的指导】更为有效:

  • 宽泛的指导:在写作时,确保每个段落都有一个清晰的主题句。
  • 具象的示例:假设你正在写一篇关于环保的文章。一般性的指导可能会让你在每个段落开始时写一个主题句,比如,“塑料污染是我们环境面临的一个严重问题。”然后在接下来的段落中,你可以提供关于塑料污染的事实、数据或者引用来支持这个主题句。

在这个例子中,宽泛指导提供了一个可适用于所有写作情况的原则,而具象示例则让GPT更具体、更直观地明白你的实际写作诉求。

提示语:

以一致的风格回答。
 



























问:教我怎样学会耐心。
答:深邃的峡谷源于微弱的溪流;宏大的交响乐源于单独的音符;复杂的挂毯始于孤独的线。
 







问:教我怎样理解海洋。
答:

小语 4.0 回复:

答:浩渺的海洋源于细小的水滴;无尽的波涛起于轻柔的风;丰富的生命汇聚于深邃的蓝。

六、指定所需输出的长度

您可以要求GPT生成特定目标长度的输出。目标输出长度可以用单词数、句子数、段落数、项目符号等来表示。但请注意,要求模型生成特定数量的单词精确度较低。模型更能可靠地生成具有特定数量段落或要点的输出。

提示语示例:

将三重引号包含的文本用3个要点进行总结。
 



























"""阿波罗计划,又名阿波罗项目,是美国国家航空航天局(NASA)进行的第三个载人航天计划,从1968年到1972年成功准备并使第一批人类登陆月球。它最初在1960年的艾森豪威尔总统任期内设想为一个三人航天器,以接替将第一批美国人送入太空的水星计划。阿波罗后来致力于肯尼迪总统在1961年5月25日对国会的演讲中为1960年代的国家目标——“使人类登陆月球并安全返回地球”。这是美国的第三个载人航天计划,前面是1961年设想的双人宇宙飞船双子座计划,以支持阿波罗计划。
 


















肯尼迪的目标在阿波罗11号任务中得以实现,当时宇航员尼尔·阿姆斯特朗和巴兹·奥尔德林于1969年7月20日登陆他们的阿波罗登月舱(LM)并在月球表面行走,而迈克尔·柯林斯则在指挥和服务舱(CSM)中留在月球轨道,所有三人于7月24日安全降落在太平洋。此后的五次阿波罗任务也使宇航员登陆了月球,最后一次是1972年12月的阿波罗17号。在这六次太空飞行中,有十二人登上了月球。
 











阿波罗计划从1961年到1972年进行,首次载人飞行在1968年。1967年,阿波罗1号舱室火灾在预发射测试中造成全体机组人员死亡,这是一个重大挫折。在第一次成功登陆后,有足够的飞行硬件进行九次后续登陆,计划进行扩展的月球地质和天体物理探索。预算削减迫使取消了其中的三次。剩下的六次任务中有五次成功登陆,但阿波罗13号的登陆被在飞往月球途中的氧气罐爆炸阻止,使得指挥和服务舱失去功能。机组人员几乎是用登月舱作为“救生艇”在返回旅程中安全返回地球。阿波罗使用土星系列火箭作为发射载具,这些火箭也用于阿波罗应用计划,包括天空实验室,这是一个在1973-1974年支持三次载人任务的空间站,以及1975年的阿波罗-联盟试验项目,这是一个美苏联合的低地球轨道任务。
 












阿波罗设定了几个重要的载人航天里程碑。它是唯一一个发送载人任务超出低地球轨道的。阿波罗8号是第一个绕行另一个天体的载人航天器,阿波罗11号是第一个使人类登陆另一个天体的载人航天器。
 









总的来说,阿波罗计划向地球返回了842磅(382千克)的月球岩石和土壤,极大地增加了我们对月球组成和地质历史的理解。该计划为NASA后续的载人航天能力奠定了基础,并资助了其约翰逊太空中心和肯尼迪太空中心的建设。阿波罗还推动了许多与火箭和载人航天有关的技术领域的进步,包括航空电子学、电信和计算机。
 















-摘自https://en.wikipedia.org/wiki/Apollo_program"""

小语 4.0 回复:

阿波罗计划是美国NASA进行的第三个载人航天计划,旨在实现人类登陆月球并安全返回地球的目标,共有12名宇航员成功登上月球。
阿波罗计划在1961年至1972年期间进行,期间遇到了阿波罗1号舱室火灾等挫折,但最终实现了肯尼迪总统设定的目标。
该计划为NASA后续的载人航天能力奠定了基础,推动了许多与火箭和载人航天有关的技术领域的进步,并向地球返回了842磅的月球岩石和土壤。

? 策略二:提供参考文本

GPT在回答一些深奥主题或需要引用网址的问题时,可能会胡说八道编造虚假答案。这时你可以为 GPT 提供参考文本可以帮助它们在回答问题时减少捏造内容。

当你初次阅读时,你可能会觉得以下两种方式是一样的。其实,这两种策略虽然都是提供参考文本给GPT,但他们的使用方式和目的有所不同。前者更侧重于让模型理解并使用参考文本中的信息再结合GPT的知识库进行回答,而后者则更侧重于让模型直接引用参考文本中的内容进行回答。

? 使用参考文本指导模型的答案

如果我们能为模型提供与当前查询相关的可靠信息,那么我们可以指示模型利用所提供的信息来撰写答案。

提示语结构:

请使用由三引号分隔的提供的文章来回答问题。如果答案不能在文章中找到,请回答 "我无法找到答案。"
"""文章1"""
"""文章2"""
"""文章3"""
 







我的问题:<在此处插入问题>

提示语示例:

请使用以下三引号分隔的文章回答问题。如果答案无法在文章中找到,请写“无法找到答案”。
 



























"""

什么是「小语 GPT」?

小语 GPT 所提供的内容生成功能所接入的服务提供商为微软的 Azure OpenAI 服务,支持用户轻松访问 GPT-3.5 和 GPT-4 模型。这些模型可以轻松适应特定的任务,包括但不限于内容生成、汇总、语义搜索和自然语言到代码的转换。

目前微软的 Azure OpenAI 服务仅面向企业客户提供,这是目前国内合法使用 OpenAI 服务的唯一途径。提示语科技(北京)有限公司目前已经获得微软授权。

"""

"""

比较小语 GPT、Azure OpenAI 和 OpenAI

相较于其它生成性模型,OpenAI 的 GPT 模型具有显著的潜在优势。然而,若不经过精心设计并采纳全面的缓解措施,这类模型可能产生错误甚至有害的内容。

Azure OpenAI 服务通过 OpenAI GPT-3.5、GPT-4 和 DALL-E 模型为企业客户提供高级语言 AI,更加关注实用安全性。借助Azure OpenAI,企业客户在运行与OpenAI 相同的模型时可获得 Microsoft Azure 的安全功能。 

在保留了 OpenAI 的 GPT 强大生成能力和 Azure OpenAI 服务安全功能的基础上,小语 GPT 针对国内政策对内容生成实施了更严格的规范,包括但不限于遵守法律法规、尊重社会公德、维护公序良俗,体现社会主义核心价值观、防止歧视性内容、避免不公平竞争、防止虚假信息传播,以及不侵犯他人肖像、隐私、知识产权等权益。

"""



问题:小语 GPT 是提示语科技自研的吗?

指导模型使用参考文本中的引文来回答

如果输入内容已经给出了一些相关的背景知识,那么我们可以直接要求GPT通过引用文档中的内容来增强它的回答。 这里有一个小技巧,我们可以通过一种特殊格式来标注引用的内容,以便于检查输出中的引用是否准确。

提示语结构:

请分析这个由三重引号分隔的文档和一个问题。读懂后仅通过文档的内容来回答问题,在回答问题时需要引用文档中的段落或结论。如果文档中没有回答此问题所需的信息,那么只需写上:“信息不足”。如果提供了问题的答案,必须用特殊格式注释它。请使用以下格式来引用相关段落(「"引用": ...」)。 
 



























"""<在这里插入文档>"""
 


















我的问题:<插入问题>

提示语示例:

请分析这个由三重引号分隔的文档和一个问题。读懂后仅通过文档的内容来回答问题,在回答问题时需要引用文档中的段落或结论。如果文档中没有回答此问题所需的信息,那么只需写上:“信息不足”。如果提供了问题的答案,必须用特殊格式注释它。请使用以下格式来引用相关段落("引用": ...」)。 
 



























"""

什么是「小语 GPT」?

小语 GPT 所提供的内容生成功能所接入的服务提供商为微软的 Azure OpenAI 服务,支持用户轻松访问 GPT-3.5 和 GPT-4 模型。这些模型可以轻松适应特定的任务,包括但不限于内容生成、汇总、语义搜索和自然语言到代码的转换。

目前微软的 Azure OpenAI 服务仅面向企业客户提供,这是目前国内合法使用 OpenAI 服务的唯一途径。提示语科技(北京)有限公司目前已经获得微软授权。

"""

"""

比较小语 GPT、Azure OpenAI 和 OpenAI

相较于其它生成性模型,OpenAI 的 GPT 模型具有显著的潜在优势。然而,若不经过精心设计并采纳全面的缓解措施,这类模型可能产生错误甚至有害的内容。

Azure OpenAI 服务通过 OpenAI GPT-3.5、GPT-4 和 DALL-E 模型为企业客户提供高级语言 AI,更加关注实用安全性。借助Azure OpenAI,企业客户在运行与OpenAI 相同的模型时可获得 Microsoft Azure 的安全功能。 

在保留了 OpenAI 的 GPT 强大生成能力和 Azure OpenAI 服务安全功能的基础上,小语 GPT 针对国内政策对内容生成实施了更严格的规范,包括但不限于遵守法律法规、尊重社会公德、维护公序良俗,体现社会主义核心价值观、防止歧视性内容、避免不公平竞争、防止虚假信息传播,以及不侵犯他人肖像、隐私、知识产权等权益。

"""

 









我的问题:小语 GPT 是提示语科技自研的吗?

⏳ 策略三:将复杂任务拆分为子任务

正如在软件工程中将一个复杂系统分解为一组模块化组件是一种很好的做法一样,这对于提交给 GPT 的任务也同样适用。复杂任务往往比简单任务具有更高的错误率。此外,复杂任务通常可以被重新定义为由一系列简单任务组成的工作流程,其中前面任务的输出用于构建后续任务的输入。

利用意图分类来确定用户查询最相关的指示

对于那些需要大量独立指令集来处理不同情况的任务,首先对查询类型进行分类,并利用该分类来确定所需的指令可能会有所帮助。这可以通过定义固定的类别和硬编码处理给定类别任务所需的相关指令来实现。这个过程也可以递归应用,将一个任务分解为一系列的阶段。这种方法的优点在于,每个查询只包含执行任务下一阶段所需的指令,与使用单一查询来执行整个任务相比,可以降低错误率。这也可能降低成本,因为更大的提示运行起来更加昂贵。

例如,假设对于一个客户服务应用,查询可以有用地分类如下:

提示语:

你将收到客户服务咨询。请将每个咨询划分为主要类别和次要类别,并以JSON格式提供输出,键名为:主要类别和次要类别。
 



























主要类别:账单、技术支持、账户管理或一般咨询。
 


















账单次要类别:
退订或升级
添加付款方式
收费说明
争议收费
 









技术支持次要类别:
故障排查
设备兼容性
软件更新
 



账户管理次要类别:
重置密码
更新个人信息
注销账户
账户安全
 

一般咨询次要类别:
产品信息
价格
反馈
与人工客服沟通
 
客户:我需要恢复我的网络连接。

小语 4.0 回复:

{
  "主要类别": "技术支持",
  "次要类别": "故障排查"
}

根据客户咨询的分类,我们可以为GPT模型提供一套更具体的指示来处理后续步骤。例如,假设客户需要帮助进行”故障排查”。

提示语:

你将会收到需要进行技术支持故障排查的客户服务咨询。你可以通过以下方式帮助用户:
 



























- 建议他们检查路由器的所有线缆是否已连接。请注意,线缆随着时间的推移容易松动。
- 如果所有线缆都已连接,但问题仍然存在,请询问他们使用的路由器型号。
- 现在,您将指导他们如何重启设备:
-- 如果型号为MTD-327J,请建议他们按住红色按钮5秒钟,然后等待5分钟后再测试连接。
-- 如果型号为MTD-327S,请建议他们将其拔下并重新插入,然后等待5分钟后再测试连接。
- 如果客户在重启设备并等待5分钟后问题仍然存在,请将他们连接到IT支持部门,输出{"IT support requested"}。
- 如果用户开始询问与此主题无关的问题,那么请确认他们是否希望结束当前关于故障排查的聊天,并根据以下方案对他们的请求进行分类:
 









将他们的查询分为主要类别和次要类别。请以json格式提供您的输出,键为:主要类别和次要类别。
 















主要类别:账单、技术支持、账户管理或一般咨询。
 









账单次要类别:
- 退订或升级
- 添加支付方式
- 收费说明
- 争议收费
 


技术支持次要类别:
- 故障排查
- 设备兼容性
- 软件更新
 
账户管理次要类别:
- 重置密码
- 更新个人信息
- 关闭账户
- 账户安全
 
一般咨询次要类别:
- 产品信息
- 定价
- 反馈
- 与人交谈
 
客户:我需要让我的互联网重新工作起来。

小语 4.0 回复:

您好!请先检查一下路由器的所有线缆是否已连接好。有时候线缆可能会随着时间的推移而松动。如果线缆都已连接好,但问题仍然存在,请告诉我您使用的路由器型号,我将为您提供进一步的帮助。

请注意,这个模型就像一个游戏,它可以发出特殊的文字来告诉我们游戏进行到哪一步了。这样我们就可以把这个系统想象成一个游戏机,游戏机里的每一步都决定了我们应该做什么。通过记住每一步,了解在这一步我们可以做什么,以及下一步我们可以做什么,我们就可以更好地保护用户的体验,这在一些不太有规则的方法中是很难做到的。

如果我们不是开发者的话,下面的两个技巧我们都用不到。我们这里也只是简单介绍基本原理,如需深入学习可前往OpenAI 官方文档进行查看。

对需要非常多内容的对话场景,可以对之前的对话进行总结或过滤

由于GPT具有固定的上下文长度,用户和GPT之间的对话如果包含了整个对话内容,那么对话就无法无限制地进行下去。解决此问题有多种方法,其中之一是总结前面的对话内容。并将先前对话的摘要包含在下一次的提问中。

一个简化的举例说明:

假设你与GPT在对话中讨论了气候变化、可再生能源和碳排放。你现在想问GPT关于这些主题的更深入的问题,但是你不能把所有的对话都包含在输入中。这时你可以对前置对话进行总结,并在下一次提问中进行输入,比如:”在前面的对话中,我们讨论了气候变化的影响,探讨了各种可再生能源的优点和缺点,以及碳排放的环境影响关于这个主题,我想知道如何有效地降低碳排放。”在这个例子中,标蓝部分就是对前置对话的总结,他的作用是帮助GPT在超长的对话中,更好的理解上下文。标红部分则是你基于这个总结提出的,需要GPT继续回答分析的新问题。

逐段总结长篇文档并 递归 构建完整总结

由于GPT具有固定的上下文长度,因此无法在单个查询中对长度超过上下文长度减去生成摘要长度的文本进行总结。

要总结一本非常长的文档,如一本书,我们可以使用一系列查询来逐个总结文档的每个部分。各部分的摘要可以合并并进行总结,从而生成摘要的摘要。这个过程可以递归进行,直到整个文档被总结。如果需要使用关于前面部分的信息来理解后面部分,那么在总结某一点的内容时,包含文本前面部分的运行摘要会是一个有用的技巧。OpenAI在之前的研究中使用GPT-3的变体研究了这种程序总结书籍的有效性。

一个简化的举例说明:

假设我们有一本非常长的书,我们想要使用GPT来生成这本书的总结。由于这本书的长度超过了GPT的上下文长度,我们不能一次性把整本书作为输入给GPT。这时,我们可以采取这样的策略:

  1. 首先,我们可以把书分成几个部分,比如按章节分。对于每一章,我们都生成一个总结。例如,对于第一章,我们可以给GPT一个提示,比如:”请总结以下的文本,这是一本书的第一章…”,然后附上第一章的内容。
  2. 当我们有了所有章节的总结后,我们可以将这些总结连接起来,然后再生成一个总的总结。这个总的总结就是对整本书的总结。为了生成这个总结,我们可以给GPT一个新的提示,比如:”请总结以下的文本,这是关于一本书各章节的总结…”,然后附上所有章节的总结。
  3. 在这个过程中,如果我们发现有些部分的内容需要对前面的内容有一些理解才能够理解,我们可以在总结这一部分的时候,附上前面内容的总结。这就是所谓的「运行总结」。这样,GPT就可以在理解后面的内容时,参考前面的总结。

如果你对「运行总结」的概念还不是很理解,那可以看一下这个例子:

假设我们已经对前两章进行了总结,并且我们正在处理第三章。但是,为了理解第三章的内容,我们需要对前两章的内容有一定的理解。也就是说,第三章的内容与前两章的内容有所关联。在这种情况下,如果我们只是单独地对第三章进行总结,那么我们可能会丢失一些重要的上下文信息。这时我们可以给GPT一个这样的输入:”以下是关于这本书前两章的总结{这里是前两章的总结}。现在,请总结以下的文本{这是第三章的内容}” ,然后附上第三章的内容。这样,GPT就可以在理解第三章的内容时,参考前两章的总结。这就是**「运行总结」**的概念。它可以帮助我们处理一些需要对前面的内容有一定理解才能理解的情况。

策略四:给 GPT 一些「思考」时间

如果要求你计算 17 * 28,你可能不会立刻说出答案,但只需要一点计算的时间你就可以给出正确答案。同样,小语 GPT 在试图立即回答问题时,比花时间计算答案更容易出现推理错误。在回答问题之前,如果能提供一系列推理过程可以帮助 GPT 更可靠地推导出正确答案。

指导模型在盲目下结论之前自行解决问题

有时候,在得出结论之前明确地指导模型从基本原理推理会得到更好的结果。

例如,假设我们要让模型评估学生解决数学问题的方法。最明显的方法是简单地询问模型学生的解决方案是否正确。

提示语:

判断学生的解答是否正确。
 



























问题:
我正在建设一个太阳能发电设施,需要帮助计算财务数据。
 







土地价格为每平方英尺100美元
 





太阳能电池板价格为每平方英尺250美元
 


我谈判了一份维护合同,第一年的费用为10万美元,此后每平方英尺10美元
请问第一年运营的总成本与设施的平方英尺数之间的关系是什么?
 















学生的解答:
令x为设施的平方英尺数。
成本:
 
土地成本:100x
 

太阳能电池板成本:250x
 


维护成本:100,000 + 10x
总成本:100x + 250x + 100,000 + 10x = 450x + 100,000

小语4.0 的回复:

学生的解答是正确的。
 



























设施的平方英尺数为x。
总成本:土地成本(100x)+ 太阳能电池板成本(250x)+ 维护成本(100,000 + 10x)= 360x + 100,000。

但这个解决方案实际上是不正确的!我们可以通过告诉 GPT 先根据问题自己进行计算,再比对评估答案,从而规避这个错误 。

更好的提示语:

首先,你需要自行解决这个问题。然后,将你的解决方案与学生的解决方案进行比较,评估学生的解决方案是否正确。在你自己解决问题之前,不要判断学生的解决方案是否正确。
 



























问题描述:我正在建设一个太阳能发电设备,我需要帮助计算财务数据。
- 土地每平方英尺的价格是100美元
- 我可以以每平方英尺250美元的价格购买太阳能板
- 我已经谈妥了一份维护合同,每年固定费用是10万美元,此外还需要每平方英尺10美元的费用
问第一年运营的总成本是多少,这是一个关于平方英尺数量的函数。
 












学生的解决方案:设x为设施的面积(以平方英尺为单位)。
1. 土地成本:100x
2. 太阳能板成本:250x
3. 维护成本:100,000 + 100x
总成本:100x + 250x + 100,000 + 100x = 450x + 100,000

小语4.0 的回复:

首先,我们自己解决这个问题。
 



























设x为设施的面积(以平方英尺为单位)。
1. 土地成本:100x
2. 太阳能板成本:250x
3. 维护成本:100,000 + 10x
总成本:100x + 250x + 100,000 + 10x = 360x + 100,000
 












现在我们来评估学生的解决方案。学生的解决方案中,维护成本的计算有误,应该是100,000 + 10x,而不是100,000 + 100x。因此,学生的总成本计算也有误,正确的总成本应该是360x + 100,000,而不是450x + 100,000。

使用内心独白来隐藏模型的推理过程

前面的策略表明,在回答特定问题之前,模型有时需要详细地对一个问题进行推理。对于某些应用程序,模型在得出最终答案时所使用的推理过程可能不适合与用户共享。例如,在学习辅导类产品中中,我们可能希望鼓励学生自己解决问题,但是GPT的解决方案可能会向学生透露答案。

内心独白是一种可以用来减轻这个问题的策略。内心独白的思路是指导模型将一些输出放入结构化格式,使解析它们变得容易,这些输出部分是为了向用户隐藏。然后在将输出呈现给用户之前,对输出进行解析,并且只显示部分输出。

提示语:

按照以下步骤回答用户的问题。
 



























步骤一 - 首先,解决问题并提出自己的解决方案。不要依赖学生的解决方案,因为他们可能会出错。将这一步的所有工作都用三重引号(""")括起来。
 


















步骤二 - 将你的解决方案与学生的解决方案进行对比,评估学生的解决方案是否正确。将这一步的所有工作都用三重引号(""")括起来。
 











步骤三 - 如果学生出了错误,确定你可以给学生什么提示,但不能直接给出答案。将这一步的所有工作都用三重引号(""")括起来。
 












步骤四 - 如果学生出了错误,将前一步的提示提供给学生(不在三重引号之外)。写"提示:",而不是"步骤四 - ..."。
 









问题描述:一个盒子里有4个红球和6个蓝球。从盒子里不放回地抽出两个球。求其中一个球是红色,另一个球是蓝色的概率是多少?
 















学生的解答:(4/10)*(6/9) = 24/90 = 4/15。


小语4.0 的回复:

步骤一:
"""
要计算一个球是红色,另一个球是蓝色的概率,我们需要考虑两种情况:先抽到红球再抽到蓝球,或者先抽到蓝球再抽到红球。我们可以分别计算这两种情况的概率,然后将它们相加。
 


















先抽到红球再抽到蓝球的概率:(4/10)*(6/9)
先抽到蓝球再抽到红球的概率:(6/10)*(4/9)
 





将这两个概率相加,得到一个球是红色,另一个球是蓝色的总概率。
"""
 









步骤二:
"""
学生的解答只计算了先抽到红球再抽到蓝球的概率,没有考虑先抽到蓝球再抽到红球的情况。因此,学生的解答是不完整的。
"""
 



步骤三:
"""
提示学生考虑两种情况:先抽到红球再抽到蓝球,以及先抽到蓝球再抽到红球。然后将这两种情况的概率相加,得到一个球是红色,另一个球是蓝色的总概率。
"""
 


提示:你只计算了先抽到红球再抽到蓝球的概率,还需要考虑先抽到蓝球再抽到红球的情况。将这两种情况的概率相加,就可以得到一个球是红色,另一个球是蓝色的总概率。

或者,我们可以通过一系列查询来实现这个目标,其中除了最后一个查询,其他所有的查询结果都对最终用户保持不可见。

首先,我们可以让模型自行解决这个问题。由于这个初始查询并不需要学生的解答,所以可以省略。这还带来了额外的优势,即模型的解答不会受到学生尝试解答的影响,避免了偏见的产生。

提示语:

一个盒子里有4个红球和6个蓝球。从盒子里无放回地抽取两个球。那么,抽到一个红球和一个蓝球的概率是多少?

小语 4.0 回复:

有两种可能的成功结果:先抽一个红球然后抽一个蓝球,或者先抽一个蓝球然后抽一个红球。我们将分别计算这两种结果的概率,然后将它们相加。
 



























1)先红后蓝:先抽一个红球的概率是4/10,因为有4个红球和10个总球。抽完红球后,剩下3个红球和6个蓝球,所以下一个抽到蓝球的概率是6/9。因此,这种结果的概率是(4/10)*(6/9)。
 


















2)先蓝后红:先抽一个蓝球的概率是6/10,因为有6个蓝球和10个总球。抽完蓝球后,剩下4个红球和5个蓝球,所以下一个抽到红球的概率是4/9。因此,这种结果的概率是(6/10)*(4/9)。
 











现在我们将这两种结果的概率相加:(4/10)*(6/9) + (6/10)*(4/9) = 24/90 + 24/90 = 48/90。这个分数可以化简为8/15,所以抽到一个红球和一个蓝球的概率是$\boxed{\frac{8}{15}}$。

接下来,我们可以让模型利用所有可用的信息来评估学生解答的正确性。

提示语:

将您的解答与学生的解答进行比较,评估学生的解答是否正确。
 



























问题描述:“一个盒子里有4个红球和6个蓝球。从盒子里抽出两个球,不放回。求抽到一个红球和一个蓝球的概率是多少?”
 


















您的解答:“有两种可能的成功结果:先抽一个红球然后抽一个蓝球,或者先抽一个蓝球然后抽一个红球。我们将分别计算这两种结果的概率,然后将它们相加。
 











1)先红后蓝:先抽一个红球的概率是4/10,因为有4个红球和10个总球。抽完红球后,剩下3个红球和6个蓝球,所以下一个抽到蓝球的概率是6/9。因此,这种结果的概率是(4/10)*(6/9)。
 












2)先蓝后红:先抽一个蓝球的概率是6/10,因为有6个蓝球和10个总球。抽完蓝球后,剩下4个红球和5个蓝球,所以下一个抽到红球的概率是4/9。因此,这种结果的概率是(6/10)*(4/9)。
 









现在我们将这两种结果的概率相加:(4/10)*(6/9) + (6/10)*(4/9) = 24/90 + 24/90 = 48/90。这个分数可以化简为8/15,所以抽到一个红球和一个蓝球的概率是$\boxed{\frac{8}{15}}$。”
 















学生的解答:“(4/10)*(6/9) = 24/90 = 4/15”。

小语 4.0 回复:

学生的解答是错误的。他们只计算了先抽到一个红球再抽到一个蓝球的概率,但没有考虑到另一种可能的成功结果,即先抽到一个蓝球再抽到一个红球。正确的解答,正如您所示,是将两种成功结果的概率相加,得到8/15的概率。

最后,我们可以让模型使用自己的分析来构建一个有帮助的导师角色的回复。

提示语:

您是一位数学辅导老师。如果学生犯了错误,请以不透露答案的方式给学生提供提示。如果学生没有犯错误,只需给他们一个鼓励性的评论。
 



























问题陈述:"""一个盒子里有4个红球和6个蓝球。从盒子里抽出两个球,不放回。求抽到一个红球和一个蓝球的概率是多少?"""
 


















您的解答:"""有两种可能的成功结果:要么先抽到一个红球再抽到一个蓝球,要么先抽到一个蓝球再抽到一个红球。我们将找出这两种结果的概率,然后将它们相加。
 











1) 先红后蓝:先抽到一个红球的概率是4/10,因为有4个红球和10个总球。抽到一个红球后,剩下3个红球和6个蓝球,所以下一个抽到蓝球的概率是6/9。所以这种结果的概率是(4/10)*(6/9)。
 












2) 先蓝后红:先抽到一个蓝球的概率是6/10,因为有6个蓝球和10个总球。抽到一个蓝球后,剩下4个红球和5个蓝球,所以下一个抽到红球的概率是4/9。所以这种结果的概率是(6/10)*(4/9)。
 









现在我们把这两种结果的概率相加:(4/10)*(6/9) + (6/10)*(4/9) = 24/90 + 24/90 = 48/90。这个分数可以化简为8/15,所以抽到一个红球和一个蓝球的概率是$\boxed{\frac{8}{15}}$。"""
 















学生的解答:"""(4/10)*(6/9) = 24/90 = 4/15"""
 









分析:"""学生的解答是错误的。他们只计算了先抽到一个红球再抽到一个蓝球的概率,但没有考虑到另一种可能的成功结果,即先抽到一个蓝球再抽到一个红球。正确的解答,正如您所示,是将两种成功结果的概率相加,得到8/15的概率。"""

小语 4.0 回复:

学生的解答是错误的。他们只计算了先抽到一个红球再抽到一个蓝球的概率,但没有考虑到另一种可能的成功结果,即先抽到一个蓝球再抽到一个红球。正确的解答,正如您所示,是将两种成功结果的概率相加,得到8/15的概率。所以,请再次检查您的计算过程,并确保您考虑了所有可能的成功结果。

询问模型前面处理是否遗漏了任何内容

当我们使用GPT从一个较大的文档(长文章或书籍)中抽取与某个特定问题相关的摘录时,我们可以在模型列出每个摘录后,询问GPT是否还有遗漏的摘录。 这是因为当源文档较大时,模型可能会过早地停止抽取,导致未能列出所有相关的摘录。在这种情况下,我们可以通过向模型提出跟进的查询,询问模型是否有在前几轮中遗漏的摘录,从而提高模型的性能。

举例:

假设你正在使用GPT-3模型从一本关于气候变化的书中抽取与“全球变暖的主要原因是什么?”相关的摘录。这本书有几百页,全文详细地讨论了气候变化的各个方面。

在这种情况下,你可能会给模型一个如下的提示:从这本书中找出所有关于“全球变暖主要原因”的摘录。确保摘录包含解释所需的所有相关上下文-换句话说,不要提取缺少重要上下文的小片段。然后模型开始工作,找到了一些摘录,并列出了它们。但是,由于书的内容非常多,模型可能过早地停止搜索,导致遗漏了一些重要的摘录。

在这种情况下,你可能会给模型一个如下的提示:从这本书中找出所有关于“全球变暖主要原因”的摘录。确保摘录包含解释所需的所有相关上下文-换句话说,不要提取缺少重要上下文的小片段。然后模型开始工作,找到了一些摘录,并列出了它们。但是,由于书的内容非常多,模型可能过早地停止搜索,导致遗漏了一些重要的摘录。

?️ 策略五:使用外部工具

通过使用其他工具的输出来补偿GPT的弱点。例如,代码执行引擎可以帮助GPT进行数学计算和运行代码,文本检索系统可以告诉GPT有关的文档。如果一个任务可以由一个工具而不是GPT更可靠或高效地完成,我们应该果断使用工具而不是GPT。

使用代码执行进行更准确的计算或调用外部API

有些较为复杂的数学运算GPT无法给出满意的解答。这时可以指导模型编写程序代码来进行实现。生成输出后,可以提取并运行代码。最后,如果需要,可以将代码执行引擎(如Python / JavaScript解释器)的输出作为输入提供给模型以进行下一次查询。

提示语:

你可以通过将Python代码包裹在三个反引号中来编写和执行,例如```此处填写代码```。利用这种方式,你可以进行计算。
 



























请找出下列多项式的所有实数根:3*x**5 - 5*x**4 - 3*x**3 - 7*x - 10。

小语 4.0 回复:

要找出多项式的所有实数根,我们可以使用Python的`numpy`库中的`roots`函数。首先,我们需要安装`numpy`库,然后导入它并使用`roots`函数找到多项式的根。这是相应的代码:
 



























```python
import numpy as np
 







coefficients = [3, -5, -3, 0, -7, -10]
roots = np.roots(coefficients)
real_roots = [root for root in roots if np.isreal(root)]
 


print(real_roots)
```
 















请注意,这个代码可能无法在这个平台上运行。你可以在本地Python环境中运行它以获得结果。

遗憾的是,这种方式GPT 目前只能给到我们Python代码,还没有办法将代码运行直接给到我们结果(有些鸡肋),我们接下来可以选择找一个在线代码运行工具(?注意将语言切换为 “Python3″),复制这段代码运行得到答案。

发散一下

将GPT难以处理的问题转换成某种程序代码是一个巧妙的技巧,同理,这个技巧你可以用于:

  1. GPT生成PPT大纲,导入到 PowerPoint 中生成 PPT
  2. GPT生成Mermaid代码,通过mermaid.live来生成流程图表
  3. GPT生成Midjourney提示语,并通过Midjourney进行AI绘图

这个技巧无需你懂得编程知识,只要你找到对应的工具和工具所需要的语法,即可解决问题!

调用外部 API

如果我们不是开发者的话,这个技巧我们不太会用到。在这里进行简单介绍,如需深入学习可前往OpenAI 官方文档进行查看。

代码执行的另一个好用例是调用外部API。如果模型被正确地指导使用API,它可以编写利用它的代码。通过提供文档和/或展示如何使用API的代码示例,可以指导模型如何使用API。

提示语:

系统:
你可以通过将其封装在三重反引号中来编写和执行Python代码。同时,请注意您可以访问以下模块,以帮助用户向他们的朋友发送信息:
 

```python
import message
message.write(to="Bob", message="嘿,下班后想见面吗?")
```
 












用户:
请告知爱丽丝,我将在10点在咖啡店与她见面。

这里解释下上面的提示语:

在给出的提示语中,提供了一个Python代码示例,展示了如何使用这个API。代码中,首先导入了“message”模块,然后调用了“write”函数,向“Bob”发送了一条信息:“嘿,下班后想见面吗?”。

“嘿,下班后想见面吗?”是一个已经给出的使用API的示例。根据用户提出的任务:“请告知爱丽丝,我将在10点在咖啡店与她见面”。这个任务需要使用上述的API来完成。替换掉示例中发送的消息内容和接收者即可。

所以,这段内容的目的是让模型学习如何使用API,并用它来完成特定的任务。

小语 4.0 回复:

```python
import message
message.write(to="爱丽丝", message="嘿,我们10点在咖啡店见面。")
```

使用基于嵌入的搜索实现高效知识检索

如果我们不是开发者的话,这个技巧我们不太会用到。在这里进行简单介绍,如需深入学习可前往OpenAI 官方文档进行查看。

如果将外部信息源作为输入的一部分提供给模型,那么模型就可以利用这些信息生成更有见地且更及时的回答。例如,如果用户询问关于某部特定电影的问题,将关于该电影的高质量信息(如演员、导演等)添加到模型的输入中可能会很有帮助。嵌入可用于实现高效的知识检索,以便在运行时动态向模型输入中添加相关信息。

文本嵌入是一个可以度量文本字符串之间关联性的向量。相似或相关的字符串在嵌入空间里会比不相关的字符串距离更近。利用这一事实以及快速向量搜索算法的存在意味着嵌入可以用来实现高效的知识检索。具体而言,可以将文本语料库拆分成多个块,然后将每个块嵌入并存储起来。接下来,将查询请求进行嵌入,然后执行向量搜索以找到与查询请求最相关的文本块(即在嵌入空间中距离最近的那些文本块)。

OpenAI Cookbook中可以找到示例实现。

⚙️ 策略六:系统化测试变更

在进行使用了 GPT 模型的系统改进时,例如引入新指令或新设计,有时很难判断这些改变是使系统变得更好还是更差。通过观察少量样本可能会有所启示,但在小样本情况下,很难区分真正的改进和随机运气。评估程序(或称为“evals”)可以帮助优化系统设计,确保改进措施的有效性。

好的评估程序应具备以下特点:

  1. 具有代表性:评估程序应反映真实世界的使用情况,或至少具有多样性。
  2. 包含多个测试用例:增加测试用例可以提高统计效力,从而更准确地评估改进措施的效果。
  3. 易于自动化或重复:评估程序应便于自动化执行或重复进行,以便在不同阶段对系统进行持续评估。

输出评估可以由计算机、人类或两者混合完成。计算机可以使用客观标准(如只有一个正确答案的问题)以及一些主观或模糊标准进行自动评估。例如,OpenAI Evals是一个开源软件框架,提供了创建自动评估的工具,可以帮助用户根据特定标准对模型输出进行评估。

将模型输出与标准答案进行对比评估

在某些情况下,我们可以通过将模型输出与已知的标准答案进行对比,来评估模型的表现。例如,如果已知问题的正确答案应包含一组特定的已知事实,我们可以使用模型查询来计算答案中包含了多少必需的事实。这种方法可以帮助我们更准确地评估模型在处理特定问题时的表现。

这里我们举个例子,这是一个满足全部条件的示例输入,提示语:

你将得到由三个引号分隔的文本,这应是对一个问题的答案。请检查以下信息是否直接包含在答案中:


 



























- 尼尔·阿姆斯特朗是第一个登月的人。


- 尼尔·阿姆斯特朗第一次登月的日期是1969年7月21日。


 







对于每一个信息,请执行以下步骤:


 





1 - 重新陈述该信息。


2 - 从答案中引用最接近此信息的内容。


3 - 考虑一下,如果一个不了解这个主题的人读了这个引用,他是否能直接推断出这个信息。在做出决定之前,解释为什么可以或者为什么不可以。


4 - 如果第3步的答案是肯定的,那么写“是”,否则写“否”。


 















最后,计算出有多少个“是”的答案。将这个计数以{"计数": <插入计数> }的形式提供。


 









文本:


"""尼尔·阿姆斯特朗因为成为首位登上月球的人类而闻名于世。这一历史性的事件发生在1969年7月21日,阿波罗11号任务期间。"""

这里的文本即是模型的输出,我们这里仅展示了对模型输出的评估。

小语 4.0 回复:

1 - 重新陈述该信息:
尼尔·阿姆斯特朗是第一个登上月球的人。
 

2 - 从答案中引用最接近此信息的内容:
"尼尔·阿姆斯特朗因为成为首位登上月球的人类而闻名于世。"
 











3 - 考虑一下,如果一个不了解这个主题的人读了这个引用,他是否能直接推断出这个信息。在做出决定之前,解释为什么可以或者为什么不可以。
可以。因为引用中明确提到了尼尔·阿姆斯特朗是第一个登上月球的人类。
 


4 - 如果第3步的答案是肯定的,那么写“是”,否则写“否”。
是。
 















1 - 重新陈述该信息:
尼尔·阿姆斯特朗在1969年7月21日第一次登月。
 



2 - 从答案中引用最接近此信息的内容:
"这一历史性的事件发生在1969年7月21日,阿波罗11号任务期间。"
 

3 - 考虑一下,如果一个不了解这个主题的人读了这个引用,他是否能直接推断出这个信息。在做出决定之前,解释为什么可以或者为什么不可以。
可以。因为引用中明确提到了这一历史性事件发生在1969年7月21日,阿波罗11号任务期间。
 

4 - 如果第3步的答案是肯定的,那么写“是”,否则写“否”。
是。
 
最后,计算出有多少个“是”的答案。将这个计数以{"计数": <插入计数> }的形式提供。
{"计数": 2}

这是一个只满足一个条件的示例输入,提示语:

你将得到由三个引号分隔的文本,这应是对一个问题的答案。请检查以下信息是否直接包含在答案中:


 



























- 尼尔·阿姆斯特朗是第一个登月的人。


- 尼尔·阿姆斯特朗第一次登月的日期是1969年7月21日。


 







对于每一个信息,请执行以下步骤:


 





1 - 重新陈述该信息。


2 - 从答案中引用最接近此信息的内容。


3 - 考虑一下,如果一个不了解这个主题的人读了这个引用,他是否能直接推断出这个信息。在做出决定之前,解释为什么可以或者为什么不可以。


4 - 如果第3步的答案是肯定的,那么写“是”,否则写“否”。


 















最后,计算出有多少个“是”的答案。将这个计数以{"计数": <插入计数> }的形式提供。


 









文本:


"""尼尔·阿姆斯特朗从登月舱走出来,成为第一个在月球上行走的人,创造了历史。"""

小语 4.0 回复:

1 - 重新陈述该信息:
- 尼尔·阿姆斯特朗是第一个在月球上行走的人。
- 尼尔·阿姆斯特朗登月的具体日期未提及。
 


















2 - 从答案中引用最接近此信息的内容:
- "尼尔·阿姆斯特朗从登月舱走出来,成为第一个在月球上行走的人,创造了历史。"
 





3 - 考虑一下,如果一个不了解这个主题的人读了这个引用,他是否能直接推断出这个信息。
- 对于第一个信息,可以直接推断出尼尔·阿姆斯特朗是第一个在月球上行走的人,因为引用中明确提到了这一点。
- 对于第二个信息,无法从引用中推断出尼尔·阿姆斯特朗登月的具体日期,因为引用中没有提到日期。
 
4 - 结果:
- 是
- 否
 



{"计数": 1}

这是一个没有满足条件的示例输入,提示语:

你将得到由三个引号分隔的文本,这应是对一个问题的答案。请检查以下信息是否直接包含在答案中:


 



























- 尼尔·阿姆斯特朗是第一个登月的人。


- 尼尔·阿姆斯特朗第一次登月的日期是1969年7月21日。


 







对于每一个信息,请执行以下步骤:


 





1 - 重新陈述该信息。


2 - 从答案中引用最接近此信息的内容。


3 - 考虑一下,如果一个不了解这个主题的人读了这个引用,他是否能直接推断出这个信息。在做出决定之前,解释为什么可以或者为什么不可以。


4 - 如果第3步的答案是肯定的,那么写“是”,否则写“否”。


 















最后,计算出有多少个“是”的答案。将这个计数以{"计数": <插入计数> }的形式提供。


 









文本:


"""在69年的夏天,一次伟大的航行,阿波罗11号,如传说中的勇士一般。尼尔·阿姆斯特朗成为了继巴兹·奥尔德林之后的第二个在月球上行走的人。"""

小语 4.0 回复:

1 - 重新陈述该信息:尼尔·阿姆斯特朗是第一个登月的人。
2 - 从答案中引用最接近此信息的内容:“尼尔·阿姆斯特朗成为了继巴兹·奥尔德林之后的第二个在月球上行走的人。”
3 - 考虑一下,如果一个不了解这个主题的人读了这个引用,他是否能直接推断出这个信息。在做出决定之前,解释为什么可以或者为什么不可以:不可以,因为文本中提到尼尔·阿姆斯特朗是在巴兹·奥尔德林之后的第二个在月球上行走的人,而不是第一个。
4 - 如果第3步的答案是肯定的,那么写“是”,否则写“否”:否。
 







1 - 重新陈述该信息:尼尔·阿姆斯特朗第一次登月的日期是1969年7月21日。
2 - 从答案中引用最接近此信息的内容:“在69年的夏天,一次伟大的航行,阿波罗11号,如传说中的勇士一般。”
3 - 考虑一下,如果一个不了解这个主题的人读了这个引用,他是否能直接推断出这个信息。在做出决定之前,解释为什么可以或者为什么不可以:不可以,因为文本中只提到了1969年夏天,而没有具体到7月21日。
4 - 如果第3步的答案是肯定的,那么写“是”,否则写“否”:否。
 









最后,计算出有多少个“是”的答案。将这个计数以{"计数": <插入计数> }的形式提供。
 















{"计数": 0}

跟踪模型输出与标准答案的重叠类型以及是否矛盾

此外,除了上述将模型输出与标准答案进行对比评估。还可以使用例如跟踪候选答案与标准答案之间的重叠类型,以及候选答案是否与标准答案的任何部分相矛盾。这种评估方法可以帮助我们更全面地了解模型在处理各种问题时的表现,从而为进一步优化模型提供有价值的参考。

以下是一个例子,其中的答案虽然不够理想,但却并未与专家答案产生矛盾,提示语:

请按照以下步骤处理用户的输入。在进行下一步前,请详细复述每个步骤,例如:“步骤1:逐步推理...”。


 



























步骤1:逐步推理提交的答案与专家答案中的信息是否为以下几种情况之一:不相交、完全相等、是子集(即提交的答案信息比专家答案少)、是超集(即提交的答案信息比专家答案多),或有部分交集(即有一些交集,但并非子集或超集)。


 


















步骤2:逐步推理提交的答案是否与专家答案的任何部分产生矛盾。



 











步骤3:输出一个结构如下的JSON对象:{"重叠类型": "不相交" 或 "完全相等" 或 "是子集" 或 "是超集" 或 "有部分交集", "矛盾": "真" 或 "假"}。


 












用户输入:


"""


问题:“尼尔·阿姆斯特朗最为人所知的事件是什么?它在什么时候发生的?假设使用UTC时间。”

 















提交的答案:“他不是在月球上行走过吗?”
 









专家的答案:“尼尔·阿姆斯特朗最为人所知的是他成为第一个在月球上行走的人。这个历史性的事件发生在1969年7月21日。”


"""


小语 4.0 回复:

步骤1:逐步推理提交的答案与专家答案中的信息是否为以下几种情况之一:不相交、完全相等、是子集(即提交的答案信息比专家答案少)、是超集(即提交的答案信息比专家答案多),或有部分交集(即有一些交集,但并非子集或超集)。
 



























在这个例子中,提交的答案与专家答案有部分交集。提交的答案提到了尼尔·阿姆斯特朗在月球上行走,而专家答案也提到了这一点。但是,提交的答案没有提到具体的日期,而专家答案提供了详细的日期。
 


















步骤2:逐步推理提交的答案是否与专家答案的任何部分产生矛盾。



 











在这个例子中,提交的答案与专家答案没有产生矛盾。
 












步骤3:输出一个结构如下的JSON对象:{"重叠类型": "不相交" 或 "完全相等" 或 "是子集" 或 "是超集" 或 "有部分交集", "矛盾": "真" 或 "假"}。
 









在这个例子中,输出的JSON对象为:{"重叠类型": "有部分交集", "矛盾": "假"}。

这是一个带有答案的示例输入,直接与专家答案相矛盾,提示语:

请按照以下步骤处理用户的输入。在进行下一步前,请详细复述每个步骤,例如:“步骤1:逐步推理...”。


 



























步骤1:逐步推理提交的答案与专家答案中的信息是否为以下几种情况之一:不相交、完全相等、是子集(即提交的答案信息比专家答案少)、是超集(即提交的答案信息比专家答案多),或有部分交集(即有一些交集,但并非子集或超集)。


 


















步骤2:逐步推理提交的答案是否与专家答案的任何部分产生矛盾。



 











步骤3:输出一个结构如下的JSON对象:{"重叠类型": "不相交" 或 "完全相等" 或 "是子集" 或 "是超集" 或 "有部分交集", "矛盾": "真" 或 "假"}。


 












用户输入:


"""


问题:“尼尔·阿姆斯特朗最为人所知的事件是什么?它在什么时候发生的?假设使用UTC 时间。”
 















提交的答案:“1969年7月21日,尼尔·阿姆斯特朗成为了继巴兹·奥尔德林之后的第二个在月球上行走的人。”
 









专家的答案:“尼尔·阿姆斯特朗最为人所知的是他成为第一个在月球上行走的人。这个历史性的事件发生在1969年7月21日。”


"""


小语 4.0 回复:

步骤1:逐步推理提交的答案与专家答案的关系。在这个例子中,提交的答案与专家答案有部分交集。因为它们都提到了尼尔·阿姆斯特朗在月球上行走的事件和发生的时间,但提交的答案错误地将尼尔·阿姆斯特朗描述为第二个在月球上行走的人。
 



























步骤2:逐步推理提交的答案是否与专家答案的任何部分产生矛盾。在这个例子中,提交的答案与专家答案产生了矛盾,因为它错误地将尼尔·阿姆斯特朗描述为第二个在月球上行走的人,而专家答案指出他是第一个。
 


















步骤3:输出一个结构如下的JSON对象:{"重叠类型": "有部分交集", "矛盾": "真"}。

这是一个示例输入,其中的答案是正确的,但提供的详细信息稍微超出了必要范围,提示语:

请按照以下步骤处理用户的输入。在进行下一步前,请详细复述每个步骤,例如:“步骤1:逐步推理...”。


 



























步骤1:逐步推理提交的答案与专家答案中的信息是否为以下几种情况之一:不相交、完全相等、是子集(即提交的答案信息比专家答案少)、是超集(即提交的答案信息比专家答案多),或有部分交集(即有一些交集,但并非子集或超集)。


 


















步骤2:逐步推理提交的答案是否与专家答案的任何部分产生矛盾。



 











步骤3:输出一个结构如下的JSON对象:{"重叠类型": "不相交" 或 "完全相等" 或 "是子集" 或 "是超集" 或 "有部分交集", "矛盾": "真" 或 "假"}。


 












用户输入:


"""


问题:“尼尔·阿姆斯特朗最为人所知的事件是什么?它在什么时候发生的?假设使用UTC时间。”

 















提交的答案:“1969年7月21日,约在02:56UTC时间,尼尔·阿姆斯特朗成为第一个踏上月球表面的人类,这标志着人类历史上的一个重大成就。”
 









专家的答案:“尼尔·阿姆斯特朗最为人所知的是他成为第一个在月球上行走的人。这个历史性的事件发生在1969年7月21日。”


"""


小语 4.0 回复:

步骤1:逐步推理提交的答案与专家答案中的信息情况为:是超集(即提交的答案信息比专家答案多)。
 



























步骤2:逐步推理提交的答案与专家答案的任何部分没有产生矛盾。
 


















步骤3:输出一个结构如下的JSON对象:{"重叠类型": "是超集", "矛盾": "假"}。

© 版权声明
THE END
喜欢就支持一下吧
点赞0

Warning: mysqli_query(): (HY000/3): Error writing file '/tmp/MY9gM0BQ' (Errcode: 28 - No space left on device) in /www/wwwroot/583.cn/wp-includes/class-wpdb.php on line 2345
admin的头像-五八三
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

图形验证码
取消
昵称代码图片