来源|多知网
作者 | 王上
(资料图片仅供参考)
图片来源 |OpenAI 官网
美东时间 3 月 14 日,ChatGPT 开发企业 OpenAI 发布了 GPT-4,它支持图片和文本输入,在各种专业和学术基准上达到 " 人类水平 "。
目前,GPT-4 仅可以在付费版 ChatGPT Plus 上使用,OpenAI 为开发人员提供 API(应用程序编程接口)以构建应用和服务。有用户体验后提到,从 ChatGPT ( GPT-3.5 ) 到 GPT-4,可以说是从一个高中生达到了研究生的水平。
此前,多知网报道过 ChatGPT 不擅长解答数理化等问题,而今,不到 2 个月的时间,GPT-4 对各种标准化考试可以轻松拿捏。这对教育行业来说意义重大。
当前,诸如 Duolingo ( 多邻国 ) 、Khan Academy ( 可汗学院 ) 等企业已经使用了 GPT-4。
多邻国提到,GPT-4 提供比以往任何时候都更有效和更吸引人的学习体验,这会提高学习效果。此外,GPT-4 的便利性简化了整个工作的流程。
可汗学院首席学习官 Kristen DiCerbo 认为,GPT-4 正在开辟教育的新领域,它是革命性的。
01
深度学习的里程碑!GPT-4 在各种专业和学术基准上接近人类
3 月 14 日,OpenAI 在其官网上发布了推出 GPT-4 的公告。公告称,OpenAI 已正式推出 GPT-4,这也是 OpenAI 在扩大深度学习方面的最新里程碑。GPT-4 是大型多模态模型,尽管在许多现实世界的场景中能力不如人类,但它可以在各种专业和学术基准上,表现出近似人类水平的性能。
例如,GPT-4 通过了模拟的律师考试,分数约为全部应试者的前 10%。而相比之下,GPT-3.5 的分数大约是后 10%。" 我们团队花了 6 个月时间,利用对抗性测试项目以及基于 ChatGPT 的相关经验,反复对 GPT-4 进行调整。结果是,GPT-4 在事实性(factuality)、可引导性(steerability)和拒绝超范围解答 ( 非合规 ) 问题方面取得了有史以来最好的结果(尽管它还不够完美)。"
(GPT-4 多种基准考试测试的成绩)据 OpenAI 介绍,GPT-4 参加了多种基准考试测试,包括美国律师资格考试 Uniform Bar Exam、法学院入学考试 LSAT、" 美国高考 " SAT 数学部分和证据性阅读与写作部分的考试,在这些测试中,它的得分高 88% 的应试者。
OpenAI 官网上介绍,在简单聊天时,也许感受不到 GPT-3.5 和 GPT-4 之间的区别。但是,当任务的复杂性达到足够的阈值时,它们的区别就出来了。具体来说,GPT-4 比 GPT-3.5 更可靠,更有创造力,能够处理更细微的指令。
OpenAI 工程师在视频中介绍,比如简单写一个想法框架,拍照发到 GPT-4 上告诉它要做一个网站, GPT-4 可以生成网站代码。OpenAI 表示, GPT-4 产生的错误答案更少,将更少地偏离谈话轨道,更少地谈论禁忌话题,甚至在许多标准化测试中比人类表现得更好。
02
GPT-4 开辟教育新领域
OpenAI 官网给出了多邻国、By My Eyes、摩根士丹利、Khan Academy ( 可汗学院 ) 等的 6 个使用 GPT-4 的案例。微软也表示,新必应搜索引擎正在运行 GPT-4。
多邻国和可汗学院都是教育产品,可以说,加入 GPT-4 后大大改变了内部流程,提升了效率,也提升了用户体验。
1、多邻国将 GPT-4 加入对话环节:提升用户体验,提升了效率。
多邻国是一个以游戏化方式学习语言的软件,每个月有超过 5000 万学习者使用其学习第二语言。通过简洁的用户界面和有趣且有竞争力的排行榜,涵盖 100 多种课程,支持 40 种语言。学习者可以通过在手机上轻拍和滑动,从简单的词汇练习过渡到复杂的句子结构。
如果一个学习者想要超越基本的熟练程度,了解语法规则是很有帮助的。但真正精通一门语言需要对话,比如学习英语,最好是与以英语为母语的人对话,这不是每个人都能做到的。
" 人工智能一直是我们战略的重要组成部分," 多邻国首席产品经理埃德温 · 博奇 ( Edwin Bodge ) 说。" 我们一直在用它进行个性化课程和多邻国英语测试。但在学习者的学习过程中,我们希望填补一些空白:对话练习,以及对错误的上下文反馈。"
(多邻国的法语对话练习)" 我们希望将人工智能功能深度集成到应用程序中,并利用在我们的学习者喜欢的多邻国的游戏化方面。"埃德温 · 博奇 ( Edwin Bodge ) 说道。
在语言学习中有一种最好的做法,叫做 " 内隐学习 ( implicit learning ) ",通过在一系列语境中反复使用词汇和语法来学习,不知不觉中获得某种知识。换句话说,通过实践比记忆规则更有效。这让多邻国进行了一次有趣的尝试。
多邻国的许多学习者都想学习明确的规则,多邻国则试图用预先写好的语法提示和人工智能来教他们。即使使用 GPT-3,实现也很困难。教语法需要对错误有明确的理解,以及知道学习者犯错误的原因。解释一个不正确的术语可能会错误地教授概念,或者让用户感到困惑和不满。
多邻国首席工程师比尔 · 彼得森 ( Bill Peterson ) 说:"GPT-4 让我们对‘解释我的答案 ( Explain my Answer ) ’中人工智能回答的准确性更有信心。"
有了这些新功能,学习者可以点击 " 解释我的答案 ( Explain my Answer ) ",GPT-4 将给出初步回应。学习者可以回到课程,或得到进一步的解释,GPT-4 可以动态更新。多邻国将根据学习者在回到课堂前需要学习的深度来衡量 GPT-4 的反应质量。
多邻国认为,GPT-4 提供比以往任何时候都更有效和更吸引人的学习体验,这应该会提高学习效果。此外,GPT-4 的便利性简化了整个工作的流程。
" 一天之内,我们就做出了一个原型,这让我们确信这是我们想要进一步探索的东西。它能让我们很快地从 0 到 95%。然后剩余的 5%,我们可以手动调整数据。" 彼得森说道。
现在,多邻国的团队更专注于测试和打磨数据集。
2、可汗学院加入 GPT-4:化身学生的虚拟导师,和老师的课堂助手
可汗学院是一家教育性非营利组织,其利用视频进行免费授课,现有关于数学、历史、金融、物理、化学、生物、天文学等科目的内容,教学视频超过 2000 段。
但是,每个学生都是独一无二的,他们对概念和技能的把握也是千差万别。有些人可以轻松掌握一个主题,而有些人则需要循序渐进地提升。尤其是疫情期间,让这种差距加剧。
(可汗学院的应用案例)可汗学院的首席学习官 Kristen DiCerbo 说 :" 考虑到每个人的不同需求,让他们不断进步是一项挑战。他们都处于不同的水平,有不同的差距。他们都需要不同的东西来前进。这是我们长期以来一直试图解决的问题。"
今天,可汗学院宣布将使用 GPT-4 为其人工智能助手 "Khanmigo" 提供技术支撑,Khanmigo 既可以作为学生的虚拟导师,也可以作为教师的课堂助手。这家非营利组织于 2022 年开始测试 OpenAI 语言模型的最新版本,最初将向有限数量的参与者提供 Khanmigo 试点项目,不过公众也可以加入候补名单。
Kristen DiCerbo 说:"我们认为 GPT-4 正在开辟教育的新领域。很久以来,很多人都梦想着这种技术。它是革命性的,我们计划进一步测试,以探索它是否能有效地用于学习和教学。"
可汗学院将 Khanmigo 作为探索人工智能的试点,早期参与者将反馈错误,特别是在数学问题上,将标记出来进行纠正。
GPT-4 的主要功能之一是能够理解自由形式的问题和提示。这种像人一样来回走动的能力,可能为可汗学院提供了最关键的能力:向每个学生提出个性化的问题,以促进更深层次的学习。
Kristen DiCerbo 说:" 我们和所有教育技术公司都在努力解决的一个问题是,如何让学生深入思考他们正在学习的内容。比如,‘你为什么那样回答?你为什么这么认为?会发生什么?’所以我们要确保学生不仅仅是理解如何做题,还要真正理解题目背后的概念。"
可汗学院的早期测试表明,GPT-4 可能很快就能帮助学生将相关性学习内容结合起来。
" 这些都是我们深入思考的问题,然后 GPT-4 出现了," 可汗学院工程总监 Shawn Jansepar 说。" 我们认为这项技术是一种潜在的方式,可以在未来几年加速我们的路线图,在我们的平台上构建更多类似导师的能力,同时还提供我们以前梦想过的功能。没有一个真正强大的大语言模型,这些想法是不可行的,但现在我们认为我们可以取得真正的进展。"
为教师调整 GPT-4 也是可汗学院的首要任务,当前,他们正在测试教师使用 GPT-4 的方法,比如编写课堂提示或创建教学材料。
可汗学院相关负责人说 :" 更令人兴奋的是,它有可能帮助教师快速、轻松地为每个学生量身定制学习。我们认为教师可以使用 GPT-4 来了解他们班上每个学生在任何一天在可汗学院的表现。我们将在不久的将来测试这一功能。"
相关阅读:
倪闽景:面对 ChatGPT,传统教育已被逼入墙角?
用 ChatGPT 搞学习?还是别了吧
ChatGPT 月活用户破亿,开始探索商业化推出付费版
Coursera CEO:ChatGPT 或引发新一轮技能再培训浪潮
北京经信局:支持头部企业打造对标 ChatGPT 的大模型
END
本文作者:王上