0

0

你的朋友也在看!谷歌STUDY算法加持书单推荐系统,让学生爱上阅读

WBOY

WBOY

发布时间:2023-09-16 20:29:02

|

1290人浏览过

|

来源于51CTO.COM

转载

开卷有益,是我们一直以来的认识。阅读可以帮助人们提高自己的语言能力、学习到新的技能....

阅读还能够改善情绪,提高心理健康水平。经常阅读的人有更丰富的常识以及对其他文化更深入的理解。

并且,有研究证实愉悦阅读与学业成功相关。

但在信息爆炸的时代,线上与线下的阅读资源都十分丰富。读什么,就成为了一项艰巨的挑战。

尤其是阅读的内容既要匹配不同的年龄阶段,又要引人入胜。

而推荐系统则是这个挑战的解决方案。它能够向读者呈现相关的阅读材料,并帮助他们保持阅读的兴趣。

推荐系统的核心是机器学习(Machine learning, ML),它被广泛应用于构建各种类型的推荐系统中:从视频到图书,再到电商平台等。

经过训练的ML 模型可以根据用户偏好、用户参与度和推荐的项目单独向每个用户进行推荐,从而改善用户体验。

谷歌最新的研究提出了一种考虑到阅读的社会性质(如教育环境)的有声读物内容推荐系统:STUDY算法。

由于一个人的同龄人目前正在阅读的内容会对他们感兴趣的阅读内容有重大影响,因此,谷歌与Learning Ally进行了合作。

Learning Ally是一家教育非营利组织,拥有一个针对学生的大型精选有声读物数字图书馆,非常适合构建社交推荐模型。

这能使模型能够从有关学生本地化社交群体的(如教室)实时信息中获益。

STUDY算法

STUDY算法采用了将推荐内容问题建模为点击率预测问题的方法。

其中模拟用户与每个特定项目的交互概率取决于:

1)用户和项目特征

2)该用户的项目交互历史序列。

之前的工作表明Transformer模型非常适合建模这个问题。

当单独处理每个用户时,模拟交互就成为了一个自回归序列建模问题。

STUDY算法是通过这一概念框架对数据建模,然后对这个框架进行扩展的最终成品。

点击率预测问题可以对个别用户过去和未来的项目偏好之间的依赖关系进行建模,并且可以在训练时学习用户之间的相似性模式。

但有一个问题是,点击率预测的方法无法对不同用户之间的依赖关系进行建模。

为此,谷歌开发了STUDY模型,可以解决自回归序列建模中无法对阅读的社会性质进行建模的缺陷。

STUDY可以将多个学生在一个课堂上阅读的书籍序列连接成一个序列,从而在一个模型中收集多个学生的数据。

但是,在用Transformer对这种数据表示进行建模时,需要仔细研究这种数据表征。

在Transformer中,注意力掩码是控制哪些输入可用于预测哪些输出的矩阵。

在序列中使用所有先前的token来为输出的预测提供信息的模式,会导致上三角形注意力矩阵,它一般会在因果解码器中被发现。

然而,由于输入进STUDY模型的序列不是按时间顺序的,尽管它的每个组成子序列都是按时间顺序,传统的因果解码器也不再适合这种序列。

在试图预测每个token时,模型不允许注意力转向序列中出现在它之前的每个token;其中一些token可能具有较晚的时间戳,并包含在部署时不可用的信息中。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

你的朋友也在看!谷歌STUDY算法加持书单推荐系统,让学生爱上阅读图片

因果解码器中通常使用的注意力掩码。每一列代表一个输出,每一列代表一个输出。矩阵条目在特定位置的值为1(显示为蓝色),表示模型在预测相应列的输出时可以观察到该行的输入,而值为0(显示为白色)则表示相反。

STUDY 模型以因果转换器为基础,将三角矩阵注意力掩码替换为基于时间戳的灵活注意力掩码,从而允许跨不同子序列的注意力。

与普通转换器相比,STUDY 模型在一个序列中保持一个因果三角注意矩阵,并在不同序列中具有灵活的值,这些值取决于时间戳。

因此,序列中任何输出点的预测都会参考相对于当前时间点过去发生的所有输入点,无论它们是出现在序列中当前输入点之前还是之后。

这一因果约束非常重要,因为如果在训练时不执行这一约束,模型就有可能学会利用未来的信息进行预测,而这在现实世界的部署中是无法实现的。

你的朋友也在看!谷歌STUDY算法加持书单推荐系统,让学生爱上阅读图片

(a)一个具有因果注意力的顺序自回归变换器,它可以单独处理每个用户;(b)一个等效的联合前向传递,其计算结果与(a)相同;(c)通过在注意力掩码中引入新的非零值(紫色显示),允许信息在用户间流动。为此,研究者允许预测以时间戳较早的所有交互为条件,而不论交互是否来自同一用户

实验

谷歌使用Learning Ally数据集来训练STUDY模型,并使用多个基线进行比较。

团队使用了自回归点击率转换解码器(称之为「个人」)、k-近邻基线(KNN)和可比较的社会基线——社会注意力记忆网络(SAMN)。

他们使用第一学年的数据进行训练,使用第二学年的数据进行验证和测试。

团队通过测量用户实际交互的下一个项目,在模型的前n个建议中的时间百分比,来评估这些模型。

除了在整个测试集上对模型进行评估外,团队还报告了模型在测试集的两个子集上的得分,这两个子集比整个数据集更具挑战性。

可以观察到,学生通常会与有声读物进行多次互动,因此,简单地推荐用户阅读的最后一本书,就显得微不足道。

因此,研究者将第一个测试子集称为「非延续」,在这个子集中,我们只考察每个模型在学生与不同于前一次互动的书籍进行互动时的推荐性能。

另外,团队还观察到,学生们会重温他们过去读过的书,因此,将为每个学生推荐的书本限制在他们过去读过的书本范围内,就可以在测试集上取得很好的表现。

尽管向学生推荐他们过去最喜欢的书籍可能有一定的价值,但推荐系统的大部分价值还是来自于向用户推荐新的、未知的内容。

为了衡量这一点,团队在测试集的子集上对模型进行了评估,在这个子集上,学生们第一次与书目进行交互。我们将这个评估子集命名为「新子集」。

可以发现,「STUDY 」在几乎所有评估中,都优于其他模型。

你的朋友也在看!谷歌STUDY算法加持书单推荐系统,让学生爱上阅读图片

适当分组的重要性

STUDY算法的核心是将用户分组,并在模型的单次前向传递中对同组的多个用户进行联合推断。

研究人员通过一项消融研究,考察了实际分组对模型性能的重要性。

在提出的模型中,研究人员将同一年级和学校的所有学生进行分组。

然后试验了由同一年级和同一学区的所有学生定义的分组,以及将所有学生归入一个组中,并在每次前向传递时使用随机子集的分组。

研究人员还将这些模型与 「个人」模型进行了比较,以供参考。

研究发现,使用更本地化的小组更有效,即学校和年级分组优于学区和年级分组。

这支持了一个假设,即研究模式之所以成功,是因为阅读等活动具有社会性:人们的阅读选择很可能与周围人的阅读选择相关联。

在不使用年级对学生进行分组的情况下,这两种模式的表现都优于其他两种模式(单一小组模式和个人模式)。

这表明,阅读水平和兴趣相似的用户的数据有利于提高模型的性能。

最后,谷歌的这项研究是仅限于假定社交关系是同质的用户群进行建模的。

参考资料:

https://www.php.cn/link/0b32f1a9efe5edf3dd2f38b0c0052bfe

LongShot
LongShot

LongShot 是一款 AI 写作助手,可帮助您生成针对搜索引擎优化的内容博客。

下载

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6197

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

820

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1070

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1359

2024.03.01

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

411

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2115

2024.08.16

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

8

2026.01.30

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

9

2026.01.30

java 字符串格式化
java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

8

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Node.js 教程
Node.js 教程

共57课时 | 9.8万人学习

CSS3 教程
CSS3 教程

共18课时 | 5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号