0

0

PHP 中的机器学习:使用 Rubix ML 构建新闻分类器

花韻仙語

花韻仙語

发布时间:2024-11-02 11:10:09

|

688人浏览过

|

来源于dev.to

转载

php 中的机器学习:使用 rubix ml 构建新闻分类器

介绍

机器学习无处不在——推荐电影、标记图像,现在甚至对新闻文章进行分类。想象一下如果您可以在 php 中做到这一点!借助 rubix ml,您可以以简单易懂的方式将机器学习的强大功能引入 php。本指南将引导您构建一个简单的新闻分类器,将文章分类为“体育”或“技术”等类别。最后,您将拥有一个工作分类器,可以根据新文章的内容预测其类别。

这个项目非常适合想要使用 php 进行机器学习的初学者,您可以按照 github 上的完整代码进行操作。

目录

  1. 什么是 rubix ml?
  2. 设置项目
  3. 创建新闻分类类
  4. 训练模型
  5. 预测新样本
  6. 最后的想法

rubix 机器学习是什么?

rubix ml 是一个 php 机器学习库,它将 ml 工具和算法引入 php 友好的环境中。无论您从事分类、回归、聚类,甚至自然语言处理,rubix ml 都能满足您的需求。它允许您加载和预处理数据、训练模型并评估性能——所有这些都在 php 中进行。

rubix ml 支持广泛的机器学习任务,例如:

立即学习PHP免费学习笔记(深入)”;

  • 分类:对数据进行分类,例如将电子邮件标记为垃圾邮件或非垃圾邮件。
  • 回归:预测连续值,例如房价。
  • 聚类:对没有标签的数据进行分组,就像寻找客户群一样。
  • 自然语言处理 (nlp):处理文本数据,例如标记并将其转换为 ml 可用的格式。

让我们深入了解如何使用 rubix ml 在 php 中构建简单的新闻分类器!

设置项目

我们将首先使用 rubix ml 设置一个新的 php 项目并配置自动加载。

第1步:初始化项目目录

创建一个新的项目目录并导航到其中:

mkdir newsclassifier
cd newsclassifier

第 2 步:安装 rubix ml 和 composer

确保您已安装 composer,然后通过运行以下命令将 rubix ml 添加到您的项目中:

composer require rubix/ml

步骤3:在composer.json中配置自动加载

要从项目的 src 目录自动加载类,请打开或创建一个composer.json 文件并添加以下配置:

{
    "autoload": {
        "psr-4": {
            "newsclassifier\": "src/"
        }
    },
    "require": {
        "rubix/ml": "^2.5"
    }
}

这告诉 composer 自动加载 newsclassifier 命名空间下 src 文件夹中的任何类。

第 4 步:运行 composer autoload dump

添加自动加载配置后,运行以下命令重新生成 composer 的自动加载器:

ImgGood
ImgGood

免费在线AI照片编辑器

下载
composer dump-autoload

第5步:目录结构

您的项目目录应如下所示:

newsclassifier/
├── src/
│   ├── classification.php
│   └── train.php
├── storage/
├── vendor/
├── composer.json
└── composer.lock
  • src/:包含您的 php 脚本。
  • storage/:训练后的模型的保存位置。
  • vendor/:包含 composer 安装的依赖项。

创建新闻分类类

在 src/ 中,创建一个名为 classification.php 的文件。该文件将包含训练模型和预测新闻类别的方法。

<?php

namespace newsclassifier;

use rubixmlclassifiersknearestneighbors;
use rubixmldatasetslabeled;
use rubixmldatasetsunlabeled;
use rubixmlpersistentmodel;
use rubixmlpipeline;
use rubixml	okenizersword;
use rubixml	ransformers	fidftransformer;
use rubixml	ransformerswordcountvectorizer;
use rubixmlpersistersilesystem;

class classification
{
    private $modelpath;

    public function __construct($modelpath)
    {
        $this->modelpath = $modelpath;
    }

    public function train()
    {
        // sample data and corresponding labels
        $samples = [
            ['the team played an amazing game of soccer'],
            ['the new programming language has been released'],
            ['the match between the two teams was incredible'],
            ['the new tech gadget has been launched'],
        ];

        $labels = [
            'sports',
            'technology',
            'sports',
            'technology',
        ];

        // create a labeled dataset
        $dataset = new labeled($samples, $labels);

        // set up the pipeline with a text transformer and k-nearest neighbors classifier
        $estimator = new pipeline([
            new wordcountvectorizer(10000, 1, 1, new word()),
            new tfidftransformer(),
        ], new knearestneighbors(4));

        // train the model
        $estimator->train($dataset);

        // save the model
        $this->savemodel($estimator);

        echo "training completed and model saved.
";
    }

    private function savemodel($estimator)
    {
        $persister = new filesystem($this->modelpath);
        $model = new persistentmodel($estimator, $persister);
        $model->save();
    }

    public function predict(array $samples)
    {
        // load the saved model
        $persister = new filesystem($this->modelpath);
        $model = persistentmodel::load($persister);

        // predict categories for new samples
        $dataset = new unlabeled($samples);
        return $model->predict($dataset);
    }
}

此分类类包含以下方法:

  • 训练:创建并训练基于管道的模型。
  • 保存模型:将训练好的模型保存到指定路径
  • 预测:加载保存的模型并预测新样本的类别。

训练模型

在 src/ 中创建一个名为 train.php 的脚本来训练模型。

<?php

require __dir__ . '/../vendor/autoload.php';

use newsclassifierclassification;

// define the model path
$modelpath = __dir__ . '/../storage/model.rbx';

// initialize the classification object
$classifier = new classification($modelpath);

// train the model and save it
$classifier->train();

运行此脚本来训练模型:

php src/train.php

如果成功,您将看到:

training completed and model saved.

预测新样本

在 src/ 中创建另一个脚本,predict.php,根据训练的模型对新文章进行分类。

<?php

require __dir__ . '/../vendor/autoload.php';

use newsclassifierclassification;

// define the path to the saved model
$modelpath = __dir__ . '/../storage/model.rbx';

// initialize the classification object
$classifier = new classification($modelpath);

// define new samples for classification
$samples = [
    ['the team played an amazing game of soccer, showing excellent teamwork and strategy.'],
    ['the latest programming language release introduces features that enhance coding efficiency.'],
    ['an incredible match between two top teams ended in a thrilling draw last night.'],
    ['this new tech gadget includes features never before seen, setting a new standard in the industry.'],
];

// predict categories
$predictions = $classifier->predict($samples);

// display predictions
foreach ($predictions as $index => $prediction) {
    echo "sample: " . $samples[$index][0] . "
";
    echo "prediction: " . $prediction . "

";
}

运行预测脚本对样本进行分类:

php src/predict.php

输出应显示每个示例文本及其预测类别。

最后的想法

通过本指南,您已经使用 rubix ml 在 php 中成功构建了一个简单的新闻分类器!这展示了 php 如何比您想象的更加通用,为文本分类、推荐系统等任务引入机器学习功能。该项目的完整代码可在 github 上获取。

尝试不同的算法或数据来扩展分类器。谁知道 php 可以进行机器学习?现在你知道了。
快乐编码!

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
composer是什么插件
composer是什么插件

Composer是一个PHP的依赖管理工具,它可以帮助开发者在PHP项目中管理和安装依赖的库文件。Composer通过一个中央化的存储库来管理所有的依赖库文件,这个存储库包含了各种可用的依赖库的信息和版本信息。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

162

2023.12.25

json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

457

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

549

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4371

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

503

2023.08.14

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

418

2026.01.27

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 4.2万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.6万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 94人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号