基于增量式学习的可扩展偏最小二乘模型的研究 - 专知基金

会员服务 ·

0

增量式学习 · 偏最小二乘 · 大数据 · 数据降维 ·

2014 年 12 月 31 日

基于增量式学习的可扩展偏最小二乘模型的研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于增量式学习的可扩展偏最小二乘模型的研究

项目编号： No.61463033

项目类型： 地区科学基金项目

立项/批准年度： 2015

项目学科： 其他

项目作者： 曾雪强

作者单位： 南昌大学

项目金额： 44万元

中文摘要： 在大数据时代，数据量的急剧增长给传统机器学习技术带来了严峻挑战；如何让传统的机器学习模型能够适应并处理海量的数据是大数据时代机器学习研究的焦点之一。偏最小二乘（Partial Least Square, PLS）作为一种多元数据分析的有效技术，在WEB文本分类和生物医学数据分析等多个科学技术领域显示出别具特色的性能，值得深入研究；但传统PLS算法的可扩展性较差，不能适应大数据的要求。本项目主要从大数据同时具有高维特征和海量样本的特点入手，研究1）可增量式学习的PLS算法，解决海量样本的建模效率问题；2）利用特征选择技术提升增量式PLS算法在高维特征情况下的性能；3）针对多因变量（多标记）和非线性等复杂数据的特点，设计多因变量非线性的可扩展增量式PLS算法。新算法预期将明显提升PLS在大数据上的可扩展性能，提供WEB文本和生物医学等大规模数据挖掘的新方法。

中文关键词： 增量式学习；偏最小二乘；大数据；数据降维；特征抽取

英文摘要： In the age of big data, the rapid growth of data has posed a serious challenge to traditional machine learning technologies. How to make traditional machine learning models to adapt and handle vast amounts of data is one of the key problems of the big data analysis. As an effective multivariate data analysis technique, Partial least squares (PLS) model has a very important value in many application areas, especially in the fields of WEB text classification and biomedical data analysis. But traditional PLS model cannot meet the requirements of big data, since its scalability is obstructed by the high dimensional feature space and mass data samples. In order to solve this problem, the project mainly studies 1) the efficiency scalable PLS model on massive data based on the incremental learning technology, 2) boosting the performance of incremental PLS model on very high feature dimensional data by introducing feature selection into feature extraction model, and 3) improved incremental PLS models for some complex data, such as multiple dependent variables (multi-label) and nonlinear problems. The proposed models will significantly enhance the PLS algorithm scalable performance on big data, especially for the data mining problem on large-scale WEB text and biomedical data.

英文关键词： Incremental Learning;Partial Least Squares;Big Data;Dimension Reduction;Feature Extraction

成为VIP会员查看完整内容

0

相关内容

增量式学习

增量式学习

【斯坦福大学博士论文】现代机器学习优化问题：自适应、鲁棒性与隐私性

【斯坦福大学博士论文】现代机器学习优化问题：自适应、鲁棒性与隐私性

专知会员服务

69+阅读 · 2021年12月20日

【博士论文】开放环境下的度量学习研究

【博士论文】开放环境下的度量学习研究

专知会员服务

49+阅读 · 2021年12月4日

领域自适应研究综述

领域自适应研究综述

专知会员服务

55+阅读 · 2021年5月5日

【哥伦比亚大学博士论文】深度概率图建模147页pdf

【哥伦比亚大学博士论文】深度概率图建模147页pdf

专知会员服务

90+阅读 · 2021年4月27日

基于双注意力机制和迁移学习的跨领域推荐模型

专知会员服务

48+阅读 · 2020年10月20日

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

专知会员服务

46+阅读 · 2020年9月19日

大规模时间序列分析框架的研究与实现，计算机学报

大规模时间序列分析框架的研究与实现，计算机学报

专知会员服务

59+阅读 · 2020年7月13日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

专知会员服务

104+阅读 · 2020年6月13日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

金融时序预测中的深度学习方法：2005到2019

金融时序预测中的深度学习方法：2005到2019

专知会员服务

168+阅读 · 2019年12月4日

【博士论文】开放环境下的度量学习研究

【博士论文】开放环境下的度量学习研究

专知

7+阅读 · 2021年12月4日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知

7+阅读 · 2021年11月29日

从视觉到语言：半监督式学习的大规模实际运用

从视觉到语言：半监督式学习的大规模实际运用

TensorFlow

0+阅读 · 2021年8月10日

领域自适应研究综述

领域自适应研究综述

专知

6+阅读 · 2021年5月5日

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

数据分析

12+阅读 · 2019年4月14日

机器学习优化方法综述论文【附65页论文下载】

机器学习优化方法综述论文【附65页论文下载】

专知

34+阅读 · 2019年1月19日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

26+阅读 · 2018年12月13日

LASSO回归与XGBoost：融合模型预测房价

LASSO回归与XGBoost：融合模型预测房价

论智

32+阅读 · 2018年8月8日

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

AI前线

14+阅读 · 2018年8月3日

文本分类又来了，用 Scikit-Learn 解决多类文本分类问题

文本分类又来了，用 Scikit-Learn 解决多类文本分类问题

AI研习社

14+阅读 · 2018年7月22日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于主动异构监督的重叠社区发现及其模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于多偏好与变量分解的大规模高维目标优化方法及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于主动增量式学习的故障诊断知识挖掘方法

国家自然科学基金

2+阅读 · 2013年12月31日

基于迁移学习的脑机接口特征提取和预测方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

非结构化数据模式分析中的多核融合理论与学习方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏描述的非结构化环境地形识别研究

国家自然科学基金

0+阅读 · 2012年12月31日

粒度支持向量机学习方法及应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

Dependent Optics

Arxiv

0+阅读 · 2022年4月20日

Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics

Arxiv

0+阅读 · 2022年4月19日

Importance is in your attention: agent importance prediction for autonomous driving

Arxiv

0+阅读 · 2022年4月19日

Multi-Model Ensemble Optimization

Arxiv

0+阅读 · 2022年4月17日

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting

Arxiv

0+阅读 · 2022年4月16日

Rethinking Machine Learning Model Evaluation in Pathology

Rethinking Machine Learning Model Evaluation in Pathology

Arxiv

0+阅读 · 2022年4月15日

Active Learning for Regression and Classification by Inverse Distance Weighting

Arxiv

0+阅读 · 2022年4月14日

Learning from Few Samples: A Survey

Learning from Few Samples: A Survey

Arxiv

77+阅读 · 2020年7月30日

Learning Embedding Adaptation for Few-Shot Learning

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

增量式学习

偏最小二乘

热门VIP内容

开通专知VIP会员享更多权益服务

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

《实现协同自主：从人机协作到多智能体系统》最新190页

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

通信网络智能体白皮书V1.0，61页pdf

相关VIP内容

【斯坦福大学博士论文】现代机器学习优化问题：自适应、鲁棒性与隐私性

【斯坦福大学博士论文】现代机器学习优化问题：自适应、鲁棒性与隐私性

专知会员服务

69+阅读 · 2021年12月20日

【博士论文】开放环境下的度量学习研究

【博士论文】开放环境下的度量学习研究

专知会员服务

49+阅读 · 2021年12月4日

领域自适应研究综述

领域自适应研究综述

专知会员服务

55+阅读 · 2021年5月5日

【哥伦比亚大学博士论文】深度概率图建模147页pdf

【哥伦比亚大学博士论文】深度概率图建模147页pdf

专知会员服务

90+阅读 · 2021年4月27日

基于双注意力机制和迁移学习的跨领域推荐模型

专知会员服务

48+阅读 · 2020年10月20日

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

专知会员服务

46+阅读 · 2020年9月19日

大规模时间序列分析框架的研究与实现，计算机学报

大规模时间序列分析框架的研究与实现，计算机学报

专知会员服务

59+阅读 · 2020年7月13日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

专知会员服务

104+阅读 · 2020年6月13日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

金融时序预测中的深度学习方法：2005到2019

金融时序预测中的深度学习方法：2005到2019

专知会员服务

168+阅读 · 2019年12月4日

相关资讯

【博士论文】开放环境下的度量学习研究

【博士论文】开放环境下的度量学习研究

专知

7+阅读 · 2021年12月4日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知

7+阅读 · 2021年11月29日

从视觉到语言：半监督式学习的大规模实际运用

从视觉到语言：半监督式学习的大规模实际运用

TensorFlow

0+阅读 · 2021年8月10日

领域自适应研究综述

领域自适应研究综述

专知

6+阅读 · 2021年5月5日

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

数据分析

12+阅读 · 2019年4月14日

机器学习优化方法综述论文【附65页论文下载】

机器学习优化方法综述论文【附65页论文下载】

专知

34+阅读 · 2019年1月19日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

26+阅读 · 2018年12月13日

LASSO回归与XGBoost：融合模型预测房价

LASSO回归与XGBoost：融合模型预测房价

论智

32+阅读 · 2018年8月8日

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

AI前线

14+阅读 · 2018年8月3日

文本分类又来了，用 Scikit-Learn 解决多类文本分类问题

文本分类又来了，用 Scikit-Learn 解决多类文本分类问题

AI研习社

14+阅读 · 2018年7月22日

相关基金

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于主动异构监督的重叠社区发现及其模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于多偏好与变量分解的大规模高维目标优化方法及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于主动增量式学习的故障诊断知识挖掘方法

国家自然科学基金

2+阅读 · 2013年12月31日

基于迁移学习的脑机接口特征提取和预测方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

非结构化数据模式分析中的多核融合理论与学习方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏描述的非结构化环境地形识别研究

国家自然科学基金

0+阅读 · 2012年12月31日

粒度支持向量机学习方法及应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Dependent Optics

Arxiv

0+阅读 · 2022年4月20日

Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics

Arxiv

0+阅读 · 2022年4月19日

Importance is in your attention: agent importance prediction for autonomous driving

Arxiv

0+阅读 · 2022年4月19日

Multi-Model Ensemble Optimization

Arxiv

0+阅读 · 2022年4月17日

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting

Arxiv

0+阅读 · 2022年4月16日

Rethinking Machine Learning Model Evaluation in Pathology

Rethinking Machine Learning Model Evaluation in Pathology

Arxiv

0+阅读 · 2022年4月15日

Active Learning for Regression and Classification by Inverse Distance Weighting

Arxiv

0+阅读 · 2022年4月14日

Learning from Few Samples: A Survey

Learning from Few Samples: A Survey

Arxiv

77+阅读 · 2020年7月30日

Learning Embedding Adaptation for Few-Shot Learning

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

微信扫码咨询专知VIP会员