摘要

创意（思想）是创造力和创新的源泉，并且如今对创新的需求也在不断增加。例如，初创企业的生态系统在数量和全球范围内都在增长。因此，成熟的公司需要监测比以前更多的初创企业，因此需要找到新的方法来识别、筛选和与初创企业合作。

由于社交媒体、传感器、学术文献、专利、网上发表的不同形式的文件、数据库、产品手册等产生的数字数据越来越多，数据的重要性和丰富性也在增加。各种数据源都可以用来产生创意，然而，除了偏见之外，可用的数字数据的规模也是人工分析时的一大挑战。

因此，人机互动对于产生有价值的创意至关重要，在这里，机器学习和数据驱动技术从数据中产生模式，并为人类的感知服务。然而，使用机器学习和数据驱动的方法来产生创意是一个相对较新的领域。此外，使用竞赛驱动的创意生成和评估也有可能刺激创新。然而，对竞赛驱动的创意产生过程的测量需要得到支持，以便更好地管理这一过程。此外，竞赛后的挑战阻碍了可行创意的发展。为了应对这些挑战，本论文采用了混合方法的研究方法。

本论文的结果和贡献可以看作是一个创意生成技术的工具箱，包括一个数据驱动和机器学习技术的清单，以及相应的数据源和模型来支持创意生成。此外，本成果还包括两个模型，一个方法和一个框架，以更好地支持数据驱动和竞赛驱动的创意生成。这些成果的受益者是数据和知识工程的从业者、数据挖掘项目经理和创新代理。创新代理包括孵化器、竞赛组织者、顾问、创新加速器和行业。

未来的项目可以开发一个技术平台，利用机器学习、视觉分析、网络分析和文献计量来探索和利用非结构化数据，以支持创意的产生和评估活动。有可能在开发者平台中调整和整合所提出的工具箱中包含的方法，作为嵌入式创意管理系统的一部分。未来的研究还可以使该框架适应于制约激发竞赛后数字服务所需的发展的障碍。此外，由于提议的人工制品包括用人工智能技术增强的过程模型，以人为本的人工智能是一个有前途的研究领域，可以促进人工制品的进一步发展并促进创造力。

关键词：创意生成、创意挖掘、数据驱动的创意生成、数据驱动的创意评估、创意生成工具箱、创意评估工具箱、竞赛驱动的创意生成、机器学习的创意生成、文本挖掘的创意生成、分析的创意生成、以人为本的AI促进创意。

1 引言

本章简要概述了本论文的研究问题、研究问题和目的。在接下来的段落中，我们将简要介绍数据驱动的分析方法和竞赛驱动的方法，以广泛构建本论文中提出的创意生成和评估技术。

在这里，数据驱动的分析法指的是机器学习和数据驱动的方法来产生创意。用于产生创意的数据驱动分析法被其他作者称为机器驱动的数据分析法（Vu，2020）和机器驱动的文本分析法（Bell等人，2015）。几种机器学习技术，包括监督和无监督学习技术，被用来帮助产生创意，在结果一章中介绍。本论文中用于生成创意的数据驱动方法包括NLP驱动的形态分析、视觉分析、统计分析、社交网络分析以及数据驱动技术的组合。

另一方面，竞赛驱动的创意生成指的是使用创新竞赛和竞赛后的过程来支持创意的生成和评估。竞赛被用来通过支持创意的产生来刺激创新。竞赛驱动的方法可以使用机器学习和数据驱动的技术来支持创意的产生和评估。

1.1 创意的简要概述

本节介绍了创意的概念，为什么需要创意，以及如何产生和评估它们。

1.1.1 从飞行器到社交媒体

尽管达芬奇有一个关于飞行器的创新创意，但由于缺乏材料、制造技术和推进动力源，它没有实现。因此，他的创意不得不等待内燃机的发明和商业化（Fagerberg等人，2006）。此外，达芬奇的飞行器的新颖性超出了生活在15和16世纪的大多数人的想象。同样，尼古拉-特斯拉的自由能源理念也无法被他同时代的人所掌握，然而他的概念，如交流电，使得21世纪的自由能源采集器得以发明（Lumpkins，2013）。

目前，组织使用创意管理平台来收集客户的创意。创意管理平台，在本论文中被称为创意管理系统或IMS，如戴尔的IdeaStorm，用于收集客户的反馈和创意（Bayus，2013）。一些组织部署了IMS来简化创意生成过程。例如，星巴克（Lee等人，2018）、乐高（Christensen等人，2017A）和Lakefront Brewery Inc（Christensen等人，2018）采用了在线IMS平台。社交网络用户表达他们的创意和想法（Christensen等人，2018），作者称Facebook等在线社交媒体数据是潜在的创意金矿（Christensen等人，2017B）。例如，从社交媒体平台Reddit提取的数据被用来产生产品改进的创新想法（Jeong等人，2019）。此外，从社交媒体产生的创意可以为公司产生价值，并用于在创新的前端筛选创意，减少产生创意所需的时间和精力（Christensen等人，2018）。

1.1.2 什么是创意？

术语 "创意"可以有不同的解释，这取决于其使用的背景和应用的领域。在口语、商业和工业语言的使用中，"创意"一词有不同的含义和解释，要么与建议、知识、信念或目的有关。

根据《剑桥词典》，创意的定义如下：

"创意"与以下有关：

"建议"为--"做某事的计划或建议"
"知识"是指--"你脑海中的一种思想、理解或图画"
"信念"是指--"一种观点或信仰"，以及
"目的"是指--"做某事的目的或理由"。

根据数据驱动分析的作者，"创意"已经从多个角度被讨论。Thorleuchter等人将创意称为一段新的、有用的文本短语，由技术语言使用环境中的特定领域术语组成，而不是不规范的口语（Thorleuchter等人，2010a）。Liu等人将一个创意定义为一对问题解决方案（Liu等人，2015）。一个创意是一对文本短语（Azman等人，2020），由同一语境中共同出现的手段和目的组成（Swanson，2008）。手段是描述某个技术是什么的文本短语，而目的是指它要做什么。例如，"激光雷达传感器是一种设备，是自主汽车使用的一种传感器；它使用一种被称为激光雷达的机制，通过使用激光照亮目标物体来测量距离 "的文本可以是一个创意。在这种情况下，"激光雷达传感器是一种装置，是自主汽车使用的一种传感器 "是一个描述手段的文本短语。而文本短语 "使用被称为激光雷达的机制，通过使用激光照射目标物体来测量距离 "是描述目的的。

在本论文中，术语"创意"是在技术产品发展的背景下使用的。因此，"创意"的定义如下：通过对当前问题的可能解决方案或未来技术发展的潜在解决方案的表达，描述新颖和有用信息的句子或文本短语。

1.1.3 我们为什么需要创意？

创意是创造力和创新的重要来源（Chen等人，2019）。虽然创新与人类一样古老（Fagerberg等人，2006），但对创新的需求仍在增加。随着丰富的数字数据的出现，以及使用机器学习、数据驱动和共同创造驱动技术的可能性，可以采用数据挖掘、机器学习、视觉分析、文献计量和竞赛驱动技术来产生创意。一个关于新型产品或过程的创意是发明的结果，而完成它并将其付诸实践的努力是创新（Fagerberg等人，2006）。此外，创意的产生被许多人认为是成功创新的核心活动（Dobni & Klassen, 2020）。当有人把现有的创意实现为有形的人工制品时，创新就发生了（Fagerberg等人，2006）。因此，管理创意很重要，因为它是知识工程和创意管理系统的一部分。此外，组织比以往任何时候都更需要识别、监测和筛选众多的初创企业进行合作。初创企业的生态系统以及全球范围内的传播越来越多，这种情况要求在不同的维度上做出更快的决策（Weiblen & Chesbrough, 2015）。

1.1.4 如何产生和评估创意？

为了支持创意的产生和评估过程，Smith（1998）回顾了文献，总结了50种采用专家推理能力的创意产生技术。另一方面，Puccio和Cabra提出了创意的评估构架，可以通过新颖性、可操作性、具体性和相关性等维度以及相关的子维度和评估等级对创意进行评估（Puccio & Cabra, 2012）。然而，这些技术需要专家的手工操作，因此很自然地要寻找替代策略，以释放从不断增长的数字数据中提取有用信息的可能性。此外，还可以使用数据驱动和竞赛驱动的技术来产生创意。Rohrbeck声称，找到一个创意就像在干草堆里找一根针（Rohrbeck，2014）。同样地，Stevens和Burley发现，在一个创意成为商业产品之前，需要成千上万的创意（Stevens & Burley, 1997）。机器学习技术（Zhao等人，2018）和大数据工具（Toubia & Netzer，2017）可以用来产生创意。也可以通过使用竞赛来刺激将创意落实为可行的人工成果（Juell-Skielse等人，2014；Steils & Hanine，2016）。

1.2 数据驱动的分析和竞赛驱动的方法

本节讨论了通过机器学习和竞赛产生和评估创意的问题。

1.2.1 不断增长的数字数据量

创意的产生过程是创新和创造的源泉，创意的产生往往是创新活动的首要任务（Chen et al., 2019）。网络内容、在线信息、社交媒体、公共部门的内容（电子政府内容）和数字化图书馆等文本信息正以前所未有的速度和数量发布。这种不断增长的非结构化文本数据促使人们对机器学习和自然语言处理方法的需求，以揭示价值（Evans & Aceves, 2016）。因此，人工智能、机器学习（Zhao et al. 2018）和大数据工具（Toubia & Netzer; 2017）已经成为提取创意的关键。

除了数字信息之外，专家网络、技术侦察员和创新竞赛（Juell-Skielse等人，2014年）也是创新的来源，因此也是创意的来源。

1.2.2 将数据驱动的分析与竞赛驱动的创意生成相融合

手动分析大量的非结构化数据以提取有价值的创意是很困难的。然而，机器可以利用机器学习和NLP帮助从大量的非结构化数据中产生创意（Evans & Aceves, 2016）。因此，创意生成中的人机互动对于在创意生成过程中做出明智的决定至关重要。关于将机器驱动的分析技术与竞赛相融合以支持竞赛驱动的创意生成的研究有利于创新代理。根据Bankins等人（2017）的说法，创新代理是创新的推动者和倡导者，他们积极和热情地推动组织创新。在本论文中，创新代理包括创新孵化器、竞赛组织者、顾问和创新加速器。创新代理可以在竞赛驱动的构思过程中使用社交网络分析、话题建模和文本挖掘，以进行人群构思中的创意选择（Merz，2018）。

同样，Dellermann等人（2018）提出将机器学习和人类的推理能力结合起来，以评估众包参与者在创意竞赛中的贡献，因为贡献的数量需要资源，而单独使用机器学习有可能将有价值的创意分类为无价值。此外，Özaygen和Balagué（2018）发现，通过社交网络分析支持创意生成过程是可能的。该研究忽略了人机互动在创意生成中的影响以及在竞赛背景下提供的见解（Özaygen & Balagué 2018）。此外，参与组织竞赛的创新代理人和创新竞赛参与者可以使用数据驱动的方法来评估其创意的价值。例如，可以使用机器学习、NLP、文本挖掘和类似技术对创意进行评估（Alksher等人，2016）。

1.2.3 用于创意生成和评估的数据驱动分析法

可以引出洞察力和远见的分析工具的发展和可用性与数字数据的增长交织在一起（Amoore & Piotukh，2015）。Evans和Aceves（2016）还指出，非结构化文本数据、大数据的增长以及对文本挖掘和机器学习技术的需求已经被用于提取价值。此外，基于数据的决策是有利的，因为它是基于证据的。因此，做出数据驱动的决策比基于直觉的决策更好，因为它能提高绩效（McAfee等人，2012）。因此，利用技术专长来产生有价值的技术见解，并根据数据做出正确的决定，这种可能性是很有希望的。另一方面，通过自动化处理大量的数据，更容易加快感性认识。

在从大量的数据集合中引出创意时，可以实施一些计算技术来进行理智分析和支持推理。文献中提到用于处理数据的技术是机器学习、数据挖掘、文本挖掘、科学计量学分析、文献计量学分析、NLP支持的形态学分析和社会网络分析。使用这些技术得到的结果以可视化的表现形式和描述性的信息呈现，这一过程在本论文中被称为数据驱动的分析。

可视化分析可以与机器学习等分析技术相结合，促进分析推理和感性认识（Endert等人，2017）。机器学习在一些分析操作中被采用，以支持决策。例如，它可以在大规模系统中用于支持决策（Rendall等人，2020；Sabeur等人，2017）。另外，机器学习驱动的技术可以通过识别模式和预测异常情况来处理IT转型和基于消费者的企业所产生的越来越多的数据（Nokia等人，2015）。在本论文中，通过计算机辅助处理数据和可视化的创意产生和评估被称为数据驱动的分析方法。此外，创意的产生和评估过程涉及决策，其中趋势、洞察力、预见性、经过处理的技术描述、模式等，都被用来支持专家产生和评估创意。

从大型数据集中提取创意，就像在干草堆里找一根针（Rohrbeck，2014）。信息技术被用来处理创意管理系统（IMS）的任务（Jensen，2012）。创意的产生可以是IMS的一部分（Jensen，2012）；此外，IMS是创意的来源。数据驱动的应用程序被用来使用从社交媒体、学术文章、IMS、不同类型的文件等获得的文本和非结构化数据来产生创意。

1.2.4 竞赛驱动的创意生成

在本论文中，竞赛驱动的创意生成描述了利用组织的竞赛来解决创新问题，支持参与者产生新颖而有用的创意。Adamczyk等人将创新竞赛定义为有时间限制的、基于信息技术的竞赛，以此来确定关于如何为目标群体或公众解决特定任务或问题的创造性创意（Adamczyk等人，2012）。根据Stevens和Burley的说法，在确定一个可行的创意之前需要许多创意（Stevens & Burley 1997）。竞赛也正在成为创意生成和原型开发的工具（Juell-Skielse等人，2014）。

竞赛是使创新代理创造创意和特殊机会的有效平台（Terwiesch & Ulrich，2009）。最近，创新竞赛得到了企业的极大关注（Bullinger & Moeslein，2010）。同样，竞赛驱动的创意生成也使从业者和研究人员能够实现新颖的产品和服务（Adamczyk等人，2012）。

1.3 研究差距

本节介绍了本论文中涉及的研究差距（RG）。研究差距分为三大类，以简化本论文的阐述和逻辑连贯性：1）缺乏有组织的数据源和数据驱动的分析技术来支持创意的产生；2）缺乏支持机器学习驱动的创意产生的过程模型；3）缺乏支持竞赛的过程模型和框架来应对创意产生的竞赛后障碍。

1.3.1 RG 1：缺乏有组织的数据源清单和数据驱动的分析技术来支持创意的产生。

数字数据的规模正以前所未有的速度增长，其结构化和非结构化的形式和格式。例如，各行业已经意识到从不断增长的在线文本数据中提取有用的见解和信息的价值（Ghanem，2015），但许多数字媒体数据都是非结构化的（Debortoli等人，2016）。尽管如此，数据现在被认为是21世纪的金矿（Amoore & Piotukh，2015）。大量数字数据的存在使得人工处理这些数据变得困难。根据Bloom等人（2017）的说法，包含学术文章的数据库越来越多（Bloom等人，2017），但很难手动分析大量的数据（Debortoli等人，2016）。幸运的是，有各种数据源可以通过机器学习技术进行分析，以产生创意。

然而，目前还缺乏一个有组织的数据源和数据驱动的分析技术清单，它可以作为一个工具箱来改善对合适技术和数据源的使用和选择。此外，我们的初步文献审查发现，机器学习、可视化分析和NLP驱动的创意生成和相应的数据源的使用需要被组织起来，以服务于从业者和研究人员。例如，Özyirmidokuz和Özyirmidokuz（2014）、Stoica和Özyirmidokuz（2015）、Dinh等人（2015）、Alksher等人（2018）和Azman等人（2020）认为数据驱动的创意生成是一种采用基于欧氏距离的算法来从文本数据中提取创意的技术。同时，这些作者声称，基于距离的创意生成算法是由Thorleuchter等人（2010a）提出的。同样，Alksher等人（2016）强调，创意的产生主要采用了基于距离的算法。然而，文本挖掘（Itou等人，2015）、信息检索（Chan等人，2018）、文献计量分析（Ogawa & Kajikawa等人，2017）、主题建模（Wang等人，（2019）、深度学习（Hope等人，2017）、机器学习（Rhyn等人，2017）和社交网络分析（Consoli，2011）等技术被用于创意生成。因此，数据驱动的技术和数据源清单可以作为工具箱或创意生成的指南，服务于行业和学术界。

对于行业来说，有一个选择合适的数据源和数据驱动分析技术的指南将是非常有价值的。同时，从业者将得到一份技术、启发式方法和数据源的清单，科学界将被告知有关使用数据驱动的分析方法产生创意的研究情况。因此，在这个数据丰富的时代，随着数据驱动分析技术的蓬勃发展，一个包含技术和数据源清单的数据驱动分析工具箱是必不可少的。此外，数据驱动分析技术对于使用创意管理平台收集的创意的产生也很有用（Christensen等人，2017B）。

目前，公司使用创意管理系统从人群中收集创意（Bayus，2013），创意管理平台的出现对努力创新的公司来说是一个有利的机会。这些平台可以是商业性的，如Crowdicity，也可以是开放式的创新平台，如OpenideaL, Jovoto, iBridge , and Gi2MO。此外，营利性和非营利性组织都开发了创意管理平台，如联合国、KONICA MINOLTA、乐高和星巴克。

然而，从人群中收集到的创意由于其数量众多，很难进行人工管理。同样地，公司也很难从其他数据源，如专利、出版物和社交媒体中提取创意。因此，一份产生创意的数据源和技术清单可以帮助公司产生创意并保持竞争力。因此，公司通过使用自动分析技术来产生创意，将更具竞争力。例如，Lakefront Brewery Inc.向市场推出了第一款 "无麸质啤酒"，这个创意是通过Christensen等人（2017B）从一个在线社区引入的自动化技术确定的（Christensen等人，2018）。组织产生大量的知识相关数据。然而，Rhyn等人（2017）声称，他们未能激发出有价值的创意，从而导致他们促进创新。根据Stevens和Burley的说法，另一个挑战是，最初的创意很少被商业化，一个商业成功需要成千上万的新创意（Stevens & Burley，1997）。

此外，Toh等人（2017）认为，从大量的数据中产生创意需要机器学习和评估创造力的技术。此外，关于有哪些类型的技术和数据类型可用于通过自动化技术生成创意以实现创意的商业化，目前还缺乏相关的研究。因此，一个有组织的创意生成技术和数据类型的清单支持行业更容易地选择它们。

1.3.2 RG 2：缺乏支持机器学习驱动的创意生成的流程模型

显然，需要有组织的指导方针、流程模型和方法来支持从数据和人中产生新的和有用的创意。例如，Toh等人（2017）指出，需要机器学习和创意评估技术，因为分析大量的文本数据需要更高水平的人类参与（Toh等人，2017）。专家可以使用定性属性，如新颖性、可行性和价值，来评估通过机器学习产生的创意（Christensen等人，2018）。

公司将从使用流程模型来支持机器学习驱动的创意生成中受益。然而，现有的机器学习驱动的创意生成的流程模型使用简单的流程图、非标准化的图示和BPMN符号，几乎没有使用标准的数据挖掘流程模型。例如，研究人员使用简单的工作流程或图表（Thorleuchter等人，2010A；Kao等人，2018；Alksher等人，2016；Karimi-Majd & Mahootchi 2015；Liu等人，2015）以及BPMN（Kruse等人，2013）来表示使用机器学习技术产生创意的过程模型。因此，在使用标准数据挖掘流程模型来支持机器学习驱动的创意生成技术方面，存在着研究空白。数据工程师、知识工作者和创新代理可以通过使用流程模型，以最佳方式构建他们的工作，以确保可重复使用、学习和效率。机器学习的标准流程模型有利于最佳实践、培训、文档和知识转移的重用（Wirth & Hipp, 2000）。

1.3.3 RG 3：缺乏支持竞赛的流程模型和处理创意产生后障碍的框架

竞赛被用作激发创造力的工具，通过竞赛产生和评估创意（Juell-Skielse 等人，2014）。Dobni和Klassen（2020）声称，尽管政府、行业和学术界认为过去十年是创新的十年，但创意管理和衡量创新的指标并没有显示出改进。

目前缺乏评估竞赛驱动的创意生成绩效的指标和工具。一项文献回顾表明，缺乏专门支持竞赛驱动的创意生成方法的过程模型。例如，现有的创新测量模型是为评估组织（Tidd等人，2002；Gamal等人，2011）、国家创新（Porter，1990）、软件质量测量（Edison等人，2013）、开放式创新活动（Enkel等人，2011；Erkens等人，2013）和创新价值链（Hansen & Birkinshaw，2007；Roper等人，2008）设计的。此外，Armisen和Majchrzak（2015）称，尽管创新竞赛在企业中越来越受欢迎，但通过创新竞赛产生的创意数量并不令人满意。因此，数字创新竞赛的测量模型对竞赛组织者来说很有价值，可以通过提高产生的创意和原型的数量和质量来最好地管理竞赛过程。另外，由于竞赛后的创意开发障碍，通过竞赛产生的创意最终会被组织者束之高阁，或被竞争对手所遗忘。因此，识别和管理制约开发者建立能够进入市场的数字服务的障碍是很重要的。这篇论文提出了使用计算技术和专家判断的创意生成和评估技术。

1.4 研究的目的和目标

创意生成，涉及创意评估，可以通过使用数据驱动从非结构化数据中提取有用的新信息和竞赛驱动的创意生成来支持创新活动。使用数据驱动的方法来产生创意，在很大程度上依赖于可用的数据，从中引出见解和模式。从非结构化形式和格式的数据中提取的洞察力和模式，使得有可能揭开创新的创意。例如，McAfee等人认为，大数据可以改善决策（McAfee等人，2012）。另外，机器学习和自然语言处理也是从日益增长的非结构化文本数据中产生有价值的创意的关键推动力（Evans & Aceves，2016）。因此，数据驱动的分析技术可以支持创意生成过程中的决策，并选择创意来支持技术进步。另一方面，竞赛驱动的方法可以用来促进创意的产生（Steils & Hanine，2016）。此外，竞赛可以刺激创新，通过竞赛开发出可行的创意和原型（Juell-Skielse等人，2014）。

1.4.1 研究目的

本研究旨在通过涉及数据驱动分析和竞赛驱动方法的技术，支持使用文本数据的创意生成和评估过程。

1.4.2 研究目标

本论文的总体目标是通过数据驱动的数据分析和竞赛驱动的方法来支持创意的产生和评价。因此，本论文研究了三种可以支持创意生成的方式。1）数据驱动的技术和数据源；2）包括使用机器学习驱动的数据分析的过程模型；以及3）竞赛驱动的创意产生的模型和框架。这篇论文包括八篇研究论文，试图回答以下首要的研究问题:

如何通过简化数据源和数据驱动分析技术的选择，以及使用机器学习和数据驱动技术的过程模型、竞赛驱动的创意生成模型和阻碍创意发展的障碍框架来支持创意生成和评估过程？

一般的研究问题又被细分为三个研究问题。

RQ-A: 哪些数据源和数据驱动分析技术被用于产生创意？
RQ-B：如何利用机器学习驱动的技术的过程模型来支持创意的产生和评估？
RQ-C：如何通过过程模型和竞赛后的障碍框架支持竞赛驱动的创意生成和后续过程？

表1.1说明了研究问题和相应的出版物及人工制品。人造物之间存在着顺序和层次关系（图1.1）。

表1.1. 出版物、研究子问题和人工制品的清单。

研究问题	出版物	描述
RQ-A	文件A1	支持创意生成的数据源和数据驱动的分析技术清单
RQ-B	文件B1	一个用于创意挖掘过程的数据挖掘过程模型
RQ-B	文件B2	创意产生和评估的一般过程模型
RQ-B	文件B3	为演示而引出的潜在主题的清单
RQ-B	文件B4	一份可用于激发创意产生的趋势和时间模式的清单，这些都是为演示而引起的
RQ-B	文件B5	可视化的洞察力和远见的清单。刺激研究和创新的创意，这些创意是激发研究和创新的创意。
RQ-C	文件C1	一种设计和完善竞赛驱动的创意产生和后续过程的测量过程模型的方法
RQ-C	文件C2	阻碍开发者的障碍框架，以支持竞赛后将创意发展为可行的应用

图1.1. 论文和贡献之间的关系，有顺序和层次的关系。

1.5 研究的定位

本论文对几个跨学科领域做出了贡献。框定本研究的主要研究领域是创意挖掘，这是数据驱动分析的一部分，包括文本挖掘和创意管理。本论文提出的人工制品通过应用视觉和数据分析、机器学习、竞赛以及竞赛后的应用开发模型和框架来支持创意的产生和评估活动。因此，该人工制品的主要受益者是数据和知识工程师、数据挖掘项目经理和创新代理人。根据Bankins等人（2017）的说法，创新代理人是创新的推动者和倡导者，他们积极热情地推动组织创新。在本论文中，创新代理包括创新孵化器、竞赛组织者、顾问和创新加速器。研究贡献总结于图1.2。

图1.2. 研究问题和贡献之间的关系。

数据挖掘和数据科学经常被交替使用。然而，尽管在过去的20年里，数据挖掘一直是领先的术语，但如今数据科学受到青睐并被广泛使用（Martínez-Plumed等人，2019）。根据Dhar（2013），数据科学是一个跨学科的领域，使用人工智能、机器学习、统计、数学、数据库和优化（Dhar，2013）。然而，Cao（2016）认为，数据科学涵盖了更广泛的跨学科范围，包括数据分析、统计、机器学习、大数据管理、管理科学、社会科学、通信、决策科学和复杂系统等更大的领域（Cao，2016）。数据科学使用算法、科学方法、流程和系统，从非结构化和结构化数据中提取洞察力和知识（Dhar，2013）。概念性的数据科学景观由数据和知识工程组成（Cao，2017）。

在文献中，将计算技术应用于大量数据以产生创意被称为创意挖掘，它使用文本挖掘和信息检索（Thorleuchter等人，2010A）。然而，统计分析（Alksher等人，2016）、社会网络分析（Consoli，2011）、基于NLP的形态分析（Kruse等人，2013；Kim & Lee，2012），以及通过高级机器学习设计的定制数据库和增强的IR（Hope等人，2017）都被用来产生创意。同样，通过自动化技术支持理解、推理和决策的视觉分析（Keim等人，2008），可以应用于由学术文章组成的数据集，以可重复、及时和灵活的方式引出趋势和关键证据（Chen等人，2012A）。

因此，视觉分析、数据分析和机器学习与计算机科学有重合。使用自然语言处理对健康相关数据的学术文章的处理被称为机器驱动的文本分析（Bell等人，2015），在本论文中被称为数据驱动的分析。另一方面，机器驱动的数据分析也被用作处理隐私问题背景下的社交媒体数据的技术（Vu，2020），这在本论文中也被称为数据驱动的分析。因此，在本论文中，通过数据驱动分析产生的创意包括创意挖掘、视觉分析、数据分析、社交网络分析、机器学习和人工智能来产生创意。同样，使用NLP对学术文章的处理被称为机器驱动的文本分析（Bell等人，2015），而对社交媒体数据的预处理被称为机器驱动的数据分析（Vu，2020）。数据驱动的分析法被应用于学术文章，以产生和评估观点。