身为信息技术和产业的从业人员,我们对“信息”这个词已经是再熟悉不过了。但笔者相信,就算是很多专业人士,其实也没有认真的思考过这个名称的深刻内涵,大多数情况下都是人云亦云,应付工作而已。
最近看到一篇文章,受其启发,让笔者觉得有必要再进行一次思考和理解,来更深入的理解“信息”、“数据”、“知识”,“智慧”等相关的事物和概念。 需要强调,下面的很多信息和内容,笔者也在理解和完善的过程当中,仅供参考,如果能够引起一些思考、共鸣和讨论,笔者会感到欣慰和荣幸。
这篇文章的原文在:
www.techtarget.com/searchdatam…
题目为“信息的定义”,当然笔者不会简单的复述或者翻译原文的内容,而是试图在其基础上,加入自己的思考和理解,并架构自己的知识和理解框架,以达到学习和提高的目的。
信息的层次模型
对于信息的定义,笔者在另一篇关于信息安全的文章里面提到,香农对其有一个很“哲学化”的表述就是:
信息是消除不确定性的东西
我们这里更希望从技术化,专业化的角度来帮助大家理解。首先需要理解,广义的信息,不是一个简单而能够清晰定义的概念,而是一个层次化的模型,为了方便大家理解,这里例举了一个非常直观而形象的天气预报的案例,如下图所示:
有另外一个图,更加形象的来表述了一个可能更具体的信息在不同层次的形态和递进处理的示例:
笔者尝试解读如下:
数据就是原始数值;信息是分类和标识化的数值;知识尝试建立信息之间的连接关系和模型;洞见(insight) 用于发现特定的模式和信息; 智慧可以建立洞见之间的因果和逻辑关系。
下面的讨论,就以这个层次模型为基础进行展开。
数据 Data
数据是原始信息(这好像是一句废话)。其实,在专业的语境,比如信息技术和计算处理的环境中,它可以指最后由软件程序收集和记录的内容。数据可以存储在数据库和文件当中,在我们这个冯诺伊曼架构的计算机体系世界中(好像现在现实世界中还没有其他通用的计算体系),数据都使用二进制(bit)来进行存储和传输。当然表达是丰富多彩的,可以是文字、图片、视频、音频等等。
数据的产生可以是各种传感器、设备和计算机系统,也可以由人工录入。当然,也可以通过计算和处理规则,从其他数据产生新的数据,但需要明确,数据不会凭空的产生,也不会没有意义的消失。所以,所有数据处理,都是围绕着数据的生命周期来展开的(图)。
指原始信息。在信息技术 (IT) 和计算的上下文中,它是软件应用程序收集和记录的信息。数据通常存储在数据库中,包括构成数据库的字段、记录和其
他信息。它可以通过数字方式访问和操作,并且可以在计算机之间快速轻松地传输。
数据是从各种来源收集的,例如计算机、传感器和设备。它通常用于商业、科学和工程领域。数据通常以数字的形式呈现,但也可以以文本、视觉、图形和声
音的形式出现。数据也可以被分析并用于创建仅通过查看原始数据无法获得的信息。
数据科学中通常将数据分为以下类型:
- 定量数据:
即数值数据,就是可以用数学表示的数据。离散和连续数据是定量数据的类型。
- 定性数据
是无法测量、计数或容易用数字表示的数据。比如来自文本、音频或图像的数据。它可以使用数据可视化工具共享,例如时间线、信息图表和词云。
- 名义数据
是统计学中最简单的数据形式。它是用于命名或标记变量的数据;它不用于测量事物或按任何顺序排列它们。名义数据的示例包括种族、性别、眼睛颜色等等。
- 序数数据
是取值在已知范围内并遵循自然顺序的数据。序数数据的一个常见示例是收入水平,其中收入在特定范围内排名,例如
50K、75K、100K 等。序数数据的目的是按顺序排列项目优先级或价值。这些数字不用于计算。
- 离散数据
也称为分类数据,是被划分为彼此明显不同的离散类别或组的数据。对于离散数据,只有特定数量的值是可能的,并且这些值不能再细分。例如,一家公司的雇员人数是一个离散的数据点。
连续数据是一个术语,用于描述可实时测量和观察的数据。它可以在尺度或连续体上进行测量,并细分为更精细的值。通常以设定的时间间隔记录连续数据,然后使用统计软件进行分析。完成一项任务所花费的时间就是连续数据的一个例子。
- 元数据
元数据是只用于描述数据的结构和数据之间关系的数据,典型的如数据库表的定义,字典和枚举等等。
信息
信息和数据不一样。数据是指数值和观察。但当数据以对“接收者”有意义的方式呈现时,信息就被创建了。所以本质而言,信息是数据相对接收者的意义。要将数据转化为信息,必须对其进行处理和组织。
信息作为有意义和高质量的数据,它应当具备以下特征:
- 信息必须来自可靠的信息来源。
- 信息不能不完整或缺少细节。
- 必须有机制来确保新数据不会与现有数据相矛盾。
- 信息必须具有独特性并能为数据库增加价值
- 信息必须是及时和最新的
知识
知识是经过处理、分析和解释的信息,可用于辅助做出决策和指导行动。知识的概念不仅涉及信息,还涉及获取信息、组织信息和呈现信息的能力。
在获取信息的维度,知识应该来源于多个获取信息的渠道,可以处理不同类型不同维度的信息,并将它们集成为一个统一的处理模型;然后,在大多数应用程序(模型和模拟)、不同的存储和抽象结构中,就包括了不同形态的知识的存储;最后,人们可以以不同的方式,如文本、语音、图像、结构化、可视化等不同的方式来表达和传递知识。
智慧
智慧是以将知识应用到现实生活中的方式综合信息、知识和经验。智慧的概念使人们能够理解模式及其驱动因素。它最终实现了对未来事件的预测,并作为行为和行动的依据;以及创造新的概念、知识和技能。智慧应该具备某种现实的可验证性,从而可以用于补充、修正和完善知识,并使知识辅助决策和行动的过程具备正向的发展趋势。
在当前的技术阶段(2023年,chatGPT已经被公众开始使用),智慧主要还是主要和人相关。chatGPT现在的原理和实现方式并不是真正的智慧,因为它还是基于现有的信息和知识,表面上的智慧,只是它们的重新组合,应该并没有创建新的概念和模式,但由于规模和范围巨大,对于一般公众而言就可以造成“智慧”的观感和错觉。
当然,不可否认,GPT的一个强大和令人惊叹之处,在于它对于输入信息的理解能力,包括其理解逻辑的严密信息、信息的容错、语境联系能力,已经远在普通人类之上,从这个意义上而言,如果将智慧的定义包括这些内容,那么我们也可以说其已经具备了部分智慧的能力或者特性。
人工智能(AI)
人工智能(AI)使计算机能够学习、解决问题和执行通常需要人类智能才能完成的任务。这些技术使计算机能够根据所提供的数据表明最佳行动方案采取行动。
信息技术专家和普通公众对于人工智能的理解,其实有很大的差别。在普通公众理解当中,人工智能就是计算机实现的智能,其主要标准就是图灵测试; 但在信息技术专家眼里,人工智能具有不同的层次和范畴,比如CV、NLP等等,内部也有不同的层级,比如语音识别和语音理解等,它们在广义和技术上而言都可以称为人工智能。从这个角度而言,图灵测试其实是有局限性的,主要的问题就在于图灵测试的对象和标准,究竟是一个特定的人,还是全体人类,这个可能还需要探讨。如果是前者,显然现在的技术水平已经能称之为人工智能;但如果是后缀,可能还有很长的路要走。