第5章〓数字媒体基础
数字媒体技术(Digital Media Technology)涵盖了文字、图片、音频和视频等数字媒体在采集、处理、应用、传输、呈现、交互、管理和安全等方面的软件和硬件技术。数字媒体技术在各个领域都有广泛的应用，包括但不限于广告和营销、娱乐和媒体、教育和培训、医疗保健、虚拟现实和增强现实、游戏开发等。随着技术的不断发展，数字媒体技术在这些领域中的应用越来越多样化和创新化。

本章内容旨在帮助学生深入理解数字媒体技术的基本概念，为他们未来在各个应用领域中的实践提供扎实的理论基础，题目以理论题形式为主，旨在考查学生对相关概念的理解和掌握程度。

5．1数字媒体基础知识点
数字媒体基础知识点及考级要求如表51所示。

表51数字媒体基础知识点及考级要求



知 识 领 域知 识 单 元知识点考级要求


数字媒体基础知识
数字媒体数字媒体及其分类理解

数字媒体的表示与存储
文本的表示与存储理解

图像的表示与存储理解

图形的表示与存储知道

声音的表示与存储理解

动画的表示与存储理解

视频的表示与存储理解

数字水印技术知道

数字媒体的压缩与编码理解


数字媒体传输技术数字媒体传输技术理解

数字媒体处理系统
硬件系统理解

软件系统理解


数字媒体新技术
互联网与移动应用知道

多媒体云计算知道


数字媒体基础知识
数字媒体新技术
人机交互新技术知道
三维建模与3D打印知道

数据可视化知道

人工智能相关技术知道


数字声音
数字声音的获取
通过麦克风录制声音掌握

通过Audition获取视频中的声音掌握

通过录制立体声混音获取视频中的声音掌握

通过格式工厂提取视频中的声音掌握

虚拟变声知道

TTS语音合成知道

在线语音合成理解


数字化声音的处理
声音的物理特征、声音的三要素理解

音频压缩编码、音频文件格式理解

混音的处理（合成配音诗朗诵）理解

声音的编辑（淡入淡出效果）理解

音效处理（降噪、提取伴奏音）理解

声音的压缩理解

视频的配音理解


语音识别技术
语音识别的基本原理知道

语音识别技术的发展知道

语音识别技术的应用知道



视频处理基础
数字视频信息的获取数字视频获取的途径知道

数字视频基本概念帧速率、视频分辨率、码率、标清、高清、2K和4K的概念知道

数字视频信息压缩编码
视频冗余数据：空间冗余、时间冗余和视觉冗余的概念知道

常用的视频编码标准： JPEG标准、H.26X系列、MPEG系列知道


视频信息格式的转换格式工厂的基本用法知道

视频播放工具Windows Media Player、Apple QuickTime 等知道

视频编辑软件家用级、准专业级、专业级、智能手机上的视频编辑工具知道

数字视频的编辑处理准备素材、新建项目、导入素材、视频合成、保存和导出、上传分享理解



下面分别对各知识单元里知识点的重点考点进行分析。

5．1．1数字媒体基础知识

1． 根据数字媒体的属性特点可分成不同的种类，如静止媒体和连续媒体、自然媒体和合成媒体、单一媒体和多媒体。——常见选择题

2． 汉字区位码的每字节增加20H后变成了国标码。——常见选择题

3． 256色位图需要8位二进制存储一个像素。——常见选择题或是非题

4． 表示图像的色彩位数越少，同样大小的图像所占用的存储空间越小。

5． 位图图像由数字阵列信息组成，阵列中的各项数字用于描述构成图像的各个像素点的位置和颜色等信息； 矢量图文件中所记录的指令用于描述构成该图形的所有图元的位置、形状、大小和维数等信息，矢量图不会因为放大而产生马赛克现象。——常见选择题或是非题

6． 数字水印的作用是防伪、版权保护、保护信息安全等。——常见选择题

7． 虚拟现实简称VR； 增强现实简称AR； 混合现实简称MR。

8． 3D打印是一种以数字模型文件为基础，通过逐层打印的方式构造物体的技术，多用于工业领域，尼龙、石膏、金属、塑料等材料均能打印。——常见选择题

9． 数据可视化是指将一些抽象的数据以图形图像的方式来表示，其作用有传播交流、数据展现、数据分析等。——常见选择题

10． 与数字媒体技术相关的人工智能技术有推荐系统、多模态人机交互、智能视频检索。——常见选择题

5．1．2数字声音

1． 声音的三要素为音调、音强和音色，它们分别与声音的频率、振幅、波形等相关。

2． 常见的音频文件格式有WAV、MP3、MIDI、RealAudio、WMA、OGG、AAC、AIFF、FLAC。

3． 录音前，在调节声音设置时，无法通过噪声消除获得增强录制效果。

4． 虚拟变声除了可以创建多种语音角色外，还可以对一些参数进行调节，通过添加背景音烘托气氛和营造环境，但不能更改均衡。

5． 音频压缩编码分为无损压缩和有损压缩两种，熵编码属于无损压缩编码。

6． 帮助有视觉障碍的人阅读计算机上的文字信息，主要使用了语音合成技术。

7． 语音识别技术是让机器能够“听懂”人类的语音，将其转换为可读的文字信息。

8． 语音识别系统主要包含特征提取、声学模型、 语言模型以及字典与解码四大部分。

5．1．3视频处理基础

1． 动画和视频都是利用了人眼的视觉暂留特征，与时间相关的数字媒体。数字视频是以数字形式记录的视频，可以通过数字摄像机拍摄获取，也可通过模拟视频信号经A/D转换采集获得。——常见选择题

2． Premiere属于视频编辑软件。

3． MP4是视频格式。

4． 模拟视频信号转数字视频信号的过程称为A/D转换。

5． 视频采集卡的作用是将视频输入端的模拟信号转换成数字信号。

6． 一般视频编辑软件中，编辑时的最小单位是帧。

7． MPEG标准是用于视频影像和高保真声音的数据压缩标准。

8． 图像和视频之所以能进行压缩，在于图像和视频中存在大量的冗余。——常见选择题

9． 格式工厂是一款多媒体格式转换软件。——常见选择题或是非题

10． Windows Media Player能播放的视频文件扩展名为AVI。

11． 非线性编辑是在计算机技术的支持下，充分利用合适的编辑软件，对视频素材在时间线上进行任意修改、拼接、渲染和特效等处理。——常见是非题

12． 在视频剪辑时，可以通过马赛克特效将隐私的画面信息模糊处理。

5．2典型试题分析
声音采样位数计算

采样： 声音采样是指录音设备在单位时间内对模拟信号采样的多少，采样频率越高，机械波的波形就越真实越自然。

量化： 取样的离散音频要转换为计算机能够表示的数据范围，这个过程称为量化。量化精度越高，声音的保真度越高。

【例51】立体声双声道采样频率为44．1kHz，量化位数为16位，在未经压缩情况下，1min这样的音乐所需要的存储量可按44．1×1000×16×2×60/8字节公式计算。

解析： 每秒钟采集44．1×1000个采样点，每个采样点用16位二进制信息来存储，双声道采集两次，1min是60s，除以8，转换为字节。

【例52】一段5min的音乐，单声道，采样频率为11．025kHz，量化位数为8位，在不压缩时，所需存储量可按1×11．025×1000×8×5×60/8字节公式计算。

解析： 每秒钟采集11．025×1000个采样点，每个采样点用8位二进制信息存储，单声道采集一次，5min是5×60s，除以8，转换为字节。

5．3试题荟萃

5．3．1单选题

1． 把连续的影视和声音信息经过压缩后，放到网络媒体服务器上，让用户边下载边收看，这种技术称为。



A．  流媒体技术
B．  网络信息传输技术

C．  网络媒体技术
D． 新媒体技术

2． 视频编辑工具最适合视频后期合成。

A． Photoshop
B． Flash
C． After Effects
D． Dreamweaver

3． 神经网络的重新兴起，带来了的突破。

A． 人工智能
B． 语音识别技术
C． 区块链
D． 云技术

4． 编码不是视频编码标准。

A． MPEG1
B． MPEG2
C．  MPEG3
D． MPEG4

5． 文件不是视频影像文件格式。

A．  AVI
B．  MPG
C． WPS
D．  MOV

6． 人类对图像的分辨能力约为26灰度等级，而图像量化一般采用28灰度等级，超出人类对图像的分辨能力，这种冗余属于。

A．  时间冗余
B．  空间冗余
C．  视觉冗余
D．  结构冗余

7． 采样得到的音频数据需要经过后才能进行编码。

A．  压缩
B．  剪辑
C．  传输
D．  量化

5．3．2是非题

1． 动画与视频是利用了人眼的视觉暂留特征的数字媒体。()

2． 将一幅图片放大到一定倍数后出现马赛克现象，则该图片属于图像类别。()

3． 数字化后的多媒体数据中存在大量的冗余数据，图像画面在空间上存在大量相同的色彩信息，被称为时间冗余。()

4． 在计算机中，电子音乐被称为MIDI音乐，MIDI是一种数字乐器接口标准。()

5． 语音识别技术也被称为自动语音识别，它的目标是将人类的语音数据转换为可读的文字信息。()

6． 常见的音频文件格式有WAV、MID、MP4和WMA等。()