0

0

云计算与虚拟化硬核技术内幕 (14) —— 不忘初心,删繁就简

蓮花仙者

蓮花仙者

发布时间:2025-07-09 11:22:40

|

1033人浏览过

|

来源于php中文网

原创

在前几期中,我们讨论了在linux环境下,利用io虚拟化技术可以为虚拟机添加完全虚拟或半虚拟的网卡或磁盘,也可以将物理设备直通给虚拟机,还可以将支持sr-iov的网卡等设备进行一虚多,并将这些虚拟化的设备分配给虚拟机使用。

然而,我们遇到了一个问题:如果为宿主机上的虚拟机添加了SR-IOV的网卡,虚拟机将直接向外发送数据包,而不会经过宿主机的vSwitch。在云计算场景中,当虚拟机进入Overlay(VPC)时,需要利用硬件交换机进行Overlay隧道的封装和解封装,这在大型公有云的场景中是不合适的。(这个问题的原因将在以后详细讨论,此处暂不赘述)。

因此,我们需要其他方法来实现虚拟机在云端的网络互通。

由于Linux的虚拟化网络体系本身较为复杂,我们需要花一些时间来初步了解Linux网络虚拟化的基本概念。

在前文中,我们介绍了,在Linux下,每个虚拟机至少需要一个网卡与外部通信,最常见的连接方式是将这些虚拟网卡连接到一个虚拟交换机上,如下图所示:

云计算与虚拟化硬核技术内幕 (14) —— 不忘初心,删繁就简图中,vNIC是虚拟网卡,vSwitch是虚拟交换机。在这个网络中,所有虚拟机对外的通信需要经过虚拟防火墙,虚拟防火墙对内的端口连接在虚拟交换机上,而对外的端口连接到另一个虚拟交换机,这个虚拟交换机的另一个接口连接到外部物理网络。

在运行着Linux的宿主机中,实现这么一个复杂的网络时,操作系统内部实际上发生了什么呢?

我们知道,在Linux中,如果希望让应用程序通过网络收发数据,需要调用socket接口,得到socket的文件描述符(fd)后,利用read和write实现数据的收发。socket的类型可以自定义为udp,tcp或raw ip,如下图所示:

云计算与虚拟化硬核技术内幕 (14) —— 不忘初心,删繁就简图中,Socket是内核与用户的分界线,用户态应用程序通过socket api调用操作系统内核。

Linux为了实现网络的虚拟化,为应用程序提供了一个后门,这个后门叫做TUN/TAP。我们先以TUN为例来看一下TUN的使用方法:

云计算与虚拟化硬核技术内幕 (14) —— 不忘初心,删繁就简如图,在系统内添加一个设备tunX后,应用程序可以将/dev/tunX作为通往Linux网络协议栈的后门,可以直接抽取来自协议栈的三层报文,或向协议栈注入三层报文。

如下图所示:

云计算与虚拟化硬核技术内幕 (14) —— 不忘初心,删繁就简应用程序对/dev/tunX设备进行读取时,可以读取到三层数据包的内容,但无法读取二层头。如果期望获取二层以太网头,需要使用另一种虚拟网络设备,称为TAP。

利用TUN或TAP,可以将数据包封装进入自定义的隧道,如下图所示:

云计算与虚拟化硬核技术内幕 (14) —— 不忘初心,删繁就简如图,红色箭头代表来自真正应用程序的流量,payload通过操作系统socket API,进入协议栈被依次封装上UDP,IP和以太网包头。另一个APP通过TUN,从内核取出这个数据包(不包含以太网二层头),进行加工后再通过UDP Socket发出去。这样,最终被发到线路上的数据包就成了一个有着外层头的隧道数据包。

喜鹊标书
喜鹊标书

AI智能标书制作平台,10分钟智能生成20万字投标方案,大幅提升中标率!

下载

如果我们期望封装后的数据包是GRE隧道(内层为三层,外层为RAW IP),可以使用RAW Socket。如果期望封装后的数据包是VXLAN隧道(内层为带有以太网数据包头的二层数据包),则应当使用TAP设备从内核接管数据流,并使用UDP Socket封装。

如果有两台虚拟机需要通信,我们可以为它们各分配一个TAP,并且让这两个TAP加入一个VETH对:

云计算与虚拟化硬核技术内幕 (14) —— 不忘初心,删繁就简图中,两个VM的VNIC是利用virtio实现的前端设备,它们的后端是QEMU的两个TAP。在Hypervisor上通过VETH Pair把两个TAP连在一起,就可以让两个虚拟机互通了。

但是,这样的方案有两个问题:

无法扩展。由于将TAP互联的VETH Pair是点对点的,如果有3个虚拟机需要互通,每个虚拟机上就需要2个vNIC连接到另外两个虚拟机。当虚拟机个数为X时,总共需要X (X-1) / 2个,此种O(N*N)复杂度是不可接受的。无法与外部网络连接。由于TAP本身只能与宿主机的其他TAP互通,这个网络只能存在于宿主机内部。如何解决这两个问题呢?

虽然在Linux中,VM,TAP,VETH Pair等都是软件实现的虚拟设备,但只要没有忘记设计网络的初心,会发现,在Linux下或其他环境中的虚拟化网络,与最初经典的网络,其本质是别无二致的。

因此,工程师们秉承初心,想到了经典的计算机网络理论中,从全连接网络转化为行星网络的简化方法,利用Linux虚拟化网络设备——bridge来实现多个虚拟机之间的互通以及虚拟机网络与宿主机网络的互通。

Linux bridge实际上是一个网桥,也可以称之为一个软件实现的二层交换机。

云计算与虚拟化硬核技术内幕 (14) —— 不忘初心,删繁就简如图,Linux下的bridge可以绑定多个从设备,从逻辑上等同于物理世界中的交换机的端口插入了网线。图中三个VM上的vNIC各自对应的TAP被绑定到bridge上,同时物理网卡也被绑定到了bridge上。只要打开宿主机上的软转发功能,并将物理网卡设定为混杂模式(promiscuous mode,指允许网卡接受目的MAC地址不是自身MAC地址的数据包),多个VM之间就可以通信了。

Linux网桥是虚拟化系统中原生的虚拟机互通方案,RHEV(Redhat Enterprise Virtuliazation)4.2及以前的版本中,只支持这种方案。

但是,Linux网桥用于大规模云计算场景中,有着一些绕不过去的问题:

由于Linux网桥运行在内核中,对网桥的二次开发需要修改内核模块;无法应用DPDK对Linux网桥进行加速;无法支持来自SDN控制器的统一控制和监测;这些问题是怎么样解决的呢?

请看下期。

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1023

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

66

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

438

2025.12.29

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

391

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

572

2023.08.10

tcp和udp的区别
tcp和udp的区别

TCP和UDP的区别,在连接性、可靠性、速度和效率、数据报大小以及适用场景等方面。本专题为大家提供tcp和udp的区别的相关的文章、下载、课程内容,供大家免费下载体验。

119

2023.07.25

udp是什么协议
udp是什么协议

UDP是OSI参考模型中一种无连接的传输层协议。本专题为大家带来udp是什么协议的相关文章,免费提供给大家。

284

2023.08.08

tcp和udp有什么区别
tcp和udp有什么区别

tcp和udp的区别有:1、udp是无连接的,tcp是面向连接的;2、udp是不可靠传输,tcp是可靠传输;3、udp是面向报文传输,tcp是面向字节流传输。想了解更多tcp相关的内容,可阅读本专题下面的相关文章。

377

2024.11.14

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.4万人学习

Git 教程
Git 教程

共21课时 | 2.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号