线程分析和实战

2021-04-08

并发是不是一个线程，并行是多个线程？

0×01 并发与并行的区别是什么？

Erlang 之父 Joe Armstrong 用一张 5 岁小孩都能看懂的图解释了并发与并行的区别

提问：并发是不是一个线程，并行是多个线程？
回答：并发和并行都可以是很多个线程，就看这些线程能不能同时被（多个）CPU 执行，如果说可以就说明是并行，而并发是多个线程（一个）CPU 轮流切换着执行。

0×02 线程

概念:线程是应用程序中工作的最小单元，或者又称之为微进程。

组成:它被包含在进程之中，是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。

阐释:线程不能够独立执行，必须依存在应用程序中，由应用程序提供多个线程执行控制。线程可以共享(调用)进程的数据资源

优点:共享内存,IO 操作时候,创造并发操作

缺点:”……”(中国文化的博大精深的带引号)

2.1 关于多线程

多线程类似于同时执行多个不同程序，多线程运行有如下优点：

使用线程可以把占据长时间的程序中的任务放到后台去处理。
用户界面可以更加吸引人，这样比如用户点击了一个按钮去触发某些事件的处理，可以弹出一个进度条来显示处理的进度
程序的运行速度可能加快
在一些等待的任务实现上如用户输入、文件读写和网络收发数据等，线程就比较有用了。在这种情况下我们可以释放一些珍贵的资源如内存占用等等。

线程在执行过程中与进程还是有区别的。每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行，必须依存在应用程序中，由应用程序提供多个线程执行控制。

每个线程都有他自己的一组 CPU 寄存器，称为线程的上下文，该上下文反映了线程上次运行该线程的 CPU 寄存器的状态。

指令指针和堆栈指针寄存器是线程上下文中两个最重要的寄存器，线程总是在进程得到上下文中运行的，这些地址都用于标志拥有线程的进程地址空间中的内存。

线程可以被抢占（中断）。
在其他线程正在运行时，线程可以暂时搁置（也称为睡眠） – 这就是线程的退让。

线程可以分为:

内核线程：由操作系统内核创建和撤销。
用户线程：不需要内核支持而在用户程序中实现的线程。

2.2 Python3

python3 线程中常用的两个模块为：

_thread
threading(推荐使用)

thread 模块已被废弃。用户可以使用 threading 模块代替。所以，在 Python3 中不能再使用”thread” 模块。为了兼容性，Python3 将 thread 重命名为 “_thread”。

Python 中使用线程有两种方式：函数或者用类来包装线程对象。

Python3 通过两个标准库 _thread 和 threading 提供对线程的支持。

_thread 提供了低级别的、原始的线程以及一个简单的锁，它相比于 threading 模块的功能还是比较有限的。

threading 模块除了包含 _thread 模块中的所有方法外，还提供的其他方法：

threading.currentThread(): 返回当前的线程变量。
threading.enumerate(): 返回一个包含正在运行的线程的 list。正在运行指线程启动后、结束前，不包括启动前和终止后的线程。
threading.activeCount(): 返回正在运行的线程数量，与 len(threading.enumerate())有相同的结果。

除了使用方法外，线程模块同样提供了 Thread 类来处理线程，Thread 类提供了以下方法:

run(): 用以表示线程活动的方法。
start():启动线程活动。
join([time]): 等待至线程中止。这阻塞调用线程直至线程的 join() 方法被调用中止-正常退出或者抛出未处理的异常-或者是可选的超时发生。
setDaemon(True):守护主线程,跟随主线程退(必须要放在 start()上方)
isAlive(): 返回线程是否活动的。
getName(): 返回线程名。
setName(): 设置线程名。

2.3 创建线程

看了那么多废话,那么创建线程的方式有俩种,接下来看代码

通过调用模块的方式来创建线程(推荐使用)

import threading # 线程模块
import time
# 创建线程
def onepiece1(n):
	print("路飞正在使用橡胶火箭炮%s,攻击力%s" %(time.ctime(),n))
	time.sleep(3)
	print("路飞结束该技能%s" %time.ctime())

def onepiece2(n):
	print("艾尼路正在出雷神万击%s你,攻击力%s" %(time.ctime(),n))
	time.sleep(5)
	print("艾尼路结束该技能%s" %time.ctime())

if __name__ == '__main__':

	thread_1 = threading.Thread(target=onepiece1,args=(10,)) # 创建子线程
	thread_2 = threading.Thread(target=onepiece2,args=(9,))

	thread_1.start()
	# pyhton1.join()
	thread_2.start()
	thread_2.join() # 等待线程终止

	print("ending Fighting")

创建类通过继承的方式来创建线程：使用 Threading 模块创建线程，直接从 threading.Thread 继承，然后重写init方法和 run 方法：

import threading
import time

class MyThread(threading.Thread):
	def __init__(self,num):
		threading.Thread.__init__(self)
		self.num = num

	def run(self):  # 定义每个线程要运行的函数
		print("running on number:%s" %self.num)
		time.sleep(3)
print("ending......")

if __name__ == '__main__':
	t1 = MyThread(1) # 继承这个类，把1这个参数，传给num ,t1就是个线程对象
	t2 = MyThread(2)
	t1.start()
	t2.start()

2.4 GIL

在知道线程的创建方式以及一些方法的使用后,引申一个 cpython 解释器的一个历史遗留问题,全局 GIL 锁

因为 Python 的线程虽然是真正的线程，但解释器执行代码时，有一个 GIL 锁：Global Interpreter Lock，任何 Python 线程执行前，必须先获得 GIL 锁，然后，每执行 100 条字节码，解释器就自动释放 GIL 锁，让别的线程有机会执行。这个 GIL 全局锁实际上把所有线程的执行代码都给上了锁，所以，多线程在 Python 中只能交替执行，即使 100 个线程跑在 100 核 CPU 上，也只能用到 1 个核。

当然了,也有通过别的途径提高执行效率,技术的道路上终无止境。

2.5 同步锁

多个线程共同对某个数据修改，则可能出现不可预料的结果，为了保证数据的正确性，需要对多个线程进行同步。

使用 Thread 对象的 Lock 和 Rlock 可以实现简单的线程同步。

这两个对象都有 acquire 方法和 release 方法。

对于那些需要每次只允许一个线程操作的数据，可以将其操作放到 acquire 和 release 方法之间。

def sub():
    global num
    thread_lock_A.acquire()  # 获得锁,用于线程同步
    tmep = num
    time.sleep(0.001)
    num = tmep - 1
    thread_lock_A.release()  # 释放锁,开启下一个线程
                             # 问题,加锁之后100个线程就变为了串行执行,锁内的代码
li = []
for i in range(100):
    t = threading.Thread(target=sub)
    t.start()
    li.append(t)

for t in li:
    t.join()
print("ending")
print(num)

同步锁

2.6 线程的死锁和递归锁

在线程间共享多个资源的时候，如果两个线程分别占有一部分资源并且同时等待对方的资源，就会造成死锁，因为系统判断这部分资源都

正在使用，所有这两个线程在无外力作用下将一直等待下去。

解决死锁就可以用递归锁

import threading,time

# lock_A = threading.Lock()
# lock_B = threading.Lock()
r_lock = threading.RLock()


class Mythread(threading.Thread):

    def actionA(self):
        r_lock.acquire()
        print(self.name,time.ctime())
        time.sleep(2)
        r_lock.acquire()
        print(self.name,time.ctime())
        time.sleep(1)
        r_lock.release()
        r_lock.release()

    def actionB(self):
        r_lock.acquire()
        print(self.name,time.ctime())
        time.sleep(2)
        r_lock.acquire()
        print(self.name,time.ctime())
        time.sleep(1)
        r_lock.release()
        r_lock.release()

    def run(self):

        self.actionA()
        self.actionB()
li = []
for i in range(5):
    t = Mythread()
    t.start()
    li.append(t)

for t in li:
    t.join()

print("ending")

递归锁

为了支持在同一线程中多次请求同一资源，python 提供了“可重入锁”：threading.RLock。RLock 内部维护着一个 Lock 和一个 counter 变量，counter 记录了 acquire 的次数，从而使得资源可以被多次 acquire。直到一个线程所有的 acquire 都被 release，其他的线程才能获得资源。

2.7 信号量(Semaphore):从意义上来讲,也可以称之为一种锁

信号量：指同时开几个线程并发

信号量用来控制线程并发数的，BoundedSemaphore 或 Semaphore 管理一个内置的计数器，每当调用 acquire()时-1，调用 release()时+1。

计数器不能小于 0，当计数器为 0 时，acquire()将阻塞线程至同步锁定状态，直到其他线程调用 release()。(类似于停车位的概念)

BoundedSemaphore 与 Semaphore 的唯一区别在于前者将在调用 release()时检查计数器的值是否超过了计数器的初始值，如果超过了将抛出一个异常。

import threading,time

class myThread(threading.Thread):
    def run(self):           #启动后，执行run方法
        if semaphore.acquire():  #加把锁，可以放进去多个（相当于5把锁，5个钥匙，同时有5个线程）
            print(self.name)
            time.sleep(5)
            semaphore.release()

if __name__=="__main__":
    semaphore=threading.Semaphore(5)  #同时能有几个线程进去（设置为5就是一次5个线程进去），类似于停车厂一次能停几辆车

    thrs=[] #空列表
    for i in range(100): #100个线程
        thrs.append(myThread()) #加线程对象

    for t in thrs:
        t.start()  #分别启动

信号量例子

2.8 同步条件(Event)

Event 对象实现了简单的线程通信机制，它提供了设置信号，清楚信号，等待等用于实现线程间的通信。

设置信号
使用 Event 的 set()方法可以设置 Event 对象内部的信号标志为真。Event 对象提供了 isSet()方法来判断其内部信号标志的状态。当使用 event 对象的 set（）方法后，isSet（）方法返回真
清除信号
使用 Event 对象的 clear()方法可以清除 Event 对象内部的信号标志，即将其设为假，当使用 Event 的 clear 方法后，isSet()方法返回假
等待
Event 对象 wait 的方法只有在内部信号为真的时候才会很快的执行并完成返回。当 Event 对象的内部信号标志位假时，则 wait 方法一直等待到其为真时才返回。

import threading, time


class Boss(threading.Thread):
    def run(self):
        print("BOSS：今晚大家都要加班到22:00。")
        print(event.isSet())
        event.set()
        time.sleep(5)
        print("BOSS：<22:00>可以下班了。")
        print(event.isSet())
        event.set()


class Worker(threading.Thread):
    def run(self):
        event.wait()
        print("Worker：哎……命苦啊！")
        time.sleep(1)
        event.clear()
        event.wait()
        print("Worker：OhYeah!")


if __name__ == "__main__":
    event = threading.Event()
    threads = []
    for i in range(5):
        threads.append(Worker())
    threads.append(Boss())
    for t in threads:
        t.start()
    for t in threads:
        t.join()

同步条件Event

Event 内部包含了一个标志位，初始的时候为 false。
可以使用使用 set()来将其设置为 true；
或者使用 clear()将其从新设置为 false；
可以使用 is_set()来检查标志位的状态；
另一个最重要的函数就是 wait(timeout=None)，用来阻塞当前线程，直到 event 的内部标志位被设置为 true 或者 timeout 超时。如果内部标志位为 true 则 wait()函数理解返回。

2.9 多线程利器——队列(queue)

因为列表是不安全的数据结构,所以引申了新的模块——队列

# 列表是不安全的数据结构     举个简单的例子

li = [1, 2, 3, 4, 5]


def remove():
    while True:
        xx = li[-1]
        print(xx)
        time.sleep(1)
        li.remove(xx)


A = threading.Thread(target=remove)
B = threading.Thread(target=remove)

A.start()
B.start()

为什么列表是不安全的数据结构

Python 的 queue 模块中提供了同步的、线程安全的队列类，包括

FIFO（先入先出)队列 Queue，
LIFO（后入先出）队列 LifoQueue，
优先级队列 PriorityQueue。

这些队列都实现了锁原语，能够在多线程中直接使用，可以使用队列来实现线程间的同步。

queue 模块中的常用方法:

queue.qsize() 返回队列的大小
queue.empty() 如果队列为空，返回 True,反之 False
queue.full() 如果队列满了，返回 True,反之 False
queue.full 与 maxsize 大小对应
queue.get([block[, timeout]])获取队列，timeout 等待时间
queue.get_nowait() 相当 queue.get(False)
queue.put(item) 写入队列，timeout 等待时间
queue.put_nowait(item) 相当 Queue.put(item, False)
queue.task_done() 在完成一项工作之后，queue.task_done()函数向任务已经完成的队列发送一个信号
queue.join() 实际上意味着等到队列为空，再执行别的操作

import queue

# 队列有三种模式
# 先进先出
qu = queue.Queue()

qu.put("alex")
qu.put(123)
qu.put({"age":18})

while True:
    print(qu.get())
    print("————————")

FIFO

# 先进后出
qu = queue.LifoQueue()

qu.put("alex")
qu.put(123)
qu.put({"age":18})

while True:
    print(qu.get())
    print("————————")

LIFO

# 优先级

q = queue.PriorityQueue(3)  # 设定大小

q.put([1, "alex"])
q.put([3, 123])
q.put([2, {"age":18}])
# q.put([4,456])  # 如果装的大于设定大小,也会阻塞(等待)

# while True:
#     print(q.get()[1])  # get当取不到值之后会等待
#     print("————————")

print(q.qsize())  # 查看当前队列有多少个
print(q.empty())  # 判断是否为空
print(q.full())   # 判断是否为满

优先级

代码示例

# 实例
import queue
import threading
import time

go = False  # 设定标识位


class MyThread(threading.Thread):
    def __init__(self, threadID, name, q):
        threading.Thread.__init__(self)
        self.threadID = threadID
        self.name = name
        self.q = q

    def run(self):
        print("开启线程:{}".format(self.name))
        process_data(self.name,self.q)
        print("退出线程:{}".format(self.name))


def process_data(thread_name,q):
    while not go:
        queue_lock.acquire()        # 获得锁
        if not work_queue.empty():  # 如果队列为空返回True,反之False
            data = q.get()          # 向队列取值,先进先出
            queue_lock.release()    # 释放锁
            print("{} processing {}".format(thread_name,data))
        else:
            queue_lock.release()
        time.sleep(1)

thread_list = ["Thread-1", "Thread-2", "Thread-3"]
name_list = ["one", "two", "three", "four", "five"]
queue_lock = threading.Lock()  # 同步锁

work_queue = queue.Queue(10)
threads = []
threads_ID = 1

# 创建新线程
for t in thread_list:
    thread = MyThread(threads_ID,t,work_queue)  # 创建线程
    thread.start()          # 启动线程
    threads.append(thread)  # 追加线程对象到列表
    threads_ID += 1         # ID自加1

# 填充队列
queue_lock.acquire()
for name in name_list:
    work_queue.put(name)  # 向队列填充
queue_lock.release()

# 等待队列清空.  清空返回True,则此循环会跳过
while not work_queue.empty():
    pass

# 改变状态,通知线程退出
go = True

# 等待所有线程完成
for t in threads:
    t.join()
print("退出主线程。")