开发者

python爬虫控制aiohttp并发数量方式

开发者 https://www.devze.com 2024-08-10 09:42 出处:网络 作者: NULL_1969
目录前言解决上述问题目前想到两个方法实验结果总结前言 在使用aiohttp并发访问多个页面时效率,明显比串行requests快很多,
目录
  • 前言
  • 解决上述问题
    • 目前想到两个方法
    • 实验结果
  • 总结

    前言

    在使用aiohttp并发访问多个页面时效率,明显比串行requests快很多,

    但是也存在一个问题,就是网站检测到短时间内请求的数量过多会导javascript致页面请求不成成功,

    页面返回429 (too many requests)。

    解决上述问题

    目前想到两个方法

    1、控制请求的时间,用sleep延时,来消耗每一次访问的时间,减少单位时间内的访问量,这样肯定是可以,但效率太低

    2、控制并发数量,控制并发数量,普遍推荐用信号量来控制使用方法也比较简单如下:

    from asyncio import tasks
    from aiohttp.client import ClientSession
    from lXML import etree
    from time import sleep
    import time
    import asyncio
    import aiohttp
    
    async def read_page_list(page_num,sem):
        params = {
            'page':page_num,
        }
        #通过连接池控制并发数量 limit 默认为100  0 为无限制
        async with sem:
            try:
                async with aiohttp.ClientSession() as session:
                    async with session.get(url=url,params=params,headers=headers) as response:
                        text = await response.text()
            except Exception as e:
                print('exception:',e)
            
            tree = etree.html(text)
            page_list = tree.xpath('//*[@id="thumbs"]/section[1]/ul/li')
            # break
            for li in page_list:
                pic_small_url = li.xpath('.//img/@data-src')[0]
                # print(pic_small_url,type(pic_small_url))
                # pic_small_url = str(pic_small_url)
                if 'small' in pic_small_url:
                    temp_url = pic_small_url.replace(编程客栈'small','full')
                    a = temp_url.rfind('/')
                    temp_url1= temp_url[:a]
                    pic_full_url = temp_url1+'/wallhaven-'+temp_url.split('/')[-1]
                    pic_full_url = pic_full_url.replace('th','w')
                    # print(page_num,pic_full_url)
                    pic_list.append(pic_full_url)
                else:
                    print(page_num,'find small error',pic_small_url)
                
            print(page_num,len(page_list),response.status)
            # await asyncio.sleep(1)
            #这里可以用硬延时来控制程序的访问速度,进而控制单位时间内并发的数量
            # sleep(0.5)
    
    #定义信号量
    sem = 编程客栈asyncio.Semaphore(2)
    
    start = time.time()
    #建立任务列表
    tasks = [loop.create_task(read_page_list(i,sem)) for i in range(1,20)]
    loop.run_unti编程客栈l_complete(asyncio.wait(tasks))
    print('get page list use time:',time.time()-start)
    
    
    

    实验结果

    如下:

    • 经试android验只有当请求页面20个 sem=1时才不会出现服务器返回429.
    • 当把请求页面数量改为10 sem=5是就不会出现服务返回429的情况

    总结

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程客栈(www.devze.com)。

    0

    精彩评论

    暂无评论...
    验证码 换一张
    取 消

    关注公众号