博客
关于我
基于TableStore构建简易海量Topic消息队列
阅读量:168 次
发布时间:2019-02-27

本文共 1753 字,大约阅读时间需要 5 分钟。

在大数据时代,传统的生产者消费者模式在处理海量Topic时面临诸多挑战。以下将详细阐述如何基于TableStore(表格存储)设计高效的消息队列解决方案,确保在海量Topic场景下的高吞吐、系统稳定性和消息不丢失。

消息队列在大规模应用中通常有两种主要模式:发布者订阅模式和生产者消费者模式。发布者订阅模式下,多个消费者会接收到相同的消息;而生产者消费者模式下,每条消息仅由一个消费者处理。然而,在大规模数据处理中,这两种模式都存在挑战。例如,在一个全网爬虫抓取任务调度系统中,每个大型门户和社交网络都可能成为一个Topic,内部还包含海量子网页。这就要求消息队列系统具备高扩展性、支持海量Topic以及高吞吐性能等特点。

传统的生产者消费者模式在面对海量Topic时,可能会遇到以下问题:

  • 海量Topic和消息量:需要支持海量Topic,同时每个Topic下的生产者和消费者数量也可能是庞大的。尤其是在业务峰值期,消息总量可能接近全网网页总数。

  • 任务优先级:为了实现任务优先级的高效调度,可能需要在Topic下再细分子Topic(或队列),从而提高处理效率。

  • 消息不丢失:由于消息是任务调度信息,消息的丢失是完全不可容忍的。

  • 消息重试机制:消费者在处理过程中可能会因为各种原因(如超时、错误等)失败,需要支持消息的重试调度。

  • 吞吐性能:需要避免消息读区堆积导致的资源浪费。消息读区通常是轻量级的,而消息处理是资源密集型的操作。

  • 基于以上问题,我们设计了一个基于TableStore的消息队列解决方案。TableStore具有以下特点,使其非常适合作为高效的消息队列:

    • 高扩展性:支持海量Topic,通过分区键可以实现不同Topic的数据隔离和自增主键确保消息唯一性。
    • 跨分区高并发:适合处理高并发的写入和读取操作。
    • 条件更新支持:允许在特定条件下进行数据更新,避免了乐观并发的复杂性。

    我们的解决方案主要包括以下三个表:

  • 任务消息表:存储所有待处理的任务信息,包括任务ID、优先级、访问地址等。主键由Task ID和Priority共同决定,自增列用于唯一标识每个任务。

  • 消息消费检查点表:记录任务处理的最新位置( checkpoint)。该表包含两个字段:抓取扫描游标和完成游标。消费者在读取任务时,会根据优先级从高到低依次尝试获取任务。每个优先级层级维护独立的扫描游标和完成游标。

  • 全量消息表:用于记录所有已处理和正在处理的任务信息。通过全量消息表,可以快速判断一个任务是否已经被处理过。

  • 任务处理流程如下:

  • 任务拉取:多个爬虫端定期从任务消息表中拉取任务。每个爬虫端单线程GetRange读取任务,确保任务读取的高效性。

  • 任务抢占:爬虫端根据优先级从高到低依次尝试抢占任务。抢占成功后,任务会被添加到爬虫的内存队列中进行处理。

  • 任务完成:在任务处理完成后,爬虫端会更新全量消息表和任务消息表的状态。全量消息表的状态字段用于避免重复抓取,任务消息表的状态字段用于通知完成游标扫描线程。

  • 完成游标扫描:定期扫描完成游标,确保所有任务都能得到处理。扫描过程中,会更新检查点表中的完成游标位置。

  • 重试机制:如果任务处理失败(如超时或错误),消费者会重试抢占任务。重试过程中,检查点表会在必要时更新,确保任务不会被丢失。

  • 系统稳定性:通过条件更新机制,避免同一网页被多个爬虫端同时抓取。同时,完成游标的设计保证了长尾任务能够及时处理,避免资源浪费。

  • 该方案通过TableStore的高效特性,实现了海量Topic下的高吞吐和系统稳定性。具体优势包括:

  • 高扩展性:TableStore天然支持海量Topic,通过分区键可以轻松扩展到亿级别甚至更高。

  • 优先级处理:优先级通过主键字段实现,高优先级任务会优先被读取和处理。

  • 吞吐性能:两个独立的完成游标确保了任务扫描和处理能够高效进行,避免长尾任务阻塞。

  • 消息不丢失:自增主键和完成游标机制保证了每条消息都会被处理。

  • 重试机制:消费者在处理失败时会自动重试,避免消息丢失。

  • 避免重复处理:全量消息表的状态字段确保了每个网页只会被抓取一次。

  • 这种设计方案不仅解决了大规模消息队列的核心问题,还提供了高效的任务调度和资源利用,确保了系统在高并发场景下的稳定性和可靠性。

    转载地址:http://tkrb.baihongyu.com/

    你可能感兴趣的文章
    Node-RED通过npm安装的方式对应卸载
    查看>>
    node-request模块
    查看>>
    node-static 任意文件读取漏洞复现(CVE-2023-26111)
    查看>>
    Node.js 8 中的 util.promisify的详解
    查看>>
    node.js debug在webstrom工具
    查看>>
    Node.js RESTful API如何使用?
    查看>>
    node.js url模块
    查看>>
    Node.js Web 模块的各种用法和常见场景
    查看>>
    Node.js 之 log4js 完全讲解
    查看>>
    Node.js 函数是什么样的?
    查看>>
    Node.js 函数计算如何突破启动瓶颈,优化启动速度
    查看>>
    Node.js 切近实战(七) 之Excel在线(文件&文件组)
    查看>>
    node.js 初体验
    查看>>
    Node.js 历史
    查看>>
    Node.js 在个推的微服务实践:基于容器的一站式命令行工具链
    查看>>
    Node.js 实现类似于.php,.jsp的服务器页面技术,自动路由
    查看>>
    Node.js 异步模式浅析
    查看>>
    node.js 怎么新建一个站点端口
    查看>>
    Node.js 文件系统的各种用法和常见场景
    查看>>
    Node.js 模块系统的原理、使用方式和一些常见的应用场景
    查看>>