如何设计可扩展的网站数据获取系统

爱站 02-20 23 0条评论

摘要： 系统架构应该具有良好的可扩展性和灵活性,以应对不断增加的数据量和新的数据源。采用微服务架构、事件驱动模式等设计理念可以提高系统的灵活性。合理使用并发、限流、重试等机制,可以大幅提高...

系统架构应该具有良好的可扩展性和灵活性,以应对不断增加的数据量和新的数据源。采用微服务架构、事件驱动模式等设计理念可以提高系统的灵活性。

合理使用并发、限流、重试等机制,可以大幅提高数据抓取的效率和稳定性。引入代理池、IP池等技术可以有效规避网站反爬虫策略。

建立可靠的数据清洗、转换和加载流程,确保数据质量。引入容错和容灾机制,提高系统的容错能力和可用性。

采用优秀的数据可视化和分析工具,帮助用户更好地理解和利用数据。如 Tableau、Power BI 等。

确保系统的安全性和合规性,避免因数据泄露或违反相关法规而带来的风险。

随时关注系统的性能,并根据用户需求和新的技术发展进行迭代优化。

数据采集的系统实例

嵌入式操作系统μC/OSⅡ（microcontrolleroperatingsystem）是专为微控制器系统和软件开发而设计的公开源代码的抢占式实时多任务操作系统内核，是一段微控制器启动后首先执行的背景程序，作为整个系统的框架贯穿系统运行的始终。对于对实时性和稳定性要求很高的数据采集系统来说，引入μC/OSⅡ无疑将大大改善其性能。 μC/OSⅡ的特点可以概括为以下几个方面：公开源代码，代码结构清晰、明了，注释详尽，组织有条理，可移植性好，可裁剪，可固化。内核属于抢占式，最多可以管理60个任务。 μC/OSⅡ自1992年的第一版（μC/OS）以来已经有好几百个应用，是一个经实践证明好用且稳定可靠的内核。对μC/OSⅡ的研究和应用都很多。该系统采用了Samsung公司的S3C4510B作为系统与上位机沟通的桥梁，S3C4510B是基于以太网应用系统的高性价比16/32位RISC微控制器，他有如下几个主要特点：硬件方面内含一个由ARM公司设计的16/32位ARM7TDMIRISC处理器核，ARM7TDMI为低功耗、高性能的16/32核，最适合用于对价格及功耗敏感的应用场合。 S3C4510B通过在ARM7TDMI核内容基础上扩展一系列完整地通用外围器件。片上资源包括2个带缓冲描述符（bufferdescriptor）的HDLC通道；2个UART通道；2个GDMA通道；2个32位定时器；18个可编程的I/O口。还有中断控制器；DRAM/SDRAM控制器；ROM/SRAM和FLASH控制器；系统管理器；1个内部32位系统总线仲裁器；1个外部存储器控制器等片内的逻辑控制电路。这些为μC/OSⅡ的移植提供了优良的物理资源。软件支持方面他有配套的代码编辑调试环境ADS12和JTAG在线调试功能，使S3C4510B芯片软件可以直接用C编写，这就使μC/OSⅡ的植入成为可能。 12位高速A/D转换电路采用AnalogDevices的AD574，该电路输出具有三态锁存功能。预处理电路包括了电流电压互感器、隔离电路和同步采样电路，他可以将信号转换成与AD574相匹配的量值，供后续处理。通讯电路采用常用的以太网接口与上位机相连，而232接口可作为备用，这样该装置既可作为便携式系统使用，也可通过网络来对设备实施实时监控。

如何搭建大型网站系统？

程序员们都希望能通过自己的努力学习，技术提升，拿到更好的收入，技术提升和高收入虽然不是轻易就能实现的，但总是有章可循。

一个成熟的大型网站（如淘宝、京东等）的系统架构并不是开始设计就具备完整的高性能、高可用、安全等特性，它总是随着用户量的增加，业务功能的扩展逐渐演变完善的，在这个过程中，开发模式、技术架构、设计思想也发生了很大的变化，就连技术人员也从几个人发展到一个部门甚至一条产品线。所以成熟的系统架构是随业务扩展而完善出来的，并不是一蹴而就；不同业务特征的系统，会有各自的侧重点，例如淘宝，要解决海量的商品信息的搜索、下单、支付，例如腾讯，要解决数亿的用户实时消息传输，网络它要处理海量的搜索请求，他们都有各自的业务特性，系统架构也有所不同。尽管如此我们也可以从这些不同的网站背景下，找出其中共用的技术，这些技术和手段可以广泛运行在大型网站系统的架构中，下面就通过介绍大型网站系统的演化过程，来认识这些技术和手段。

一、最开始的网站架构

最初的架构，应用程序、数据库、文件都部署在一台服务器上，如图：

二、应用、数据、文件分离

随着业务的扩展，一台服务器已经不能满足性能需求，故将应用程序、数据库、文件各自部署在独立的服务器上，并且根据服务器的用途配置不同的硬件，达到最佳的性能效果。

三、利用缓存改善网站性能

在硬件优化性能的同时，同时也通过软件进行性能优化，在大部分的网站系统中，都会利用缓存技术改善系统的性能，使用缓存主要源于热点数据的存在，大部分网站访问都遵循28原则（即80%的访问请求，最终落在20%的数据上），所以我们可以对热点数据进行缓存，减少这些数据的访问路径，提高用户体验。

缓存实现常见的方式是本地缓存、分布式缓存。当然还有CDN、反向代理等，这个后面再讲。本地缓存，顾名思义是将数据缓存在应用服务器本地，可以存在内存中，也可以存在文件，OSCache就是常用的本地缓存组件。本地缓存的特点是速度快，但因为本地空间有限所以缓存数据量也有限。分布式缓存的特点是，可以缓存海量的数据，并且扩展非常容易，在门户类网站中常常被使用，速度按理没有本地缓存快，常用的分布式缓存是Memcached、Redis。

四、使用集群改善应用服务器性能

应用服务器作为网站的入口，会承担大量的请求，我们往往通过应用服务器集群来分担请求数。应用服务器前面部署负载均衡服务器调度用户请求，根据分发策略将请求分发到多个应用服务器节点。

常用的负载均衡技术硬件的有F5，价格比较贵，软件的有LVS、Nginx、HAProxy。 LVS是四层负载均衡，根据目标地址和端口选择内部服务器，Nginx是七层负载均衡和HAProxy支持四层、七层负载均衡，可以根据报文内容选择内部服务器，因此LVS分发路径优于Nginx和HAProxy，性能要高些，而Nginx和HAProxy则更具配置性，如可以用来做动静分离（根据请求报文特征，选择静态资源服务器还是应用服务器）。

五、数据库读写分离和分库分表

随着用户量的增加，数据库成为最大的瓶颈，改善数据库性能常用的手段是进行读写分离以及分表，读写分离顾名思义就是将数据库分为读库和写库，通过主备功能实现数据同步。分库分表则分为水平切分和垂直切分，水平切换则是对一个数据库特大的表进行拆分，例如用户表。垂直切分则是根据业务不同来切换，如用户业务、商品业务相关的表放在不同的数据库中。

六、使用CDN和反向代理提高网站性能

假如我们的服务器都部署在成都的机房，对于四川的用户来说访问是较快的，而对于北京的用户访问是较慢的，这是由于四川和北京分别属于电信和联通的不同发达地区，北京用户访问需要通过互联路由器经过较长的路径才能访问到成都的服务器，返回路径也一样，所以数据传输时间比较长。对于这种情况，常常使用CDN解决，CDN将数据内容缓存到运营商的机房，用户访问时先从最近的运营商获取数据，这样大大减少了网络访问的路径。比较专业的CDN运营商有蓝汛、网宿。

而反向代理，则是部署在网站的机房，当用户请求达到时首先访问反向代理服务器，反向代理服务器将缓存的数据返回给用户，如果没有没有缓存数据才会继续走应用服务器获取，也减少了获取数据的成本。反向代理有Squid，Nginx。

七、使用分布式文件系统

用户一天天增加，业务量越来越大，产生的文件越来越多，单台的文件服务器已经不能满足需求。需要分布式的文件系统支撑。常用的分布式文件系统有NFS。

八、使用NoSql和搜索引擎

对于海量数据的查询，我们使用nosql数据库加上搜索引擎可以达到更好的性能。并不是所有的数据都要放在关系型数据中。常用的NOSQL有mongodb和redis，搜索引擎有lucene。

九、将应用服务器进行业务拆分

随着业务进一步扩展，应用程序变得非常臃肿，这时我们需要将应用程序进行业务拆分，如网络分为新闻、网页、图片等业务。每个业务应用负责相对独立的业务运作。业务之间通过消息进行通信或者同享数据库来实现。

十、搭建分布式服务

这时我们发现各个业务应用都会使用到一些基本的业务服务，例如用户服务、订单服务、支付服务、安全服务，这些服务是支撑各业务应用的基本要素。我们将这些服务抽取出来利用分部式服务框架搭建分布式服务。淘宝的Dubbo是一个不错的选择。

大型网站的架构是根据业务需求不断完善的，根据不同的业务特征会做特定的设计和考虑，本文只是讲述一个常规大型网站会涉及的一些技术和手段。

如果你还有这些疑问，成熟的网站架构师需要学什么核心技能？Java程序员如何晋升为互联网架构师？Java语言在架构搭建中扮演什么角色？怎样成为年收入几十万的架构师？欢迎来电来访昌平北大青鸟java培训。

如何构建高可用的分布式系统

开源软件已经成为许多大型网站的基本组成部分，随着这些网站的逐步壮大，他们的网站架构和一些指导原则也出现在开发者们的面前，给予切实有用的指导和帮助。本文旨在介绍一些核心问题以及通过构建模块来制作大型网站，实现最终目标。这篇文章主要侧重于Web系统，并且也适用于其他分布式系统。 Web分布式系统设计的原则　构建并运营一个可伸缩的Web站点或应用程序到底指的是什么?在最初，仅是通过互联网连接用户和访问远程资源。和大多数事情一样，当构建一个Web服务时，需要提前抽出时间进行规划。了解大型网站创建背后的注意事项以及权衡可能会给你带来更加明智的决策，当你在创建小网站时。下面是设计大型Web系统时，需要注意的一些核心原则：　1.可用性　2.性能　3.可靠性　4.可扩展　5.易管理　6.成本　上面的这些原则给设计分布式Web架构提供了一定的基础和理论指导。然而，它们也可能彼此相左，例如实现这个目标的代价是牺牲成本。一个简单的例子：选择地址容量，仅通过添加更多的服务器(可伸缩性)，这个可能以易管理(你不得不操作额外的服务器)和成本作为代价(服务器价格)。无论你想设计哪种类型的Web应用程序，这些原则都是非常重要的，甚至这些原则之间也会互相羁绊，做好它们之间的权衡也非常重要。基础　当涉及到系统架构问题时，这几件事情是必须要考虑清楚的：什么样的模块比较合适?如何把它们组合在一起?如何进行恰当地权衡?在扩大投资之前，它通常需要的并不是一个精明的商业命题，然而，一些深谋远虑的设计可以帮你在未来节省大量的时间和资源。讨论的重点几乎是构建所有大型Web应用程序的核心：服务、冗余、分区和故障处理能力。这里的每个因素都会涉及到选择和妥协，特别是前面所讨论的那些原则。解释这些核心的最佳办法就是举例子。图片托管应用程序　有时，你会在线上传图片，而一些大型网站需要托管和传送大量的图片，这对于构建一个具有成本效益、高可用性并具有低延时(快速检索)的架构是一项挑战。在一个图片系统中，用户可以上传图片到一个中央服务器里，通过网络连接或API对这些图片进行请求，就像Flickr或者Picasa。简单点，我们就假设这个应用程序只包含两个核心部分：上传(写)图片和检索图片。图片上传时最好能够做到高效，传输速度也是我们最关心的，当有人向图片发出请求时(例如是一个Web页面或其他应用程序)。这是非常相似的功能，提供Web服务或内容分发网络(一个CDN服务器可以在许多地方存储内容，所以无论是在地理上还是物理上都更加接近用户，从而导致更快的性能)边缘服务器。该系统需要考虑的其他重要方面：　1.图片存储的数量是没有限制的，所以存储应具备可伸缩，另外图片计算也需要考虑　2.下载/请求需要做到低延迟　3.用户上传一张图片，那么图片就应该始终在那里(图片数据的可靠性)　4.系统应该易于维护(易管理)　5.由于图片托管不会有太高的利润空间，所以系统需要具备成本效益　图1是个简化的功能图　图1 图片托管系统的简化结构图　在这个例子中，系统必须具备快速、数据存储必须做到可靠和高度可扩展。构建一个小型的应用程序就微不足道了，一台服务器即可实现托管。如果这样，这篇文章就毫无兴趣和吸引力了。假设我们要做的应用程序会逐渐成长成Flickr那么大。服务　当我们考虑构建可伸缩的系统时，它应有助于解耦功能，系统的每个部分都可以作为自己的服务并且拥有清晰的接口定义。在实践中，这种系统设计被称作面向服务的体系结构(SOA)。对于此类系统，每个服务都有它自己的独特功能，通过一个抽象接口可以与外面的任何内容进行互动，通常是面向公众的另一个服务API。把系统分解成一组互补性的服务，在互相解耦这些操作块。这种抽象有助于在服务、基本环境和消费者服务之间建立非常清晰的关系。这种分解可以有效地隔离问题，每个块也可以互相伸缩。这种面向服务的系统设计与面向对象设计非常相似。在我们的例子中，所有上传和检索请求都在同一台服务器上处理。然而，因为系统需要具备可伸缩性，所以把这两个功能打破并集成到自己的服务中是有意义的。快进并假设服务正在大量使用;在这种情况下，很容易看到写图片的时间对读图片时间有多大影响(他们两个功能在彼此竞争共享资源)。根据各自体系，这种影响会是巨大的。即使上传和下载速度相同(这是不可能的，对于大多数的IP网络来说，下载速度：上传速度至少是3:1)，通常，文件可以从缓存中读取，而写入，最终是写到磁盘中(也许在最终一致的情况下，可以被多写几次)。即使是从缓存或者磁盘(类似SSD)中读取，数据写入都会比读慢(PolePosition，一个开源DB基准的开源工具和结果)。这种设计的另一个潜在问题是像Apache或者Lighttpd这些Web服务器通常都会有一个并发连接数上限(默认是500，但也可以更多)，这可能会花费高流量，写可能会迅速消掉所有。既然读可以异步或利用其他性能优化，比如gzip压缩或分块传输代码，Web服务可以快速切换读取和客户端来服务于更多的请求，超过每秒的最大连接数(Apache的最大连接数设置为500，这种情况并不常见，每秒可以服务几千个读取请求)。另一方面，写通常倾向于保持一个开放的链接进行持续上传，所以，使用家庭网络上传一个1MB的文件花费的时间可能会超过1秒，所以，这样的服务器只能同时满足500个写请求。图2：读取分离　规划这种瓶颈的一个非常好的做法是把读和写进行分离，如图2所示。这样我们就可以对它们单独进行扩展(一直以来读都比写多)但也有助于弄明白每个点的意思。这种分离更易于排除故障和解决规模方面问题，如慢读。这种方法的优点就是我们能够彼此独立解决问题——在同种情况下，无需写入和检索操作。这两种服务仍然利用全球语料库的图像，但是他们可以自由地优化性能和服务方法(例如排队请求或者缓存流行图片——下面会介绍更多)。从维护和成本角度来看，每一个服务都可以根据需要独立进行扩展，但如果把它们进行合并或交织在一起，那么有可能无意中就会对另一个性能产生影响，如上面讨论的情景。当然，如果你有两个不同的端点，上面的例子可能会运行的很好(事实上，这非常类似于几个云存储供应商之间的实现和内容分发网络)。虽然有很多种方法可以解决这些瓶颈，但每个人都会有不同的权衡，所以采用适合你的方法才是最重要的。例如，Flickr解决这个读/写问题是通过分发用户跨越不同的碎片，每个碎片只能处理一组用户，但是随着用户数的增加，更多的碎片也会相应的添加到群集里(请参阅Flickr的扩展介绍)。在第一个例子中，它更容易基于硬件的实际用量进行扩展(在整个系统中的读/写数量)，而Flickr是基于其用户群进行扩展(butforces the assumption of equal usage across users so there can be extracapacity)。而前面的那个例子，任何一个中断或者问题都会降低整个系统功能(例如任何人都没办法执行写操作)，而Flickr的一个中断只会影响到其所在碎片的用户数。在第一个例子中，它更容易通过整个数据集进行操作——例如，更新写服务，包括新的元数据或者通过所有的图片元数据进行搜索——而Flickr架构的每个碎片都需要被更新或搜索(或者需要创建一个搜索服务来收集元数据——事实上，他们就是这样做的)。当谈到这些系统时，其实并没有非常正确的答案，但有助于我们回到文章开始处的原则上看问题。确定系统需求(大量的读或写或者两个都进行、级别并发、跨数据查询、范围、种类等等)，选择不同的基准、理解系统是如何出错的并且对以后的故障发生情况做些扎实的计划。冗余　为了可以正确处理错误，一个Web架构的服务和数据必须具备适当的冗余。例如，如果只有一个副本文件存储在这台单独的服务器上，那么如果这台服务器出现问题或丢失，那么该文件也随即一起丢失。丢失数据并不是什么好事情，避免数据丢失的常用方法就是多创建几个文件或副本或冗余。同样也适用于服务器。如果一个应用程序有个核心功能，应确保有多个副本或版本在同时运行，这样可以避免单节点失败。在系统中创建冗余，当系统发生危机时，如果需要，可以消除单点故障并提供备份或备用功能。例如，这里有两个相同的服务示例在生产环境中运行，如果其中一个发生故障或者降低，那么该系统容错转移至那个健康的副本上。容错转移可以自动发生也可以手动干预。服务冗余的另一重要组成部分是创建一个无共享架构。在这种体系结构中，每个节点都能相互独立运行，并且没有所谓的中央“大脑”管理状态或协调活动其他节点。这对系统的可扩展帮助很大，因为新节点在没有特殊要求或知识的前提下被添加。然而，最重要的是，这些系统是没有单点故障的，所以失败的弹性就更大。例如在我们的图片服务器应用程序中，所有的图片在另一个硬件上都有冗余副本(理想情况下是在不同的地理位置，避免在数据中心发生一些火灾、地震等自然事故)，服务去访问图片将被冗余，所有潜在的服务请求。 (参见图3：采用负载均衡是实现这点的最好方法，在下面还会介绍更多方法)　图3 图片托管应用程序冗余　分区　数据集有可能非常大，无法安装在一台服务器上。也有可能这样，某操作需要太多的计算资源、性能降低并且有必要增加容量。在这两种情况下，你有两种选择：纵向扩展或横向扩展。纵向扩展意味着在单个服务器上添加更多的资源。所以，对于一个非常大的数据集来说，这可能意味着添加更多(或更大)的硬件设备，来使一台服务器能容下整个数据集。在计算操作下，这可能意味着移动计算到一个更大的服务器上，拥有更快的CPU或更大的内存。在各种情况下，纵向扩展可以通过提升单个资源的处理能力来完成。横向扩展在另一方面是添加更多的节点，在大数据集下，这可能会使用第二服务器来存储部分数据集，对于计算资源来说，这意味着分割操作或跨节点加载。为了充分利用横向扩展，它应作为一种内在的系统架构设计原则，否则修改或拆分操作将会非常麻烦。当谈到横向扩展时，最常见的做法是把服务进行分区或碎片。分区可以被派发，这样每个逻辑组的功能就是独立的。可以通过地理界限或其他标准，如非付费与付费用户来完成分区。这些方案的优点是他们会随着容量的增加提供一个服务或数据存储。在我们的图片服务器案例中，用来存储图片的单个文件服务器可能被多个文件服务器取代，每个里面都会包含一套自己独特的图像。 (见图4)这种架构将允许系统来填充每一个文件/图片服务器，当磁盘填满时会添加额外的服务器。这样的设计需要一个命名方案，用来捆绑图片文件名到其相应的服务器上。图像名字可以形成一个一致的哈希方案并映射到整个服务器上;或者给每张图片分配一个增量ID，当客户端对图片发出请求时，图片检索服务只需要检索映射到每个服务器上(例如索引)的ID。图4 图片托管应用程序冗余和分区　当然，跨越多个服务器对数据或功能进行分区还是有许多挑战的。其中的关键问题是数据本地化。在分布式系统中，数据操作或计算点越接近，系统性能就会越好。因此，它也可能是个潜在问题，当数据分散在多个服务器上时。有时数据不是在本地，那么就要迫使服务器通过网络来获取所需的信息，这个获取的过程就会设计到成本。另一潜在问题是不一致。当这里有多个服务对一个共享资源执行读写操作时，潜在可能会有另一个服务器或数据存储参与进来，作为竞选条件——一些数据需要更新，但是读的优先级高于更新——在这种情况下，数据就是不一致的。例如在图片托管方案中，有可能出现的不一致是：如果一个客户端发送更新“狗”图片请求，进行重新命名，把“Dog”改成“Gizmo”，但同时，另一个客户端正在读这张图片。在这种情况下，标题就是不清楚的。 “Dog”或“Gizmo”应该被第二个客户端接收。当然，在进行数据分区时会产生一些障碍，但是分区允许把每个问题拆分到管理群里——通过数据、负载、使用模式等。这样对可扩展和易管理都是有帮助的，但也不是没有风险的。这里有很多方式来降低风险和故障处理;然而，为了简便起见，并未在本文中详细说明，如果你有兴趣，可以访问我的博客。总结　以上介绍的都是设计分布式系统需要考虑的核心要素。可用性、性能、可靠性、可扩展、易管理、成本这几个原则非常重要，但在实际应用中可能会以牺牲某个原则来实现另外一个原则，在这个过程中就要做好权衡工作，做到因时制宜。在下面的构建分布式系统实战中，我们将会深入介绍如何设计可扩展的数据访问，包括负载均衡、代理、全局缓存、分布式缓存等。英文　文：CSDN

文章版权及转载声明：

作者:爱站本文地址：https://www.awz.cc/post/13506.html发布于 02-20
文章转载或复制请以超链接形式并注明出处爱网站

标签：如何设计可扩展的网站数据获取系统

« 2025年7月 »
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

数据采集的系统实例

如何搭建大型网站系统？

如何构建高可用的分布式系统

相关文章