avatar
文章
809
标签
84
分类
74
Home
Tags
Categories
List
  • Movie[PLEX]
  • Linux-command
HExLL-迷雾日志
Home
Tags
Categories
List
  • Movie[PLEX]
  • Linux-command

HExLL-迷雾日志

61.网络数据采集概述
发表于09-08-2022|Python-100-DaysDay61-65
网络数据采集概述 爬虫(crawler)也经常被称为网络蜘蛛(spider),是按照一定的规则自动浏览网站并获取所需信息的机器人程序(自动化脚本代码),被广泛的应用于互联网搜索引擎和数据采集。使用过互联网和浏览器的人都知道,网页中除了供用户阅读的文字信息之外,还包含一些超链接,网络爬虫正是通过...
62.用Python获取网络资源-1
发表于09-08-2022|Python-100-DaysDay61-65
用Python获取网络数据 网络数据采集是 Python 语言非常擅长的领域,上节课我们讲到,实现网络数据采集的程序通常称之为网络爬虫或蜘蛛程序。即便是在大数据时代,数据对于中小企业来说仍然是硬伤和短板,有些数据需要通过开放或付费的数据接口来获得,其他的行业数据和竞对数据则必须要通过网络数据采...
51.使用缓存
发表于09-08-2022|Python-100-DaysDay41-55
使用缓存 通常情况下,Web应用的性能瓶颈都会出现在关系型数据库上,当并发访问量较大时,如果所有的请求都需要通过关系型数据库完成数据持久化操作,那么数据库一定会不堪重负。优化Web应用性能最为重要的一点就是使用缓存,把那些数据体量不大但访问频率非常高的数据提前加载到缓存服务器中,这又是典型的空...
56-60.用FastAPI开发数据接口
发表于09-08-2022|Python-100-DaysDay56-60
用FastAPI开发网络数据接口 FastAPI 是一个用于构建API(网络数据接口)的现代、高性能的Web框架,基于Python 3.6+,使用了Python中的类型提示进行类型检查,非常符合工程化开发的需求,在业界有非常好的口碑。下面,我们先用代码告诉大家FastAPI到底能做什么,然后再...
62.用Python解析HTML页面-2
发表于09-08-2022|Python-100-DaysDay61-65
用Python解析HTML页面 在前面的课程中,我们讲到了使用request三方库获取网络资源,还介绍了一些前端的基础知识。接下来,我们继续探索如何解析 HTML 代码,从页面中提取出有用的信息。之前,我们尝试过用正则表达式的捕获组操作提取页面内容,但是写出一个正确的正则表达式也是一件让人头疼...
63.并发编程在爬虫中的应用
发表于09-08-2022|Python-100-DaysDay61-65
并发编程在爬虫中的应用 之前的课程,我们已经为大家介绍了 Python 中的多线程、多进程和异步编程,通过这三种手段,我们可以实现并发或并行编程,这一方面可以加速代码的执行,另一方面也可以带来更好的用户体验。爬虫程序是典型的 I/O 密集型任务,对于 I/O 密集型任务来说,多线程和异步 I/...
63.Python中的并发编程-2
发表于09-08-2022|Python-100-DaysDay61-65
Python中的并发编程-2 在上一课中我们说过,由于 GIL 的存在,CPython 中的多线程并不能发挥 CPU 的多核优势,如果希望突破 GIL 的限制,可以考虑使用多进程。对于多进程的程序,每个进程都有一个属于自己的 GIL,所以多进程不会受到 GIL 的影响。那么,我们应该如何在 P...
63.Python中的并发编程-3
发表于09-08-2022|Python-100-DaysDay61-65
Python中的并发编程-3 爬虫是典型的 I/O 密集型任务,I/O 密集型任务的特点就是程序会经常性的因为 I/O 操作而进入阻塞状态,比如我们之前使用requests获取页面代码或二进制内容,发出一个请求之后,程序必须要等待网站返回响应之后才能继续运行,如果目标网站不是很给力或者网络状况...
63.Python中的并发编程-1
发表于09-08-2022|Python-100-DaysDay61-65
Python中的并发编程-1 现如今,我们使用的计算机早已是多 CPU 或多核的计算机,而我们使用的操作系统基本都支持“多任务”,这使得我们可以同时运行多个程序,也可以将一个程序分解为若干个相对独立的子任务,让多个子任务“并行”或“并发”的执行,从而缩短程序的执行时间,同时也让用户获得更好的体...
64.使用Selenium抓取网页动态内容
发表于09-08-2022|Python-100-DaysDay61-65
使用Selenium抓取网页动态内容 根据权威机构发布的全球互联网可访问性审计报告,全球约有四分之三的网站其内容或部分内容是通过JavaScript动态生成的,这就意味着在浏览器窗口中“查看网页源代码”时无法在HTML代码中找到这些内容,也就是说我们之前用的抓取数据的方式无法正常运转了。解决这...
1…666768…81
avatar
Gaga🦆
个人技术博客,涵盖编程、深度学习、Linux等领域
文章
809
标签
84
分类
74
Follow Me
公告
Here is HExLL
最新文章
HExLL 维护手册:更新、部署与 tools 工具指南01-01-2026
HExLL大更新:Hexo 8.x 升级与全面优化31-12-2025
tools/upgrade.sh:本地升级依赖与主题(详解)31-12-2025
tools/update.sh:服务器同步 gh-pages 分支(详解)31-12-2025
HExLL 工具脚本总览(tools 目录)31-12-2025
分类
  • C语言63
    • C-CrashCourse62
      • c-games1
      • c-mordern-approch24
      • c-notes22
      • c-review6
      • c-traps-and-pitfalls8
      • other1
标签
Bookmark书签Unread未读outputToolsMarkdownREADMEC语言codingHexoHExLL技术更新Butterfly提问的智慧readmeCSComputer SciencePython工具链脚本自动化运维GitHub-PagesPhysicsDoppler effectMeasurementLanguageEnglishLinuxLinux-commandDeepLearningch01_数学基础ch03_深度学习基础ch04_经典网络ch02_机器学习基础ch05_卷积神经网络(CNN)ch06_循环神经网络(RNN)ch09_图像分割ch12_网络搭建及训练
归档
  • 一月 2026 1
  • 十二月 2025 5
  • 十月 2022 2
  • 八月 2022 739
  • 十一月 2020 62
网站信息
文章数目 :
809
本站总字数 :
1298.3k
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2020 - 2026 By Gaga🦆
湘ICP备2023013146号