久久一区二区三区超碰国产精品,亚洲人成在线网站,国产在线精品一区免费香蕉,国产精品免费电影

歡迎您訪問高考派招生信息爬蟲實戰(zhàn)：獲取學校 id 和城市號！

留學之路>留學備考>雅思

高考派招生信息爬蟲實戰(zhàn)：獲取學校 id 和城市號

更新時間：2024-07-05 07:02:22作者：佚名

攀巖只是為了好玩網(wǎng)校頭條，只是為了學習，沒有其他目的

這幾天都在高考派上查招生信息，走了很多彎路，也學到了很多東西。

以下是涉及的模塊

import requests
from fake_useragent import UserAgent
from multiprocessing import Process
import urllib.request as r
import threading
import re
import time
import random

首先我們來看看需要爬取的網(wǎng)頁

不同的學校對應著文理科，以及全國各省確定招生計劃。點擊搜索，可以得到一個請求頁面，這個頁面是通過ajax實現(xiàn)的。

發(fā)送的數(shù)據(jù)如下

通過多個頁面對比可以知道，id指的是學校id，type 1或者2指的是文科或者理科，city自然就是城市編號，state 1或者0表示是否有招生計劃。

所以我們需要先把所有的ID和城市獲取出來并寫入txt，這個是在首頁用正則表達式實現(xiàn)的高考派，具體代碼很簡單，獲取學校的文本文件和對應的網(wǎng)址、省份和身份證號碼：

共有 3054 所大學

和 31 個省

然后向各個大學的URL發(fā)送請求，獲取JSON數(shù)據(jù)。

#獲取id列表
def getSchoolIdList():
#...
#獲取city列表
def getCityIdList():
# ...
#獲取請求數(shù)據(jù)列表
def getDataList(schoolId,cityId):
    dataList = []
    for sid in schoolId:
        for cid in cityId:
            for type in [1, 2]:
                dataList.append('id={}&type={}&city={}&state=1'.format(sid, type, cid))
    return dataList

也就是說一共有=條數(shù)據(jù)需要獲取

而且考慮到數(shù)據(jù)量很大，為了防止被攔截，必須設置代理和不同的消息頭

我是通過向代理網(wǎng)站發(fā)送請求來獲取代理IP的（19元一天高考派，不過可以無限量），另外如果字典里是‘http’，就會報錯，還有‘http’和‘http’都報錯，不知道為什么，干脆從代理網(wǎng)站獲取https的IP吧

#獲取代理ip列表，其中有15個ip
def getProxyList():
    url1 = 'http://api3.xiguadaili.com/ip/?tid=558070598680507&num=15&delay=1&category=2&protocol=https'
    res = requests.get(url1)
    proxyList &

上一篇：九篇有趣的一天又要結束了，一定有不少感想

下一篇：戴思宇：從校園傳說到備受關注的高考學子

相關文章

為您推薦

戴思宇：從校園傳說到備受關注的高考學子

在學校官網(wǎng)發(fā)出了另一位成績700分的“高考狀元”。那位考了708分的學生原來曾經(jīng)得過省級的三好學生。并憑借這個證書獲得了十分的高考加分。就說網(wǎng)絡上那些靠題海戰(zhàn)術考進清北的所謂高考狀元?！疤铠啞背鰜淼母呖紶钤娴挠幸饬x嗎？在各種奧賽中拿到的獎項也不比衡中等知名“高考工廠”少。快樂學習也能考上清華北大。

2024-07-04 21:03

高考藝考體育舞蹈包括哪些種類？詳細科普

體育舞蹈在高考舞蹈都考什么?高考藝考體育舞蹈包括哪些種類體育舞蹈在高考舞蹈都考什么考評員目測體育舞蹈藝考考生身體各部分的比例、形態(tài)、外貌及氣質。那么藝考體育舞蹈好考嗎，北體體育舞蹈招生簡章如何正確解讀，有哪些綜合類大學體育舞蹈專業(yè)，體育舞蹈專業(yè)二本大學可以去讀嗎，畢業(yè)后好找工作嗎?

2024-07-04 20:02

2023 年高考時間安排及地區(qū)差異，你了解嗎？

2023年高考的具體統(tǒng)一考試時間為6月7日和8日。新高考地區(qū)的考試時間略有不同。高考考試時間安排1、全國普通高考在6月7、8、9日進行，大部分省份是兩天，少數(shù)省份需要三天。2、大部分省份的高考時間科目安排如下：想要了解高考相關內容的考生和家長可以重點參考。高考考試注意事項

2024-07-04 20:02

高考結束后的暑假怎么過？過來人建議：睡懶覺、聚會、旅行……

晨視頻為你整理了全網(wǎng)的“過來人”建議，高考后的暑假應該怎么度過，看看大家怎么說。因為高考完的這段時間沒有其他瑣碎的事情，兩三個月的時間拿來學車正好。別總覺得上了大學很閑，也有假期總能有時間考，到時候你會發(fā)現(xiàn)你要考證、要各種社團活動、要去實習兼職、要去旅游聚會，拖著拖著時間一眨眼就過去了。

2024-07-04 19:03

富縣高級中學冬季安全教育：雨雪冰凍天氣，家長如何保障孩子的

富縣高級中學為切實保障學生的人身安全，共同做好學生的冬季安全教育工作，希望家長協(xié)同學校切實加強對孩子的安全教育和管理，積極配合學校開展安全防范工作，讓安全警鐘時刻長鳴！現(xiàn)提醒家長教育孩子做到以下幾點：四、冬季校外活動安全4.教育子女預防季節(jié)病和流行病。富縣高級中學

2024-07-04 17:02

高考錄取輔助排序分的作用及計算方法解析

在投檔過程中，對總分相同的考生，按其“輔助排序分”從高到低排序投檔。當考生總分等于投檔線時，專業(yè)技能成績須達到輔助排序分；當考生總分超過投檔線時，則輔助排序分高低不影響投檔。輔助排序分其實只對踏線考生才管用，比如投檔線是360分，輔助排序分是261分。

2024-07-04 14:03

加載中...

精品文章

熱門推薦

楊冪正式公布喜訊已懷上二胎，預產(chǎn)期11月，劉愷威微博證實！

2023-01-12

2022年上海電費多少？附計算方法和階梯電價標準

2022-12-30

世界城市gdp排名2022最新排名 2021年度全球城市GD

2022-11-29

英國大學排名一覽表(2023QS世界排名英國大學前50名)

2023-01-30

80后退休年齡一覽表2022最新（退休年齡的規(guī)定以及延遲退休

2022-12-08

大家都在看

主站蜘蛛池模板：莒南县| 和龙市| 丰顺县| 阳城县| 江津市| 汉中市| 贺州市| 大名县| 靖宇县| 县级市| 新乐市| 谷城县| 靖安县| 云和县| 读书| 阿瓦提县| 元阳县| 洮南市| 碌曲县| 陆丰市| 雷山县| 扎囊县| 普兰店市| 邯郸县| 枣庄市| 饶平县| 都安| 图木舒克市| 洪雅县| 宝兴县| 忻城县| 大丰市| 长岛县| 抚顺市| 嘉峪关市| 荣昌县| 兴安盟| 贺州市| 昆明市| 手机| 股票|