跳到主要內容

Rust - 給我一塊小餅乾;淺談 reqwest 裡的 Cookies 操作

緣起

這陣子利用 Rust 開發了一個爬蟲程式,上網抓取一些網路資料,無意間發現對方的系統竟然會記錄且驗證 Session ID。在架構微服務化、API 無狀態化的風潮下,這樣的實作方式已經很少看到了(至少在我寫爬蟲、撈資料的這近十年間)。為了解決這個問題,我重啟了我對 Cookies 塵封已久的記憶,尋找處理 Session ID 對應的解決方案。

在Rust語言裡有許多 HTTP/HTTPS Client 的 Crate,reqwest [1][2] 應該是比較常見的一個套件。它是一個基於 hyper [3][4] Crate 的高階封裝實作,簡化了 Rust 在 HTTP/HTTPS 上的操作。同時,它支援了各種常見的 HTTP 方法(GET、POST、PUT、DELETE等)、使用者定義的標頭、Query String、POST Form 及 JSON Body 等操作,以及對應的 Response 處理。

看似功能完整、內容豐富的 reqwest Crate,在原生的功能實作中,竟然沒有 Cookies 操作的對應模組及功能?!這當下可讓我吃驚了,怎麼會這樣?提供 Cookies 的操作,這不是一個 HTTP/HTTPS Client 所應該具備的標配功能嗎?難道說真的是太少人使用,所以乾脆就不提供了?

面對這樣的狀況,那可真是令人苦惱啊!我可不想為了這件事,還要自已刻一個 Cookies 的操作處理器。

本文開始

關於這個問題,我在網路上花了不少的時間做了研究。其實要處理 Cookies 不外乎有兩個途徑,第一是使用者自己客製化、以手動的方式處理;顯然這個對我們來說,並不是一個最好的選項(尤其對於一個「站在巨人的肩膀上 [5][6]」哲學信仰者的我來說…);第二種方法則是尋找是否有現成的套件可以使用,以有效縮短我們的開發時間。我相信這個應該會是大部分開發者所傾向使用的一種開發方式。 

雖然在 reqwest 的套件裡,並沒有直接支援 Cookies 的操作功能,但是它還是為這個部分保留了一些彈性的空間。在 reqwest 裡頭宣告了幾個與 Cookie 操作相關的 Trait,例如 Cookie、CookieStore 等等。尋著這些線索,我們在網路上找到了一些參考資料;當然,也有相對應的實作可以參考使用,也就是接下來我們要介紹的這個套件- reqwest_cookie_store[7]。 那就先讓我們從一段簡短的程式範例,來開始說明如何透過使用 reqwest_cookie_store crate 對 Cookies 進行操作吧!

一段簡短的程式範例

下面的這段程式,簡單的示範了怎麼在 Rust 程式中,使用 reqwest_cookie_store crate 建立 Cookie Store:

 
use reqwest_cookie_store::{CookieStore, CookieStoreMutex};
use std::sync::Arc;

fn main() {
// 建立 Cookie Store
let cookie_store = CookieStore::new(None);
let cookie_store = CookieStoreMutex::new(cookie_store);
let cookie_store = Arc::new(cookie_store);
}
 

看到這段程式碼,恐怕腦海裡馬上就浮現出許多的問題。一個 Cookie Store,為什麼要套嵌三層?而 `Arc` 又是什麼?為什麼要這麼作?對初學 Rust 的人來說,可能會造成很大的困擾。雖然看似繁複,但這一切都是為了做出好更有效地記憶體管理策略所做的必要犧牲。

這段程式碼的設計,實際上是為了實現 Rust 特有的所有權模型和記憶體安全性而做出的選擇。在 Rust 中,所有權(Ownership)系統確保每一塊記憶體都有明確的所有者(而且同一時間只能有一個),當所有者離開作用域時,記憶體會自動釋放,避免了常見的記憶體洩漏問題。然而,這也帶來了額外的複雜性,特別是在處理多層套嵌結構時。

三層套嵌的設計,通常是為了達成某些特定目標。例如,`Arc`(原子引用計數,Atomic Reference Counting)允許多個所有者共享同一個資源,並確保資源在最後一個引用消失後才會釋放。這在多執行緒的環境中特別有用,可以避免資料競爭和非同步程式中的不安全行為。這麼做的結果是,雖然程式碼看起來繁瑣且難以理解,但它在背後解決了複雜的記憶體管理問題,並保證了程式的安全性和效率。

對初學者來說,面對這樣的設計可能感到不知所措,但隨著對 Rust 更深入的理解,這種設計理念和其背後的原因將變得更加清晰。最終,這種複雜性將轉化為強大的記憶體管理能力,讓開發者能夠編寫出更安全、更高效的程式碼。

建立起 Cookie Store 之後,我們透過以下的代碼建立起 HTTP/HTTPS Client,並把剛剛完成的 Cookie Store 給設置進去:


use reqwest::{ClientBuilder, Request, Result};

use reqwest_cookie_store::{CookieStore, CookieStoreMutex};

use std::sync::Arc;


#[tokio::main]

async fn main() -> Result<()> {

   // 建立 Cookie Store

   let cookie_store = CookieStore::new(None);

   let cookie_store = CookieStoreMutex::new(cookie_store);

   let cookie_store = Arc::new(cookie_store);


   // 建立 Client 

let client = ClientBuilder::new()

       .cookie_store(true)

       .cookie_provider(Arc::clone(&cookie_store))

       .build()

       .unwrap();


   // 建立 Request (GET)

   let url = "https://www.google.com/";

   let req = Request::new(reqwest::Method::GET, url.parse().unwrap());


   // 呼叫並取回結果

   let _resp = client.execute(req).await?;


   Ok(())

}

 

您或許注意到了這一段程式碼與前面的程式片段有些許的不同。這裡主要的原因是因為 reqwest 在執行呼叫的時候,大部分我們都會採用非同步的方式執行呼叫。我們暫時不在這邊討論撰寫非同步程式的細節,總之您先知道這些差異是來自於這個部分。

通常到這裡,只要在接下來的操作中使用同一個 client,那這些連續呼叫中所使用到的 Cookies,就會儲存在我們的 Cookie Store 之中。如何取出使用中的Cookie呢?參考以下的程式碼:

 
...(略)
 
#[tokio::main]
async fn main() -> Result<()> {
 
...(略)
 
// 呼叫並取回結果
let _resp = client.execute(req).await?;

// 取出 Cookie Store 裡的 Cookies
{
let store = cookie_store.lock().unwrap();
for cookie in store.iter_any() {
let (k, v) = cookie.name_value();
println!("{k}={v}");
}
}

Ok(())
}

同時得到以下的輸出結果:

 
NID=517=uy-Uv_L5KZ5SGd8RzTcw-tgt_7UPHB8doRt_...(略)
AEC=AVYB7coV8VPItjSPsj71B3wOsFKCf1bimi6XKyro_...(略)
 

That is, happy scraping.

結論

在這篇文章中,我們深入探討了如何在 Rust 中使用 reqwest_cookie_store 這個 crate 來管理 HTTP 請求中的 Cookies。從建立 Cookie Store、設置 HTTP Client,到最終取出並列印 Cookies,我們一步步地走過整個流程。

reqwest_cookie_store 提供了方便且強大的工具,讓我們在 Rust 應用程式中輕鬆地處理 Cookies。當然,透過理解程式碼背後的設計原理,我們可以更深入地掌握 Rust 的記憶體管理機制和非同步程式設計。

當然,希望可以透過這篇文章的分享,讓同是學習 Rust 中的你/妳,可以更快的上手,利用 Rust 建立起應用程式。

參考資料

[1] reqwest Docs (https://docs.rs/reqwest/latest/reqwest/)

[2] reqwest GitHub (https://github.com/seanmonstar/reqwest)

[3] hyper Docs (https://docs.rs/hyper/latest/hyper/)

[4] hyper official web site (https://hyper.rs/)

[5] Issac Newton - "If I have seen further it is by standing on the shoulders of giants."

[6] 遠見-重點是肩膀,不是巨人 (https://www.gvm.com.tw/article/46684)

[7] reqwest_cookie_store Docs (https://docs.rs/reqwest_cookie_store/latest/reqwest_cookie_store/)

留言

這個網誌中的熱門文章

Linux 雙螢幕顯示設定

回頭看了一下 Blog 的更新日期,上一篇發文已經是三年以前。 最近手上剛好有一部新筆電安裝了 Linux 後,想透過 HDMI 界面來連接第二顆螢幕,可是卻怎麼樣也沒有辦法投放到第二顆螢幕上。寫下這篇文章作為紀錄。 我的配備如下: Intel 整合顯示晶片 Nvidia Geforce GTX-1050 顯示晶片 筆電內建 LCD 螢幕 外接 BenQ EL2200 螢幕 HDMI -> VGA 轉換器  透過 xrandr -q 指令來查詢目前的顯示狀況:  畫面中出現我的 HDMI 界面是處於 "disconnected" 的狀態,可是我明明就是把轉換器插在 HDMI 座上呀! 又透過了 nvidia-xconfig --query-gpu-info 查詢,我可以查到我的 Nvidia GPU 已經被驅動,同時連現在螢幕上。 到這裡為止,我查到的資料及問題解法,不外乎是要求安裝 GPU 驅動程式(我已經安裝了,所以可以透過 nvidia-xconfig 查到 GPU 的狀態),或是使用 xrandr 增加顯示模式,然後把訊號投放至螢幕上;但這些都沒有辦法真正解決我的問題,螢幕的指示燈處於無訊號的狀態,螢幕上空蕩蕩的漆黑一片。 因此,我改變思考的方向,將問題的調整為 XWindow 的設定問題,並著手尋找將系統設定為雙螢幕的可能。目前新版的 XWindow 已經可以透過自動偵測的方式完成設定,不需要預先準備 xorg.conf 這個設定檔。但是若要自行對 XWindow 進行配置,那勢必需要產生這個檔案。所幸目前的工具很方便,可以透過一些簡單的參數,產生一個基礎檔案;我們再利用這個檔案為基礎,調整為我們需要的配置。 我使用了以下的指令,完成設定檔的產出: Xorg -configure 這個指令只能在 Console 模式下執行,而且執行時需要把目前執行中的 XWindow 停止;完成後,會在執行者的目錄下,產生一個 xorg.conf.new 的檔案。把這個檔案移動到 /etc/X11/ 目錄下,並改名為 xorg.conf 。 nvidia-xconfig 它會參考剛剛的 xorg.conf ,並把 Nvidia 驅動程式相關的設定填入。需要有 root 權限。 ...