緣起
這陣子利用 Rust 開發了一個爬蟲程式,上網抓取一些網路資料,無意間發現對方的系統竟然會記錄且驗證 Session ID。在架構微服務化、API 無狀態化的風潮下,這樣的實作方式已經很少看到了(至少在我寫爬蟲、撈資料的這近十年間)。為了解決這個問題,我重啟了我對 Cookies 塵封已久的記憶,尋找處理 Session ID 對應的解決方案。
在Rust語言裡有許多 HTTP/HTTPS Client 的 Crate,reqwest
[1][2]
應該是比較常見的一個套件。它是一個基於
hyper
[3][4] Crate 的高階封裝實作,簡化了 Rust
在 HTTP/HTTPS 上的操作。同時,它支援了各種常見的 HTTP
方法(GET、POST、PUT、DELETE等)、使用者定義的標頭、Query String、POST Form 及
JSON Body 等操作,以及對應的 Response 處理。
看似功能完整、內容豐富的 reqwest Crate,在原生的功能實作中,竟然沒有 Cookies 操作的對應模組及功能?!這當下可讓我吃驚了,怎麼會這樣?提供 Cookies 的操作,這不是一個 HTTP/HTTPS Client 所應該具備的標配功能嗎?難道說真的是太少人使用,所以乾脆就不提供了?
面對這樣的狀況,那可真是令人苦惱啊!我可不想為了這件事,還要自已刻一個 Cookies
的操作處理器。
本文開始
關於這個問題,我在網路上花了不少的時間做了研究。其實要處理 Cookies 不外乎有兩個途徑,第一是使用者自己客製化、以手動的方式處理;顯然這個對我們來說,並不是一個最好的選項(尤其對於一個「站在巨人的肩膀上 [5][6]」哲學信仰者的我來說…);第二種方法則是尋找是否有現成的套件可以使用,以有效縮短我們的開發時間。我相信這個應該會是大部分開發者所傾向使用的一種開發方式。
雖然在 reqwest 的套件裡,並沒有直接支援 Cookies 的操作功能,但是它還是為這個部分保留了一些彈性的空間。在 reqwest 裡頭宣告了幾個與 Cookie 操作相關的 Trait,例如 Cookie、CookieStore 等等。尋著這些線索,我們在網路上找到了一些參考資料;當然,也有相對應的實作可以參考使用,也就是接下來我們要介紹的這個套件- reqwest_cookie_store[7]。 那就先讓我們從一段簡短的程式範例,來開始說明如何透過使用 reqwest_cookie_store crate 對 Cookies 進行操作吧!
一段簡短的程式範例
下面的這段程式,簡單的示範了怎麼在 Rust 程式中,使用 reqwest_cookie_store crate 建立 Cookie Store:
看到這段程式碼,恐怕腦海裡馬上就浮現出許多的問題。一個 Cookie Store,為什麼要套嵌三層?而 `Arc` 又是什麼?為什麼要這麼作?對初學 Rust 的人來說,可能會造成很大的困擾。雖然看似繁複,但這一切都是為了做出好更有效地記憶體管理策略所做的必要犧牲。
這段程式碼的設計,實際上是為了實現 Rust 特有的所有權模型和記憶體安全性而做出的選擇。在 Rust 中,所有權(Ownership)系統確保每一塊記憶體都有明確的所有者(而且同一時間只能有一個),當所有者離開作用域時,記憶體會自動釋放,避免了常見的記憶體洩漏問題。然而,這也帶來了額外的複雜性,特別是在處理多層套嵌結構時。
三層套嵌的設計,通常是為了達成某些特定目標。例如,`Arc`(原子引用計數,Atomic Reference Counting)允許多個所有者共享同一個資源,並確保資源在最後一個引用消失後才會釋放。這在多執行緒的環境中特別有用,可以避免資料競爭和非同步程式中的不安全行為。這麼做的結果是,雖然程式碼看起來繁瑣且難以理解,但它在背後解決了複雜的記憶體管理問題,並保證了程式的安全性和效率。
對初學者來說,面對這樣的設計可能感到不知所措,但隨著對 Rust 更深入的理解,這種設計理念和其背後的原因將變得更加清晰。最終,這種複雜性將轉化為強大的記憶體管理能力,讓開發者能夠編寫出更安全、更高效的程式碼。
建立起 Cookie Store 之後,我們透過以下的代碼建立起 HTTP/HTTPS Client,並把剛剛完成的 Cookie Store 給設置進去:
use reqwest::{ClientBuilder, Request, Result};
use reqwest_cookie_store::{CookieStore, CookieStoreMutex};
use std::sync::Arc;
#[tokio::main]
async fn main() -> Result<()> {
// 建立 Cookie Store
let cookie_store = CookieStore::new(None);
let cookie_store = CookieStoreMutex::new(cookie_store);
let cookie_store = Arc::new(cookie_store);
// 建立 Client
let client = ClientBuilder::new()
.cookie_store(true)
.cookie_provider(Arc::clone(&cookie_store))
.build()
.unwrap();
// 建立 Request (GET)
let url = "https://www.google.com/";
let req = Request::new(reqwest::Method::GET, url.parse().unwrap());
// 呼叫並取回結果
let _resp = client.execute(req).await?;
Ok(())
}
您或許注意到了這一段程式碼與前面的程式片段有些許的不同。這裡主要的原因是因為 reqwest 在執行呼叫的時候,大部分我們都會採用非同步的方式執行呼叫。我們暫時不在這邊討論撰寫非同步程式的細節,總之您先知道這些差異是來自於這個部分。
通常到這裡,只要在接下來的操作中使用同一個 client,那這些連續呼叫中所使用到的 Cookies,就會儲存在我們的 Cookie Store 之中。如何取出使用中的Cookie呢?參考以下的程式碼:
同時得到以下的輸出結果:
That is, happy scraping.
結論
在這篇文章中,我們深入探討了如何在 Rust 中使用 reqwest_cookie_store 這個 crate 來管理 HTTP 請求中的 Cookies。從建立 Cookie Store、設置 HTTP Client,到最終取出並列印 Cookies,我們一步步地走過整個流程。
reqwest_cookie_store 提供了方便且強大的工具,讓我們在 Rust 應用程式中輕鬆地處理 Cookies。當然,透過理解程式碼背後的設計原理,我們可以更深入地掌握 Rust 的記憶體管理機制和非同步程式設計。
當然,希望可以透過這篇文章的分享,讓同是學習 Rust 中的你/妳,可以更快的上手,利用 Rust 建立起應用程式。
參考資料
[1] reqwest Docs (https://docs.rs/reqwest/latest/reqwest/)
[2] reqwest GitHub (https://github.com/seanmonstar/reqwest)
[3] hyper Docs (https://docs.rs/hyper/latest/hyper/)
[4] hyper official web site (https://hyper.rs/)
[5] Issac Newton - "If I have seen further it is by standing on the shoulders of giants."
[6] 遠見-重點是肩膀,不是巨人 (https://www.gvm.com.tw/article/46684)
[7] reqwest_cookie_store Docs (https://docs.rs/reqwest_cookie_store/latest/reqwest_cookie_store/)
留言