Rust - 以 JSON 為資料來源建立 Polars DataFrame

緣起

在科技的蓬勃發展中，資料處理和分析變得愈發重要。Rust 語言的 Polars 框架為我們提供了一個強大的工具，讓資料操作變得更加容易且高效。這個框架支援以 JSON 格式匯入資料並建立 Dataframe，為我們提供了一個直觀且方便的方式來操作資料。

本文開始

本文的目的，為使用 JSON 為資料來源，在 Rust 中建立 Polars 的 Dataframe。在以下的文章裡，我們將在 Cargo.toml 中，使用如下的設定：

[dependencies] polars = { version = "0.36.2", features = ["json"] }

撰文的當下，Polars 的最新版本為 0.36.2。參考 Polars 的官方文件，它提供了以下的程式碼段落，以匯入 JSON 檔案內容：

use polars::prelude::*;

let mut file = std::fs::File::open("docs/data/path.json").unwrap();
let df = JsonReader::new(&mut file).finish().unwrap();

到這裡，就能輕鬆的利用一個 JSON 檔案的內容，建立出 Dataframe 物件。

好了，故事結束，收工。
.
.
.
.
.
如果故事真的就這麼簡單，我想也就沒有撰寫這篇文章的必要了。

想想上面程式段落的例子，過程裡需要透過一個存在於檔案系統中的 JSON 檔案為媒介，儲存我們要處理的資料，再透過「JsonReader」讀入的 Dataframe 中處理。如果這些資料是從網路上取得（例如呼叫RESTful API），以字串變數的形式存在於系統之中，例如下面的內容：

let msg = r#"[
    {"id": 1, "name": "A", "age": 10},
    {"id": 2, "name": "B", "age": 20}
]"#;

面對這樣的情境，若將資料先落地後再重新讀入，實在是有些不切實際，還可能因為受到磁碟 I/O 的效能影響，而拖慢了程式執行的效率。

那為了避免上述的問題，我們應該怎麼處理呢？

使用「Serde」框架，手動建立 Dataframe

在 Rust 語言的生態系中，有一個「Serde」框架可以協助我們處理 JSON 格式的訊息或檔案。為了使用「Serde」，我們需要調整「Cargo.toml」的內容如下：

[dependencies] polars = { version = "0.36.2", features = ["json"] }

serde = { version = "1", features = ["serde_derive", "derive"] }

serde_json = "1"

但在開始程式碼內容前，我們先說說整個方法的處理邏輯如下：

定義訊息格式；
把訊息的內容，透過「Serde」框架轉換為物件或清單（這個視訊息的內容，是否有陣列存在）；
建立 Polars Dataframe。

定義訊息格式

這個動作裡，需要先定義好一個結構（struct）；參考了 JSON 訊息的內容，我們將「User」這個結構定義如下：

use serde::Deserialize;

#[derive(Debug, Deserialize)]
struct User {
    id: i32,
    name: String,
    age: i32,
}

這樣做的好處是，在匯入前就明確定義要處理的資料欄位、名稱，以及資料型態。我們會利用這個結構，來匯入 JSON 訊息。

匯入 JSON 訊息

這個步驟裡，我們會使用到「serde_json::from_str()」來匯入 JSON 訊息，具體的方式如下：

// Parse JSON string into a vector of Item structs
let users: Vec<User> = serde_json::from_str(msg).unwrap();

由於 JSON 訊息裡記載的是一個具有陣列型態的資料內容，因此在處理上，就應以「Vec<User>」來宣告，以同時儲存多個不同的「User」。

建立 Polars Dataframe

最後的重頭戲來了！！我們的目標是建立出 Polars Dataframe 物件，以進行後續資料的處理與操作。參考以下的程式片段，以完成這個作業：

use polars::prelude::*;

// Create a DataFrame from the vector of structs
let df = DataFrame::new(vec![
    Series::new("id", users.iter().map(|i| i.id).collect::<Vec<_>>()),
    Series::new("name", users.iter().map(|i| i.name.clone()).collect::<Vec<_>>()),
    Series::new("age", users.iter().map(|i| i.age).collect::<Vec<_>>())
    ]).unwrap();

// Display the DataFrame
println!("{:?}", df);

這裡使用的方式，是將「users」裡的各個欄位透過「iterator」的方式「抽出」，產生對應的資料序列（Series）後，再逐一填寫到 Dataframe 中，最終產生我們的 Dataframe - 「df」。

除了手動建立 Dataframe 的方式外，有沒有什麼比較好的方式，可以用來建立 Dataframe 呢？

透過「Cursor」建立字元串流

其實在 Rust 語言的「std::io」標準庫裡，有一個「Cursor」的 Wrapper 結構，它可以把一個字串轉換為資料串流，以進行 I/O 讀取操作；這個用法有點像我們在 Java 語言裡，會把「String」物件轉換為「StringReader」，再逐字或逐行的讀入這個字串內容。

相關的做法如下：

use polars::prelude::*;

// Create a Cursor from the input string
let cur = Cursor::new(msg);
let df = JsonReader::new(cur).finish().unwrap();

這個方法只用了短短的兩行，就完成了上述的 Dataframe 生成作業，是不是很方便？

結論

在本文中，我們探討了使用 Rust 語言的 Polars 框架處理 JSON 訊息的方法。從檔案匯入的方式進一步擴展，介紹了在處理來自網路的 JSON 字串時，如何避免因資料落地後再讀入的效能問題。透過 Serde 框架，我們定義了資料結構，並展示了如何手動建立 Dataframe，以及透過 std::io::Cursor 結構建立字元串流的方式，使產生 Dataframe 的作業更為簡單方便。這樣的處理方式不僅提高了效能，也讓資料處理更具彈性。

我尚在浩瀚的 Rust 世界中探索各種發展的可能。文章的內容皆為我實際操作後所撰寫下的過程及心得，雖已儘可能追求正確與嚴謹，但內容仍難免因觀念或理解而有所差誤，還望看到此文的同好先進，不忘指點改正，謝謝您。

最後附上本篇文章所用到的完整程式碼供大家參考：

use std::io::Cursor;

use polars::prelude::*;
use serde::Deserialize;

#[derive(Debug, Deserialize)]
struct User {
    id: i32,
    name: String,
    age: i32,
}

fn main() {
    // Define your JSON message as a string
    let msg = r#"[
        {"id": 1, "name": "A", "age": 10},
        {"id": 2, "name": "B", "age": 20}
    ]"#;

    // Parse JSON string into a vector of Item structs
    let users: Vec<User> = serde_json::from_str(msg).unwrap();

    // Create a DataFrame from the vector of structs
    let df = DataFrame::new(vec![
        Series::new("id", users.iter().map(|i| i.id).collect::<Vec<_>>()),
        Series::new("name", users.iter().map(|i| i.name.clone()).collect::<Vec<_>>()),
        Series::new("age", users.iter().map(|i| i.age).collect::<Vec<_>>())
        ]).unwrap();

    // Display the DataFrame
    println!("{:?}", df);

    
    // Create a Cursor from the input string
    let cur = Cursor::new(msg);
    let df = JsonReader::new(cur).finish().unwrap();

    // Display the DataFrame
    println!("{:?}", df);

}

蛋糕大師...

疑…?!我是什麼時候遇到她的呢？想不起來了…總之不會是一個月黑風高的晚上就是了。喔…對了，是在五月的咖啡聚會前遇到的。那天下午，我跟季節香的老闆娘一塊去參加品酒會，林老闆告訴我，那天他跟蛋糕大師訂了兩個好吃的蛋糕，晚點她會送過來，如果我們運氣好的話，或許我們回來時，可以遇見她。那就算是我運氣好吧！我們回到永和的時候，她還留在那裡喝茶，不過當時我並不知道，所以隨口就問，「蛋糕大師走了嗎？」，哈哈…話一出口，總是要有人出來承認的嘛!! 聽說人家她是國外餐飲學校畢業的，而小黑我最近正好在學做餅乾，這下可讓我抓到機會了！不好好問一下怎麼行。她人蠻不錯的，很熱心的回答我不少問題；至於我問了些什麼問題，就不再深究了，總之都是些初學者會問的笨問題就是了…。當天晚上聚會的時候，把那兩個慕斯蛋糕拿出來吃，雖然有人說，蛋糕的部份比較粗，不過我覺得，整體的口感很不錯啊！我喜歡那種吃起來很清爽、酸酸甜甜的感覺。有了這兩塊蛋糕，讓我那天晚上好開心（我尤其特別喜歡左邊這塊芒果慕斯喔！）

閱讀完整內容

日光海灣 - Sunny Bay

搜尋此網誌