R – ลองใช้ dplyr กับ ggplot2 ในการจัดรูปแบบข้อมูลและพลอตเป็นกราฟแบบต่างๆดู

ช่วงนี้เป็นมือใหม่ลองใช้ภาษา R ในการจัดการข้อมูลและลองวิเคราะห์ข้อมูลพื้นฐาน ก็มาถงส่วนที่อยากทำความรู้จักกับ package dplyr กับ ggplot2 วิธีที่ดีที่สุดก็คือต้องลองใช้งานดูเยอะๆ จะได้รู้จัก package นั้นๆ ดียิ่งขึ้น Package dplyr สำหรับ package dplyr เป็น package พื้นฐานของ R ไว้สำหรับจัดการกับก้อนข้อมูลที่เรามีเช่น กรองข้อมูลเฉพาะบางคอลัมน์, กรองข้อมูลเฉพาะแถวที่มีข้อมูลบางอย่างอยู่, จัดเรียงลำดับข้อมูลที่มีตามเงื่อนไขที่ระบุ เป็นต้น ฟังก์ชันหลักๆ ของ dplyr ที่มักจะถูกเรียกใช้เพื่อจัดการข้อมูล:- filter() : มักถูกเรียกใช้เพื่อจะกรองข้อมูลของแต่ละแถว(row) ว่าข้อมูลในแถวนั้นมีข้อมูลตรงตามเงื่อนไขที่ระบุหรือไม่ ถ้าไม่มีข้อมูลก็จะถูกกรองออก เมื่อประมวลผลเสร็จก็จะคืนค่าเป็นข้อมูลใหม่ที่กรองตามเงื่อนไขเรียบร้อยแล้ว select(): มักถูกเรียกใช้เพื่อจะกรองข้อมูล จากชื่อหลัก(column)หรือจากชนิดของข้อมูล(data type)ในคอลัมน์นั้น เมื่อประมวลผลเสร็จก็จะคืนค่าเป็นข้อมูลใหม่ที่กรองตามเงื่อนไขที่ระบุไว้ arrage(): มักถูกเรียกใช้เพื่อจัดเรียงลำดับข้อมูล(มากไปน้อย, น้อยไปมาก) ตามเงื่อนไข(สามารถเลือกจัดเรียงจากข้อมูลหลักเดียว หรือ หลายหลักรวมกันได้) เมื่อประมวลผลเสร็จฟังก์ชันก็จะคืนค่าข้อมูลที่ได้รับการจัดเรียงเสร็จเรียบร้อยแล้ว mutate(): มักจะใช้สำหรับเพิ่มหลัก(column)ใหม่ ให้กับข้อมูล ซึ่งข้อมูลใหม่นั้นมักจะเป็นข้อมูลที่ได้มาจากการคำนวณจากข้อมูลเดิมที่มี เช่น คำนวณค่าเฉลี่ยจากข้อมุล Read more about R – ลองใช้ dplyr กับ ggplot2 ในการจัดรูปแบบข้อมูลและพลอตเป็นกราฟแบบต่างๆดู[…]

ข้อมูลสถิติผู้ป่วย covid19 ในช่วงปี 2019-2021

เป็นข้อมูลสถิติผู้ป่วย covid19 ที่ลองเอามาประมวลผลและนำมาแสดงเป็นกราฟในแบบต่างๆ ตั้งใจจะทำใช้เองตอนช่วงนั้นเพื่อดูข้อมูลสรุปในช่วงที่ต้องการและสามารถเลือกกรองข้อมูลจากตัวกรองบางอย่างที่พอจะหาได้จากในข้อมูลดิบจากแหล่งข้อมุลนั้นๆที่ได้มา โดยข้อมูลที่ใช้ในเวปจะดึงมาจากแหล่งข้อมูลเปิด ที่เปิดข้อมูลให้ดึงมาใช้ได้ในช่วงนั้น ทั้งของในประเทศไทย และต่างประเทศ โดยแหล่งข้อมูลจะอ้างอิงไว้ในหน้าเวปแล้วว่าแต่ละหน้าได้ข้อมูลมาจากแหล่งข้อมูลไหนบ้าง หลักๆ จะแบ่งการใช้งานออกเป็น 3 tab หลัก ดังนี้:- ข้อมูล worldwide (สามารถกรองข้อมูลได้ระดับชื่อประเทศ หรือระบุช่วงวันที่ ข้อมูลเฉพาะของไทย(สามารถกรองข้อมูลในระดับจังหวัด, อำเภอ หรือระบุช่วงวันที่) ข้อมูลเฉพาะของรัฐ(สามารถกรองข้อมูลตามรัฐ หรือระบุช่วงวันที่) กดไปที่หน้าแอพเพื่อดูแบบเต็มๆ หน้าหน่อย -> https://booboohome.com/covid19/cumulative สิ่งที่ได้เรียนรู้ระหว่างทำโปรเจคนี้ แหล่งข้อมูลที่ใช้ในเวปหยุดเพิ่มข้อมุลตั้งแต่ช่วงปี 2023 ดังนั้นในเวปนี้ก็จะมีข้อมูลแสดงแค่ถึงช่วงปี 2023 เช่นกัน ในหน้าแสดงข้อมูลของไทย ตอนแรกออกแบบโปรแกรมมารองรับข้อมูลไม่เยอะ แต่พอมาช่วงท้ายๆ ข้อมูลผู้ป่วยเพิ่มขึ้นหลักล้าน records ตอนนี้โปรแกรมเวอร์ชันที่เคยออกแบบมาเลยช้าไปหน่อย แล้วก็เลยยังโหลดข้อมูลมาได้แค่บางส่วน ยังไม่มีแรงฮึดกลับไปรื้อใหม่ เดี๋ยวถ้าคิดวิธีที่จะจัดการได้ดีกว่านี้ออก คิดว่าอยากกลับมาทดลองแก้ให้โหลดข้อมูลได้ทั้งหมดนะ ในหน้าแสดงข้อมูลของไทย ตรงที่สามารถกรองข้อมูลจังหวัด/อำเภอ เวลาใช้ตัวกรองข้อมูล ข้อมูลที่กรองออกมานั้น จำนวนผู้ป่วยน่าจะน้อยกว่าความเป็นจริง เพราะว่าข้อมูลดิบที่ได้มามีการพิมพ์ชื่อจังหวัด/อำเภอ ผิดค่อนข้างเยอะ บางทีก็สลับช่องเช่นเอาชื่ออำเภอไปใส่ชื่อจังหวัด ทำให้ข้อมูลเวลากรองจะผิดพลาด ได้พยายามลิสต์คำที่ผิดและแก้ไขไปบางส่วนแล้ว แต่พอมีข้อมูลใหม่ๆ Read more about ข้อมูลสถิติผู้ป่วย covid19 ในช่วงปี 2019-2021[…]