이봐! NAN 제품의 공급 업체로서, 나는 종종 'NAN'값으로 데이터를 시각화하는 방법에 대해 질문합니다. '숫자가 아님'을 나타내는 'Nan'은 데이터를 이해하려고 할 때 목에 진정한 통증이 될 수 있습니다. 그러나 걱정하지 마십시오. 이러한 성가신 가치를 다루고 멋진 시각화를 만드는 데 도움이되는 몇 가지 팁과 요령이 있습니다.
먼저, 왜 '난'값이 처음에 나타나는지에 대해 이야기합시다. 그들은 여러 가지 이유로 나타날 수 있습니다. 센서 오작동이나 스프레드 시트에 항목이 누락 된 것과 같은 데이터 수집 중에 오류가 발생했을 수 있습니다. 또는 데이터가 특정 관찰을 위해 존재하지 않을 수도 있습니다. 예를 들어, 사람들의 높이에 대한 데이터를 수집하고 일부 사람들이 그 정보를 공유하고 싶지 않은 경우 해당 값은 'Nan'입니다.
이제 'Nan'값으로 데이터를 시각화 할 때 첫 번째 단계는 무엇을 해야하는지 알아내는 것입니다. 몇 가지 일반적인 접근법이 있습니다.
한 가지 옵션은 단순히 'Nan'값을 포함하는 행이나 열만 제거하는 것입니다. 특히 큰 데이터 세트가 있고 'Nan'값의 수가 비교적 작다면 빠르고 쉬운 수정이 될 수 있습니다. 그러나이 방법에주의해야합니다. 데이터를 제거하면 결과를 왜곡하고 실제로 진행되는 일에 대한 잘못된 그림을 줄 수 있습니다. 예를 들어, 판매 데이터를 분석하고 'NAN'값으로 모든 행을 제거하는 경우 누락 된 항목과 관련된 중요한 트렌드 나 패턴을 놓칠 수 있습니다.
또 다른 접근법은 다른 무언가로 '난'값을 채우는 것입니다. 사용 가능한 데이터의 평균, 중앙값 또는 모드를 사용할 수 있습니다. 예를 들어, 온도의 데이터 세트를보고 몇 가지 'NAN'값이있는 경우 비 'NAN'값의 평균 온도를 계산하여 블랭크를 채우는 데 사용할 수 있습니다. 이를 통해 데이터를 매끄럽게하고 시각화하기가 더 쉬워집니다. 그러나 다시, 그것은 완벽한 솔루션이 아닙니다. 'NAN'값을 채우기 위해 요약 통계를 사용하면 특히 데이터가 많은 변동성이있는 경우 데이터를 왜곡 할 수 있습니다.


보간과 같은 고급 기술을 사용할 수도 있습니다. 보간에는 주변 데이터 포인트의 값에 따라 결 측값을 추정하는 것이 포함됩니다. 예를 들어, 'NAN'값이있는 시간 - 시리즈 데이터 세트가있는 경우 선형 보간을 사용하여 누락 된 시점에서 값이 무엇인지 추정 할 수 있습니다. 이것은 'Nan'값을 다루는보다 정확한 방법 일 수 있지만 더 복잡하고 시간이 소비 될 수 있습니다.
'Nan'값으로 무엇을 해야하는지 결정하면 이제 데이터 시각화를 시작할 때입니다. 훌륭한 시각화를 만드는 데 도움이되는 수많은 도구가 있습니다. 인기있는 일부에는 Matplotlib 및 Seaborn과 같은 Python 라이브러리와 GGPLOT2와 같은 R 패키지가 포함됩니다.
시간이 지남에 따라 제품 판매 데이터 세트가 있고 몇 가지 'Nan'값이 있다고 가정 해 봅시다. 중간 판매 금액으로 'Nan'값을 작성하기로 결정했습니다. 이제 판매 추세를 보여주는 라인 차트를 만들고 싶습니다. Python의 Matplotlib를 사용하면 다음과 같은 작업을 수행 할 수 있습니다.
pdt # astime # as import matplotlib.pyplot pd # 'data'는 'sales_data.csv') # pd.read_csv ( 'sales_data.csv') # 'sales'] = data [ 'sales [']) plt.plot (data [ '') (data [ '') plt.xlabel ( '날짜') plt.ylabel ( 'sales') plt.title ( '시간이 지남에 따른 제품 판매') plt.show ()
이 코드는 CSV 파일의 판매 데이터를 읽고 중간 판매 금액으로 'NAN'값을 채운 다음 간단한 라인 차트를 작성하여 시간이 지남에 따라 판매 추세를 표시합니다.
산란 플롯이나 막대 차트와 같은보다 복잡한 시각화에 관심이 있다면 이러한 도구도이를 처리 할 수 있습니다. 예를 들어, 다양한 제품의 판매 및 고객 등급을 비교하는 데이터 세트가 있고 등급 열에 'NAN'값이 몇 개있는 경우, 판매 및 등급간에 관계가 있는지 확인하는 산점도를 만들 수 있습니다.
이제 회사에서 제공하는 일부 제품을 언급하고 싶습니다. 정말 멋진 XPON ONU 장치가 있습니다. 확인하십시오XPON ONU 4GE WIFI5 AC1200. WI -FI 5 기능을 구축 한 고속 인터넷 액세스를위한 훌륭한 장치입니다. 더 많은 기능이 필요한 것이 있으면Xon UN 4GE CATV POTS WIFI5 AC1200. 이것은 인터넷 액세스를 제공 할뿐만 아니라 CATV 및 POTS 연결을 지원합니다. WI -FI 기술의 최신의 경우이 tut 4ge voip cave cati6가는 길입니다. VoIP 및 CATV 지원과 함께 고속 WI -FI 6 연결을 제공합니다.
이러한 종류의 제품을 시장에 나누거나 'NAN'값으로 데이터를 시각화하는 것에 대한 질문이 있다면 주저하지 마십시오. 우리는 귀하의 데이터를 최대한 활용하고 귀하의 요구에 맞는 올바른 제품을 얻도록 도와 드리겠습니다. 인터넷 인프라를 개선하려는 소기업이든 지저분한 데이터를 이해하려고하는 데이터 분석가이든, 우리는 귀하를위한 솔루션을 얻었습니다. 대화를 시작하고 우리가 어떻게 협력 할 수 있는지 살펴 보겠습니다!
참조
- Vanderplas, J. (2016). Python Data Science Handbook : 데이터 작업을위한 필수 도구. 오라일리 미디어.
- Wickham, H. (2016). GGPLOT2 : 데이터 분석을위한 우아한 그래픽. 뛰는 것.
