본문 바로가기
파이썬

파이썬 Spark로 CSV 파일로드

by º기록 2020. 11. 29.
반응형

저는 Spark를 처음 사용하고 Spark를 사용하여 파일에서 CSV 데이터를 읽으려고합니다. 내가하는 일은 다음과 같습니다.

sc.textFile('file.csv')
    .map(lambda line: (line.split(',')[0], line.split(',')[1]))
    .collect()

이 호출이 내 파일의 첫 번째 두 열 목록을 제공 할 것으로 예상하지만이 오류가 발생합니다.

File "<ipython-input-60-73ea98550983>", line 1, in <lambda>
IndexError: list index out of range

내 CSV 파일이 둘 이상의 열이지만.

 

해결 방법

 

모든 행에 2 개 이상의 열이 있습니까? 확인하기 위해 다음과 같은 것을 시도해 볼 수 있습니까? :

sc.textFile("file.csv")     .map(lambda line: line.split(","))     .filter(lambda line: len(line)>1)     .map(lambda line: (line[0],line[1]))     .collect()

또는 범인 (있는 경우)을 인쇄 할 수 있습니다.

sc.textFile("file.csv")     .map(lambda line: line.split(","))     .filter(lambda line: len(line)<=1)     .collect()

 

참조 페이지 https://stackoverflow.com/questions/28782940

 

 

반응형

댓글