반응형
저는 Spark를 처음 사용하고 Spark를 사용하여 파일에서 CSV 데이터를 읽으려고합니다. 내가하는 일은 다음과 같습니다.
sc.textFile('file.csv')
.map(lambda line: (line.split(',')[0], line.split(',')[1]))
.collect()
이 호출이 내 파일의 첫 번째 두 열 목록을 제공 할 것으로 예상하지만이 오류가 발생합니다.
File "<ipython-input-60-73ea98550983>", line 1, in <lambda>
IndexError: list index out of range
내 CSV 파일이 둘 이상의 열이지만.
해결 방법
모든 행에 2 개 이상의 열이 있습니까? 확인하기 위해 다음과 같은 것을 시도해 볼 수 있습니까? :
sc.textFile("file.csv") .map(lambda line: line.split(",")) .filter(lambda line: len(line)>1) .map(lambda line: (line[0],line[1])) .collect()
또는 범인 (있는 경우)을 인쇄 할 수 있습니다.
sc.textFile("file.csv") .map(lambda line: line.split(",")) .filter(lambda line: len(line)<=1) .collect()
참조 페이지 https://stackoverflow.com/questions/28782940
반응형
'파이썬' 카테고리의 다른 글
파이썬 정수를 로마 숫자로 변환하는 기본 프로그램? (0) | 2020.11.29 |
---|---|
파이썬 키 / 값이 JSON에 있는지 확인 (0) | 2020.11.29 |
파이썬 Python에 어떤 리팩토링 도구를 사용합니까? (0) | 2020.11.29 |
파이썬 os.listdir에서 반환 된 파일 이름에 대해 FileNotFoundError를 제공하는 Python (0) | 2020.11.29 |
파이썬 함수 이름이 파이썬 클래스에서 정의되지 않았습니다. (0) | 2020.11.29 |
댓글