contract@chaoreumsoft.co.kr |    031-921-0523

ML.NET 모델 작성기 댓글 감정 분석(이진분류)

페이지 정보

작성자최고관리자

본문

데이터 준비 및 설계

1. 데이터 세트(DataSet)를 다운로드 합니다.

다운로드 wikipedia-detox-250-line-data.tsv 데이터 세트의 각 행은 사용자가 Wikipedia에 남긴 다른 검토를 나타냅니다. 첫 번째 열은 텍스트의 감정(0은 무해, 1은 유해)를 나타내고, 두 번째 열은 사용자가 남긴 댓글을 나타냅니다. 열은 탭으로 구분됩니다. 데이터는 다음과 같습니다.

감정

SentimentText

1

==RUDE== Dude, you are rude upload that carl picture back, or else.

1

== OK! == IM GOING TO VANDALIZE WILD ONES WIKI THEN!!!

0

I hope this helps.


2. 솔루션 탐색기에서 SentimentRazor 프로젝트를 마우스 오른쪽 단추로 클릭하고 추가 > Machine Learning을 선택합니다.


8157489ae3175bef21a9b2208418e832_1589424824_6577.png

이 샘플에서 감정 분석은 시나리오입니다.

모델 분석기 도구의 시나리오 단계에서 감정 분석 시나리오를 선택합니다.

8157489ae3175bef21a9b2208418e832_1589424836_6271.png

데이터 불러오기

모델 작성기에서는 SQL Server 데이터베이스, 로컬 파일 csv , tsv 형식의 두 가지 소스에서 데이터를 허용합니다.

1. 모델 작성기 도구의 데이터 단계의 데이터 원본 드롭다운에서 파일을 선택합니다.

2. 파일 선택 텍스트 상자 옆의 있는 단추를 선택하고 파일 탐색기를 사용하여 wikipedia-detox-250-line-data.tsv 파일을 선택합니다.

3. 예측할 열(레이블) 드롭다운에서 감정을 선택합니다.

4. 열 입력(기능) 드롭다운의 기본값을 그대로 둡니다.

5. 학습 링크를 선택하여 모델 작성기 도구의 다음 단계로 이동합니다.

8157489ae3175bef21a9b2208418e832_1589424940_1959.png

모델 학습

감정 분석 모델을 학습하는 데 사용되는 기계 학습 작업은 이진 분류입니다. 모델 학습 프로세스 중에 모델 작성기는 다른 이진 분류 알고리즘 및 설정을 통해 개별 모델을 학습하여 데이터 세트에 가장 적합한 모델을 찾습니다.

모델을 학습하는 데 필요한 시간은 데이터 양에 비례 합니다. 모델 작성기는 데이터 소스의 크기에 따라 학습 시간(초) 의 기본값을 자동으로 선택합니다.

1. 모델 작성기는 학습 시간(초) 값을 10초로 설정하지만 이 값을 30초로 늘립니다. 더 긴 시간 동안 학습하면 모델 작성기가 최상의 모델을 찾아 더 많은 알고리즘과 매개 변수의 조합을 탐색할 수 있습니다.

2. 학습 시작을 선택합니다.

학습 프로세스 전체에서 진행률 데이터는 학습 단계의 Progress 섹션에 표시됩니다.

8157489ae3175bef21a9b2208418e832_1589424950_9669.png
8157489ae3175bef21a9b2208418e832_1589424957_1777.png
8157489ae3175bef21a9b2208418e832_1589424994_6031.png

* 상태는 학습 프로세스의 완료 상태를 표시합니다.

* 가장 높은 정확도는 모델 작성기가 현재까지 찾은 최고 성능 모델의 정확도를 표시합니다. 더 높은 정확도는 테스트 데이터에서 모델이 더 정확하게 예측 된다는 것을 의미합니다.

* 최상의 알고리즘은 모델 작성기가 현재까지 찾은 최고 성능 알고리즘의 이름을 표시합니다.

* 마지막 알고리즘은 모델 작성기가 가장 최근에 학습하기 위해 사용한 알고리즘의 이름을 표시합니다.


출력결과

8157489ae3175bef21a9b2208418e832_1589425014_6929.png
3. 학습이 완료되면 평가 링크를 선택하여 다음 단계로 이동합니다.



모델평가

학습 단계의 결과는 최상의 성능을 가진 하나의 모델이 됩니다. 모델 작성기 도구의 평가 단계에서 출력 섹션에는 최상의 모델 항목의 가장 성능이 좋은 모델에서 사용되는 알고리즘과 더불어 최상의 모델 정확도의 메트릭이 포함됩니다.

f0256aca127990063822c8d143486d02_1590204933_9162.png
5. 코드 생성 : 해당 알고리즘이 적용된 코드가 자동으로 프로젝트가 생성 됩니다.

f0256aca127990063822c8d143486d02_1590205007_4971.png
f0256aca127990063822c8d143486d02_1590205056_6278.png

Tag
MLNET, 머신러닝, 감정분석, 이진분류, binaryclassification, 이진분류예제, 씨샵머신러닝, CsharpML, SentimentRazor

첨부파일

© Chaoreumsoft Corp. All rights reserved.