L’analyse des sentiments est une technique de traitement du langage naturel (NLP) qui permet d’identifier l’attitude qui se cache derrière un texte. Elle est également connue sous le nom d’exploration d’opinion. L’objectif de l’analyse des sentiments est d’identifier si un texte donné a un sentiment positif, négatif ou neutre. Elle est largement utilisée par les entreprises pour classer automatiquement le sentiment dans les commentaires des clients. L’analyse d’un grand nombre d’avis permet d’obtenir des informations précieuses sur les préférences des clients.
Configuration de l’environnement
Vous devez connaître les bases de Python pour continuer. Naviguez vers Google Colab ou ouvrez Jupyter Notebook. Créez ensuite un nouveau notebook. Exécutez la commande suivante pour installer les bibliothèques nécessaires dans votre environnement.
Le code source complet de ce projet est disponible dans ce dépôt GitHub.
! pip install tensorflow scikit-learn pandas numpy pickle5
Vous utiliserez les bibliothèques NumPy et pandas pour manipuler le jeu de données. TensorFlow pour créer et entraîner le modèle d’apprentissage automatique. Scikit-learn pour diviser l’ensemble de données en ensembles de formation et de test. Enfin, vous utiliserez pickle5 pour sérialiser et sauvegarder l’objet tokenizer.
Importation des bibliothèques requises
Importez les bibliothèques nécessaires au prétraitement des données et à la création du modèle.
import numpy as np
import pandas as pd
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense, Dropout
import pickle5 as pickle
Vous utiliserez les classes importées des modules plus tard dans le code.
Chargement du jeu de données
Ici, vous utiliserez le jeu de données Trip Advisor Hotel Reviews de Kaggle pour construire le modèle d’analyse des sentiments.
df = pd.read_csv('/content/tripadvisor_hotel_reviews.csv')
print(df.head())
Chargez le jeu de données et imprimez ses cinq premières lignes. L’impression des cinq premières lignes vous aidera à vérifier les noms des colonnes de votre jeu de données. Cette vérification sera cruciale lors du prétraitement de l’ensemble de données.
Le jeu de données Trip Advisor Hotel Reviews comporte une colonne Index, une colonne Review et une colonne Rating.
Prétraitement des données
Sélectionner le Revue et Classement de l’ensemble de données. Créez une nouvelle colonne basée sur la colonne Classement et nommez-la sentiment. Si la note est supérieure à 3, qualifiez le sentiment de positif. Si la note est inférieure à 3, indiquez qu’il s’agit de négatif. Si la note est exactement 3,…
Lire la suite de l’article sur encause.fr






