Создание нейронной сети с нуля на Python: пошаговое руководство

Нейронные сети — это тип алгоритма искусственного интеллекта, который имитирует работу человеческого мозга. Они способны изучать закономерности и отношения в больших объемах данных, что делает их популярным выбором для таких задач, как распознавание изображений, обработка естественного языка и распознавание речи. В этой статье мы обсудим, как создать собственную нейронную сеть с нуля с помощью Python.

Расширение прав и возможностей стартапов и предпринимателей | InvestBegin.com | investbegin
'Формирование лидерского мышления: страсть. Исследовать. Создавать. Learn — это всеобъемлющее руководство для руководителей, стремящихся к развитию…www.investbegin.com»

Шаг 1: Понимание основ

Прежде чем погрузиться в код, важно иметь четкое представление об основных концепциях нейронных сетей. Нейронная сеть состоит из слоев взаимосвязанных узлов или нейронов. Каждый нейрон получает входные данные от нескольких других нейронов и производит выходные данные на основе своей функции активации. Связи между нейронами взвешиваются, что позволяет сети изучать закономерности и взаимосвязи во входных данных.

Процесс обучения нейронной сети включает в себя корректировку весов соединений, чтобы свести к минимуму ошибку между прогнозируемым выходом и фактическим выходом. Это делается с помощью алгоритма оптимизации, такого как градиентный спуск.

Шаг 2: Настройка среды

Чтобы построить нейронную сеть на Python, нам потребуется установить несколько пакетов. Наиболее важным из них является TensorFlow, популярная библиотека машинного обучения с открытым исходным кодом, разработанная Google. TensorFlow предоставляет множество инструментов для построения и обучения нейронных сетей, а также готовые модели для распространенных задач.

Чтобы установить TensorFlow, вы можете использовать менеджер пакетов Python pip:

pip install tensorflow

Вы также можете установить другие пакеты, такие как NumPy, Pandas и Matplotlib, которые обычно используются для обработки и визуализации данных.

Шаг 3: Создание нейронной сети

Теперь, когда мы настроили нашу среду, мы можем начать строить нашу нейронную сеть. В этом руководстве мы создадим простую нейронную сеть с одним скрытым слоем для классификации рукописных цифр из набора данных MNIST.

Сначала мы импортируем необходимые пакеты:

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

Далее мы определим архитектуру нашей нейронной сети. Мы будем использовать последовательную модель, которая позволяет добавлять слои по одному. Наша сеть будет иметь входной слой с 784 узлами (соответствует изображениям 28x28 пикселей в наборе данных MNIST), скрытый слой с 128 узлами и выходной слой с 10 узлами (соответствует 10 возможным цифрам).

model = keras.Sequential([
    layers.Dense(128, activation='relu', input_shape=(784,)),
    layers.Dense(10, activation='softmax')
])

В этом коде мы определяем входной слой с 784 узлами и функцией активации «relu», что означает выпрямленную линейную единицу. Эта функция возвращает входные данные, если они положительные, и 0, если отрицательные. Затем мы определяем скрытый слой со 128 узлами и той же функцией активации. Наконец, мы определяем выходной слой с 10 узлами и функцией активации softmax, которая преобразует выходные данные в распределение вероятностей по 10 возможным цифрам.

Шаг 4: Компиляция модели

После того, как мы определили архитектуру нашей нейронной сети, нам нужно скомпилировать модель, чтобы указать функцию потерь, алгоритм оптимизации и метрику оценки. В этом примере мы будем использовать категориальную функцию кроссэнтропийных потерь, алгоритм оптимизации Адама и показатель точности.

model.compile(
    loss='categorical_crossentropy',
    optimizer='adam',
    metrics=['accuracy']
)

Шаг 5: Обучение модели

Теперь, когда наша модель скомпилирована, мы можем обучить ее на наборе данных MNIST. Во-первых, нам нужно загрузить данные с помощью Keras API:

(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()

Затем нам нужно предварительно обработать данные, преобразовав входные изображения в плоский вектор и нормализовав значения пикселей в диапазоне от 0 до 1.

x_train = x_train.reshape((60000, 784))
x_train = x_train / 255.0

x_test = x_test.reshape((10000, 784))
x_test = x_test / 255.0

Далее мы будем обучать модель на обучающих данных, используя метод fit(). Мы будем использовать размер пакета 32 и тренироваться в течение 5 эпох (т. е. 5 проходов по обучающим данным).

model.fit(x_train, y_train, batch_size=32, epochs=5, validation_split=0.1)

Во время обучения модель будет корректировать веса связей между нейронами, чтобы свести к минимуму ошибку между прогнозируемым выходом и фактическим выходом. Аргумент validation_split указывает, что 10% обучающих данных должны использоваться для проверки во время обучения.

Шаг 6: Оценка модели

После обучения модели мы можем оценить ее производительность на тестовых данных с помощью метода evaluate(). Это даст нам точность модели на тестовых данных.

test_loss, test_acc = model.evaluate(x_test, y_test)
print('Test accuracy:', test_acc)

В нашем примере мы достигаем точности примерно 97%, что для простой нейронной сети вполне неплохо.

Шаг 7: Использование модели для прогнозирования

Наконец, мы можем использовать нашу обученную модель для прогнозирования новых данных. Мы можем использовать метод predict(), чтобы получить предсказанное распределение вероятностей по 10 возможным цифрам для данного входного изображения.

predictions = model.predict(x_test[:5])
print(predictions)

В нашем примере мы печатаем предсказанные распределения вероятностей для первых 5 тестовых изображений.

Заключение

В этой статье мы обсудили, как построить простую нейронную сеть с нуля на Python с использованием библиотеки TensorFlow. Мы рассмотрели основные концепции нейронных сетей, настройку среды, определение архитектуры нейронной сети, компиляцию модели, обучение модели, оценку модели и использование модели для прогнозирования. Хотя это всего лишь простой пример, он должен стать хорошей отправной точкой для изучения огромного мира нейронных сетей и глубокого обучения.

смотрите также:

Новые материалы

Очистить файлы Program .cache в Ubuntu 20.10

Очистите кеш за несколько простых шагов! GNU / Linux реализовал эффективное управление хранилищем для своих пользователей. Но заметили ли вы, что в вашей системе Linux заканчивается место,..

Использование Node.js для чтения действительно больших файлов (часть 1)

В этом сообщении в блоге есть интересный источник вдохновения. На прошлой неделе кто-то на одном из моих каналов в Slack опубликовал тестовое задание, которое он получил на должность..

Введение в градиентный спуск и обратное распространение

Введение в градиентный спуск и обратное распространение Как машинное обучение? Машинное обучение ( ML ) - это исследование компьютерных алгоритмов, которые автоматически улучшаются по..

Шаблон CQRS — C#

Этот архитектурный шаблон в основном говорит о том, что мы можем использовать одну модель для операций чтения, а другую — для операций записи. Звучит хорошо, но реализовать его может быть..

Освоение функций потерь в машинном обучении для регрессии: полное руководство по оптимизации…

Введение: Функция потерь является важным компонентом алгоритмов машинного обучения и статистических моделей. Его роль заключается в измерении несоответствия между прогнозируемым выходом модели и..

10 языков программирования, которые изменят мир в 2023 году

Мир программирования постоянно развивается, и востребованные языки постоянно меняются. Однако есть несколько языков, которые выдержали испытание временем и по-прежнему очень ценны для изучения в..

Чем заняться в наших библиотеках (апрель 2023 г.)

В апреле этого года мы празднуем обучение по-разному — от принятия позитивного и устойчивого мышления до понимания и сохранения местных популяций пчел, а также изучения новейших и новейших..

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Coding Web Development Deep Learning AI React Software Engineering Nodejs Typescript Java Front End Development Development Data CSS NLP Algorithms Productivity Computer Science ChatGPT Tech HTML Tutorial Neural Networks API Reactjs Javascript Tips Programming Languages Mathematics Angular AWS Javascript Development Startup Python Programming