Нейронные сети и машинное обучение

Регистрация
13.03.2017
Сообщения
4 651
Репутация
0
Баллы
0
Лайки
829
Пол
мужской
Вам может быть и да... Какзнаток, расскажите нам какую активакционную функцию лучше использовать для решения подобных задач?
Не стесняйтесь только!


Я стесняюсь спросить о гуру нейронных сетей и машинного обучения а причем здесь сортировка текста и каким макаром тут теги?
Если вы балбес в теме то проходите мимо! Ваше мнение не интересно!
Но у вас есть шанс ответить на два вопроса выше!
... Вах вах вах"!!! ... Какое вы нежное!. ... Я думаю, ... что вам СПАСИБУ КРУПНУЮ нужно говорить таким как я. ...
... Вы там каким хотите макаром можете решать прикладные пронблемы, ... это одно. ...
... Но называть сие действо ... НЕЙРОННЫМИ СЕТЯМИ, ... слишком самоуверенно. ...
... А не намекнёте мне дремучему, ... как работают РЕАЛЬНЫЕ нейронные сети ? ...
Как вы можете говорить о НЕЙРОННЫХ СЕТЯХ, ... когда вы представления не имеете ... на каких принципах они на самом деле работают. ...
... Нейронные грите ???? .... :12::83::02:
 

pietarilaine

Команда форума
Регистрация
03.05.2019
Сообщения
2 682
Репутация
73
Баллы
7
Лайки
2150
Пол
мужской
Просто что то мне подсказывает что такой индекс по содержанию, может превысить размер самого хранилища.

И самое главное, как можно обратится к этому индексу? Это просто файл где есть сопоставления слова и файла где оно встречается?
Во внутреннюю структуру не вникал, но baloosearch вполне там что угодно ищет.
А до него можно достучаться хоть из bash, хоть с через python, хоть прямо из файлового менеджера.
 
  • Лайки
Реакции: Dev

Dev

Форум
Регистрация
09.02.2017
Сообщения
6 199
Репутация
58
Баллы
0
Лайки
4720
Пол
мужской

Dev

Форум
Регистрация
09.02.2017
Сообщения
6 199
Репутация
58
Баллы
0
Лайки
4720
Пол
мужской
... Вах вах вах"!!! ... Какое вы нежное!. ... Я думаю, ... что вам СПАСИБУ КРУПНУЮ нужно говорить таким как я. ...
... Вы там каким хотите макаром можете решать прикладные пронблемы, ... это одно. ...
... Но называть сие действо ... НЕЙРОННЫМИ СЕТЯМИ, ... слишком самоуверенно. ...
... А не намекнёте мне дремучему, ... как работают РЕАЛЬНЫЕ нейронные сети ? ...
Как вы можете говорить о НЕЙРОННЫХ СЕТЯХ, ... когда вы представления не имеете ... на каких принципах они на самом деле работают. ...
... Нейронные грите ???? .... :12::83::02:
Все понятно! Тест на бездарность вы прошли с лихвой!
Проходите мимо этой темы... :02:
 

pietarilaine

Команда форума
Регистрация
03.05.2019
Сообщения
2 682
Репутация
73
Баллы
7
Лайки
2150
Пол
мужской
А самих данных сколько?
Около 800 Гб. Но там же совершенно разные данные, не только документы. Много фотографий и видео.
Но структура обычная не бинарная?
Структура наподобие файлов баз данных. То есть не только текст.
Но дёрнуть оттуда все ключевые слова можно.
 

Dev

Форум
Регистрация
09.02.2017
Сообщения
6 199
Репутация
58
Баллы
0
Лайки
4720
Пол
мужской
Около 800 Гб. Но там же совершенно разные данные, не только документы. Много фотографий и видео.
ну да многовато...
В принципе, можно, перед ложением в базу. парсить данные файла на слова и класть в теги... Примерно также работает и ваша балу, тоже и привет75 предлагал.
Но у меня помойка в тегах будет... пипец...
Вот есть у меня "война и мир", словарь там думаю будет пипец... За 1 000 слов думаю уйдем, а мне все го лишь надо штук 5 для описания данной книги...
 
Регистрация
24.05.2019
Сообщения
111
Репутация
33
Баллы
0
Лайки
45
Пол
мужской
В том числе и по содержимому.
А дальше по ключевым словам выдаст все файлы, где они встречаются. При этом может исключить файлы, где встречаются другие ключевые слова.
Хорошая весчь!
Касательно задачи Dev-а. Типичный акт:
https://assistentus.ru/wp-content/uploads/2018/02/akt-vipolnennih-rabot-po-gruzoperevozkam-800-1.jpg

Тут слово Акт встречается 2 раза, договор в разных падежах - три, счет - 1 раз, заявка -1 раз, устав - 2 раза. По всем этим словам могут быть соответствующие документы.
Настроить фреймворк как-то можно? На заголовки, падежи или еще как-то?

Ну и по корректным тэгам после парсинга работать будет конечно быстрее, чем по здоровому индексу.

Вот есть у меня "война и мир", словарь там думаю будет пипец... За 1 000 слов думаю уйдем, а мне все го лишь надо штук 5 для описания данной книги...
Что-то ты чересчур обобщаешь и усложняешь задачу. Книги по тексту очень сложно сортировать, зато по названию и автору - запросто. Или все-таки тебе хочется бинарники попробовать парсить?

Документы проще всего по заголовку и названию систематизировать. Может главное определять, где заголовок? Вес ключевых слов в нужном падеже в заголовке будет намного выше.
Даже "баба Маша" не должна писать одновременно в заголовке "Акт по договор №1 заявка №2"
 

pietarilaine

Команда форума
Регистрация
03.05.2019
Сообщения
2 682
Репутация
73
Баллы
7
Лайки
2150
Пол
мужской
Настроить фреймворк как-то можно? На заголовки, падежи или еще как-то?
Падежи он не различает, встретится одно слово в разных падежах — оба попадут в ключевые. Но по части слова искать будет.
По поводу заголовка. Ну если в метаданных документа он предусмотрен и соответствующим образом заполнен, то найдёт. Типа baloosearch://?query=title: "Рога и копыта". А так чтобы в теле документа заголовок ухватить это не.
 

Dev

Форум
Регистрация
09.02.2017
Сообщения
6 199
Репутация
58
Баллы
0
Лайки
4720
Пол
мужской
Так, что накодил...
На производительность пока и оптимизацию пока забил!

Сделал объектную модель на С#. Если кому надо дам исходники с описанием. Используйте API простой!
Проводить эксперименты на реальных данных не стал, выбрал задачу попроще... Вся проблема в работе с нейронными сетями - это обучение, а именно подготовка данных для обучения. На Kaggle есть челендж по определению на фотках котов и собак. Так же после регистрации можно скачать архив с 24 000 фоток животных для обучения НС.
Dogs vs. Cats | Kaggle

Выбрал только маленькие фотки размером в 5 Кб, но это JPG, при разжатии BitMap, они в приблизительно от 50 до 100 Кб.
У меня таких картинок полилось 1052. 594-котиков и 458-собак. Вот на этом сете и будем тренировать нашу НС.
НС имеет 4 слоя.
IN - 102400 нейрона
1-hiden - 64 нейрона
2-hiden - 32 нейрона
Out - 2 нейрона
Активационная функция Сигмойд. (0-1)
Условие:
1-out > 0.5
2-out <= 0.5
Собака. Кот - соответственно наоборот.
Время распознавания одной картинки ~600 милисекунды
Обучение одной картинкой ~2 секунды
Одна эпоха обучения около 35 минут!
Процессор грузит где то на 17-20%, Оперативки жрет при обучении около 1,2 Гб.
После первой эпохи обучения результат не утешительный, всего 23% предсказаний! Но для одной эпохи - это хорошо!
Приемлемый уровень - это 65-70%
Вообще порогом НС считается 85%. Это средний уровень ошибок человека. Так что если НС предсказывает 85% - то это равноценно человеку.
Прогнать бы Эпох 30, но это 17,5 часов обучения!
 
Регистрация
24.05.2019
Сообщения
111
Репутация
33
Баллы
0
Лайки
45
Пол
мужской
Сделал объектную модель на С#. Если кому надо дам исходники с описанием.
Если не жалко - давай!
Прогнать бы Эпох 30, но это 17,5 часов обучения!
Долго... Но и нейронов в первом слое конечно много.
В Матлабе по функции уменьшения ошибок можно было оценить качество сети, верность выбранного метода и т.д.
По идее тебе тоже хорошо бы как-то оценивать количество необходимых эпох. В простых примерах получалось, что если все подобрано верно, то заданная ошибка достигается за 15-30 эпох и дальнейшее обучение уже бессмысленно. А если сеть или алгоритм не корректный, то ошибка просто перестает уменьшаться и дальнейшее обучение тоже ни к чему.
Но даже если на примерах обучения всё ОК - это не гарантия того, что на тестовых примерах все будет хорошо.

Какой алгоритм обучения выбрал? Их же там воз и маленькая тележка. Использовал готовый код?
Насколько я помню, это самая сложная часть. Я уже забыл названия, Левенберга-Марквардта кажись юзал. Можно исходники поискать...
 

Dev

Форум
Регистрация
09.02.2017
Сообщения
6 199
Репутация
58
Баллы
0
Лайки
4720
Пол
мужской
Долго... Но и нейронов в первом слое конечно много.
В Матлабе по функции уменьшения ошибок можно было оценить качество сети, верность выбранного метода и т.д.
По идее тебе тоже хорошо бы как-то оценивать количество необходимых эпох. В простых примерах получалось, что если все подобрано верно, то заданная ошибка достигается за 15-30 эпох и дальнейшее обучение уже бессмысленно. А если сеть или алгоритм не корректный, то ошибка просто перестает уменьшаться и дальнейшее обучение тоже ни к чему.
Но даже если на примерах обучения всё ОК - это не гарантия того, что на тестовых примерах все будет хорошо.
Проблема в другом. Анализ идет именно бинарный. Логики нет. Я понимаю что битмап это тоже пиксили... Но для распознавания картинок все же надо другие методы юзать, через ядро свёртки итд... Следовательно и входной пул эпохи должен быть огромным. Для светрочной НС обучающий пул 24 000 картинок. А у меня всего 1 000.
Плюс логическая свертка у меня сильно большая. с 102400 я скатываюсь на хайден уровень где всего 64 нейрона. то есть потери огромны.
Исходя из всего выше перечисленного распознование картинок - это не совсем то на чем можно тестить.
Вся проблема найти пул обучающих данных. Попробую еще решить задачу анализа постов, не помню как она называется. То есть определить пост имеет положительную или негативную окраску.
Пул тестовых данных нашел. Но на английском. попробую заюзать на днях!

Какой алгоритм обучения выбрал? Их же там воз и маленькая тележка. Использовал готовый код?
Обратное распространение ошибки! Код только свой. Сейчас копаю ML.net. Но у меня для его использования старая VS. Надо минимум VS 2017.
Обновлю, попробую покрутить этого зверя от MS.
 

pietarilaine

Команда форума
Регистрация
03.05.2019
Сообщения
2 682
Репутация
73
Баллы
7
Лайки
2150
Пол
мужской
Исходя из всего выше перечисленного распознование картинок - это не совсем то на чем можно тестить.
А если потестить стили и форматирование? Я надеюсь ваши Клавы Мышкины не пробелами текст выравнивают?
Если в начале документа идёт выравнивание по правой стороне — наверняка это какое заявление.
Посмотреть есть ли в документе таблицы и встроенные изображения. Везде ли один стиль шрифта используется или есть жирный.
Какой шаблон при создании использовался. Сколько времени документ редактировался, если документ достаточно большой, а время редактирования мало, то наверняка это было copy-paste.
 
  • Лайки
Реакции: Dev

Dev

Форум
Регистрация
09.02.2017
Сообщения
6 199
Репутация
58
Баллы
0
Лайки
4720
Пол
мужской
@privet75,
Что за конструкция в С#... особенно то что в угловых скобках? Ну вызываем метод который некий объект возвращает.... А в <> это что?
var predictionEngine = ctx.Model.CreatePredictionEngine<MyInput, MyOutput>(trainedModel);
Я просто завис где то на C# 4.0. такой конструкции вообще не помню!
 
Регистрация
13.03.2017
Сообщения
4 651
Репутация
0
Баллы
0
Лайки
829
Пол
мужской
:10::12::02::49: ... До сих пор с текстами не разберётесь??? ... Я вам не завидую! ... У меня тоже работа была нематериальная. ... Долбёшься, .. ломаешь репу, ... а материального воплощения не видно. ... Пощупать нечего. ... Даже обидно как-то. ...
... Мама дорогая!!! ... И это просто сортировка текстов! ... А если задачку посерьёзней поставить? ... :12::10::58::02::49:
 
Регистрация
13.03.2017
Сообщения
4 651
Репутация
0
Баллы
0
Лайки
829
Пол
мужской
Это не просто сортировка текста, а определение "жанра", в каком текст написан.
... Как я понял, ... исходная цель была ... рассортировать 2000 документов, ... которые не были оцифрованы грамотно. ... Ну и создать платформу для будущих ... такого рода сортировок. ... Меня не было неделю, ... а вы всё мусолите одно и то же! ...
... Чётам говорите? ... киберинтеллект ? ... А вы вообще в курсе что это такое ?


... Самая смешная тема на форуме!!! ... :10::12::02::49::83:
 

pietarilaine

Команда форума
Регистрация
03.05.2019
Сообщения
2 682
Репутация
73
Баллы
7
Лайки
2150
Пол
мужской
которые не были оцифрованы грамотно.
Они изначально создавались в цифровой форме, только без надлежащих пометок.
рассортировать 2000 документов
10000÷15000. И рассортировать не по алфавиту, а по жанру, который вначале надо определить.
 
Регистрация
13.03.2017
Сообщения
4 651
Репутация
0
Баллы
0
Лайки
829
Пол
мужской
Они изначально создавались в цифровой форме, только без надлежащих пометок.

10000÷15000. И рассортировать не по алфавиту, а по жанру, который вначале надо определить.
... Да я понял. ... Я смеюсь над другим. ... Тут кое кто, ... раскинув пальца веером, ... как невгибенный спец по НЕЙРОННЫМ СЕТЯМ, ... вещал, ... шта дескть ... простым смертным до них не дотянуться разумом. ...
... Дык вот, ... чёта не видно ни грамма "божественности". ... ЗАДАЧУ РЕШИТЬ МОЗГОВ-ТО НЕ ХВАТАЕТ!!! .... Какой тут ещё киберинтеллект к хренам собачьим! ... Один хохот над БОГАМИ остаётся! ...
... Я вот не могу сформулировать ... что такое цифровой интеллект. ... Так самое смешное в этой истории то, .... ЧТО ВЫ ТОЖЕ НИХРЕНА НЕ ПОНИМАЕТЕ ЧТО ЭТО ТАКОЕ!!! ... только не хотите в этом признаться. ...
... Хучь бы на людях не позорились! ... :12::10::58::02::49::83:
 
Последнее редактирование:

Dev

Форум
Регистрация
09.02.2017
Сообщения
6 199
Репутация
58
Баллы
0
Лайки
4720
Пол
мужской
... Да я понял. ... Я смеюсь над другим. ... Тут кое кто, ... раскинув пальца веером, ... как невгибенный спец по НЕЙРОННЫМ СЕТЯМ, ... вещал, ... шта дескть ... простым смертным до них не дотянуться разумом. ...
... Дык вот, ... чёта не видно ни грамма "божественности". ... ЗАДАЧУ РЕШИТЬ МОЗГОВ-ТО НЕ ХВАТАЕТ!!! .... Какой тут ещё киберинтеллект к хренам собачьим! ... Один хохот над БОГАМИ остаётся! ...
... Я вот не могу сформулировать ... что такое цифровой интеллект. ... Так самое смешное в этой истории то, .... ЧТО ВЫ ТОЖЕ НИХРЕНА НЕ ПОНИМАЕТЕ ЧТО ЭТО ТАКОЕ!!! ... только не хотите в этом признаться. ...
... Хучь бы на людях не позорились! ... :12::10::58::02::49::83:
Хорошо уважаемый...
Я предлагаю вам пари. Используя любой язык мы с вами решим одну задачу с использованием нейронных сетей.
Нейроны программируем вручную, готовые сборки не юзаем.
Задача стандартная называется "Окраска высказывания". Данная задача максимально подходит под задачу описанную выше!
Learning Data, возьмем одинаковые, они у меня есть и я их с радостью предоставлю!
Чтоб не было подлога, попросим юзеров написать пару постов. на этом форуме!
А далее сравним результаты...
Со своей стороны. предоставлю все сырцы и отвечу на любой вопрос по построению и обучению своей нейронной сети для решения этой задачи!
Готовы решить такую простую задачу?
И вот только после этого, мы посмотрим у кого остался хохот, причем тут бог, и у кого хватает мозгов!
Если отказываетесь, то официально приносите извинения и покидаете эту тему!
Сделаете лучше чем я, официально извинюсь я перед вами!
 
Регистрация
13.03.2017
Сообщения
4 651
Репутация
0
Баллы
0
Лайки
829
Пол
мужской
Хорошо уважаемый...
Я предлагаю вам пари. Используя любой язык мы с вами решим одну задачу с использованием нейронных сетей.
Нейроны программируем вручную, готовые сборки не юзаем.
Задача стандартная называется "Окраска высказывания". Данная задача максимально подходит под задачу описанную выше!
Learning Data, возьмем одинаковые, они у меня есть и я их с радостью предоставлю!
Чтоб не было подлога, попросим юзеров написать пару постов. на этом форуме!
А далее сравним результаты...
Со своей стороны. предоставлю все сырцы и отвечу на любой вопрос по построению и обучению своей нейронной сети для решения этой задачи!
Готовы решить такую простую задачу?
И вот только после этого, мы посмотрим у кого остался хохот, причем тут бог, и у кого хватает мозгов!
Если отказываетесь, то официально приносите извинения и покидаете эту тему!
Сделаете лучше чем я, официально извинюсь я перед вами!
... Ох сомневаюсь я ... что вааще сделаете. ... Ну раз НА ПУБЛИКУ ВЫТАЩИЛИ ПРОБЛЕМУ, .... то значит ТУПИК ВАС ПОСЕТИЛ!
... Отсюда вывод ... -- ждать то ... смысла нет! ... Знал бы и ... умел бы, ...тогда тут вааще не говорил бы об этом. ...
 
Сверху Снизу