joelnazarene

last

Apr 24th, 2019
73
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 12.70 KB | None | 0 0
  1. import requests
  2. import time
  3. import bs4
  4. import re
  5. import sys
  6. from selenium import webdriver
  7. from bs4 import BeautifulSoup as soup
  8. b1=sys.argv[1]
  9. y=sys.argv[2]
  10. r=sys.argv[3]
  11. if(y != '8'):
  12.     print('<html> <head><link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css"> </head><body ><br><div class="container"><button class="btn btn-info"><a style="color:white" href="gui.html">< Back</a></button><div class="jumbotron"><h1>RESULTS FOR    '+b1+'</h1><h2>ABSTRACTS</h2><p> </p></div>')
  13. if(y=='1' or y=='7'):
  14.  
  15.  
  16.         driver = webdriver.Firefox()
  17.         url="https://ieeexplore.ieee.org/search/searchresult.jsp?newsearch=true&queryText="
  18.         b2=b1.replace(" ","%20")
  19.         url=url+b2
  20.         driver.get(url)
  21.         time.sleep(5)
  22.         refs=driver.page_source
  23.         pagesoup=soup(refs,"html.parser")
  24.        
  25.         containers=pagesoup.findAll("a",{"href":re.compile('/document/.*')})
  26.  
  27.  
  28.         i=0
  29.         urlist=[]
  30.         u="https://ieeexplore.ieee.org"
  31.         for container in containers :
  32.             try:
  33.                 if(len(container.text)>20):
  34.                     i=i+1
  35.                     if(i%2 != 0 and i/2 < int(r)):
  36.                         print("<br>=====================================================IEEERESULTS================================================================================================<br>")
  37.                        
  38.                        
  39.                         print(container.text)
  40.                      
  41.                         driver.get(u+ container['href'])
  42.                         time.sleep(2)
  43.                         refs=driver.page_source
  44.                         urlist.append(u+ container['href'])
  45.                         s=soup(refs,"html.parser")
  46.                         c=s.find("div",{"class":"abstract-text row"})
  47.                         print(c.div.div.text)
  48.                         print("<a href='"+u+container['href']+"'>(ctrl +)click here </a>")
  49.                         print("\n")
  50.                         print("<br>===================================================================================================================================================<br>")
  51.             except(TypeError,AttributeError):
  52.                           print("ABSTRACT IS NOT AVAILABLE FOR THIS ARTICLE")
  53.         #print(urlist)
  54.        # x=input("enter number \n")
  55.         #b=int(x)-1
  56.         #print(urlist[b])
  57.         driver.close()
  58. if(y=='2' or y=='7'):
  59.         driver = webdriver.Firefox()
  60.         url="https://www.scienceopen.com/search#('v'~3_'id'~''_'isExactMatch'~true_'context'~null_'kind'~77_'order'~0_'orderLowestFirst'~false_'query'~'"
  61.         b2=b1.replace(" ","%20")
  62.         b3="'_'filters'~!*)"
  63.  
  64.         print("\n\n")
  65.         url=url+b2+b3
  66.         driver.get(url)
  67.         time.sleep(2)
  68.         refs=driver.page_source
  69.         pagesoup=soup(refs,"html.parser")
  70.     #containers=pagesoup.findAll("div",{"class":'main-section'})
  71.        
  72.         containers=pagesoup.findAll("a",{"href":re.compile('/document.*')})
  73.     #print(containers[0].a['href'])
  74.    
  75.         i=0
  76.         u="https://www.scienceopen.com"
  77.         urlist=[]
  78.         for container in containers :
  79.             try :
  80.                 if(len(container.text)>20 and i < int(r)):
  81.                     i=i+1
  82.                     driver.get(u + container['href'])
  83.                     urlist.append(u+ container['href'])
  84.                     print("<a href='"+u+container['href']+"'>(ctrl +)click here </a>")
  85.                     refs=driver.page_source
  86.                     s=soup(refs,"html.parser")
  87.                     t=s.find("title")
  88.                     print(container)
  89.                     c=s.find("div",{"itemprop":"description"})
  90.                     print("<br>=======================================================================================================================================================================================\n"+t.text + "\n========================================================SCIENCEOPEN======================================================================================<br>")
  91.                     print(c.text + "\n=========================================================SCIENCEOPEN==========================================================================================<br>")
  92.                            
  93.             except :
  94.                 continue
  95.         #x=input("enter number \n")
  96.         #b=int(x)-1
  97.         #print(urlist[b])
  98.         driver.close()
  99. if(y=='3'or y=='7'):
  100.             driver = webdriver.Firefox()
  101.             url="https://www.sciencedirect.com/search?qs="
  102.             b3="&show=25&sortBy=relevance"
  103.    
  104.            
  105.             b2=b1.replace(" ","%20")
  106.            
  107.             print("\n\n")
  108.             url=url+b2+b3
  109.             driver.get(url)
  110.             time.sleep(2)
  111.             refs=driver.page_source
  112.             pagesoup=soup(refs,"html.parser")
  113.             urlist=[]
  114.             containers=pagesoup.findAll("a",{"href":re.compile('/pii/.*')})
  115.            
  116.  
  117.        
  118.             u="https://www.sciencedirect.com"
  119.             i=0
  120.             for container in containers :
  121.                 i=i+1
  122.                 if(len(container.text)>20 and i <= int(r)):
  123.                
  124.        
  125.        
  126.        
  127.                        print("<br>======================================================================================================================================================================\n"+container.text+"<br>")
  128.                        driver.get(u + container['href'])
  129.                        refs=driver.page_source
  130.                        urlist.append(u+ container['href'])
  131.                        s=soup(refs,"html.parser")
  132.                        c=s.find("div",{"id":"abstracts"})
  133.                        print("<a href='"+u+container['href']+"'>(ctrl +)click here </a>")
  134.                        print(c.text)
  135.                        print("\n<br>==================================================SCIENCEDIRECT======================================================================================<br>")
  136.            # x=input("enter number \n")
  137.             #b=int(x)-1
  138.            # print(urlist[b])
  139.             driver.close()
  140. if(y=='4' or y=='7'):
  141.         driver = webdriver.Firefox()
  142.         url='https://arxiv.org/search/?query='
  143.    
  144.    
  145.         b2=b1.replace(" ","+")
  146.         b3='&searchtype=all&source=header'
  147.         print("\n\n")
  148.         url=url+b2+b3
  149.         driver.get(url)
  150.         time.sleep(2)
  151.         refs=driver.page_source
  152.         pagesoup=soup(refs,"html.parser")
  153.        
  154.        
  155.  
  156.         containers=pagesoup.findAll("span",{"class":"abstract-full has-text-grey-dark mathjax"})
  157.         urlist=[]
  158.         i=0
  159.         u="https://arxiv.org/abs/"
  160.         for container in containers :
  161.          d=container.parent.parent.contents[3].text
  162.          e=container.parent.parent.a.text
  163.          try :
  164.              if(len(container.text)>200 and i <= int(r)):  
  165.                 print(d+"\n<br>====================================================================================================================================================================================================\n")
  166.                 g=e[6:]
  167.                 urlist.append(u+g)
  168.                 print("<a href='"+u+g+"'>(ctrl+)click here </a>")
  169.                 print(container.text +"\n====================================================ARXIV=================================================================================================================<br>")
  170.                 print("\n")
  171.                 i=i+1
  172.          except :
  173.             continue
  174.         #print(urlist)
  175.         #x=input("enter number \n")
  176.         #b=int(x)-1
  177.         #print(urlist[b])
  178.         driver.close()
  179. if(y=='5' or y=='7'):
  180.         driver = webdriver.Firefox()
  181.         url="https://paperity.org/search/?q="
  182.    
  183.        
  184.         b2=b1.replace(" ","+")
  185.    
  186.         print("\n\n")
  187.         url=url+b2
  188.         driver.get(url)
  189.    
  190.         time.sleep(2)
  191.  
  192.         refs=driver.page_source
  193.    
  194.         pagesoup=soup(refs,"html.parser")
  195.         #containers=pagesoup.findAll("div",{"class":'result-item-content'})
  196.         containers=pagesoup.findAll("a",{"href":re.compile('/p/.*')})
  197.         #print(containers)
  198.        
  199.         urlist=[]
  200.         i=0
  201.         u="https://paperity.org"
  202.         for container in containers :
  203.          try :
  204.             if(len(container.text)>20):
  205.                 i=i+1
  206.        
  207.            # print(i)
  208.                 if(i%2!=0 and i <= int(r)):
  209.                    print("<br>========================================================================================================================================================================="+container.text)
  210.                    driver.get(u + container['href'])
  211.                    refs=driver.page_source
  212.                    s=soup(refs,"html.parser")
  213.                    c=s.find("blockquote")
  214.                    urlist.append(u+ container['href'])
  215.                    print("<a href='"+u+ container['href']+"'>(ctrl+)click here </a>")
  216.                    print(c.text +"\n<br>================================================PAPERITY================================================================================================================<br>")
  217.                
  218.          except :
  219.                 continue
  220.         #print(urlist)
  221.         #x=input("enter number \n")
  222.         #b=int(x)-1
  223.         #print(urlist[b])
  224.         driver.close()
  225. if(y=='6' or y=='7'):
  226.         driver = webdriver.Firefox()
  227.         url='https://doaj.org/search?source={"query"%3A{"query_string"%3A{"query"%3A"'
  228.         b2=b1.replace(" ","%20")
  229.         b3='"%2C"default_operator"%3A"AND"}}%2C"from"%3A0%2C"size"%3A10}'
  230.        
  231.         print("\n\n")
  232.         url=url+b2+b3
  233.         driver.get(url)
  234.         time.sleep(2)
  235.         refs=driver.page_source
  236.         pagesoup=soup(refs,"html.parser")
  237.         #containers=pagesoup.findAll("div",{"class":'main-section'})
  238.         containers=pagesoup.findAll("div",{"class":"abstract_text"})
  239.    
  240.        
  241.         #print(containers[0].a['href'])
  242.         #print("reached contA")
  243.         c2=pagesoup.findAll("a",{"href":re.compile('/article.*')})
  244.         i=0
  245.         urlist=[]
  246.         u="https://doaj.org"
  247.         for container in containers :
  248.          # print("for loop")
  249.          try :
  250.             if(len(container.text)>20 and i <= int(r)):
  251.              
  252.                
  253.                # print(i)
  254.                 #if(i%2!=0):
  255.                
  256.                 #   driver.get(u + container['href'])
  257.                  #  refs=driver.page_source
  258.                 #   s=soup(refs,"html.parser")
  259.                   # c=s.find("div",{"itemprop":"description"})
  260.              if("Full Text" in c2[i].text):
  261.                 i=i+1
  262.              print("<br>=================================================================================================================================================<BR>"+c2[i].text+"\n=====================================================DOAJ==========================================================================================<BR>"+container.text+"\n==============================================================================================================================================================================<br>")
  263.              i=i+1
  264.              urlist.append(u+ c2[i]['href'])
  265.              #print(c2[i].text+"\n")
  266.              print("<a href='"+u+ c2[i]['href']+"'>(ctrl+)click here </a>")
  267.          except :
  268.             continue
  269.         driver.close()
  270.         #print(urlist)
  271.         #x=input("enter number \n")
  272.        # b=int(x)-1
  273.         #print(urlist[b])
  274.  
  275.  
  276. if(y == '8'):
  277.         k="https://www.wolframalpha.com/input/?i="
  278.         b2=b1.replace(" ","+")
  279.         url=k+b2
  280.         driver = webdriver.Firefox()
  281.         driver.get(url)
  282. if(y == '9'):  
  283.  
  284.  myurl="https://search.yahoo.com/yhs/search?hspart=ddc&hsimp=yhs-linuxmint&type=__alt__ddc_linuxmint_com&p="
  285.  a="jesus"
  286.  b=sys.argv[1]
  287.  myurl=myurl+b
  288.  pagehtml = requests.get(myurl)
  289.  pagesoup=soup(pagehtml.content,"html.parser")
  290.  containers=pagesoup.findAll("h3",{"class":"title"})
  291.  
  292.  
  293.  for container in containers :
  294.   try:
  295.    if len(container.a['href']) < 80  :
  296.          
  297.            print(container.a['href'])
  298.            pagehtml = requests.get(container.a['href'])
  299.            pagesoup=soup(pagehtml.content,"html.parser")
  300.            containers=pagesoup.find_all('body')
  301.            c=containers[0]
  302.            i=0
  303.            for child in c.children:
  304.                 if(i < 6):    
  305.                  print(child)
  306.                 i=i+1
  307.                 if(i > 6):
  308.                     break
  309.            print('<br><br>')
  310.   except :
  311.    continue    
  312.  
  313. if(y != '8'):        
  314.  print("</BODY></html>")
Add Comment
Please, Sign In to add comment